Das Design eines Voice User Interface – Alles andere als einfach

Voice User Interface Design UX

Es gibt zahlreiche, verlockende Möglichkeiten, um anhand eines Baukastensystems ein Voice User Interface zu bauen und gleich umzusetzen. Um schnell und unkompliziert einen Prototyp zu erstellen, sind solche Lösungen super. Um ein Proof of Concept zu kreieren auch. Sie mögen gar für ganz simple Anwendungen geeignet sein. Aber um ein marktreifes Produkt zu erstellen, reichen diese rudimentären Systeme leider nicht aus. Oft werden auch existente Chatbots einfach in eine Sprachversion umgewandelt, jedoch funktioniert das ebenfalls nicht wirklich gut.

Hinter dem Design eines Voice User Interfaces (VUI) steckt sehr viel Know-how und eine Geschichte von über 30 Jahren. Erste Nachweise gehen sogar bis 1939 zurück, die letzten 30 Jahre waren für die Weiterentwicklung über die Grundlagenforschung hinaus jedoch entscheidend und es wurde einiges erreicht. Dank der jüngsten Fortschritte in Künstlicher Intelligenz (KI) und der immer höheren Leistungsfähigkeit der Computer haben wir nun gewissermassen die zweite Ära des VUI erreicht.

Was macht das Design eines VUI so schwer?

Wir Menschen – Texter ganz besonders – sind sich gewohnt, für das Auge zu schreiben. Ein gesprochener Dialog basiert jedoch auf einem ganz anderen Muster bzw. Design. Ein Dialog kann in ganz viele verschiedene Richtungen verlaufen. Ein Text ist hingegen kontrolliert geführt und oft sehr logisch aufgebaut. Das heisst nicht, dass Dialoge nicht logisch verlaufen können, dennoch erscheinen sie auf eine ganz andere Art. Der entscheidende Unterschied lässt sich sehr gut anhand eines Vergleichs zum Chatbot-Modell aufzeigen: Beim Chatbot gibt es immer die Möglichkeit via Textausgabe mehrere Optionen für den weiteren Verlauf der Unterhaltung anzubieten. Das ist bei diesem Modell völlig logisch. Wenn ich jedoch ein Gespräch führe, ist es überhaupt nicht üblich, dem Gegenüber Optionen anzubieten, wie das Gespräch denn weiter verlaufen soll. So ist man nach jedem Satz immer wieder auf einer grünen Wiese. In Gesprächen können radikale Richtungsänderungen vorkommen. Man weiss nie genau, wie der Gesprächspartner reagieren wird. Dem muss ein Voice Bot versuchen, gerecht zu werden.

Die Deutsche Bahn hat beispielsweise 200 Eröffnungsszenarien durch intensives Testing vor dem Launch ihrer Voice Applikation angedacht. Nach ein paar Wochen in Betrieb waren es bereits 1000 Eröffnungsszenarien. Leider habe ich keine Onlinequelle, um dieses Beispiel zu belegen, ich habe es irgendwo an einem Vortrag aufgeschnappt. Es zeigt sehr gut auf, wo die Herausforderungen bei einem Voicebot sind. Diese ungewisse Komponente im Dialog ist eine grosse Herausforderung und zugleich das Salz in der Voice Suppe.

Es ist wichtig, dem Design des Dialog-Flows sehr viel Aufmerksamkeit zu schenken, wenn man mit einer neuen Technologie wie Voice User Interfaces arbeitet. Man kommt oft nicht darum herum, sich von aussen Erfahrung an Bord zu holen. Es ist auch unerlässlich Gespräche, welche man simulieren will, intensiv zu studieren. Will ich ein Verkaufsgespräch simulieren will, steht man am besten an eine Verkaufstheke und studiert den «Dialog-Flow» eines Verkaufsgespräches an der Theke. Gerade in unseren Breitengraden (damit meine ich die Schweiz) befindet sich die Disziplin Voice Userface Interface Design noch in den Kinderschuhen und wir alle müssen noch fleissig (dazu)lernen.

Letztlich dürfen wir nicht vergessen, dass für viele Menschen ein VUI – Voice User Interface noch etwas ganz Neues ist. Man hat noch kein Vertrauen in die Technologie – und dieses gilt es jetzt aufzubauen. Am besten beginnt man deswegen mit einfachen Dingen. Meist hat man mit neuen Technologien auch nur einen Anlauf, sowohl intern als auch extern. Die Geduld der potenziellen Nutzer gegenüber einer neuen Technologie ist begrenzt. Man versucht es. Ist die Erfahrung schlecht, lässt man das Ganze wieder für ein paar Monate links liegen. Intern warten die Technologie-Skeptiker bereits mit geschärften Messern darauf, dass ein Pilotversuch beweisen wird, dass es nicht funktioniert. Daher ist es wichtig, bei einem Voice User Interface von Beginn an alles richtig zu machen. Die Gefahr zu glauben «ach das kann nicht so schwer sein» und damit auf die Schnauze zu fallen, ist aber sehr gross. Die Koryphäen auf diesem Gebiet haben alle 20-30 Jahre Erfahrung im Bereich des Voice User Interface Design. Demut gegenüber dieser Disziplin ist also mehr als angebracht.

Wie kann ich die Stimme des Google Assistant ändern?

Google Pixel 4 mit aktiviertem Google assistant

Wenn Sie die Standardstimme des Google-Assistenten nicht mögen, werden Sie sich über folgenden Beitrag freuen: in nur wenigen Schritten können sie diese nämlich ändern. Auf Deutsch können Sie zwischen einer männlichen und weiblichen Stimme wählen. Auf Englisch stehen noch mehr Stimmen zur Auswahl, unter anderem jene von prominenten Persönlichkeiten wie John Legend oder Issa Rae . Die Anzahl der verfügbaren Google Assistant-Stimmen hängt also von Ihrer gewählten Sprache und Ihrem Standort ab.

Am einfachsten Ändern Sie die Stimme des Assistenten, indem Sie den Google Assistenten zunächst auf Ihrem Telefon starten und dann auf das Kompasssymbol in der rechten unteren Ecke tippen, das Sie zur Erkundungsseite führt. Tippen Sie dort auf Ihr Profilbild und wählen Sie „Einstellungen“.

Wechseln Sie anschliessend auf die Registerkarte „Assistent“ darunter auf die Option „Assistenz-Stimme“. Tippen Sie auf einen der farbigen Kreise, um eine „Vorschau“ einer Stimme zu hören, und schliessen Sie die Seite, wenn Sie sich für einen Assistenten entscheiden – Ihre Wahl wird automatisch gespeichert.

Schritt-für-Schritt-Anleitung zum Ändern der Stimme des Google-Assistenten:

  1. Starten Sie den Google-Assistenten.
  2. Tippen Sie auf das Kompasssymbol in der rechten unteren Ecke.
  3. Tippen Sie auf Ihr Profilbild oben.
  4. Wählen Sie die Option „Einstellungen“.
  5. Wechseln Sie zur Registerkarte „Assistent“.
  6. Wählen Sie die Option „Assistenzstimme“.
  7. Wählen Sie eine neue Google-Assistent-Stimme und schließen Sie die Seite.

Es ist nur eine Frage der Zeit, bis wir auch in der deutschen Sprache mehr als nur zwei Stimmen zur Auswahl haben werden. Der Google Assistant kann übrigens mehr als eine Sprache erkennen. So kann man in einer Haushaltung bis zu sechs verschiedene Stimmen hinterlegen und damit auch gleich Rechte verwalten.

Voice Assistant sind „All in“ am Superbowl!

Das Doppelpack Werbung und Superbowl ist ein grosses Ding! Jedes Jahr wird erwartet, wer und wie Werbung schalten wird. Die Werbespots sind oft sehr aufwändig produziert und man kann daraus sehr gute Schlüsse ziehen, wo die jeweiligen Firmen ihren Schwerpunkt setzen.

Die diesjährige Werbung von Google war die wohl auffälligste seit langem an einem Superbowl. Oft wird witzige und unterhaltende Werbung produziert. Google setzte in diesem Jahr voll auf ihren Voice Assistant und zeigte auf, dass dieser weit mehr kann als lediglich Licht und Musik ein-, ab- und umstellen. Google geht „Deep“ und zeigt auf, dass der Google Assistant nicht nur für das Steuern einfacher Dinge eingesetzt werden kann. Eine Studie in England hat bereits bestätigt, dass sich beispielsweise Voice Assistant im Einsatz bei älteren Leuten sehr gut bewähren.

Amazon schickte mit seinem Werbespot Ad Ellen DeGeneres ins Rennen. Hier werden eher einfache Anwendungen auf eine humorvolle Art entlang der Geschichte der Menschheit aufgezeigt. Hier die extended Version mit 30 Sekunden mehr.

… und auch Budweiser Kanada hat Voice Assistant in ihrem Superbowl Ad zum Thema gemacht. Gepaart mit ihrem alten „Waaaasuuuuuup“.

Man sieht, dass während der wichtigsten Prime-Time-Zeit Voice Assistant einerseits von den beiden Marktführern gepusht wurde und andererseits auch eine der grossen Marken das Thema aufgenommen hat. Bereits an der CES in Las Vegas war der Google Assistant das Top-Thema am Stand von Google. Einige Aussagen seitens Google lassen darauf schliessen, dass beim Unternehmen der Google Assistant auch im 2020 ein wichtiges Fokusthema sein wird.

Schweizerdeutsch und Sprach-Assistenten

Das ZDF Mittagsmagazin hat einen Beitrag über Sprach-Assistenten und Dialekte, insbesondere den Schweizer Dialekt gemacht. Zur Sprache kamen Reto Hofstetter von der UNI Luzern, er ist der Kopf hinter dem Voice First Barometer Schweiz, und David Imseng von re:capp. re:capp ist eine der Firmen welche sich zur Aufgabe gemacht hat Schweizerdeutsch mit ihrer Technologie zu verstehen.

KI fehlt (noch) der gesunde Menschenverstand, um die menschliche Sprache zu verstehen

Google Nest Mini

Die Verarbeitung natürlicher Sprache hat in letzter Zeit grosse Fortschritte gemacht – aber wie viel versteht eine Künstliche Intelligenz wirklich von dem, was sie liest? Weniger als wir dachten.

Bis vor kurzem waren Computer hoffnungslos dabei, Sätze zu produzieren, die tatsächlich Sinn machten. Aber das Gebiet der Natural Langugae Processing (NLP) hat grosse Fortschritte gemacht, und Maschinen können jetzt überzeugende Passagen auf Knopfdruck erzeugen.

Diese Fortschritte wurden durch Techniken des Deep Learnings vorangetrieben, die statistische Muster im Wortgebrauch und in der Argumentstruktur aus riesigen Textfunden herauslesen. Aber ein neues Papier des Allen-Instituts für künstliche Intelligenz macht auf etwas aufmerksam, das noch immer fehlt: Maschinen verstehen nicht wirklich, was sie schreiben (oder lesen).

Dies ist eine grundlegende Herausforderung im grossen Streben nach verallgemeinerbarer KI – aber über die akademische Welt hinaus ist es auch für Verbraucher relevant. Chatbots und Sprachassistenten, die auf modernsten natürlich-sprachlichen Modellen basieren, sind zum Beispiel zur Schnittstelle für viele Finanzinstitute, Gesundheitsdienstleister und Regierungsbehörden geworden. Ohne ein echtes Sprachverständnis sind diese Systeme anfälliger für Ausfälle und verlangsamen den Zugang zu wichtigen Dienstleistungen.

Die Forscher bauten auf der Arbeit der Winograd Schema Challenge auf, einem Test, der 2011 ins Leben gerufen wurde, um die vernünftige Argumentation von NLP-Systemen zu bewerten. Die Challenge verwendet einen Satz von 273 Fragen mit Satzpaaren, die bis auf ein Wort identisch sind. Dieses Wort, das als Auslöser bekannt ist, dreht die Bedeutung der Pronomen der einzelnen Sätze um, wie im folgenden Beispiel zu sehen ist:

Die Trophäe passt nicht in den braunen Koffer, weil sie zu gross ist.
Die Trophäe passt nicht in den braunen Koffer, weil sie zu klein ist.


Um erfolgreich zu sein, muss ein NLP-System herausfinden, auf welche von zwei Möglichkeiten sich das Pronomen bezieht. In diesem Fall müsste es für die erste „Trophäe“ und für die zweite „Koffer“ wählen, um das Problem korrekt zu lösen.

Der Test wurde ursprünglich mit der Idee entworfen, dass solche Probleme nicht ohne ein tieferes Verständnis der Semantik beantwortet werden können. Modernste Modelle für Deep Learning können jetzt eine Genauigkeit von etwa 90% erreichen, so dass es scheint, dass NLP seinem Ziel näher gekommen ist. Aber in ihrem Papier, das auf der AAAI-Konferenz im nächsten Monat mit dem Outstanding Paper Award ausgezeichnet wird, stellen die Forscher die Effektivität des Benchmarks und damit den Grad des Fortschritts, den das Feld tatsächlich erreicht hat, in Frage.

Sie schufen einen wesentlich grösseren Datensatz, den sie WinoGrande nannten, mit 44.000 der gleichen Arten von Problemen. Zu diesem Zweck entwarfen sie ein Crowdsourcing-Schema, um schnell neue Satzpaare zu erstellen und zu validieren. (Der Winograd-Datensatz ist unter anderem deshalb so klein, weil er von Experten von Hand erstellt wurde). Die Mitarbeiter von Amazon Mechanical Turk erstellten neue Sätze mit den erforderlichen Wörtern, die durch ein Randomisierungsverfahren ausgewählt wurden. Jedes Satzpaar wurde dann drei weiteren Arbeitern gegeben und nur dann behalten, wenn es drei Kriterien erfüllte: mindestens zwei Arbeiter wählten die richtigen Antworten aus, alle drei hielten die Optionen für eindeutig, und die Referenzen des Pronomens konnten nicht durch einfache Wortassoziationen abgeleitet werden.

Als letzten Schritt führten die Forscher den Datensatz auch durch einen Algorithmus, um so viele „Artefakte“ wie möglich zu entfernen – unbeabsichtigte Datenmuster oder Korrelationen, die einem Sprachmodell helfen könnten, aus den falschen Gründen die richtigen Antworten zu finden. Dadurch verringerte sich die Chance, dass ein Modell lernen könnte, mit dem Datensatz zu spielen.

Als sie modernste Modelle auf diese neuen Probleme hin testeten, fiel die Leistung auf 59,4 % bis 79,1 %. Im Gegensatz dazu erreichte der Mensch immer noch eine Genauigkeit von 94%. Dies bedeutet, dass ein hohes Ergebnis beim ursprünglichen Winograd-Test wahrscheinlich übertrieben ist. „Es handelt sich nur um eine datensatzspezifische Leistung, nicht um eine Leistung für eine allgemeine Aufgabe“, sagt Yejin Choi, ein ausserordentlicher Professor an der Universität von Washington und ein leitender Forschungsmanager bei AI2, der die Forschung leitete.

Choi hofft, dass der Datensatz als neuer Mssstab dienen wird. Aber sie hofft auch, dass er mehr Forscher dazu inspiriert, über das tiefe Lernen hinaus zu schauen. Die Ergebnisse betonten ihr, dass echte NLP-Systeme mit gesundem Menschenverstand andere Techniken, wie z.B. strukturierte Wissensmodelle, einbeziehen müssen. Ihre bisherige Arbeit hat sich in dieser Richtung als vielversprechend erwiesen. „Wir müssen irgendwie einen anderen Spielplan finden“, sagt sie.

Das Papier hat einige Kritik erhalten. Ernest Davis, einer der Forscher, die an der ursprünglichen Winograd-Herausforderung gearbeitet haben, sagt, dass viele der in dem Papier aufgeführten Beispielsatzpaare „ernsthafte Fehler“ mit verwirrender Grammatik aufweisen. „Sie entsprechen nicht der Art und Weise, in der Menschen, die Englisch sprechen, tatsächlich Pronomen verwenden“, schrieb er in einer E-Mail.

Aber Choi stellt fest, dass wirklich robuste Modelle keine perfekte Grammatik benötigen sollten, um einen Satz zu verstehen. Menschen, die Englisch als Zweitsprache sprechen, verwechseln manchmal ihre Grammatik, vermitteln aber dennoch ihre Bedeutung.

„Die Menschen können leicht verstehen, worum es bei unseren Fragen geht, und die richtige Antwort auswählen“, sagt sie und verweist auf die 94%ige Leistungsgenauigkeit. „Wenn Menschen dazu in der Lage sein sollten, dann sollten meiner Meinung nach auch Maschinen dazu in der Lage sein.

Nun hört Google auch in Schweizer Wohnzimmern mit – Blick

Google Nest Mini in vier Farben

Im Oktober hat Google endlich auch in der Schweiz ihre Smart Speaker gelauncht. Die beiden Modelle können online im Schweizer Google Store gekauft werden. Nach ein paar Monaten hat nun der Blick auch einen Beitrag zu den Smart Speakern von Google geschrieben. Lorenz keller vom Blick kommt zum Fazit, dass noch nicht alles durchdacht sei. Kann gut sein, dass dies die Erkenntnis ist eines Test bei dem man sich auf die einfachen Dinge aus dem Repertoire des Google Assistant fokussiert hat. Wenn man jedoch einmal über die hidden Features wie des Check-Ins bei der Lufthansa-Gruppe stolpert oder der Assistent einem pro-aktiv auf Fluplanänderung aufmerksam macht, kommt man nicht auf das gleiche Fazit.

Aber gerade in der Küche hat sich der Nest Hub bewährt. Rezepte lassen sich in grosser Schrift direkt auf dem Screen anzeigen. Hat man dreckige Finger, kann man per Sprachbefehl weiterblättern. Timer lassen sich ebenfalls mit ein paar Worten stellen, gleich mehrere aufs Mal. Und wer mal etwas umrechnen muss, auch das erledigt der Google Assistant.

Blick – Lorenz Keller

Im Test zeigt sich auch, wie gut der Google Assistant inzwischen ist. Er versteht auch auf Distanz Befehle klar – sogar wenn laut Musik läuft. Zudem kann er Personen unterscheiden. Er wird also dem Kind keine Kalendereinträge oder Mails der Eltern vorlesen.

Blick – Lorenz Keller

Amazonas‘ Plan, dass Alexa Ihr ganzes Leben managen soll

Alexa und Polaroid - Photo by Status Quack on Unsplash

Alexa wird heute überall vertrieben und kann mehr als 85.000 Smart Home-Produkte steuern, von Fernsehern über Türklingeln bis hin zu Ohrstöpseln. Sie kann über 100.000 „Fähigkeiten“ ausführen und es werden immer mehr. Es verarbeitet Milliarden von Interaktionen pro Woche und erzeugt dabei riesige Datenmengen über Ihren Zeitplan, Ihre Präferenzen und Ihren Aufenthaltsort.

MIT Technology Review – Karen Hao

In einem interessanten Beitrag auf MIT Technology Review wird Alexa tief in die Augen geschaut und aufgezeigt, was Amazon mit Alexa vor hat. Rohit Prasad, Alexa’s leitender Wissenschaftler, nun weitere Einzelheiten darüber enthüllt, wohin Alexa als nächstes gehen wird. Alexa soll allgegenwärtig in unserem Leben teilhaben. Mitdenken, proaktiv planen und einem die kleinen lästigen Dinge im Leben abnehmen.

Der Knackpunkt des Plans ist, dass der Sprachassistent von passiven zu proaktiven Interaktionen übergeht. Anstatt auf Anfragen zu warten und auf sie zu reagieren, wird Alexa vorwegnehmen, was der Benutzer vielleicht wünscht. Die Idee besteht darin, Alexa zu einer allgegenwärtigen Begleiterin zu machen, die Ihr Leben aktiv gestaltet und orchestriert. Dazu muss Alexa Sie besser als je zuvor kennen lernen.

MIT Technology Review – Karen Hao

Ob man das alles gut findet muss jeder selber entscheiden. In den Märkten wo Amzaon mit Prime präsent ist sieht man wie stark die Haushaltsdurchdringung von Smart Speakern in den Haushaltungen bereits ist. Die Tatsache, dass bei Amazon über 10’000 Leute rund um Alexa einen Job haben zeigt auf wichtig Alexa auf der Agenda von Amazon bereits ist!

Den ganzen Text findet ihr hier: MIT Technology Review – Inside Amazon’s plan for Alexa to run your entire life

Voice Barometer Schweiz 2018

Zum ersten Mal wurde von der UNI Luzern & Farner Consulting der Voice Barometer 2018 erhoben. Diese Studie zeigt auf wie weit in der Schweiz die Akzeptanz und Entwicklung rund um Voice Assistants (welche alle per Voice User Interface funktionieren) bereits ist. Hier drei der wichtigsten Insights:

  • Ein Drittel der SchweizerInnen nutzen
    bereits Sprachfunktionen.
  • Die meisten Schweizer nutzen Sprachfunktionen
    auf dem Smartphone.
  • Siri ist mit Abstand die meistgenutzte Sprachfunktion auf dem Smartphone (51%), gefolgt von Google Search (31%), Google Maps (25%) und YouTube (11%).
  • Smartspeakers werden aktuell nur von 1% der SchweizerInnen genutzt. Über 13% planen jedoch in den nächsten 12 Monaten vermehrt Smart Speakers zu nutzen.
  • Auf dem Computer hingegen überwiegt die sprachgesteuerte Nutzung von Google Suche (67%) klar vor der Nutzung von Siri (29%).

Die ganze Studie kann bei der UNI Luzern bezogen werden und bei Farner Consulting können die Top 12 Insight bezogen werden.

Voice-User-Interface-Landschaft der Schweiz

Die Voice Map Switzerland ist eine Übersicht zur Voice User Interface Landschaft in der Schweiz. Silvan Foster, die treibende Kraft hinter Voice Meetup Switzerland und Voice Meetup Swittzerland, hat in Zusammenarbeit mit dem Institute for Digital Business der HWZ ein sehr praktische Übersicht erstellt. Ziel der Übersicht ist es Transparenz zur Voice User Interface Ökonomie in der Schweiz zu geben. Die Map ist in fünf verschiedene Bereiche unterteilt:

  • Services
  • Plattformen
  • Technologie
  • Wissen
  • Forschung & Experimente

Momentan ist die Voice Map Switzerland noch recht überschaubar. Es ist nur eine Frage der Zeit bis man hier sehr genau hinschauen muss weil es viele Akteure geben wird. Momentan ist die VUI-Szene noch recht überschaubar.