5 Herausforderungen, die bei multimodalem Design zu berücksichtigen sind: Tipps für die Gestaltung nahtloser und intuitiver Schnittstellen

Multimodales Design entwirft Systeme und Schnittstellen, die es den Benutzern ermöglichen, mit ihnen über mehrere Eingabe- und Ausgabemodi zu interagieren, z. B. über Sprache, Berührung, Gesten und visuelle Anzeigen. Multimodales Design wird in einer Vielzahl von Anwendungen eingesetzt, z. B. bei mobilen Geräten, Smart-Home-Geräten und virtuellen Assistenten. Es soll die Benutzerfreundlichkeit und Zugänglichkeit dieser Systeme verbessern, indem es den Benutzern die Möglichkeit gibt, die bequemste oder komfortabelste Art der Interaktion zu wählen.

Die Gestaltung multimodaler Systeme und Schnittstellen ist jedoch nicht ohne Herausforderungen. Hier sind fünf wichtige Herausforderungen, die Designer bei der Gestaltung multimodaler Systeme berücksichtigen müssen:

Benutzererfahrung:

Es kann eine Herausforderung sein, sicherzustellen, dass die verschiedenen Interaktionsmodi nahtlos zusammenarbeiten und eine konsistente und intuitive Benutzererfahrung bieten. Die Designer müssen berücksichtigen, wie die Benutzer zwischen den verschiedenen Modi wechseln und sicherstellen, dass die Übergänge reibungslos und intuitiv sind. Beispielsweise sollte der Übergang nahtlos sein, wenn ein Benutzer ein Smart Home-Gerät per Sprachbefehl steuert und dann zu einer Touchscreen-Oberfläche wechselt. Der Benutzer sollte keine Befehle wiederholen oder durch mehrere Menüs navigieren müssen.

Modalitätskonflikte:

Verschiedene Interaktionsmodi können manchmal miteinander kollidieren, zum Beispiel, wenn ein Sprachbefehl und eine Geste als Aufforderung zur Durchführung derselben Aktion interpretiert werden. Die Designer müssen überlegen, wie diese Konflikte gelöst werden können und wie sichergestellt werden kann, dass das System angemessen reagiert. Dazu kann es gehören, das System so zu gestalten, dass es bestimmte Interaktionsarten bevorzugt oder dem Benutzer die Möglichkeit gibt, seine bevorzugte Interaktionsmethode anzugeben.

Modalitätswechsel:

Der Wechsel zwischen verschiedenen Interaktionsmodi kann für die Benutzer kognitiv anspruchsvoll sein, und die Designer müssen darauf achten, die kognitive Belastung der Benutzer zu minimieren, indem der Wechsel zwischen den Modi einfach und intuitiv gestaltet wird. Ein System, bei dem die Benutzer ständig zwischen den Modi wechseln müssen, um verschiedene Aufgaben auszuführen, kann frustrierend oder verwirrend sein.

Benutzerpräferenzen:

Verschiedene Benutzer können unterschiedliche Präferenzen haben, wie sie mit einem System interagieren, und die Designer müssen überlegen, wie sie diese Präferenzen berücksichtigen und gleichzeitig eine einheitliche Benutzererfahrung bieten können. Dazu kann es gehören, den Benutzern die Möglichkeit zu geben, ihren Interaktionsmodus anzupassen oder mehrere Interaktionsmodi zur Auswahl zu stellen.

Barrierefreiheit:

Die Gestaltung multimodaler Schnittstellen, die für Benutzer mit Behinderungen zugänglich sind, kann eine Herausforderung darstellen, da verschiedene Benutzer unterschiedliche Interaktionsmodi benötigen können. Die Designer müssen darauf achten, dass ihre Systeme für Benutzer mit den unterschiedlichsten Fähigkeiten und Bedürfnissen zugänglich sind. Dazu kann es gehören, das System so zu gestalten, dass es mit Hilfstechnologien wie Bildschirmlesegeräten kompatibel ist, oder alternative Interaktionsmodi für Benutzer bereitzustellen, die bestimmte Modi nicht nutzen können.

Insgesamt muss bei der Gestaltung multimodaler Systeme und Schnittstellen sorgfältig überlegt werden, wie die verschiedenen Interaktionsmodi so integriert werden können, dass sie für die Benutzer intuitiv und nahtlos sind. Indem sie sich diesen fünf Herausforderungen stellen, können Designer multimodale Systeme und Schnittstellen schaffen, die einfach zu bedienen, zugänglich und für viele Benutzer angenehm sind.

Was ist ein Chatbot und wie kann man ihn erstellen?

Ein Mann sitzt an einem Computer und nutzt ein Chatbot.

Wenn Sie jemals ein Online-Gespräch mit einem Kundendienstmitarbeiter oder Verkäufer geführt haben, dann haben Sie wahrscheinlich mit einem Chatbot interagiert. Diese Aussage würde der Wahrheit entsprechen, wenn wir in den USA wären oder in England. Im dreisprachigen Europa kann es auch sein, aber ist noch eher Seltenheit. Für diejenigen, die mit dem Begriff nicht vertraut sind, ist ein Chatbot, ein automatisiertes Computerprogramm, das eine Unterhaltung oder Interaktion mit Nutzern in natürlicher Sprache über Messaging-Anwendungen, Websites oder mobile Apps simulieren kann. Heutzutage werden Chatbots von Unternehmen auf der ganzen Welt immer häufiger eingesetzt, da sie in der Lage sind, Kundenfragen und -anfragen schnell zu beantworten. Lassen Sie uns herausfinden, wie man einen guten Chatbot erstellt.

Was macht einen guten Chatbot aus?

Ein guter Chatbot sollte in der Lage sein, die Fragen des Nutzers zu verstehen und schnell und präzise zu antworten. Je besser Ihr Bot die Benutzereingaben versteht, desto besser kann er relevante Antworten geben. Um dieses Mass an Effizienz zu erreichen, muss Ihr Bot Zugang zu umfassenden Daten über Ihre Produkte oder Dienstleistungen haben, damit er alle spezifischen Kundenfragen detailliert beantworten kann. Ausserdem muss Ihr Bot auf verschiedene Kundenantworten trainiert sein; wenn der Kunde beispielsweise «Ja» sagt, sollte der Bot wissen, wie er entsprechend reagieren muss. Schliesslich sollte er auch Zugang zu anderen Informationen haben, z. B. zu häufig gestellten Fragen (FAQs), die ihm helfen können, bei Bedarf genauere Antworten zu geben.

Chatbot-Design und Entwicklungsprozesse

Der Designprozess für die Entwicklung eines erfolgreichen Chatbots ist essentiell und umfasst mehrere Schritte, darunter das Verstehen der Geschäftsziele, die Bestimmung der Zielgruppe, die Entwicklung von Anwendungsfällen, die Erstellung von Skripten und Dialogen, das Testen von Prototypen und schliesslich die Bereitstellung der endgültigen Version des Bots. Während dieses Prozesses müssen Sie entscheiden, auf welcher Art von Plattform (z. B. Facebook, Messenger, Slack oder ein eigener Kanal) Ihr Bot laufen soll und ob Sie ihn in bestehende Websites oder mobile Anwendungen integrieren möchten. Ausserdem müssen Sie festlegen, wie Benutzer mit Ihrem Bot interagieren (z. B. textbasierte Konversationen oder gesprochene Sprache). Schliesslich müssen Sie festlegen, welche Art von Daten Ihr Bot benötigt (z. B. Produktbeschreibungen), um bei Bedarf präzise Antworten geben zu können.

Schlussfolgerung: Chatbots erfreuen sich bei Unternehmen zunehmender Beliebtheit, da sie eine kostengünstige Möglichkeit bieten, schnellen Kundensupport zu leisten, ohne dass Mitarbeiter den ganzen Tag lang eingehende Nachrichten von Kunden überwachen müssen. Damit sie ihre Aufgabe gut erfüllen können, müssen sie jedoch Zugang zu umfassenden Daten über Produkte/Dienstleistungen haben und auf verschiedene Kundenreaktionen geschult werden, damit sie schnell genaue Antworten geben können, wenn sie von Kunden über Messaging-Plattformen wie Facebook Messenger oder Slack usw. befragt werden. Wenn Sie diese Tipps befolgen, können Sie einen effektiven Chatbot für Ihr Unternehmen erstellen, der hervorragenden Kundenservice bietet und gleichzeitig eine gute Customer Expierence sicher stellt!

Designing Voice User Interfaces von Cathy Pearl

«Designing Voice User Interfaces» ist ein umfassender Leitfaden für die Gestaltung effektiver und ansprechender sprachbasierter Benutzeroberflächen, wie z. B. Sprachassistenten und sprachgesteuerte Geräte. Das Buch wurde von Cathy Pearl, einer führenden Expertin auf diesem Gebiet, geschrieben und bietet praktische Ratschläge und Best Practices für die Gestaltung von Konversationsabläufen, die Erstellung effektiver Dialoge und das Testen und Verfeinern von sprachgesteuerten Benutzeroberflächen.

Das Buch beginnt mit einer Einführung in die Schlüsselkonzepte und -prinzipien des Designs von sprachgesteuerten Benutzeroberflächen, einschliesslich der Bedeutung des Verständnisses menschlicher Kommunikation und der einzigartigen Merkmale sprachbasierter Interaktionen. Anschliessend erörtert Pearl die Rolle der künstlichen Intelligenz und des maschinellen Lernens bei der Gestaltung von Sprachschnittstellen und gibt Tipps für die Schaffung ansprechender und benutzerfreundlicher Erlebnisse.

Pearl betont im gesamten Buch, wie wichtig es ist, sprachbasierte Benutzeroberflächen zu testen und zu verbessern, um sicherzustellen, dass sie effektiv und einfach zu bedienen sind. Sie gibt Anleitungen für die Gestaltung verschiedener Arten von Sprachschnittstellen, darunter Sprachassistenten, sprachgesteuerte Geräte und multimodale Schnittstellen, die Sprache mit anderen Interaktionsformen kombinieren.

Neben den technischen Aspekten der Gestaltung von Sprachschnittstellen werden in dem Buch auch die weitergehenden Auswirkungen dieser Technologie erörtert, z. B. wie sie die Art und Weise verändert, wie wir mit Computern und Geräten interagieren, und welche ethischen Überlegungen Designer dabei anstellen müssen.

Insgesamt ist «Designing Voice User Interfaces» eine unschätzbare Ressource für Designer und Entwickler, die effektive und ansprechende sprachgesteuerte Benutzeroberflächen entwerfen wollen. Es bietet eine Fülle praktischer Ratschläge und Techniken für den Entwurf und das Testen sprachbasierter Systeme und hilft dem Leser, die wichtigsten Überlegungen und Herausforderungen zu verstehen, die mit dieser Art von Design verbunden sind.

Zu vermeidende Fehler bei der Entwicklung eines Chatbots

Der Einsatz von Chatbots ist auf dem Vormarsch. Da sie immer beliebter und komplexer werden, ist es wichtig, sich der häufigsten Fehler bewusst zu sein, die bei der Entwicklung von Chatbots gemacht werden. Hier ein Blick auf einige der grössten Fehltritte, die Sie bei der Entwicklung eines Chatbots für Ihr Unternehmen vermeiden sollten.

1. Schlechtes Conversational Design

Dem Conversational Design wird in unseren Breitengraden viel zu wenig Aufmerksamkeit geschenkt. «Ich kann ein Gespräch führen, also kann ich auch ein Chatbot Conversational Design umsetzen.» Auf diesen Trugschluss fallen leider viele rein und scheitern anschliessen mit ihrem Chatbot. Conversational Design ist eine hoch spezialisierte Disziplin, welche viel Erfahrung benötigt und in der Regel am besten von Menschen mit einer linguistischen Ausbildung ausgeführt wird.

2. Schwache Technologie

Eine zu schwache technologische Plattform wird als Basis für die Umsetzung gewählt. Die Plattform mag zwar günstig sein, lässt aber z. B. kein gutes Conversational Design zu. Oder über kurz oder lang ist die Plattform zu leistungsschwach und kann so keine gute User-Experience bieten.

3. Keine klaren Ziele haben

Bevor Sie Ihren Chatbot entwerfen, müssen Sie klare Ziele haben. Was wollen Sie mit dem Chatbot erreichen? Wie wird er das Kundenerlebnis verbessern? Die Beantwortung dieser Fragen wird Ihnen helfen, Ihren Designprozess zu steuern und sicherzustellen, dass Sie einen effektiven Chatbot erstellen.

4. Nicht testen

Testen ist für jedes erfolgreiche Projekt unerlässlich. Es ist wichtig, alle Aspekte Ihres Chatbots zu testen, bevor Sie ihn einführen, einschliesslich seiner Antworten und Interaktionen mit den Nutzern. So können Sie Probleme oder verbesserungsbedürftige Bereiche erkennen, bevor Sie zu einem Problem für die Kunden werden.

5. Keine Optimierung für Mobilgeräte

Viele Menschen greifen über mobile Geräte auf Websites und Dienste zu, daher muss Ihr Chatbot für mobile und Desktop-Computer optimiert sein. Nehmen wir an, die Nutzer brauchen Hilfe beim Zugriff auf die Funktionen oder bei der korrekten Verwendung der Schnittstelle auf ihren Telefonen. In diesem Fall werden sie den Bot möglicherweise ganz aufgeben. Achten Sie also besonders darauf, dass Ihr Design auf allen Plattformen funktioniert.

6. Sie verstehen Ihr Publikum nicht

Jedes Unternehmen hat eine eigene Zielgruppe mit unterschiedlichen Bedürfnissen und Vorlieben bei der Nutzung von Technologie und der Interaktion mit Bots im Internet. Um ein erfolgreiches Chatbot-Erlebnis zu schaffen, das die Erwartungen und Bedürfnisse Ihrer Nutzer erfüllt, ist es wichtig zu verstehen, für wen Sie das Design entwickeln.

7. Nichtberücksichtigung von Sicherheitsaspekten

Die Sicherheit sollte bei der Entwicklung eines Chatbots immer an erster Stelle stehen, da bei Transaktionen über diese Systeme häufig sensible Nutzerdaten involviert sind. Stellen Sie sicher, dass Sie robuste Sicherheitsprotokolle wie Verschlüsselung, Zwei-Faktor-Authentifizierung und andere Massnahmen zum Schutz der Benutzerdaten vor unbefugtem Zugriff implementieren.

Fazit: Die Entwicklung eines erfolgreichen Chatbots erfordert eine sorgfältige Planung und die Berücksichtigung vieler Faktoren, vom richtigen Design, über das Verständnis der Bedürfnisse Ihrer Zielgruppe bis hin zur Berücksichtigung von Sicherheitsfragen. Wenn Sie diese sieben häufigen Fehler vermeiden, können Sie sicherstellen, dass Ihr Chatbot ein ansprechendes und sicheres Benutzererlebnis bietet und gleichzeitig alle seine Ziele effektiv erfüllt. Viel Erfolg!

Das Design eines Voice User Interface – Alles andere als einfach

Voice User Interface Design UX

Es gibt zahlreiche, verlockende Möglichkeiten, um anhand eines Baukastensystems ein Voice User Interface zu bauen und gleich umzusetzen. Um schnell und unkompliziert einen Prototyp zu erstellen, sind solche Lösungen super. Um ein Proof of Concept zu kreieren auch. Sie mögen gar für ganz simple Anwendungen geeignet sein. Aber um ein marktreifes Produkt zu erstellen, reichen diese rudimentären Systeme leider nicht aus. Oft werden auch existente Chatbots einfach in eine Sprachversion umgewandelt, jedoch funktioniert das ebenfalls nicht wirklich gut.

Hinter dem Design eines Voice User Interfaces (VUI) steckt sehr viel Know-how und eine Geschichte von über 30 Jahren. Erste Nachweise gehen sogar bis 1939 zurück, die letzten 30 Jahre waren für die Weiterentwicklung über die Grundlagenforschung hinaus jedoch entscheidend und es wurde einiges erreicht. Dank der jüngsten Fortschritte in Künstlicher Intelligenz (KI) und der immer höheren Leistungsfähigkeit der Computer haben wir nun gewissermassen die zweite Ära des VUI erreicht.

Was macht das Design eines VUI so schwer?

Wir Menschen – Texter ganz besonders – sind sich gewohnt, für das Auge zu schreiben. Ein gesprochener Dialog basiert jedoch auf einem ganz anderen Muster bzw. Design. Ein Dialog kann in ganz viele verschiedene Richtungen verlaufen. Ein Text ist hingegen kontrolliert geführt und oft sehr logisch aufgebaut. Das heisst nicht, dass Dialoge nicht logisch verlaufen können, dennoch erscheinen sie auf eine ganz andere Art. Der entscheidende Unterschied lässt sich sehr gut anhand eines Vergleichs zum Chatbot-Modell aufzeigen: Beim Chatbot gibt es immer die Möglichkeit via Textausgabe mehrere Optionen für den weiteren Verlauf der Unterhaltung anzubieten. Das ist bei diesem Modell völlig logisch. Wenn ich jedoch ein Gespräch führe, ist es überhaupt nicht üblich, dem Gegenüber Optionen anzubieten, wie das Gespräch denn weiter verlaufen soll. So ist man nach jedem Satz immer wieder auf einer grünen Wiese. In Gesprächen können radikale Richtungsänderungen vorkommen. Man weiss nie genau, wie der Gesprächspartner reagieren wird. Dem muss ein Voice Bot versuchen, gerecht zu werden.

Die Deutsche Bahn hat beispielsweise 200 Eröffnungsszenarien durch intensives Testing vor dem Launch ihrer Voice Applikation angedacht. Nach ein paar Wochen in Betrieb waren es bereits 1000 Eröffnungsszenarien. Leider habe ich keine Onlinequelle, um dieses Beispiel zu belegen, ich habe es irgendwo an einem Vortrag aufgeschnappt. Es zeigt sehr gut auf, wo die Herausforderungen bei einem Voicebot sind. Diese ungewisse Komponente im Dialog ist eine grosse Herausforderung und zugleich das Salz in der Voice Suppe.

Es ist wichtig, dem Design des Dialog-Flows sehr viel Aufmerksamkeit zu schenken, wenn man mit einer neuen Technologie wie Voice User Interfaces arbeitet. Man kommt oft nicht darum herum, sich von aussen Erfahrung an Bord zu holen. Es ist auch unerlässlich Gespräche, welche man simulieren will, intensiv zu studieren. Will ich ein Verkaufsgespräch simulieren will, steht man am besten an eine Verkaufstheke und studiert den «Dialog-Flow» eines Verkaufsgespräches an der Theke. Gerade in unseren Breitengraden (damit meine ich die Schweiz) befindet sich die Disziplin Voice Userface Interface Design noch in den Kinderschuhen und wir alle müssen noch fleissig (dazu)lernen.

Letztlich dürfen wir nicht vergessen, dass für viele Menschen ein VUI – Voice User Interface noch etwas ganz Neues ist. Man hat noch kein Vertrauen in die Technologie – und dieses gilt es jetzt aufzubauen. Am besten beginnt man deswegen mit einfachen Dingen. Meist hat man mit neuen Technologien auch nur einen Anlauf, sowohl intern als auch extern. Die Geduld der potenziellen Nutzer gegenüber einer neuen Technologie ist begrenzt. Man versucht es. Ist die Erfahrung schlecht, lässt man das Ganze wieder für ein paar Monate links liegen. Intern warten die Technologie-Skeptiker bereits mit geschärften Messern darauf, dass ein Pilotversuch beweisen wird, dass es nicht funktioniert. Daher ist es wichtig, bei einem Voice User Interface von Beginn an alles richtig zu machen. Die Gefahr zu glauben «ach das kann nicht so schwer sein» und damit auf die Schnauze zu fallen, ist aber sehr gross. Die Koryphäen auf diesem Gebiet haben alle 20-30 Jahre Erfahrung im Bereich des Voice User Interface Design. Demut gegenüber dieser Disziplin ist also mehr als angebracht.

Wie kann ich die Stimme des Google Assistant ändern?

Google Pixel 4 mit aktiviertem Google assistant

Wenn Sie die Standardstimme des Google-Assistenten nicht mögen, werden Sie sich über folgenden Beitrag freuen: in nur wenigen Schritten können sie diese nämlich ändern. Auf Deutsch können Sie zwischen einer männlichen und weiblichen Stimme wählen. Auf Englisch stehen noch mehr Stimmen zur Auswahl, unter anderem jene von prominenten Persönlichkeiten wie John Legend oder Issa Rae . Die Anzahl der verfügbaren Google Assistant-Stimmen hängt also von Ihrer gewählten Sprache und Ihrem Standort ab.

Am einfachsten Ändern Sie die Stimme des Assistenten, indem Sie den Google Assistenten zunächst auf Ihrem Telefon starten und dann auf das Kompasssymbol in der rechten unteren Ecke tippen, das Sie zur Erkundungsseite führt. Tippen Sie dort auf Ihr Profilbild und wählen Sie «Einstellungen».

Wechseln Sie anschliessend auf die Registerkarte «Assistent» darunter auf die Option «Assistenz-Stimme». Tippen Sie auf einen der farbigen Kreise, um eine «Vorschau» einer Stimme zu hören, und schliessen Sie die Seite, wenn Sie sich für einen Assistenten entscheiden – Ihre Wahl wird automatisch gespeichert.

Schritt-für-Schritt-Anleitung zum Ändern der Stimme des Google-Assistenten:

  1. Starten Sie den Google-Assistenten.
  2. Tippen Sie auf das Kompasssymbol in der rechten unteren Ecke.
  3. Tippen Sie auf Ihr Profilbild oben.
  4. Wählen Sie die Option «Einstellungen».
  5. Wechseln Sie zur Registerkarte «Assistent».
  6. Wählen Sie die Option «Assistenzstimme».
  7. Wählen Sie eine neue Google-Assistent-Stimme und schließen Sie die Seite.

Es ist nur eine Frage der Zeit, bis wir auch in der deutschen Sprache mehr als nur zwei Stimmen zur Auswahl haben werden. Der Google Assistant kann übrigens mehr als eine Sprache erkennen. So kann man in einer Haushaltung bis zu sechs verschiedene Stimmen hinterlegen und damit auch gleich Rechte verwalten.

Voice Assistant sind «All in» am Superbowl!

Ein altes und ein neues Foto eines Paares. Eines zeigt es in ihren 20er und das andere in den 80er.

Das Doppelpack Werbung und Superbowl ist ein grosses Ding! Jedes Jahr wird erwartet, wer und wie Werbung schalten wird. Die Werbespots sind oft sehr aufwändig produziert und man kann daraus sehr gute Schlüsse ziehen, wo die jeweiligen Firmen ihren Schwerpunkt setzen.

Die diesjährige Werbung von Google war die wohl auffälligste seit langem an einem Superbowl. Oft wird witzige und unterhaltende Werbung produziert. Google setzte in diesem Jahr voll auf ihren Voice Assistant und zeigte auf, dass dieser weit mehr kann als lediglich Licht und Musik ein-, ab- und umstellen. Google geht «Deep» und zeigt auf, dass der Google Assistant nicht nur für das Steuern einfacher Dinge eingesetzt werden kann. Eine Studie in England hat bereits bestätigt, dass sich beispielsweise Voice Assistant im Einsatz bei älteren Leuten sehr gut bewähren.

Amazon schickte mit seinem Werbespot Ad Ellen DeGeneres ins Rennen. Hier werden eher einfache Anwendungen auf eine humorvolle Art entlang der Geschichte der Menschheit aufgezeigt. Hier die extended Version mit 30 Sekunden mehr.

… und auch Budweiser Kanada hat Voice Assistant in ihrem Superbowl Ad zum Thema gemacht. Gepaart mit ihrem alten «Waaaasuuuuuup».

Man sieht, dass während der wichtigsten Prime-Time-Zeit Voice Assistant einerseits von den beiden Marktführern gepusht wurde und andererseits auch eine der grossen Marken das Thema aufgenommen hat. Bereits an der CES in Las Vegas war der Google Assistant das Top-Thema am Stand von Google. Einige Aussagen seitens Google lassen darauf schliessen, dass beim Unternehmen der Google Assistant auch im 2020 ein wichtiges Fokusthema sein wird.

Schweizerdeutsch und Sprach-Assistenten

Eine Frau hält ein Handy in der Hand und spricht mit dem Sprachinterface.

Das ZDF Mittagsmagazin hat einen Beitrag über Sprach-Assistenten und Dialekte, insbesondere den Schweizer Dialekt gemacht. Zur Sprache kamen Reto Hofstetter von der UNI Luzern, er ist der Kopf hinter dem Voice First Barometer Schweiz, und David Imseng von re:capp. re:capp ist eine der Firmen welche sich zur Aufgabe gemacht hat Schweizerdeutsch mit ihrer Technologie zu verstehen.

KI fehlt (noch) der gesunde Menschenverstand, um die menschliche Sprache zu verstehen

Google Nest Mini

Die Verarbeitung natürlicher Sprache hat in letzter Zeit grosse Fortschritte gemacht – aber wie viel versteht eine Künstliche Intelligenz wirklich von dem, was sie liest? Weniger als wir dachten.

Bis vor kurzem waren Computer hoffnungslos dabei, Sätze zu produzieren, die tatsächlich Sinn machten. Aber das Gebiet der Natural Langugae Processing (NLP) hat grosse Fortschritte gemacht, und Maschinen können jetzt überzeugende Passagen auf Knopfdruck erzeugen.

Diese Fortschritte wurden durch Techniken des Deep Learnings vorangetrieben, die statistische Muster im Wortgebrauch und in der Argumentstruktur aus riesigen Textfunden herauslesen. Aber ein neues Papier des Allen-Instituts für künstliche Intelligenz macht auf etwas aufmerksam, das noch immer fehlt: Maschinen verstehen nicht wirklich, was sie schreiben (oder lesen).

Dies ist eine grundlegende Herausforderung im grossen Streben nach verallgemeinerbarer KI – aber über die akademische Welt hinaus ist es auch für Verbraucher relevant. Chatbots und Sprachassistenten, die auf modernsten natürlich-sprachlichen Modellen basieren, sind zum Beispiel zur Schnittstelle für viele Finanzinstitute, Gesundheitsdienstleister und Regierungsbehörden geworden. Ohne ein echtes Sprachverständnis sind diese Systeme anfälliger für Ausfälle und verlangsamen den Zugang zu wichtigen Dienstleistungen.

Die Forscher bauten auf der Arbeit der Winograd Schema Challenge auf, einem Test, der 2011 ins Leben gerufen wurde, um die vernünftige Argumentation von NLP-Systemen zu bewerten. Die Challenge verwendet einen Satz von 273 Fragen mit Satzpaaren, die bis auf ein Wort identisch sind. Dieses Wort, das als Auslöser bekannt ist, dreht die Bedeutung der Pronomen der einzelnen Sätze um, wie im folgenden Beispiel zu sehen ist:

Die Trophäe passt nicht in den braunen Koffer, weil sie zu gross ist.
Die Trophäe passt nicht in den braunen Koffer, weil sie zu klein ist.


Um erfolgreich zu sein, muss ein NLP-System herausfinden, auf welche von zwei Möglichkeiten sich das Pronomen bezieht. In diesem Fall müsste es für die erste «Trophäe» und für die zweite «Koffer» wählen, um das Problem korrekt zu lösen.

Der Test wurde ursprünglich mit der Idee entworfen, dass solche Probleme nicht ohne ein tieferes Verständnis der Semantik beantwortet werden können. Modernste Modelle für Deep Learning können jetzt eine Genauigkeit von etwa 90% erreichen, so dass es scheint, dass NLP seinem Ziel näher gekommen ist. Aber in ihrem Papier, das auf der AAAI-Konferenz im nächsten Monat mit dem Outstanding Paper Award ausgezeichnet wird, stellen die Forscher die Effektivität des Benchmarks und damit den Grad des Fortschritts, den das Feld tatsächlich erreicht hat, in Frage.

Sie schufen einen wesentlich grösseren Datensatz, den sie WinoGrande nannten, mit 44.000 der gleichen Arten von Problemen. Zu diesem Zweck entwarfen sie ein Crowdsourcing-Schema, um schnell neue Satzpaare zu erstellen und zu validieren. (Der Winograd-Datensatz ist unter anderem deshalb so klein, weil er von Experten von Hand erstellt wurde). Die Mitarbeiter von Amazon Mechanical Turk erstellten neue Sätze mit den erforderlichen Wörtern, die durch ein Randomisierungsverfahren ausgewählt wurden. Jedes Satzpaar wurde dann drei weiteren Arbeitern gegeben und nur dann behalten, wenn es drei Kriterien erfüllte: mindestens zwei Arbeiter wählten die richtigen Antworten aus, alle drei hielten die Optionen für eindeutig, und die Referenzen des Pronomens konnten nicht durch einfache Wortassoziationen abgeleitet werden.

Als letzten Schritt führten die Forscher den Datensatz auch durch einen Algorithmus, um so viele «Artefakte» wie möglich zu entfernen – unbeabsichtigte Datenmuster oder Korrelationen, die einem Sprachmodell helfen könnten, aus den falschen Gründen die richtigen Antworten zu finden. Dadurch verringerte sich die Chance, dass ein Modell lernen könnte, mit dem Datensatz zu spielen.

Als sie modernste Modelle auf diese neuen Probleme hin testeten, fiel die Leistung auf 59,4 % bis 79,1 %. Im Gegensatz dazu erreichte der Mensch immer noch eine Genauigkeit von 94%. Dies bedeutet, dass ein hohes Ergebnis beim ursprünglichen Winograd-Test wahrscheinlich übertrieben ist. «Es handelt sich nur um eine datensatzspezifische Leistung, nicht um eine Leistung für eine allgemeine Aufgabe», sagt Yejin Choi, ein ausserordentlicher Professor an der Universität von Washington und ein leitender Forschungsmanager bei AI2, der die Forschung leitete.

Choi hofft, dass der Datensatz als neuer Mssstab dienen wird. Aber sie hofft auch, dass er mehr Forscher dazu inspiriert, über das tiefe Lernen hinaus zu schauen. Die Ergebnisse betonten ihr, dass echte NLP-Systeme mit gesundem Menschenverstand andere Techniken, wie z.B. strukturierte Wissensmodelle, einbeziehen müssen. Ihre bisherige Arbeit hat sich in dieser Richtung als vielversprechend erwiesen. «Wir müssen irgendwie einen anderen Spielplan finden», sagt sie.

Das Papier hat einige Kritik erhalten. Ernest Davis, einer der Forscher, die an der ursprünglichen Winograd-Herausforderung gearbeitet haben, sagt, dass viele der in dem Papier aufgeführten Beispielsatzpaare «ernsthafte Fehler» mit verwirrender Grammatik aufweisen. «Sie entsprechen nicht der Art und Weise, in der Menschen, die Englisch sprechen, tatsächlich Pronomen verwenden», schrieb er in einer E-Mail.

Aber Choi stellt fest, dass wirklich robuste Modelle keine perfekte Grammatik benötigen sollten, um einen Satz zu verstehen. Menschen, die Englisch als Zweitsprache sprechen, verwechseln manchmal ihre Grammatik, vermitteln aber dennoch ihre Bedeutung.

«Die Menschen können leicht verstehen, worum es bei unseren Fragen geht, und die richtige Antwort auswählen», sagt sie und verweist auf die 94%ige Leistungsgenauigkeit. «Wenn Menschen dazu in der Lage sein sollten, dann sollten meiner Meinung nach auch Maschinen dazu in der Lage sein.

Nun hört Google auch in Schweizer Wohnzimmern mit – Blick

Google Nest Mini in vier Farben

Im Oktober hat Google endlich auch in der Schweiz ihre Smart Speaker gelauncht. Die beiden Modelle können online im Schweizer Google Store gekauft werden. Nach ein paar Monaten hat nun der Blick auch einen Beitrag zu den Smart Speakern von Google geschrieben. Lorenz keller vom Blick kommt zum Fazit, dass noch nicht alles durchdacht sei. Kann gut sein, dass dies die Erkenntnis ist eines Test bei dem man sich auf die einfachen Dinge aus dem Repertoire des Google Assistant fokussiert hat. Wenn man jedoch einmal über die hidden Features wie des Check-Ins bei der Lufthansa-Gruppe stolpert oder der Assistent einem pro-aktiv auf Fluplanänderung aufmerksam macht, kommt man nicht auf das gleiche Fazit.

Aber gerade in der Küche hat sich der Nest Hub bewährt. Rezepte lassen sich in grosser Schrift direkt auf dem Screen anzeigen. Hat man dreckige Finger, kann man per Sprachbefehl weiterblättern. Timer lassen sich ebenfalls mit ein paar Worten stellen, gleich mehrere aufs Mal. Und wer mal etwas umrechnen muss, auch das erledigt der Google Assistant.

Blick – Lorenz Keller

Im Test zeigt sich auch, wie gut der Google Assistant inzwischen ist. Er versteht auch auf Distanz Befehle klar – sogar wenn laut Musik läuft. Zudem kann er Personen unterscheiden. Er wird also dem Kind keine Kalendereinträge oder Mails der Eltern vorlesen.

Blick – Lorenz Keller