Es gibt zahlreiche, verlockende Möglichkeiten, um anhand eines Baukastensystems ein Voice User Interface zu bauen und gleich umzusetzen. Um schnell und unkompliziert einen Prototyp zu erstellen, sind solche Lösungen super. Um ein Proof of Concept zu kreieren auch. Sie mögen gar für ganz simple Anwendungen geeignet sein. Aber um ein marktreifes Produkt zu erstellen, reichen diese rudimentären Systeme leider nicht aus. Oft werden auch existente Chatbots einfach in eine Sprachversion umgewandelt, jedoch funktioniert das ebenfalls nicht wirklich gut.
Hinter dem Design eines Voice User Interfaces (VUI) steckt sehr viel Know-how und eine Geschichte von über 30 Jahren. Erste Nachweise gehen sogar bis 1939 zurück, die letzten 30 Jahre waren für die Weiterentwicklung über die Grundlagenforschung hinaus jedoch entscheidend und es wurde einiges erreicht. Dank der jüngsten Fortschritte in Künstlicher Intelligenz (KI) und der immer höheren Leistungsfähigkeit der Computer haben wir nun gewissermassen die zweite Ära des VUI erreicht.
Was macht das Design eines VUI so schwer?
Wir Menschen – Texter ganz besonders – sind sich gewohnt, für das Auge zu schreiben. Ein gesprochener Dialog basiert jedoch auf einem ganz anderen Muster bzw. Design. Ein Dialog kann in ganz viele verschiedene Richtungen verlaufen. Ein Text ist hingegen kontrolliert geführt und oft sehr logisch aufgebaut. Das heisst nicht, dass Dialoge nicht logisch verlaufen können, dennoch erscheinen sie auf eine ganz andere Art. Der entscheidende Unterschied lässt sich sehr gut anhand eines Vergleichs zum Chatbot-Modell aufzeigen: Beim Chatbot gibt es immer die Möglichkeit via Textausgabe mehrere Optionen für den weiteren Verlauf der Unterhaltung anzubieten. Das ist bei diesem Modell völlig logisch. Wenn ich jedoch ein Gespräch führe, ist es überhaupt nicht üblich, dem Gegenüber Optionen anzubieten, wie das Gespräch denn weiter verlaufen soll. So ist man nach jedem Satz immer wieder auf einer grünen Wiese. In Gesprächen können radikale Richtungsänderungen vorkommen. Man weiss nie genau, wie der Gesprächspartner reagieren wird. Dem muss ein Voice Bot versuchen, gerecht zu werden.
Die Deutsche Bahn hat beispielsweise 200 Eröffnungsszenarien durch intensives Testing vor dem Launch ihrer Voice Applikation angedacht. Nach ein paar Wochen in Betrieb waren es bereits 1000 Eröffnungsszenarien. Leider habe ich keine Onlinequelle, um dieses Beispiel zu belegen, ich habe es irgendwo an einem Vortrag aufgeschnappt. Es zeigt sehr gut auf, wo die Herausforderungen bei einem Voicebot sind. Diese ungewisse Komponente im Dialog ist eine grosse Herausforderung und zugleich das Salz in der Voice Suppe.
Es ist wichtig, dem Design des Dialog-Flows sehr viel Aufmerksamkeit zu schenken, wenn man mit einer neuen Technologie wie Voice User Interfaces arbeitet. Man kommt oft nicht darum herum, sich von aussen Erfahrung an Bord zu holen. Es ist auch unerlässlich Gespräche, welche man simulieren will, intensiv zu studieren. Will ich ein Verkaufsgespräch simulieren will, steht man am besten an eine Verkaufstheke und studiert den «Dialog-Flow» eines Verkaufsgespräches an der Theke. Gerade in unseren Breitengraden (damit meine ich die Schweiz) befindet sich die Disziplin Voice Userface Interface Design noch in den Kinderschuhen und wir alle müssen noch fleissig (dazu)lernen.
Letztlich dürfen wir nicht vergessen, dass für viele Menschen ein VUI – Voice User Interface noch etwas ganz Neues ist. Man hat noch kein Vertrauen in die Technologie – und dieses gilt es jetzt aufzubauen. Am besten beginnt man deswegen mit einfachen Dingen. Meist hat man mit neuen Technologien auch nur einen Anlauf, sowohl intern als auch extern. Die Geduld der potenziellen Nutzer gegenüber einer neuen Technologie ist begrenzt. Man versucht es. Ist die Erfahrung schlecht, lässt man das Ganze wieder für ein paar Monate links liegen. Intern warten die Technologie-Skeptiker bereits mit geschärften Messern darauf, dass ein Pilotversuch beweisen wird, dass es nicht funktioniert. Daher ist es wichtig, bei einem Voice User Interface von Beginn an alles richtig zu machen. Die Gefahr zu glauben «ach das kann nicht so schwer sein» und damit auf die Schnauze zu fallen, ist aber sehr gross. Die Koryphäen auf diesem Gebiet haben alle 20-30 Jahre Erfahrung im Bereich des Voice User Interface Design. Demut gegenüber dieser Disziplin ist also mehr als angebracht.