KI fehlt (noch) der gesunde Menschenverstand, um die menschliche Sprache zu verstehen

Google Nest MiniFoto by Kyle Johnston

Die Verarbeitung natürlicher Sprache hat in letzter Zeit grosse Fortschritte gemacht – aber wie viel versteht eine Künstliche Intelligenz wirklich von dem, was sie liest? Weniger als wir dachten.

Bis vor kurzem waren Computer hoffnungslos dabei, Sätze zu produzieren, die tatsächlich Sinn machten. Aber das Gebiet der Natural Langugae Processing (NLP) hat grosse Fortschritte gemacht, und Maschinen können jetzt überzeugende Passagen auf Knopfdruck erzeugen.

Diese Fortschritte wurden durch Techniken des Deep Learnings vorangetrieben, die statistische Muster im Wortgebrauch und in der Argumentstruktur aus riesigen Textfunden herauslesen. Aber ein neues Papier des Allen-Instituts für künstliche Intelligenz macht auf etwas aufmerksam, das noch immer fehlt: Maschinen verstehen nicht wirklich, was sie schreiben (oder lesen).

Dies ist eine grundlegende Herausforderung im grossen Streben nach verallgemeinerbarer KI – aber über die akademische Welt hinaus ist es auch für Verbraucher relevant. Chatbots und Sprachassistenten, die auf modernsten natürlich-sprachlichen Modellen basieren, sind zum Beispiel zur Schnittstelle für viele Finanzinstitute, Gesundheitsdienstleister und Regierungsbehörden geworden. Ohne ein echtes Sprachverständnis sind diese Systeme anfälliger für Ausfälle und verlangsamen den Zugang zu wichtigen Dienstleistungen.

Die Forscher bauten auf der Arbeit der Winograd Schema Challenge auf, einem Test, der 2011 ins Leben gerufen wurde, um die vernünftige Argumentation von NLP-Systemen zu bewerten. Die Challenge verwendet einen Satz von 273 Fragen mit Satzpaaren, die bis auf ein Wort identisch sind. Dieses Wort, das als Auslöser bekannt ist, dreht die Bedeutung der Pronomen der einzelnen Sätze um, wie im folgenden Beispiel zu sehen ist:

Die Trophäe passt nicht in den braunen Koffer, weil sie zu gross ist.
Die Trophäe passt nicht in den braunen Koffer, weil sie zu klein ist.


Um erfolgreich zu sein, muss ein NLP-System herausfinden, auf welche von zwei Möglichkeiten sich das Pronomen bezieht. In diesem Fall müsste es für die erste „Trophäe“ und für die zweite „Koffer“ wählen, um das Problem korrekt zu lösen.

Der Test wurde ursprünglich mit der Idee entworfen, dass solche Probleme nicht ohne ein tieferes Verständnis der Semantik beantwortet werden können. Modernste Modelle für Deep Learning können jetzt eine Genauigkeit von etwa 90% erreichen, so dass es scheint, dass NLP seinem Ziel näher gekommen ist. Aber in ihrem Papier, das auf der AAAI-Konferenz im nächsten Monat mit dem Outstanding Paper Award ausgezeichnet wird, stellen die Forscher die Effektivität des Benchmarks und damit den Grad des Fortschritts, den das Feld tatsächlich erreicht hat, in Frage.

Sie schufen einen wesentlich grösseren Datensatz, den sie WinoGrande nannten, mit 44.000 der gleichen Arten von Problemen. Zu diesem Zweck entwarfen sie ein Crowdsourcing-Schema, um schnell neue Satzpaare zu erstellen und zu validieren. (Der Winograd-Datensatz ist unter anderem deshalb so klein, weil er von Experten von Hand erstellt wurde). Die Mitarbeiter von Amazon Mechanical Turk erstellten neue Sätze mit den erforderlichen Wörtern, die durch ein Randomisierungsverfahren ausgewählt wurden. Jedes Satzpaar wurde dann drei weiteren Arbeitern gegeben und nur dann behalten, wenn es drei Kriterien erfüllte: mindestens zwei Arbeiter wählten die richtigen Antworten aus, alle drei hielten die Optionen für eindeutig, und die Referenzen des Pronomens konnten nicht durch einfache Wortassoziationen abgeleitet werden.

Als letzten Schritt führten die Forscher den Datensatz auch durch einen Algorithmus, um so viele „Artefakte“ wie möglich zu entfernen – unbeabsichtigte Datenmuster oder Korrelationen, die einem Sprachmodell helfen könnten, aus den falschen Gründen die richtigen Antworten zu finden. Dadurch verringerte sich die Chance, dass ein Modell lernen könnte, mit dem Datensatz zu spielen.

Als sie modernste Modelle auf diese neuen Probleme hin testeten, fiel die Leistung auf 59,4 % bis 79,1 %. Im Gegensatz dazu erreichte der Mensch immer noch eine Genauigkeit von 94%. Dies bedeutet, dass ein hohes Ergebnis beim ursprünglichen Winograd-Test wahrscheinlich übertrieben ist. „Es handelt sich nur um eine datensatzspezifische Leistung, nicht um eine Leistung für eine allgemeine Aufgabe“, sagt Yejin Choi, ein ausserordentlicher Professor an der Universität von Washington und ein leitender Forschungsmanager bei AI2, der die Forschung leitete.

Choi hofft, dass der Datensatz als neuer Mssstab dienen wird. Aber sie hofft auch, dass er mehr Forscher dazu inspiriert, über das tiefe Lernen hinaus zu schauen. Die Ergebnisse betonten ihr, dass echte NLP-Systeme mit gesundem Menschenverstand andere Techniken, wie z.B. strukturierte Wissensmodelle, einbeziehen müssen. Ihre bisherige Arbeit hat sich in dieser Richtung als vielversprechend erwiesen. „Wir müssen irgendwie einen anderen Spielplan finden“, sagt sie.

Das Papier hat einige Kritik erhalten. Ernest Davis, einer der Forscher, die an der ursprünglichen Winograd-Herausforderung gearbeitet haben, sagt, dass viele der in dem Papier aufgeführten Beispielsatzpaare „ernsthafte Fehler“ mit verwirrender Grammatik aufweisen. „Sie entsprechen nicht der Art und Weise, in der Menschen, die Englisch sprechen, tatsächlich Pronomen verwenden“, schrieb er in einer E-Mail.

Aber Choi stellt fest, dass wirklich robuste Modelle keine perfekte Grammatik benötigen sollten, um einen Satz zu verstehen. Menschen, die Englisch als Zweitsprache sprechen, verwechseln manchmal ihre Grammatik, vermitteln aber dennoch ihre Bedeutung.

„Die Menschen können leicht verstehen, worum es bei unseren Fragen geht, und die richtige Antwort auswählen“, sagt sie und verweist auf die 94%ige Leistungsgenauigkeit. „Wenn Menschen dazu in der Lage sein sollten, dann sollten meiner Meinung nach auch Maschinen dazu in der Lage sein.

Hinterlasse uns einen Kommentar ...