Sprachassistenten wie Siri und Alexa sind aus dem Alltag vieler Menschen nicht mehr wegzudenken. Foto: dpa/Daniel Reinhardt

Der Stuttgarter Computerlinguist Jonas Kuhn spricht im Interview über den Durchbruch von Sprachassistenten – und ihre Schwächen. Sprechen wir bald mit Computern als wären sie Menschen?

Stuttgart - Googles Alexa kann Friseure anrufen und für Nutzer einen Termin vereinbaren. Sprachassistenten sind mittlerweile Teil unseres Alltags geworden. Doch was können die Künstlichen Intelligenzen? Und sprechen wir bald mit Computern, als seien sie Menschen?

Herr Kuhn, erleben wir den Durchbruch der Sprachcomputer?

Die Technik hat zuletzt große Fortschritte gemacht, die kaum jemand für möglich gehalten hat. Die Sprachsequenzen der Programme sind dabei oft so natürlich, dass wir manchmal vergessen, dass sich dahinter Computer verbergen.

Warum boomen die Technologien gerade jetzt?

Der Qualitätssprung hängt eng zusammen mit dem Stichwort Deep Learning. Damit sind maschinelle Lernverfahren gemeint, die mit künstlichen neuronalen Netzen arbeiten. Die gibt es in der Forschung schon seit 40 Jahren, aber erst durch bessere Rechenleistungen und eine schiere Unmenge an realen Sprachdaten können wir heute Modelle trainieren, die auch Nuancen im Sprachgebrauch erfassen und reproduzieren können. So können Computerprogramme lernen, in einem bestimmten Kontext sehr ähnlich zu reagieren wie Menschen.

Als eines der Leuchtturmprojekte gilt das Sprachmodell GPT3. Als Nutzer gibt man wenige Stichworte ein und bekommt vollständige Erzählungen in einer nie gekannten Qualität.

Ja, die Texte sind erstaunlich kohärent und klingen erst einmal logisch. Erst nach einigen Absätzen beschleicht einen das Gefühl, dass irgendetwas nicht stimmt. Wenn man so ein Sprachmodell einfach vor sich hin generieren lässt, steckt dahinter kein realer Inhalt, der in Worte gefasst wird. Maschinen sind sehr gut darin, Versatzstücke der menschlichen Sprache so zu nutzen, dass sie zueinander passen und Textpassagen sich kohärent anhören. Was die Sätze allerdings bedeuten, verstehen Computer nicht.

Was können Sprachcomputer heute?

Die meisten Technologien funktionieren gut für Aufgaben mit einer klar definierten Ein- und Ausgabe. Bekannt ist heute der Roboterjournalismus, wo Programme Börsenkurse oder Fußballergebnisse zu Texten zusammenfassen. Das Potenzial ist da groß, wo die Technik Menschen unterstützen kann. Wir sprechen von einer Co-Kreativität: Der Computer gibt Anstöße, der Mensch reagiert darauf. In einem gemeinsamen Projekt der Universitäten Stuttgart und Bremen lassen wir zum Beispiel Maschinen Zeitungsartikel danach auswerten, welche Politiker während der Migrationskrise 2015 welche Argumente verwendeten. Das Programm lernt zunächst aus Beispielen, die Politikwissenschaftler von Hand klassifiziert haben. Es kann dann eine große Menge von Artikeln automatisch analysieren. Die Schlüsse daraus ziehen am Ende aber die Forscherinnen und Forscher.

Ist es vorstellbar, dass wir uns mit Computern so unterhalten, als seien es Menschen?

In manchen Bereichen, ja. Naheliegend ist es überall dort, wo wir schnell Zugang zu vielfältigen Wissensquellen brauchen. Wenn wir bei Computerassistenten wie in der Unterhaltung mit Menschen schnell von einem Wissenskontext zum anderen hin und her springen könnten, wäre das sehr nützlich. Im Augenblick ist es noch eine riesige Herausforderung, aber ein Ziel der Forschung ist es, die menschliche Fähigkeit, Kontexte zu verknüpfen, mit Computermodellen nachzuempfinden.

Das klingt nicht so, als würden wir bald Reportagen von Robotern lesen.

Nein, dafür fehlt Computern der Sinn für das Zusammenfügen von Bedeutungen. Interessante Erzählungen leben von Autorinnen und Autoren, die ihre Ideen und Beobachtungen in einer kreativen Weise verbinden. Wir können in einer Geschichte Ironie einsetzen und etwas auf einer Metaebene kommentieren. Das können Computer nicht, sie werden nie auf unterschiedlichen Ebenen gleichzeitig kommunizieren können.

Was ist schwer daran, Maschinen Sprache beizubringen?

Das Spannende an natürlichen Sprachen wie Deutsch oder Englisch ist, dass mit meist kompakten Äußerungen eine schier unendliche Breite an Bedeutungen ausgedrückt werden kann. Was mit einem Wort oder einer Wendung gemeint ist, hängt stark von seinem Kontext ab. Der Begriff „einstellen“ heißt im Kontext der Jobsuche etwas anderes als bei der Gerätewartung oder bei Weltrekorden. Als Menschen verstehen wir diese Unterschiede sofort. Computer müssen jede einzelne Bedeutung in jedem Kontext erlernen.

Lernen Menschen Sprache anders als Maschinen?

Auf jeden Fall. Wenn Menschen neue Begriffe erfassen, versuchen wir, ihre Bedeutung zu abstrahieren. So müssen wir nicht jeden Kontext eines Wortes hören oder lesen, um zu verstehen, wie wir den Ausdruck nutzen können. Die Stärke von Computern hingegen ist, dass sie unglaublich viel auswendig lernen können. Je mehr Trainingsdaten sie haben, desto besser erkennen sie in den Daten wiederkehrende Muster, die sie später anwenden. Erkennt ein Programm in einer Situation zum Beispiel die Begriffe „Kamera“ und „Lichtverhältnisse“, weiß es, wie es das Wort „Einstellung“ gebrauchen muss.

Viele sehen Künstliche Intelligenzen, auch Sprachanwendungen, vor allem wegen der ethischen Argumente kritisch. Haben sie recht?

Eine Gefahr besteht, wenn wir uns zu sehr auf die Technologie verlassen. Auch ein Computermodell spiegelt am Ende nur die Erfahrungen derer wider, die es programmiert haben, oder die Daten, die für die Entwicklung eingesetzt wurden. Wir sprechen dabei von einem Bias oder Verzerrungen, die die erwünschten Ergebnisse verfälschen.

Wie können wir das vermeiden?

Vor allem müssen wir lernen, die Ergebnisse von Technologien kritisch zu hinterfragen. Das gehört zu einer digitalen Mündigkeit dazu. Im normalen Leben verlasse ich mich auch nicht nur auf eine Quelle.