Wissen Sie manchmal auch ganz genau, was Ihr Gegenüber gleich sagen wird? Tatsächlich denkt unser Gehirn immer schon einen Schritt voraus. So können wir beim Zuhören etwa das nächste Wort mit einer erstaunlich hohen Trefferquote vorhersagen. Das ist umso bemerkenswerter, als diese Vorhersagen auf sehr vielen vorangegangenen Äußerungen beruhen können, auch wenn diese noch so irreführend sein mögen. Der Forschungsgruppe Auditive Kognition der Universität zu Lübeck ist es in Zusammenarbeit mit Forschenden des Max-Planck-Instituts für Kognitions- und Neurowissenschaften nun gelungen, mithilfe von Künstlicher Intelligenz zu erklären, wie unser Gehirn beim Sprachverstehen “voraushört“.
In einer Studie, die jetzt in der Fachzeitschrift Science Advances erschien, entschlüsselten sie, wie es das Gehirn schafft, die richtigen Informationen für das “Voraushören” auszuwählen. In einem Experiment, das den Herausforderungen des alltäglichen Sprachverstehens nachempfunden war, hörten Probandinnen und Probanden der Literaturnobelpreisträgerin Herta Müller rund eine Stunde aufmerksam dabei zu, wie sie im Plauderton von ihrer Kindheit im rumänischen Banat erzählte. Ein Magnetresonanztomograph zeichnete dabei fortlaufend die Aktivität im gesamten Gehirn der Zuhörenden auf. Menschen speichern ein soeben gehörtes Wort in der Hörrinde im Schläfenlappen und einen langen Satz im höher gelegenen, nachgeschalteten Scheitellappen.
Auch artifizielle Netzwerke aus dem Bereich des Maschinellen Lernens nutzen diese Grundprinzipien des menschlichen Gehirns und speichern das Gesagte in aufeinander aufbauenden, zunehmend abstrakten Verarbeitungsstufen. Mittlerweile sind sie in der Vorhersage von Sprache genauso gut wie Menschen. Auch gut trainierte artifizielle Netzwerke bekamen die Aufgabe, Herta Müllers Erzählung zu- und vorauszuhören. Den Kniff ihrer Studie beschreibt Studienleiterin Lea-Maria Schmitt so: „Indem wir vergleichen, wie Maschine und Mensch einen bestimmten Textabschnitt “bearbeiten”, können wir von den bekannten und leicht zu überprüfenden Berechnungen in artifiziellen Netzwerken auf noch unbekannte Verarbeitungsstrategien im Gehirn schließen.“
In der Auswertung machten die Forschenden zunächst die Entdeckung, dass Hirnregionen fernab der Hörrinde im Scheitellappen bei jenen Textstellen eine stärkere Aktivierung zeigten, bei denen sich auch eine höhere Verarbeitungsstufe des artifiziellen Netzwerks „überrascht“ von Herta Müllers nächster Äußerung zeigte. Dies verdeutlicht, dass in verschiedenen Hirnarealen unterschiedlich lange Gesprächsinhalte genutzt werden, um eine Vorhersage zu machen und diese mit anderen Hirnarealen abzustimmen. Erst eine solche Segmentierung von Gesprächen erlaubt es den Zuhörenden, einige Gesprächsabschnitte für die Vorhersage heranzuziehen, aber andere (bestenfalls unwichtige) zu ignorieren. Die „Vorhersagehierarchie“ in Schläfen- und Scheitellappen konnten die Forscherinnen und Forscher allerdings nur dann finden, wenn das artifizielle Netzwerk die Gesprächsinhalte in einzelne Ereignisse unterteilte. So werden im Schläfenlappen kurze, gerade erst beschriebene Ereignisse für die Vorhersage genutzt – etwa wenn Herta Müller in den blau-schwarzen Weintrauben (besser gesagt „Tintentrauben“) im Garten ihrer Eltern die Farbe der Nacht erkennt.
Im Scheitellappen werden hingegen längere, weiter zurücklie-gende Ereignisse hinterlegt – etwa wenn Herta Müller auf dem Weg zum Elternhaus einen ausgiebigen Spaziergang durch die Straßen ihres Heimatdorfs macht. Diese „ereignisbasierte“ Vorhersagehierarchie im Gehirn kann nicht nur sehr viele ver-schiedene Gesprächsinhalte vorhalten, sondern muss diese auch seltener, nämlich nur am Ende eines Ereignisses, aktualisieren. „Es könnte genau solch eine reichhaltige und doch recheneffiziente Netzwerkarchitektur sein, mit der unser Gehirn beim Zuhören genaue und schnelle Vorhersagen treffen kann“, erklärt Forschungsgruppenleiter Jonas Obleser.
Im Alltag unterstützt uns diese Hirnfunktion vor allem bei der erfolgreichen Kommunikation mit anderen und könnte künftig auch helfen, die Kommunikation zwischen Men-schen und Maschinen wie Siri oder Alexa weiter zu verbessern.
Universität Lübeck
Originalpublikation:
L.-M. Schmitt, J. Erb, S. Tune, A. U. Rysop, G. Hartwigsen, J. Obleser, Predicting speech from a cortical hierarchy of event-based timescales. Science Advances 7, eabi6070 (2021).