banner
Heim / Blog / Neuartiges Gehirnimplantat hilft gelähmter Frau mithilfe eines digitalen Avatars beim Sprechen
Blog

Neuartiges Gehirnimplantat hilft gelähmter Frau mithilfe eines digitalen Avatars beim Sprechen

Jun 12, 2023Jun 12, 2023

Neue Sprachneuroprothesen bieten möglicherweise eine Möglichkeit zur Kommunikation für Menschen, die aufgrund von Lähmungen oder Krankheiten nicht sprechen können. Eine schnelle, leistungsstarke Dekodierung wurde jedoch noch nicht nachgewiesen. Nun zeigen transformative neue Arbeiten von Forschern der UCSF und der UC Berkeley, dass mithilfe der neuesten Fortschritte in der künstlichen Intelligenz eine natürlichere Sprachdekodierung möglich ist.

Unter der Leitung des UCSF-Neurochirurgen Edward Chang haben die Forscher ein implantierbares, KI-gestütztes Gerät entwickelt, das erstmals Gehirnsignale in modulierte Sprache und Gesichtsausdrücke umwandelt. Dadurch konnte eine Frau, die aufgrund eines Schlaganfalls nicht mehr sprechen konnte, mithilfe eines sprechenden digitalen Avatars sprechen und Emotionen vermitteln. Die Forscher beschreiben ihre Arbeit in einer Studie, die heute (Mittwoch, 23. August) in der Fachzeitschrift Nature veröffentlicht wurde.

Mitautor der Studie Gopala Anumanchipalli, Assistenzprofessor und Ph.D. Die Studentin und Co-Hauptautorin Kaylo Littlejohn, beide vom Fachbereich Elektrotechnik und Informatik der UC Berkeley, diskutierte diese bahnbrechende Studie mit Berkeley Engineering. Die folgenden Fragen und Antworten wurden aus Gründen der Länge und Klarheit bearbeitet.

DasStudie ist in vielerlei Hinsicht bahnbrechend. Was war Ihre Rolle und was hatten Sie sich vorgenommen?

Gopala Anumanchipalli, Assistenzprofessor für Elektrotechnik und Informatik. (Foto mit freundlicher Genehmigung von Gopala Anumanchipalli)

Gopala: Hinter diesem Projekt steckt eine jahrzehntelange Geschichte. Als ich Postdoktorand in Edward Changs Labor war, hatten wir die Mission, sowohl die Gehirnfunktion zu verstehen, die der fließenden Sprachproduktion zugrunde liegt, als auch einige dieser neurowissenschaftlichen Erkenntnisse in technische Lösungen für Menschen zu übersetzen, die vollständig gelähmt und kommunikationsbehindert sind. Wir untersuchten Möglichkeiten zur Sprachsynthese aus Aufzeichnungen der Gehirnaktivität bei der Arbeit mit Epilepsiepatienten. Aber das sind ansonsten begabte Redner. Dieser Grundsatzbeweis wurde 2019 in Nature veröffentlicht. Wir hatten also eine gewisse Ahnung, dass wir das Gehirn auslesen könnten. Wir dachten dann, dass wir versuchen sollten, damit gelähmten Menschen zu helfen, was im Mittelpunkt der klinischen Studie BRAVO (BCI Restoration of Arm and Voice) stand.

Dieser Versuch, bei dem ein neues Gerät namens Sprachneuroprothese verwendet wurde, war erfolgreich und zeigte, dass wir vollständige Wörter aus der Gehirnaktivität entschlüsseln konnten. Es folgte eine weitere Studie, in der es uns gelang, mehr als 1.000 Wörter zu entschlüsseln, um eine Rechtschreibschnittstelle zu erstellen. Der Teilnehmer konnte beliebige NATO-Codewörter sagen – etwa Alpha, Bravo, Charlie – und diese transkribieren lassen. Wir haben die Modelle für maschinelles Lernen verbessert, die zum Dekodieren von Sprache verwendet werden, insbesondere durch die Verwendung von Decodern mit expliziten Phonetik- und Sprachmodellen, die diese Codewörter in fließende Sätze umwandeln, etwa wie Siri Ihre Stimme erkennt.

In diesem Projekt wollten wir den Wortschatz und die Genauigkeit verbessern, vor allem aber wollten wir über die Dekodierung der Rechtschreibung hinausgehen. Wir wollten direkt zur gesprochenen Sprache übergehen, denn das ist unsere Art der Kommunikation und die natürlichste Art, wie wir lernen.

Die Motivation hinter dem Avatar bestand darin, dem Teilnehmer zu helfen, sich verkörpert zu fühlen, ein Abbild zu sehen und dieses Abbild dann zu kontrollieren. Zu diesem Zweck wollten wir ein multimodales Kommunikationserlebnis bieten.

Wie haben Sie Gehirnsignale in Sprache und Ausdruck übersetzt? Auf welche technischen Herausforderungen sind Sie dabei gestoßen?

Kaylo LIttlejohn, EECS Ph.D. Student und Co-Hauptautor einer bahnbrechenden Studie zur Sprachneuroprothese, durchgeführt von UCSF und Berkeley Engineering. (Bild aus Video von Pete Bell, UCSF)

Kaylo: Da gelähmte Menschen nicht sprechen können, haben wir keine Grundwahrheit, auf die wir das, was sie sagen wollen, abbilden können. Deshalb haben wir eine maschinelle Lernoptimierungstechnik namens CTC-Verlust integriert, die es uns ermöglichte, Gehirnsignale diskreten Einheiten zuzuordnen, ohne dass „Ground Truth“-Audio erforderlich war. Anschließend haben wir die vorhergesagten diskreten Einheiten in Sprache synthetisiert. Die diskreten Spracheinheiten kodieren Aspekte wie Tonhöhe und Ton, die dann synthetisiert werden, um Audio zu erzeugen, das der natürlichen Sprache näher kommt. Es sind diese Beugungen und Kadenzänderungen, die der Sprache über die eigentlichen Wörter hinaus eine große Bedeutung vermitteln.

Im Fall des Textes ist Sean Metzger [Co-Hauptautor und Ph.D.] Student im gemeinsamen Bioengineering-Programm an der UC Berkeley und der UCSF] zerlegte Wörter in Phoneme.

Wir haben dies auch auf natürlichere Kommunikationsmodi wie Sprache und Mimik ausgeweitet, bei denen die diskreten Einheiten Artikulationsgesten wie bestimmte Mundbewegungen sind. Wir können die Gesten anhand der Gehirnaktivität vorhersagen und sie dann in die Art und Weise umwandeln, wie sich der Mund bewegt.

Für die Gesichtsanimation haben wir mit Speech Graphics zusammengearbeitet, um die Gesten und Sprache in einen digitalen Avatar zu animieren.

Gopala: Um Kaylos Standpunkt zu unterstreichen, haben wir die gesamte vorhandene KI-Technologie genutzt, um im Wesentlichen zu simulieren, wie eine gültige Ausgabe für einen bestimmten Satz aussehen würde. Und dazu nutzen wir die Sprachdaten, die in den großen Sprachmodellen von Siri, Google Assistant und Alexa verfügbar sind. Wir haben also eine Vorstellung davon, was eine gültige Folge repräsentativer Einheiten für eine gesprochene Sprache ist. Dem könnte das Gehirnsignal entsprechen. Die Teilnehmerin las beispielsweise Sätze, und wir verwendeten dann simulierte Paare dieser Daten: Der Input stammt von ihren Gehirnsignalen und der Output ist die Folge diskreter Codes, die aus diesen großen gesprochenen Sprachmodellen vorhergesagt wurden.

Wir konnten auch die Stimme der Teilnehmerin personalisieren, indem wir eine Videoaufzeichnung ihrer Rede bei ihrer Hochzeit vor etwa 20 Jahren verwendeten. Wir haben die einzelnen Codes sozusagen auf ihre Stimme abgestimmt. Sobald wir dieses von uns simulierte Paar-Alignment hatten, verwendeten wir die von Kaylo erwähnte Sequenz-Alignment-Methode, den CTC-Verlust.

Ein wichtiger Teil dieser multimodalen Sprachprothese ist der Avatar. Gab es besondere Überlegungen oder Herausforderungen bei der Verwendung dieser Art von visueller Komponente?

Kaylo: Die Hauptmotivation für die Verwendung dieses Avatars besteht darin, eine ergänzende Ausgabe zur Sprach- und Textdekodierung bereitzustellen. Der Avatar kann verwendet werden, um viele nichtsprachliche Ausdrücke zu vermitteln. In der Arbeit haben wir beispielsweise gezeigt, dass wir die Fähigkeit des Teilnehmers entschlüsseln konnten, zu lächeln, die Stirn zu runzeln oder ein überraschendes Gesicht zu machen – und zwar in unterschiedlicher Intensität, von niedrig bis hoch. Außerdem haben wir gezeigt, dass wir artikulatorische Gesten, die nichts mit der Sprache zu tun haben, entschlüsseln können, etwa das Öffnen des Mundes, das Falten der Lippen usw.

Die Teilnehmerin möchte eines Tages als Beraterin arbeiten und äußerte, dass es für sie wertvoll wäre, Emotionen durch Mimik vermitteln zu können.

Die Herausforderung bei der Verwendung eines Avatars besteht jedoch darin, dass er eine hohe Wiedergabetreue aufweisen muss, damit er nicht zu unrealistisch aussieht. Als wir mit diesem Projekt begannen, arbeiteten wir mit einem sehr groben Avatar, der nicht sehr realistisch war und kein Zungenmodell hatte. Als Neuroingenieure brauchten wir einen hochwertigen Avatar, der uns Zugang zu seinem Muskel- und Stimmsystem ermöglichte. Daher war es von entscheidender Bedeutung, eine gute Plattform dafür zu finden.

Sie hatten die Entschlüsselung der Signale erwähnt, die den Gesichtsausdruck steuern. Könnten Sie etwas mehr darüber erzählen, wie Sie das gemacht haben?

Der Koordinator für klinische Forschung, Max Dougherty, verbindet im Rahmen einer von Dr. Ed Chang an der UCSF geleiteten Studie einen neuronalen Datenanschluss in Anns Kopf mit dem Sprachneuroprothesensystem. (Foto von Noah Berger)

Gopala: Hier ist eine Analogie: Ein Musikstück kann in einzelne Noten zerlegt werden, wobei jede Note eine ganz andere Tonhöhe einfängt. Stellen Sie sich die diskreten Codes, die Kaylo erwähnt, als diese Notizen vor. Und es gibt ein Korrelat für die Note in Bezug darauf, wie sie klingt, aber es gibt auch ein Korrelat dafür, was passieren muss, damit dieser Klang erzeugt wird. Wenn die Note also für den Laut „pa“ steht, klingt sie wie „pa“, verkörpert aber auch die Aktion, bei der sich die Lippen zusammenziehen und loslassen.

Der Mechanismus wird durch diese Einheiten codiert, die der Avatar verwaltet, und der Klang ist der Ort, an dem die Synthese stattfindet. Im Wesentlichen zerlegen wir die Neuro-Sprachsequenz in eine diskrete Folge von Noten.

Kaylo: Stellen Sie sich den Satz vor: „Hey, wie geht’s?“ Es gibt eine Abfolge von Stimmbewegungen, die mit diesem Laut verbunden sind. Und wir können ein Modell trainieren, das diese Muskelbewegungen aufnimmt und in diesen diskreten Code umwandelt, ähnlich den Noten für Musik. Und dann können wir diesen diskreten Code aus dem Gehirn vorhersagen und von dort aus auf die kontinuierliche Bewegung des Muskeltrakts zurückgreifen, und das ist es, was den Avatar antreibt.

Welche Rolle hat KI bei der Entwicklung dieser neuen Gehirn-Computer-Schnittstelle und multimodalen Kommunikation gespielt?

Gopala: Alle Algorithmen und Dinge, die dafür entwickelt wurden, dass Ihre Alexa funktioniert, sind wirklich der Schlüssel, um einiges davon zum Erfolg zu führen. Ohne KI wären wir also im Großen und Ganzen nicht in der Lage, dies zu tun. Und mit KI meine ich nicht nur aktuelle KI wie ChatGPT, sondern die Kerntechnik, die jahrzehntelange KI und maschinelles Lernen ermöglicht hat.

Noch wichtiger ist, dass wir mit Nervenimplantaten immer noch nur begrenzte Zugangsmöglichkeiten zum Gehirn haben, sodass unsere Sicht sehr dürftig ist. Da wir im Wesentlichen durch ein Schlüsselloch spähen, müssen wir immer die KI nutzen, um die fehlenden Details zu ergänzen. Es ist so, als ob Sie der KI eine Rohskizze geben können und sie die Details ergänzen kann, um sie realistischer zu machen.

Wenn es schließlich um eine völlig geschlossene Lösung für eine Prothese geht, ist das Ziel ein Kommunikationspartner. Dies könnte eine KI sein, die mit jedem Signal arbeitet, das sie von der Person wahrnimmt, aber wie ChatGPT auch eine ganze Reihe von Statistiken darüber verwendet, wie am besten reagiert wird, um eine kontextbezogenere Reaktion zu erzielen.

Gab es im Zusammenhang mit Ihrer Arbeit überraschende Erkenntnisse?

Kaylo: Besonders wichtig ist, dass wir gezeigt haben, dass die Repräsentationen des Stimmtrakts im Gehirn des Teilnehmers erhalten bleiben. Aus Studien mit gesunden Teilnehmern wissen wir, dass die Mundbewegungen einer Person im Kortex kodiert werden, wenn sie versucht zu sprechen. Es war jedoch unklar, ob dies bei jemandem der Fall sein würde, der an einer schweren Lähmung leidet. Verkümmern diese Regionen beispielsweise mit der Zeit oder sind diese Darstellungen immer noch vorhanden, die wir zum Entschlüsseln von Sprache verwenden können?

Wir haben bestätigt, dass Artikulations- oder Stimmtraktdarstellungen im Kortex des Teilnehmers erhalten bleiben, und das ist es, was das Funktionieren aller drei dieser Modalitäten ermöglicht.

Gopala: Genau! Der Gehirnteil speichert diese Codes also immer noch an der richtigen Stelle. Da haben wir sozusagen einen Jackpot geknackt. Denn wenn es zu einem Verlust gekommen wäre, wäre die Operation umsonst gewesen. Und die KI hilft dabei, indem sie auch die Details ausfüllt. Aber es trägt auch dazu bei, dass sich der Teilnehmer verkörpert fühlt und neue Sprechweisen erlernt, und das ist der Schlüssel zum Erreichen der nächsten Stufe.

Allerdings konzentriert sich die aktuelle KI auf Computer und nicht auf Menschen. Wir müssen darüber nachdenken, was KI sein sollte, wenn ein Mensch beteiligt ist, und dass sie stärker auf den Menschen ausgerichtet ist, anstatt ihr eigenes Ding zu machen. Es muss seine Autonomie mit dem Menschen teilen, damit der Mensch weiterhin das Steuer übernehmen kann, während die KI der kooperative Agent ist.

Was sehen Sie als Ihre nächsten Schritte?

Kaylo: Für den realen Einsatz wird es wirklich wichtig sein, über einen stabilen Decoder zu verfügen, der langfristig funktioniert. Ideal wäre es, wenn wir etwas entwickeln könnten, das die Teilnehmerin mit nach Hause nehmen und über mehrere Jahre hinweg im Alltag nutzen könnte, ohne dass eine weitere Neurochirurgie nötig wäre.

Gopala: Ich denke, dass der unmittelbare logische nächste Schritt darin besteht, die mit dem Prozess verbundene Latenz zu reduzieren. Anstatt also ein paar Sekunden Verzögerung zwischen dem Nachdenken der Teilnehmerin über das, was sie sagen möchte, und den Worten, die aus dem Mund des Avatars kommen, zu haben, würden wir die Latenz so weit minimieren, dass sich der Prozess für sie wie Echtzeit anfühlt.

Wir sollten auch darüber nachdenken, die Prothese zu miniaturisieren und sie zu einem eigenständigen Gerät zu machen, ähnlich einem Herzschrittmacher. Es sollte eigenständig funktionieren, über eigene Energie verfügen und immer beim Teilnehmer sein, ohne dass die Forscher das Gerät steuern.

Welchen Einfluss hatte die Partnerschaft zwischen UCSF und Berkeley Engineering auf den Erfolg dieses Projekts?

Gopala: Diese Studie nutzt in hohem Maße Tools, die wir hier in Berkeley entwickelt haben und die wiederum von den neurowissenschaftlichen Erkenntnissen der UCSF inspiriert sind. Aus diesem Grund ist Kaylo ein so wichtiger Verbindungsmann zwischen Technik, Wissenschaft und Medizin – er ist sowohl an der Entwicklung dieser Werkzeuge beteiligt als auch an deren Einsatz im klinischen Umfeld. Ich könnte mir vorstellen, dass dies nirgendwo anders geschieht, außer an einem Ort, der die beste Technik und die beste Medizin bietet und auf dem neuesten Stand der Forschung ist.

Kaylo: Ich glaube nicht, dass dieses Projekt zustande gekommen wäre, wenn uns nicht alle von Berkeley und UCSF bereitgestellten Ressourcen zur Verfügung gestanden hätten. Wir haben viele aktuelle Fortschritte im Ingenieurwesen, in der KI und unser Verständnis der neuronalen Sprachverarbeitung genutzt, damit dieses Projekt gut funktioniert. Dies ist ein großartiges Beispiel dafür, wie zwei Institutionen zusammenkommen und eine gute Forschungsarbeit leisten.

DasStudie ist in vielerlei Hinsicht bahnbrechend. Was war Ihre Rolle und was hatten Sie sich vorgenommen?Gopala: Wie haben Sie Gehirnsignale in Sprache und Ausdruck übersetzt? Auf welche technischen Herausforderungen sind Sie dabei gestoßen?Kaylo:Gopala: Ein wichtiger Teil dieser multimodalen Sprachprothese ist der Avatar. Gab es besondere Überlegungen oder Herausforderungen bei der Verwendung dieser Art von visueller Komponente?Kaylo: Sie hatten die Entschlüsselung der Signale erwähnt, die den Gesichtsausdruck steuern. Könnten Sie etwas mehr darüber erzählen, wie Sie das gemacht haben?Gopala:Kaylo:Welche Rolle hat KI bei der Entwicklung dieser neuen Gehirn-Computer-Schnittstelle und multimodalen Kommunikation gespielt?Gopala:Gab es im Zusammenhang mit Ihrer Arbeit überraschende Erkenntnisse?Kaylo:Gopala:Was sehen Sie als Ihre nächsten Schritte?Kaylo:Gopala:Welchen Einfluss hatte die Partnerschaft zwischen UCSF und Berkeley Engineering auf den Erfolg dieses Projekts?Gopala:Kaylo:Themen: