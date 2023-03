Japanischen Wissenschaftlern gelingt es, mit KI-Hilfe besser als jemals zuvor, aus MRT-Scans Gedanken zu visualisieren. Sie machen es sich auch besonders einfach, denn sie nutzen dafür den populären und frei verfügbaren Text-zu-Bild-Generator Stable Diffusion.

Bereits seit einigen Jahren arbeiten Wissenschaftler daran, mithilfe mathematischer Modelle beziehungsweise Künstlicher Intelligenz Gedanken zu "lesen". Das heißt, sie versuchen zu visualisieren, was Menschen sehen oder sich vorstellen. Japanischen Forschern ist jetzt gelungen, besonders realistische Bilder mit einem eher ungewöhnlichen Werkzeug zu erzeugen. Ihre Ergebnisse haben die Wissenschaftler der Universität Osaka in einem Preprint und einer knappen Zusammenfassung veröffentlicht. Begutachtet ist die Studie noch nicht.

Oben die gesehenen, unten die rekonstruierten Bilder. (Foto: Yu Takagi/Shinji Nishimoto)

Basis einer bildlichen Rekonstruktion von Gedanken ist die sogenannte funktionelle Magnetresonanztomografie (fMRT). Sie macht neuronale Aktivitäten im Gehirn sichtbar, indem sie Durchblutungsänderungen darstellt. Wie das grundsätzlich abläuft, hat schon 2011 die kalifornische Universität Berkley beschrieben, an der einer der beiden Studienautoren, Shinji Nishimoto, damals auf dem Gebiet forschte.

Stundenlang in der Röhre

Nishimoto selbst war damals einer der Propanden, die mehrere Stunden in einem MRT-Scanner verbrachten. Er schaute sich Filmtrailer an, während der Blutfluss in dem Bereich seines Gehirns gemessen wurde, der visuelle Informationen verarbeitet (visueller Kortex).

Am Computer wurde das Gehirn in kleine, dreidimensionale Würfel unterteilt, die als volumetrische Pixel oder "Voxel" bezeichnet werden. Die aufgezeichnete Gehirnaktivität wurde in ein Computerprogramm eingespeist, das so lernte, visuelle Muster im Film mit der entsprechenden Gehirnaktivität zu verknüpfen.

Verrauschen und Entrauschen

Um die gewonnenen Informationen zu dekodieren, wurden bisher sehr aufwändige Modelle verwendet, die trotzdem oft nur recht schwammige Bilder erzeugten. Für ihren neuen Ansatz verwendeten Nishimoto und sein Kollege Yu Tagagi stattdessen Stable Diffusion. Dabei handelt es sich um ein sogenanntes Diffusionsmodell, das eigentlich dazu da ist, fotorealistische Bilder aus Texteingaben zu generieren.

Diffusionsmodelle lernen im Prinzip, indem sie zuerst ein Bild mit immer mehr Pixeln bis zur Unkenntlichkeit "verrauschen" und dann den Prozess rückgängig machen. So trainiert ist ein Modell in der Lage, Daten zu erzeugen, indem es zufällig abgetastetes Rauschen durch den erlernten Entrauschungsprozess verarbeitet. Sehr schön erklärt dies Michael Katzlberger in einem Artikel zu Stable Diffusion auf "Artificial Creativity".

Laut dem KI-Experten Salvator Raieli sind bei der von den Japanern umgesetzten Lösung zunächst die aus dem Bild extrahierten Informationen wichtiger und die Text-Konditionierung erfolgt später. Man könnte also sagen, sie dient zur Verfeinerung, was den in der Vorab-Studie gezeigten Bildern entspricht.

Modell von der Stange

Stable Diffusion ist nicht nur besonders, weil es Open Source, also für jedermann zugänglich ist. Die Autoren der Studie weisen auch darauf hin, dass es einfach und kostengünstig arbeitet. Denn Stable Diffusion ist im Prinzip ein Modell von der Stange, das nicht extra entwickelt und von Grund auf neu trainiert werden muss. Und es ist so genügsam, dass es auch auf Heim-PCs ausgeführt werden kann.

Das Modell ist aber nicht nur eine sehr effiziente Lösung. Die Kombination von Bild- und Text-Kodierung, die mit dem Modell möglich sind, erzeugt den japanischen Wissenschaftlern nach auch hochauflösende Bilder mit hoher Wiedergabetreue, "auf höchstem Niveau".

Die japanische Studie könnte ein wichtiger Schritt zu einer praktischen Umsetzung der Technologie zur Visualisierung von Gedanken sein. Man könnte unter anderem besser verstehen, was in Menschen vorgeht, die sich nicht verbal äußern können, beispielsweise Schlaganfallopfer oder Komapatienten. Oder gelähmte Menschen erhalten über eine Schnittstelle die Möglichkeit, Computer mit ihrem Verstand zu steuern.