Studie verblüfft selbst ForscherKI-Stimmen verständlicher als echte Menschen

Künstliche Intelligenz erzeugt Stimmen, die in lauten Umgebungen besser verständlich sind als echte. Jetzt suchen die Forscher nach dem Geheimnis hinter der Überlegenheit der KI.
Von Siri bis Alexa – und zunehmend auch im telefonischen Kundenservice: Synthetische Stimmen begegnen einem im Alltag immer öfter. Mittlerweile gibt es auch sogenannte Stimmklone, Nachbildungen von Stimmen echter Menschen mithilfe von KI. Bereits wenige Sekunden Tonaufnahme reichen aus, um eine menschliche Stimme zu klonen. Doch wie gut ist die Qualität dieser künstlichen Stimmen?
Genau diese Frage hat auch ein Forscherduo aus Großbritannien gestellt: Es wollte ermitteln, wie leicht Stimmklone für den Durchschnittsmenschen zu verstehen sind. Die Forschenden gingen davon aus, dass Stimmklone lediglich schlechte Nachbildungen tatsächlicher menschlicher Stimmen seien - und dass Hörer diese in der Regel schlechter verstünden als die Stimmen echter Menschen.
So lief das Experiment ab: Das Duo spielte den Teilnehmern ihrer Studie zunächst menschliche Stimmen und Stimmklone vor. Die Probanden sollten dann jeweils deren Verständlichkeit bewerten. Das Ergebnis ihres Experiments überraschte die Forscher: Es stellte sich heraus, dass die Stimmklone besser zu verstehen waren als die Stimmen realer Menschen - jedenfalls in lauten Umgebungen.
Das Forschungsteam wiederholte das Experiment schließlich mit älteren Freiwilligen, mit US-Amerikanern (die ursprüngliche Gruppe bestand aus Briten) und schließlich mit einem Filter, der ein Hörgerät nachahmt und über die Stimmaufnahmen gelegt wurde. Dadurch wollten die Wissenschaftler testen, ob Schwerhörigkeit, der Akzent der Stimmen oder der Filter eine Rolle spielen. Es änderte aber nichts am Ergebnis: Die künstlichen Stimmen siegten im Hinblick auf die Verständlichkeit.
Suche nach einer Antwort
"Ich dachte zunächst, dass Stimmklone weniger verständlich wären, weil sie ungewohnt sind", sagte Forscherin Patti Adank laut einer Mitteilung. "Ich stellte fest, dass sie bis zu 20 Prozent verständlicher waren, was ziemlich schockierend war." Ihr Kollege und sie hätten in der Folge versucht, zu verstehen, was diese Stimmklone verständlicher macht.
Nach der Auswertung von über 100 akustischen Messungen waren die Forscher bei der Suche nach einer Lösung des Rätsels allerdings nicht wesentlich weiter. Sie wollen nun mit Partnern zusammenarbeiten, die sich auf Text-to-Speech-Systeme spezialisiert haben, um dem Geheimnis der KI-Stimmen auf die Spur zu kommen. Ihre aktuelle Studie wurde in der Fachzeitschrift "JASA" veröffentlicht.