Wie wäre es, wenn Sie sich ntv-Artikel von unseren Moderatoren vorlesen lassen könnten? In unserem Innovationsprojekt probieren wir genau das aus. Der Clou: Die Stimmen wurden automatisiert, das Vorlesen übernimmt eine Künstliche Intelligenz. Auch für Moderatoren ein neues Erlebnis.

Texte in lebensechte Sprache übertragen – darum geht es bei der Entwicklung sogenannter "text-to-speech"-Angebote. Aus einem geschriebenen Text wird eine gesprochene Stimme erzeugt, und zwar eine, die nicht einem Roboter gleicht, sondern von unseren menschlichen Stimmen nicht mehr zu unterscheiden ist.

RTL Deutschland hat für ein von der Landesanstalt für Medien NRW gefördertes Innovationsprojekt die Stimmen von RTL-Moderator Maik Meuser und Podcast-Host Inken Wriedt mit Hilfe einer selbstlernenden Speech-Technologie von Microsoft künstlich nachgebildet.



Das Ergebnis können Sie sich nun in einem ersten Test bei ausgewählten Artikeln hier auf www.ntv.de sowie in der ntv-App für iOS anhören.

Wie entsteht der digitale Stimmabdruck eines Menschen?

Für die Sprachsynthese werden zwei Dinge benötigt: Daten und Zeit. In unserem Innovationsprojekt haben wir von Maik Meuser und Inken Wriedt mehrere Stunden Audiomaterial verwendet und damit die Künstlichen Intelligenz von Microsoft zum Trainieren angefüttert.

Bei diesem "Training" lernt die KI wie ein Kleinkind: Sie bekommt das eingesprochene Material immer wieder vorgespielt und leitet daraus ab, wie ein Mensch spricht und seine Stimme zusammengesetzt ist. Im Vergleich zu einem Kleinkind braucht die KI dafür nur ein bis zwei Tage.

Wie das Kind imitiert die KI dann das gehörte Material, die künstliche Stimme klingt wie jene, die die ursprünglichen Texte eingesprochen hat. Sogenannte "neuronale Netze" sorgen dann dafür, dass die KI aus ihrem neuen Wortschatz beliebige Texte vorlesen kann. Sie hat gelernt, wie die Stimme einzelne Wörter ausspricht.

Die enormen Fortschritte, die die Künstliche Intelligenz und das Machine Learning derzeit erleben, lassen sich auch daran bemessen, wie wenig Trainings-Material für die erfolgreiche Synthetisierung nötig ist. Zwei Stunden und 18 Minuten Audio-Material wurden beispielsweise verwendet, damit die synthetische Stimme von Maik Meuser "nahe an das kommt, was ich gewohnt bin, wenn ich mich höre." Der RTL-Moderator hatte zuvor geschätzt, dass dazu mindestens 50 Stunden verwendet wurden.

Schutz vor Missbrauch

Mit den Möglichkeiten wächst auch die Verantwortung, die Technik nicht zu missbrauchen. Natürlich habe er die Sorge, dass die synthetische Stimme seiner Glaubwürdigkeit schaden könnte, wenn sie zum Beispiel benutzt würde, um etwas zu sagen, was komplett gegen seine Ansichten gehe, meint Maik Meuser. "Zum Beispiel jetzt ganz aktuell bei Kriegspropaganda."

Damit so etwas nicht passiert, folgt das Pilotprojekt strengen ethischen Richtlinien, die in einem "Code Of Ethics" festgeschrieben sind. So darf die Technologie nur eingesetzt werden, wenn sie für Nutzerinnen und Nutzer als solche erkennbar ist. Ausgeschlossen sind alle Inhalte, die Meinungsbildung manipulativ beeinflussen können, auch werden zum Beispiel Stimmen von Politikern nicht synthetisiert.

Hören Sie einmal rein, wir freuen uns über Ihr Feedback.