„Im Jahr 1791 präsentierte der österreichisch-ungarische Tüftler Wolfgang von Kempelen eine Sprechmaschine, die alle menschlichen Sprachlaute artikulieren sollte. Mit Hilfe eines Blasebalgs, der als Lunge fungierte, einer Dudelsackpfeife (sie sollte die Stimmbänder ersetzen) sowie des trichterförmigen Endstücks einer Oboe als Resonator baute er die menschlichen Artikulationsorgane in einer kastenförmigen Apparatur nach.“ (Wiener Zeitung, 5. März 2021) Mit diesen Worten beginnt der Artikel „Sprechende Maschinen“ von Adrian Lobe. Der Journalist hat für den Beitrag u.a. Oliver Bendel interviewt, der zu Chatbots und Sprachassistenten forscht und mehrere Vorschläge für die Erweiterung der Markup Language unterbreitet hat, etwa bei der Konferenz „Love and Sex with Robots“ am Goldsmiths in London. Der Artikel ist am 5. März 2021 in der Wiener Zeitung erschienen und kann über www.wienerzeitung.at/nachrichten/reflexionen/vermessungen/2095145-Sprechende-Maschinen.html abgerufen werden. Oliver Bendel hat 2018 einen Artikel mit dem gleichen Titel veröffentlicht.
Wie verschiedene Medien melden, hat die chinesische Nachrichtenagentur Xinhua ein System vorgestellt, das im Fernsehen Nachrichten verlesen kann. Die verfügbaren Avatare sind realen Sprechern nachgebildet, nämlich Qiu Hao und Zhang Zhao. Die digitale Kopie von Qiu spricht chinesisch, die von Zhang englisch. „Das System nutzt Künstliche Intelligenz (KI) und maschinelles Lernen, um die Stimme, Lippenbewegungen, Mimik und Gestik der Vorbilder möglichst realistisch zu imitieren. Dadurch solle ein möglichst lebensnahes Abbild entstehen und kein kalter Roboter, erklärte Xinhua. Das System ist zudem lernfähig. Das bedeutet, die Avatare lernen von Videos menschlicher Sprecher und werden dadurch mit der Zeit besser.“ (Golem, 9. November 2018) Im Moment klingt die Stimme von Zhang erstaunlich künstlich. Die Stimmen üblicher Text-to-Speech-Engines erreichen eine bessere Qualität. Mit Hilfe von SSML kann man sie noch menschenähnlicher gestalten. Virtuelle Nachrichtensprecher sind insgesamt ein alter Hut. Ananova, eine virtuelle Nachrichtensprecherin, hatte vor 20 Jahren eine gewisse Popularität erlangt. Sie wechselte 2000 für eine Ablösesumme von 95 Millionen Pfund zum Telefonanbieter Orange.
Synthetische Stimmen kann man in vielfältiger Weise gestalten und anpassen. Man kann das Geschlecht vorgeben und das Alter, die Tonhöhe, die Klangfarbe und die Lautstärke variieren. Dafür steht zum Beispiel die Speech Synthesis Markup Language (SSML) zur Verfügung. Einige Befehle sind dafür geeignet, die Stimmen lebensechter zu machen. Selbst ein Flüstern kann man mit SSML inzwischen definieren, das ja nicht nur ein leises, sondern ein stimmloses Sprechen ist. Alexa wirkt damit noch menschlicher. Wie Google Duplex eindrucksvoll gezeigt hat, sind auch Pausen wichtig sowie Verzögerungslaute wie „Mmh“ und „Ähh“, also spezifische Sprechweisen. Die Einbindung von Kopf- und Körpergeräuschen könnte den Echtheitsgrad und die Überzeugungskraft weiter steigern. Wenn sich der virtuelle Assistent räuspert, wenn er die Nase hochzieht, die gar nicht vorhanden ist, dürfte kaum noch jemand denken, dass es sich um kein menschliches Gegenüber handelt. Ferner ist es möglich, Neben- und Hintergrundgeräusche zu integrieren. Übertreiben darf man es freilich nicht, und alle Geräusche müssen letztlich zusammenpassen.
„Keywords wie Digitalisierung, Künstliche Intelligenz und Big Data sind in aller Munde. Der Versicherungs- und Bankenmarkt steht unter ständiger Veränderung, Rahmenbedingungen ändern sich rapide und eine optimale Kundenbindung gewinnt zunehmend an Bedeutung. Doch worauf dürfen – und müssen – wir uns zukünftig einstellen?“ (Einladung APRIL) Über diese und weitere Themen wird beim diesjährigen APRIL-Praxisforum in München am 26. September 2018 diskutiert. Die Keynote von Oliver Bendel aus Zürich trägt den Titel „Im Dialog mit Maschinen“. Ob iPal, Pepper oder Lio – viele Roboter verstehen uns und sprechen mit uns. Virtuelle Assistenten wie Siri und Cortana belauschen uns und klingen immer menschenähnlicher. Alexa kann dank SSML inzwischen flüstern. Mit SSML kann man grundsätzlich in die Stimme eingreifen, sie höher und tiefer, jünger und älter machen, sie zufrieden und unsicher klingen lassen. Bei Google Duplex wurde zudem die Sprechweise angepasst, wurden Unterbrechungen und Ähs eingebaut. Was ist der technische Stand bei der Sprachsynthese, was ist aus ethischer Sicht anzumerken? Auf solche Fragen gibt Oliver Bendel Antworten. Weitere Informationen über www.april.de/index.php?id=124 (Link nicht mehr gültig).
„Dass es nur Kunst war, verdeckte die Kunst“, schrieb Ovid über die von Pygmalion geschaffene, menschenähnliche Elfenbeinskulptur, die dann von Aphrodite, in die er eigentlich verliebt war, zum Leben erweckt wurde. Galatea war sogar fruchtbar, anders als ihre Nachfolgerinnen, Liebespuppen wie Harmony und Sexroboter wie Roxxxy. Die natürliche Sprache ist beiden gegeben, und in den letzten Jahren hat man versucht, diese noch natürlicher wirken zu lassen. Oliver Bendel hat untersucht, wie man die Speech Synthesis Markup Language (SSML) zur Manipulation der synthetischen Stimme von Liebespuppen, Sexrobotern und allgemein Servicerobotern gebrauchen kann. Er schlug neue Tags, Attribute und Werte vor, die eine belegte Stimme und auch ein Seufzen und Stöhnen möglich machen. Amazon hat Alexa das Flüstern beigebracht, ebenfalls mit SSML. Google Assistant soll in Zukunft dazu dienen, in Restaurants und Frisörsalons anzurufen (das Projekt wird Duplex genannt). Damit kann man mit einer High-End-Technologie ganz normale Telefone auf der ganzen Welt bedienen und private Aufgaben automatisieren. Die Stimme klingt sehr lebensecht, und das Sprechen überhaupt, auch weil „Ähs“ und „Mmhs“ vorkommen, wie bei echten Menschen. In der Imperfektion könnte der Schlüssel zur Perfektion liegen. Ein Roboter, der für die Promotion von „Westworld“ geschaffen wurde, mit Unregelmäßigkeiten und Haaren im Gesicht, wirkt besonders authentisch, mehr als Harmony und Co. Dass es nur Kunst ist, wird die Kunst immer mehr und immer besser verdecken.
In einem weiteren KI-(Kunst-)Projekt wurde ein Haiku von Oliver Bendel angepasst, mit Hilfe von Google Translate ins Japanische übersetzt und mit Hilfe der Text-to-Speech-Engine von IBM Watson eingesprochen, unter Verwendung von SSML. Zuerst werden von Emi – so der Name der künstlichen Stimme – die Metainformationen durchgegeben, dann wird das Gedicht selbst vorgetragen. Dieses stammt aus dem Band „handyhaiku“ (1. Aufl. 2010, ein Buch, in dem jedes Gedicht zusätzlich in einem QR-Code steckt) und lautet dort so: „an den waenden mein / vernachlaessigtes handy / auf steckdosenjagd“ … Das Haiku kann über www.handyroman.net/handyhaiku/einstieg.html heruntergeladen werden (Link nicht mehr gültig). Das Projekt hat auch ethische Implikationen. Was bedeutet es, wenn Texte automatisch übersetzt werden? Bleiben sie verständlich? Können sie missverständlich sein? Können sie weitreichende Folgen haben? Was bedeutet es, wenn künstliche immer mehr menschliche Stimmen ablösen? Wenn sie in irgendeinem Sinne perfekt sind und der Mensch danach strebt, diese Perfektion zu erreichen? Oder wenn sie imperfekt sind und das Kind diese Imperfektion imitiert? Genau dies passiert bereits, wenn Pepper ein Familienmitglied in Japan ist, wie Aldebaran bzw. SoftBank vor einiger Zeit auf einer Konferenz in Krakau mitteilte.
Am 19. und 20. Dezember 2017 findet der „Third International Congress on Love and Sex with Robots“ in London statt. Die akzeptierten Papers sind auf loveandsexwithrobots.org/program/ aufgelistet. Den Anfang macht Prof. Dr. Oliver Bendel (School of Business FHNW, Schweiz) mit „SSML for Sex Robots“. Er hatte im vergangenen Jahr am Goldsmiths über Sexroboter aus Sicht der Maschinenethik vorgetragen. Dieses Mal widmet er sich synthetischen Stimmen. Prof. Dr. Sophie Wennerscheid (Ghent University, Belgien) ist mit ihrem Thema „Posthuman desire in robotics and science fiction“ vertreten, Dr. Rebekah Rousi (University of Jyväskylä, Finnland) mit „Lying cheating robots – robots and infidelity“, Prof. Dr. Deborah Blizzard (Rochester Institute of Technology, UK) mit „The Next Evolution: The Constitutive Human-Doll Relationship as Companion Species“. Aus der Schweiz kommt ein weiterer Beitrag, nämlich „Dolores and Robot Sex: Fragments of Non-Anthropocentric Ethics“ von Prof. Dr. Thomas Beschorner (University of St. Gallen, Schweiz) und Florian Krause (ebd.). Das Buch mit den Beiträgen der letzten Konferenz ist Ende April 2017 bei Springer erschienen. Weitere Informationen über loveandsexwithrobots.org.
Abb.: Oliver Bendel Ende 2017 (Foto: Dominik Büttner)
Dass Roboter auch Gedichte vortragen können, zeigt ein Projekt von Oliver Bendel, gestartet im November 2016. Benutzt wurde für den ersten Versuch die Text-to-speech-Engine von IBM Watson. Diese kann im Prinzip für Vorlesesysteme, für Chatbots oder für Serviceroboter verwendet werden. Das Gedicht wurde mit Hilfe der Speech Synthesis Markup Language (SSML) angepasst, einer auf XML basierenden Auszeichnungssprache. Die deutsche Stimme „Birgit“ unterstützt diese teilweise. So konnte das Personalpronomen „sie“ an drei Stellen in der Aussprache etwas verlängert werden. Es wurden Pausen am Anfang eingebaut, damit der Titel und die Metainformationen (Autor, System, Stimme, Datum) nicht zu schnell nacheinander gesprochen werden, zudem Pausen zwischen den Strophen. Der Titel des Gedichts lautet „Ein locker geflochtener Zopf“. Es geht um eine Astronautin, die auf einem Planeten, der Atmosphäre besitzt, ihr Haar schüttelt. Ein Roboter ist bei ihr, ein eitler Geck, der sich am liebsten selbst betrachtet. Die Texte aus der Sammlung „Die Astronautin“ kreisen um eine Frau im besten Alter, die allein in den Tiefen des Alls unterwegs ist. Veröffentlicht wurde daraus bisher nur „Auf dem obersten Deck“, und zwar in der Anthologie „Worte reden, Worte schweigen“ von 2013. Das Gedicht kann hier im Format .ogg heruntergeladen und beispielsweise im VLC Media Player angehört werden. In weiteren Versuchen will der Autor die Stimme selbst verändern und die eine oder andere Passage anders betonen lassen.
Abb.: Die Astronautin in jungen Jahren mit einem nicht ganz so locker geflochtenen Zopf