Synthetische Stimmen mit individuellen Zügen lebender Personen werden mehr und mehr für Trickbetrug verwendet. Ein solchen Fall gab es im Sommer 2023 im Aargau in der Schweiz. Ein Mann wurde von seiner vermeintlichen Frau angerufen, ohne dass er zunächst erkannte, dass es sich um eine mit Hilfe von Machine Learning generierte Stimme und damit um einen Trickbetrug handelte. Der Lokalsender Tele M1 interviewte am 4. Juli 2023 Prof. Dr. Oliver Bendel dazu, wie solche synthetischen Stimmen entstehen. Er forscht seit einem Vierteljahrhundert zu KI-Systemen und Robotern und seit sieben Jahren speziell auch zu synthetischen Stimmen. Grundsätzlich werden in solchen Fällen neuronale Netzwerke benutzt. Man kann sie mit der individuellen Stimme trainieren. Dafür braucht es 15 – 30 Minuten an Material. Die Zeit verkürzt sich auf wenige Sekunden, wenn man vorher ein Sprachmodell mit einigen tausend Stimmen trainiert hat und einige Voraussetzungen erfüllt sind. Die Resultate können so oder so täuschend echt sein. Oft sind aber nicht die gewohnten Hintergrundgeräusche vorhanden, oder es fehlen typische Verhaltensweisen der Person, etwa das Nasehochziehen oder ein Stühlerücken. Es lohnt sich also, gut hinzuhören und im Zweifel auch einen Rückruf zu verlangen. Mehrere Aussagen aus dem Interview wurden in den Beitrag „Schockanrufe: So gelangen die falschen Polizisten an die Stimmen der Opfer“ der abendlichen Nachrichtensendung aufgenommen. Weitere Informationen zum Sender über www.telem1.ch.
There is great media interest in the new book „Maschinenliebe“ (ed. Oliver Bendel), which was published in October 2020. Several review copies were sent out. The title means „Machine Love“, „Machines for Love“, or „Machines of Love“. Three contributions are in English. One of them – „Speaking with Harmony: Finding the right thing to do or say … while in bed (or anywhere else)“ – is by Kino Coursey (Realbotix). From the abstract: „Doing or saying the right thing in response to circumstances is a constant problem, especially for embodied personal companions like Realbotix’s Harmony. In this paper we will describe the Harmony system, how it finds the right thing to say or do, and how recent advances in neural network-based natural language processing and generation will be integrated into next-generation systems. These advances will allow the transition from pattern-oriented responses to dynamic narrative-oriented response generation. Future systems will be able adapt to their situation much more flexibly, and allow a wider range of role-playing and interaction.“ The focus here is on the use of large language models such as GPT-2. More information via www.springer.com/de/book/9783658298630.
Synthetische Stimmen kann man in vielfältiger Weise gestalten und anpassen. Man kann das Geschlecht vorgeben und das Alter, die Tonhöhe, die Klangfarbe und die Lautstärke variieren. Dafür steht zum Beispiel die Speech Synthesis Markup Language (SSML) zur Verfügung. Einige Befehle sind dafür geeignet, die Stimmen lebensechter zu machen. Selbst ein Flüstern kann man mit SSML inzwischen definieren, das ja nicht nur ein leises, sondern ein stimmloses Sprechen ist. Alexa wirkt damit noch menschlicher. Wie Google Duplex eindrucksvoll gezeigt hat, sind auch Pausen wichtig sowie Verzögerungslaute wie „Mmh“ und „Ähh“, also spezifische Sprechweisen. Die Einbindung von Kopf- und Körpergeräuschen könnte den Echtheitsgrad und die Überzeugungskraft weiter steigern. Wenn sich der virtuelle Assistent räuspert, wenn er die Nase hochzieht, die gar nicht vorhanden ist, dürfte kaum noch jemand denken, dass es sich um kein menschliches Gegenüber handelt. Ferner ist es möglich, Neben- und Hintergrundgeräusche zu integrieren. Übertreiben darf man es freilich nicht, und alle Geräusche müssen letztlich zusammenpassen.
Schon vor tausenden Jahren träumte der Mensch davon, künstliche Kreaturen zu schaffen. Diese sollten seine Gehilfen sein, seine Begleiter, Geliebten und Krieger. Bei Homer und Ovid lernen wir sie kennen, schätzen und fürchten. Die meisten dieser Kreaturen, auch in Mittelalter, Renaissance und Barock, waren stumm. Damit wurde die Kluft zwischen ihnen und uns angedeutet. Eine Ausnahme bildeten die sprechenden Köpfe, die in die Zukunft blicken konnten. Heute tragen uns Text-to-Speech-Systeme die Inhalte von Websites vor, plaudern Sprachassistenten wie Siri und Alexa mit uns und melden sich Fahrzeuge laut und vernehmlich zu Wort. Ein weites Feld aus technischer, psychologischer und ethischer Perspektive. Der Artikel „Sprechende Maschinen“ von Oliver Bendel, der im September 2018 in der UnternehmerZeitung erschienen ist, schlägt einen Bogen von der Antike bis zur Gegenwart und zeigt heutige Möglichkeiten und Herausforderungen bei synthetischen Stimmen auf. Der Beitrag kann hier heruntergeladen werden.
„Keywords wie Digitalisierung, Künstliche Intelligenz und Big Data sind in aller Munde. Der Versicherungs- und Bankenmarkt steht unter ständiger Veränderung, Rahmenbedingungen ändern sich rapide und eine optimale Kundenbindung gewinnt zunehmend an Bedeutung. Doch worauf dürfen – und müssen – wir uns zukünftig einstellen?“ (Einladung APRIL) Über diese und weitere Themen wird beim diesjährigen APRIL-Praxisforum in München am 26. September 2018 diskutiert. Die Keynote von Oliver Bendel aus Zürich trägt den Titel „Im Dialog mit Maschinen“. Ob iPal, Pepper oder Lio – viele Roboter verstehen uns und sprechen mit uns. Virtuelle Assistenten wie Siri und Cortana belauschen uns und klingen immer menschenähnlicher. Alexa kann dank SSML inzwischen flüstern. Mit SSML kann man grundsätzlich in die Stimme eingreifen, sie höher und tiefer, jünger und älter machen, sie zufrieden und unsicher klingen lassen. Bei Google Duplex wurde zudem die Sprechweise angepasst, wurden Unterbrechungen und Ähs eingebaut. Was ist der technische Stand bei der Sprachsynthese, was ist aus ethischer Sicht anzumerken? Auf solche Fragen gibt Oliver Bendel Antworten. Weitere Informationen über www.april.de/index.php?id=124 (Link nicht mehr gültig).
In love and sex, the voice is a decisive factor. It not only matters what is said, but also how it is said. Pitch, volume and personal expression are important to attract and retain potential partners. The same goes for sex robots and love dolls, and is true for chatbots and virtual assistants with sexual orientation as well. If you are not working with ordinary recordings, they all need artificial voices (if you decide to use voices at all). The synthetization of voices, or speech synthesis, has been an object of interest for centuries. Today, it is mostly realized with a text-to-speech system (TTS), an automaton that interprets and reads aloud. This system refers to text which is available for instance in a knowledge base or on a website. Different procedures have been established to adjust the artificial voice. A recently published article by Oliver Bendel examines how the Speech Synthesis Markup Language (SSML) can be used for sex robots and love servants. Existing tags, attributes and values are categorized in the present context and new ones are proposed to support the purpose of the special machines. In addition, a short ethical discussion takes place. The article „SSML for Sex Robots“ is part of the new Springer book „Love and Sex with Robots“ …
Fig.: The artificial voices of love dolls and sex robots must be specially designed
Die 2. VDI-Konferenz „Humanoide Roboter“ am 5. und 6. Dezember 2017 beschäftigte sich wieder – wie die 1. VDI-Konferenz mit diesem Titel – mit „dem Menschen nachempfundenen Robotern“ (Website VDI). Am 6. Dezember 2017 sprach Prof. Dr. Oliver Bendel (Hochschule für Wirtschaft FHNW) über „SSML für humanoide Serviceroboter“. Es ging darum, wie man künstliche Stimmen so manipuliert, dass sie z.B. zu Informations- und Navigationsrobotern passen. Am Rande stellte er auch Fragen aus der Ethik heraus, etwa mit Blick auf die Stimmen von Pflegerobotern. Der Postprint kann hier heruntergeladen werden. Es folgte Dr.-Ing. Hendrik Wöhrle vom DFKI mit einem Vortrag über „Eingebettete Biosignalverarbeitung und integrierte Regelung eines Ganzkörper-Exoskelettes für die Neuro-Rehabilitation“. Der Moderator, Prof. Dr. Frank Kirchner vom DFKI, ging zusammen mit dem jungen Wissenschaftler auf Fragen aus dem Publikum ein. Prof. Dr. Elisabeth André (Universität Augsburg) referierte dann zur „Personalisierung der Mensch-Roboter-Interaktion durch sozialsensitives Lernen“. Die Teilnehmerinnen und Teilnehmer der Konferenz hatten sich an beiden Tagen interessiert an ethischen Fragestellungen gezeigt. Dem soll bei der nächsten Durchführung verstärkt Rechnung getragen werden.
The synthetization of voices, or speech synthesis, has been an object of interest for centuries. It is mostly realized with a text-to-speech system (TTS), an automaton that interprets and reads aloud. This system refers to text available for instance on a website or in a book, or entered via popup menu on the website. Today, just a few minutes of samples are enough in order to be able to imitate a speaker convincingly in all kinds of statements. The article „The Synthetization of Human Voices“ by Oliver Bendel (published on 26 July 2017) abstracts from actual products and actual technological realization. Rather, after a short historical outline of the synthetization of voices, exemplary applications of this kind of technology are gathered for promoting the development, and potential applications are discussed critically in order to be able to limit them if necessary. The ethical and legal challenges should not be underestimated, in particular with regard to informational and personal autonomy and the trustworthiness of media. The article can be viewed via rdcu.be/uvxm.