The Theft of the Voice

The article „The Synthetization of Human Voices“ by Oliver Bendel, first published on 26 July 2017, is now available as a print version. The synthetization of voices, or speech synthesis, has been an object of interest for centuries. It is mostly realized with a text-to-speech system (TTS), an automaton that interprets and reads aloud. This system refers to text available for instance on a website or in a book, or entered via popup menu on the website. Today, just a few minutes of samples are enough in order to be able to imitate a speaker convincingly in all kinds of statements. The article abstracts from actual products and actual technological realization. Rather, after a short historical outline of the synthetization of voices, exemplary applications of this kind of technology are gathered for promoting the development, and potential applications are discussed critically in order to be able to limit them if necessary. The ethical and legal challenges should not be underestimated, in particular with regard to informational and personal autonomy and the trustworthiness of media. The article was published in AI & SOCIETY, 34(1), 83-89.

Fig.: The theft of the voice

Künstliche Nachrichtensprecher

Wie verschiedene Medien melden, hat die chinesische Nachrichtenagentur Xinhua ein System vorgestellt, das im Fernsehen Nachrichten verlesen kann. Die verfügbaren Avatare sind realen Sprechern nachgebildet, nämlich Qiu Hao und Zhang Zhao. Die digitale Kopie von Qiu spricht chinesisch, die von Zhang englisch. „Das System nutzt Künstliche Intelligenz (KI) und maschinelles Lernen, um die Stimme, Lippenbewegungen, Mimik und Gestik der Vorbilder möglichst realistisch zu imitieren. Dadurch solle ein möglichst lebensnahes Abbild entstehen und kein kalter Roboter, erklärte Xinhua. Das System ist zudem lernfähig. Das bedeutet, die Avatare lernen von Videos menschlicher Sprecher und werden dadurch mit der Zeit besser.“ (Golem, 9. November 2018) Im Moment klingt die Stimme von Zhang erstaunlich künstlich. Die Stimmen üblicher Text-to-Speech-Engines erreichen eine bessere Qualität. Mit Hilfe von SSML kann man sie noch menschenähnlicher gestalten. Virtuelle Nachrichtensprecher sind insgesamt ein alter Hut. Ananova, eine virtuelle Nachrichtensprecherin, hatte vor 20 Jahren eine gewisse Popularität erlangt. Sie wechselte 2000 für eine Ablösesumme von 95 Millionen Pfund zum Telefonanbie­ter Orange.

Abb.: In Shanghai

The Synthetization of Human Voices

The synthetization of voices, or speech synthesis, has been an object of interest for centuries. It is mostly realized with a text-to-speech system (TTS), an automaton that interprets and reads aloud. This system refers to text available for instance on a website or in a book, or entered via popup menu on the website. Today, just a few minutes of samples are enough in order to be able to imitate a speaker convincingly in all kinds of statements. The article „The Synthetization of Human Voices“ by Oliver Bendel (published on 26 July 2017) abstracts from actual products and actual technological realization. Rather, after a short historical outline of the synthetization of voices, exemplary applications of this kind of technology are gathered for promoting the development, and potential applications are discussed critically in order to be able to limit them if necessary. The ethical and legal challenges should not be underestimated, in particular with regard to informational and personal autonomy and the trustworthiness of media. The article can be viewed via rdcu.be/uvxm.

Fig.: What will we hear in the future?