KI-generierte Stimme ermöglicht Einbruch in Bankkonto

Einige Banken erlauben beim Kontozugang die Authentifizierung durch die Stimme des Kunden. Dazu gehört z.B. PostFinance in der Schweiz. Auf der Website heißt es: „Im Kontaktcenter von PostFinance können wir Sie anhand Ihrer Stimme authentifizieren. Nachdem wir einmalig von Ihnen einen Stimmabdruck angelegt haben, erkennen wir Sie bei allen folgenden Anrufen anhand Ihrer Stimme. Das unterstützt die Sicherheit und spart Zeit.“ (Website PostFinance) Seit einigen Jahren kann man mit wenigen Minuten der Aufnahme einer individuellen Stimme eine synthetische Stimme generieren und sie beliebige Inhalte sagen lassen. Auch die Sprechweise wird imitiert. Dafür stehen kostenpflichtige und kostenlose KI-Tools zur Verfügung. Auch bei Sprachassistenten verbreitet sich die Funktion – man denke etwa an Bixby von Samsung. Oliver Bendel veröffentlichte im Juli 2017 in AI & Society seinen Artikel „The Synthetization of Human Voices“ und beschrieb genau solche Verfahren. Joseph Cox berichtete in seinem Artikel „How I Broke Into a Bank Account With an AI-Generated Voice“ (Vice, 23. Februar 2023), dass er erfolgreich das System ausgetrickst hat: „I couldn’t believe it – it had worked. I had used an AI-powered replica of a voice to break into a bank account. After that, I had access to the account information, including balances and a list of recent transactions and transfers.“ (Vice, 23. Februar 2023) Fingerabdruck und Iriserkennung zur Authentifizierung sind seit längerer Zeit problembehaftet. Inzwischen sollte man sich auch den Einsatz seiner Stimme gut überlegen.

Abb.: Die eigene Stimme kann schnell synthetisiert werden

A Study on Natural and Artificial Voices

„The Human Takes It All: Humanlike Synthesized Voices Are Perceived as Less Eerie and More Likable“ is the title of a study by Katharina Kühne, Prof. Dr. Martin H. Fischer and Dr. Yuefang Zhou (University of Potsdam) that has just been published. The project was started in 2018. From the results section of the article: „The human voice and human speaker characteristics received reliably higher scores on all dimensions except for eeriness. Synthesized voice ratings were positively related to participants‘ agreeableness and neuroticism. Females rated synthesized voices more positively on most dimensions. Surprisingly, interest in social robots and attitudes toward robots played almost no role in voice evaluation. Contrary to the expectations of an uncanny valley, when the ratings of human-likeness for both the voice and the speaker characteristics were higher, they seemed less eerie to the participants. Moreover, when the speaker’s voice was more humanlike, it was more liked by the participants. This latter point was only applicable to one of the synthesized voices. Finally, pleasantness and trustworthiness of the synthesized voice predicted the likability of the speaker’s voice. Qualitative content analysis identified intonation, sound, emotion, and imageability/embodiment as diagnostic features.“ (Frontier in Neurorobotics, 16 December 2020) Three of the voice samples were produced by Prof. Dr. Oliver Bendel (School of Business FHNW) and donated to the project. He has been researching synthetic voices and their modeling with SSML for years. The article can be accessed at www.frontiersin.org/articles/10.3389/fnbot.2020.593732/full.

Fig.: A natural voice