Betrug mit Hilfe von AI Voice Cloning

Immer wieder verwenden Betrüger synthetische Stimmen, um Geld von ihren Opfern zu bekommen. Man spricht von Audio-Deepfakes oder KI-basiertem Klonen von Stimmen (AI Voice Cloning). Dieses kann für unterschiedliche legale oder eben auch illegale Zwecke verwendet werden, etwa im Rahmen eines Schockanrufs, bei dem die Identität eines Verwandten angenommen wird. Man kann aber auch die Stimme einer bekannten Person synthetisieren, etwa eines Moderators oder eines Politikers, und damit Missbrauch betreiben. Hier bietet sich Automatisierung an, wobei generative KI dabei hilft, die Gespräche abzuwickeln und zum Erfolg für den Täter zu führen. Für solche komplexen Arrangements ist noch technischer Fachverstand notwendig, während das Klonen von Stimmen an sich kinderleicht ist und über dutzende Dienste abgewickelt werden kann. Dabei kann man allerdings auch Opfer der Dienste werden, die selten kostenlos sind, auch wenn sie es behaupten. In etwa 20 Schweizer Zeitungen ist am 3. Juni 2024 ein Interview mit Prof. Dr. Oliver Bendel zu diesem Thema erschienen, u.a. in der Berner Zeitung und im Tages-Anzeiger. Der Technikphilosoph und Wirtschaftsinformatiker beschäftigt sich seit Jahren mit synthetischen Stimmen. Sein Artikel „The Synthetization of Human Voices“ ist am 26. Juli 2017 in der AI & SOCIETY erschienen.

Abb.: Die Stimme ist ein wertvolles Gut

Trickbetrug in der Schweiz mit synthetisierten Stimmen lebender Personen

Synthetische Stimmen mit individuellen Zügen lebender Personen werden mehr und mehr für Trickbetrug verwendet. Ein solchen Fall gab es im Sommer 2023 im Aargau in der Schweiz. Ein Mann wurde von seiner vermeintlichen Frau angerufen, ohne dass er zunächst erkannte, dass es sich um eine mit Hilfe von Machine Learning generierte Stimme und damit um einen Trickbetrug handelte. Der Lokalsender Tele M1 interviewte am 4. Juli 2023 Prof. Dr. Oliver Bendel dazu, wie solche synthetischen Stimmen entstehen. Er forscht seit einem Vierteljahrhundert zu KI-Systemen und Robotern und seit sieben Jahren speziell auch zu synthetischen Stimmen. Grundsätzlich werden in solchen Fällen neuronale Netzwerke benutzt. Man kann sie mit der individuellen Stimme trainieren. Dafür braucht es 15 – 30 Minuten an Material. Die Zeit verkürzt sich auf wenige Sekunden, wenn man vorher ein Sprachmodell mit einigen tausend Stimmen trainiert hat und einige Voraussetzungen erfüllt sind. Die Resultate können so oder so täuschend echt sein. Oft sind aber nicht die gewohnten Hintergrundgeräusche vorhanden, oder es fehlen typische Verhaltensweisen der Person, etwa das Nasehochziehen oder ein Stühlerücken. Es lohnt sich also, gut hinzuhören und im Zweifel auch einen Rückruf zu verlangen. Mehrere Aussagen aus dem Interview wurden in den Beitrag „Schockanrufe: So gelangen die falschen Polizisten an die Stimmen der Opfer“ der abendlichen Nachrichtensendung aufgenommen. Weitere Informationen zum Sender über www.telem1.ch.

Abb.: Oliver Bendel bei Tele M1 (Foto: Tele M1)