Im Rahmen des Themenwochenendes „Wenn der Mensch zur Maschine wird“ fanden am 5. März 2023 am Zentrum Paul Klee zur Ausstellung „Paul Klee. Vom Rausch der Technik“ zwei Gespräche statt. „Cyborgs – die besseren Menschen?“ war der Titel des ersten, zwischen Prof. Dr. Oliver Bendel (Wirtschaftsinformatiker und Technikphilosoph) und Fabienne Eggelhöfer (Chefkuratorin). Das zweite mit dem Titel „Siri spricht über Klee“ führte Jane Mumford (Kabarettistin, Komikerin, Musikerin und Illustratorin) mit dem Sprachassistenten von Apple. Sie bezog auch ChatGPT ein, wobei die Stimme von einem Schauspieler geliehen wurde. Im Zusammenhang mit dem System von OpenAI stellte sie drei Haikus aus dem Band „Dass es nur Kunst war, verdeckte die Kunst“ von Oliver Bendel vor. Mit Hilfe geeigneter Prompts hatte er ChatGPT erstaunliche Ergebnisse entlockt. Das Publikum spendete nach beiden Gesprächen lautstarken Applaus.
„Sprachassistenten sind natürlichsprachliche Dialogsysteme, die Anfragen der Benutzer beantworten und Aufgaben für sie erledigen, in privaten und wirtschaftlichen Zusammenhängen. Sie sind auf dem Smartphone ebenso zu finden wie im Smart Speaker, in Robotern ebenso wie in Fahrzeugen. Sie verstehen mit Hilfe von Natural Language Processing (NLP) gesprochene Sprache und wenden sie selbst an, unter Gebrauch eines Text-to-Speech-Systems. Auf die Stimme der Maschine (oder des Benutzers) zielt ‚Voicebot‘ (engl. ‚voicebot‘) oder ‚Voice Assistant‘ (engl. ‚voice assistant‘). ‚Virtueller Assistent‘ oder ‚Digitaler Assistent‘ wird als Überbegriff oder Synonym verwendet. Verwandtschaft besteht zu Chatbots, die oft textuell, manchmal auch auditiv umgesetzt sind und eine längere Tradition haben. Sie und Voicebots sind wiederum wie andere natürlichsprachliche Dialogsysteme Conversational Agents bzw. Conversational User Interfaces.“ Mit diesen Worten beginnt ein neuer Beitrag im Gabler Wirtschaftslexikon von Oliver Bendel. Er ersetzt seine Definition „Virtueller Assistent“ aus dem Jahre 2018 – diese bleibt aber in gekürzter Form erhalten. Am Ende wird auf Fragen der Ethik eingegangen. Der ganze Beitrag – erschienen ist er im Juli 2021 – kann über wirtschaftslexikon.gabler.de/definition/sprachassistent-123447 aufgerufen werden.
Es gibt mehrere Gründe dafür, dass weibliche Stimmen bei Sprachassistenten bevorzugt werden bzw. die Standardeinstellung sind. Weibliche Stimmen werden tendenziell als angenehm und vertrauenswürdig empfunden. Tatsächlich erwartet man in bestimmten Bereichen auch eher Frauen. Insofern richtet sich die Wahl der Stimmen nach der Nachfrage. Natürlich bestimmt das Angebot auch die Nachfrage. Interessanterweise wird die Möglichkeit, eine männliche Stimme zu wählen, wohl wenig genutzt. Man kann eine weibliche Stimme grundsätzlich so gestalten, dass sie beispielsweise jung oder alt, hoch oder tief, neutral oder anregend, aufregend oder erregend klingt. Bei den bekannten Beispielen sind kaum Extreme zu erkennen. Vielmehr sprechen die meisten Sprachassistenten, die eine weibliche Stimme haben, ziemlich durchschnittlich. Sie sind mitteljung, sprechen mittelhoch und sind mäßig anregend. Man kann weiterhin die Sprechweise so gestalten, dass Naivität, Inkompetenz etc. transportiert werden, etwa durch Unterbrechungen, Versprecher, falsche Aussprache etc. Auch das ist bei den bekannten Umsetzungen mit weiblichen Stimmen nicht zu sehen bzw. zu hören; zumindest ist keine Absicht darin zu erkennen. Man kann eher feststellen, dass Alexa, Siri und Google Assistant die Stimme einer reflektierten und eloquenten Frau haben. Die Aussagen der Sprachassistenten entsprechen diesem Bild freilich nicht durchgehend. In der Frankfurter Allgemeinen Sonntagszeitung vom 23. Juni 2019 wird der Behauptung nachgegangen, dass virtuelle Sprachassistenten mit weiblicher Stimme stets zu Diensten und devot sind. Zitiert wird u.a. der Informations- und Maschinenethiker Oliver Bendel. Er wünscht sich mehr Vielfalt bei Software- und Hardwarerobotern und ihren Stimmen. Zugleich sieht er keinen Grund – wie etwa die UNESCO – für Alarmismus; vielmehr rät er dazu, alle Chatbots und Sprachassistenten in ihren Aussagen zu überprüfen und zu verbessern.
Schon vor tausenden Jahren träumte der Mensch davon, künstliche Kreaturen zu schaffen. Diese sollten seine Gehilfen sein, seine Begleiter, Geliebten und Krieger. Bei Homer und Ovid lernen wir sie kennen, schätzen und fürchten. Die meisten dieser Kreaturen, auch in Mittelalter, Renaissance und Barock, waren stumm. Damit wurde die Kluft zwischen ihnen und uns angedeutet. Eine Ausnahme bildeten die sprechenden Köpfe, die in die Zukunft blicken konnten. Heute tragen uns Text-to-Speech-Systeme die Inhalte von Websites vor, plaudern Sprachassistenten wie Siri und Alexa mit uns und melden sich Fahrzeuge laut und vernehmlich zu Wort. Ein weites Feld aus technischer, psychologischer und ethischer Perspektive. Der Artikel „Sprechende Maschinen“ von Oliver Bendel, der im September 2018 in der UnternehmerZeitung erschienen ist, schlägt einen Bogen von der Antike bis zur Gegenwart und zeigt heutige Möglichkeiten und Herausforderungen bei synthetischen Stimmen auf. Der Beitrag kann hier heruntergeladen werden.
2013 wurden für eine Maschine mit natürlichsprachlichen Fähigkeiten sieben Metaregeln entwickelt, an die sie sich halten sollte. Diese sind so aktuell wie nie zuvor, seit Google Duplex durch die Medien geistert und Entwickler wie Benutzer beschäftigt. Eine Regel des GOODBOT lautete, er solle dem Benutzer klarmachen, dass er eine Maschine ist, eine andere, er solle nicht lügen. Es folgte, ebenfalls im Kontext der Maschinenethik, das LIEBOT-Projekt (2016), mit dem Erkenntnisse zu Vertrauenswürdigkeit und Verlässlichkeit, auch in Bezug auf Quellen, verbunden waren. Momentan entwickelt Oliver Bendel den BESTBOT. Alle drei Maschinen wurden im Rahmen der AAAI Spring Symposia (2016 – 2018) an der Stanford University sowie auf der ISAIM 2018 in Fort Lauderdale vorgestellt, der LÜGENBOT auch auf Konferenzen in Krakau (2016) und München (2016). Vor dem Hintergrund der bisherigen Projekte und in Anbetracht der jüngsten Entwicklungen – Google Assistant bzw. Duplex wurde erwähnt, aber auch Siri und Alexa haben neuartige Fähigkeiten – verfasste Oliver Bendel zehn Regeln (oder Metaregeln), die eine Diskussionsgrundlage sein sollen, mit Blick auf (auch moralisch) gute virtuelle Assistenten und Chatbots (die sozusagen eine Selbstverpflichtung abgeben). Sie sind insgesamt nicht erschöpfend (so wird etwa nicht auf die Stimme eingegangen), und sie sind jeweils nicht immer ausreichend, aber sie bieten Leitplanken und einen Ausgangspunkt für Richtlinien. Speziell für Sprachassistenten bietet sich das Moralmenü (MOME) an.
Im Sommer 2012 erschien der Artikel „Siri ist hier.“, mit dem Untertitel „Der Sprachassistent von Apple in der Schweiz aus linguistischer und ethischer Sicht“. Mit Schweizerdeutsch kam Siri damals nicht zurecht. Oliver Bendel erklärte: „Es wäre sicherlich nicht ganz einfach, dem Sprachassistenten auf der Ebene der Aussprache und Betonung die schweizerischen Gepflogenheiten nahezubringen. Er könnte dazulernen; aber dazu müsste er in der Lage sein, semantische Beziehungen zu knüpfen (und damit zu realisieren, dass das Chuchichäschtli ein kleiner Küchenschrank ist). Wenn der Benutzer in der Schweiz nicht weiß, dass man ‚Serie‘ auch anders aussprechen kann, kann Siri allenfalls eine Menge von mehr oder weniger sinnvollen Alternativen – oder kluge Rückfragen – unterbreiten. Ob man mit diesen immer etwas anfangen kann, sei dahingestellt. Auch auf der lexikalischen Ebene weiß nicht jeder Benutzer, dass Alternativen existieren. Nicht in allen Fällen werden Helvetismen – dies haben mir viele Gespräche gezeigt – als solche erkannt.“ Inzwischen ist man weiter: „Zwei Start-ups aus dem Wallis, Keylemon und recapp, haben zur Entwicklung der neuen Swisscom TV-Box beigetragen, die erstmalig Spracherkennung auch für Deutschschweizer Dialekte bietet.“ (Website recapp) Siri aber beherrscht nach wie vor keine Mundart. Dies hat erst kürzlich die Handelszeitung thematisiert, wobei sie auch erwähnt, dass man das Problem heute mit Lösungen von Firmen wie recapp angehen könnte.
Im Rahmen des Studiums der Wirtschaftsinformatik an der Hochschule für Wirtschaft der Fachhochschule Nordwestschweiz hat man eine Arbeit zu innovativen Informations- und Kommunikationstechnologien vorzulegen. Die Studentinnen und Studenten (und Dozierenden) kennen das Programm unter dem Namen ToBIT. Man muss zeigen, dass man recherchieren und zitieren sowie in englischer Sprache formulieren kann. Im Frühjahr 2012 wurde das Thema “Natural language user interfaces in Switzerland” angeboten; damit sollte die Diskussion über Sprachassistenten wie Siri um einen kaum beachteten Aspekt bereichert werden: Versteht Siri die Anweisungen und Wünsche der Schweizerinnen und Schweizer? Der Artikel von Oliver Bendel wurde am 16. Juli 2012 auf www.mediensprache.net veröffentlicht und nimmt auf Ergebnisse des Studenten Bezug, der das Thema genommen und bearbeitet hat.