„Sprachassistenten sind natürlichsprachliche Dialogsysteme, die Anfragen der Benutzer beantworten und Aufgaben für sie erledigen, in privaten und wirtschaftlichen Zusammenhängen. Sie sind auf dem Smartphone ebenso zu finden wie im Smart Speaker, in Robotern ebenso wie in Fahrzeugen. Sie verstehen mit Hilfe von Natural Language Processing (NLP) gesprochene Sprache und wenden sie selbst an, unter Gebrauch eines Text-to-Speech-Systems. Auf die Stimme der Maschine (oder des Benutzers) zielt ‚Voicebot‘ (engl. ‚voicebot‘) oder ‚Voice Assistant‘ (engl. ‚voice assistant‘). ‚Virtueller Assistent‘ oder ‚Digitaler Assistent‘ wird als Überbegriff oder Synonym verwendet. Verwandtschaft besteht zu Chatbots, die oft textuell, manchmal auch auditiv umgesetzt sind und eine längere Tradition haben. Sie und Voicebots sind wiederum wie andere natürlichsprachliche Dialogsysteme Conversational Agents bzw. Conversational User Interfaces.“ Mit diesen Worten beginnt ein neuer Beitrag im Gabler Wirtschaftslexikon von Oliver Bendel. Er ersetzt seine Definition „Virtueller Assistent“ aus dem Jahre 2018 – diese bleibt aber in gekürzter Form erhalten. Am Ende wird auf Fragen der Ethik eingegangen. Der ganze Beitrag – erschienen ist er im Juli 2021 – kann über wirtschaftslexikon.gabler.de/definition/sprachassistent-123447 aufgerufen werden.
Amazon’s Alexa can perform actions on her own based on previous instructions from the user without asking beforehand. Until now, the voicebot always asked before it did anything. Now it has hunches, which is what Amazon calls the function. On its website, the company writes: „Managing your home’s energy usage is easier than ever, with the Alexa energy dashboard. It works with a variety of smart lights, plugs, switches, water heaters, thermostats, TVs and Echo devices. Once you connect your devices to Alexa, you can start tracking the energy they use, right in the Alexa app. Plus, try an exciting new Hunches feature that can help you save energy without even thinking about it. Now, if Alexa has a hunch that you forgot to turn off a light and no one is home or everyone went to bed, Alexa can automatically turn it off for you. It’s a smart and convenient way to help your home be kinder to the world around it. Every device, every home, and every day counts. Let’s make a difference, together. Amazon is committed to building a sustainable business for our customers and the planet.“ (Website Amazon) It will be interesting to see how often Alexa is right with her hunches and how often she is wrong.
Es gibt mehrere Gründe dafür, dass weibliche Stimmen bei Sprachassistenten bevorzugt werden bzw. die Standardeinstellung sind. Weibliche Stimmen werden tendenziell als angenehm und vertrauenswürdig empfunden. Tatsächlich erwartet man in bestimmten Bereichen auch eher Frauen. Insofern richtet sich die Wahl der Stimmen nach der Nachfrage. Natürlich bestimmt das Angebot auch die Nachfrage. Interessanterweise wird die Möglichkeit, eine männliche Stimme zu wählen, wohl wenig genutzt. Man kann eine weibliche Stimme grundsätzlich so gestalten, dass sie beispielsweise jung oder alt, hoch oder tief, neutral oder anregend, aufregend oder erregend klingt. Bei den bekannten Beispielen sind kaum Extreme zu erkennen. Vielmehr sprechen die meisten Sprachassistenten, die eine weibliche Stimme haben, ziemlich durchschnittlich. Sie sind mitteljung, sprechen mittelhoch und sind mäßig anregend. Man kann weiterhin die Sprechweise so gestalten, dass Naivität, Inkompetenz etc. transportiert werden, etwa durch Unterbrechungen, Versprecher, falsche Aussprache etc. Auch das ist bei den bekannten Umsetzungen mit weiblichen Stimmen nicht zu sehen bzw. zu hören; zumindest ist keine Absicht darin zu erkennen. Man kann eher feststellen, dass Alexa, Siri und Google Assistant die Stimme einer reflektierten und eloquenten Frau haben. Die Aussagen der Sprachassistenten entsprechen diesem Bild freilich nicht durchgehend. In der Frankfurter Allgemeinen Sonntagszeitung vom 23. Juni 2019 wird der Behauptung nachgegangen, dass virtuelle Sprachassistenten mit weiblicher Stimme stets zu Diensten und devot sind. Zitiert wird u.a. der Informations- und Maschinenethiker Oliver Bendel. Er wünscht sich mehr Vielfalt bei Software- und Hardwarerobotern und ihren Stimmen. Zugleich sieht er keinen Grund – wie etwa die UNESCO – für Alarmismus; vielmehr rät er dazu, alle Chatbots und Sprachassistenten in ihren Aussagen zu überprüfen und zu verbessern.
„Amazon gibt intime Alexa-Sprachdateien preis“, meldete Heise News. „Die Sprachaufzeichnungen stammen hörbar aus der Intimsphäre fremder Personen, beispielsweise aus Wohnzimmer, Schlafzimmer und Bad.“ (Heise News, 20. Dezember 2018) In „Die Spione im eigenen Haus“ von Oliver Bendel, erschienen in „Wissen – Macht – Meinung: Demokratie und Digitalisierung“ (2018), heißt es: „Sobald die Geräte in Situationen und Umgebungen benutzt werden, die als vertraut und geschützt eingestuft werden, wie es bei Kommunikations- und Transaktionsgeräten wie Echo (und mit Einschränkungen bei Smartphone und Notebook) der Normalfall ist, tauchen weitere Risiken für Privatheit, Intimsphäre und Datenschutz auf … In nicht- oder teilöffentlichen Räumen spricht man anders, teilt man etwas anderes mit, hat man Privat- und Betriebsgeheimnisse, und die Diskrepanz zwischen dem Vermögen der Geräte, die permanent etwas aufnehmen, abspeichern und weitergeben können, und dem Bedürfnis nach Privatsphäre, Persönlichkeitsschutz und Geheimhaltung ist groß. Das Eindringen in den Bereich der Sexualität kann als besonders gravierend angesehen werden – man denke nur, auf der stimmlichen Ebene, an das Stöhnen oder, auf der semantischen Ebene, an Kosewörter oder … Dirty Talk.“ Das Buch ist direkt bei Velbrück (und nicht nur bei Amazon) erhältlich. Die Texte der Autoren wurden gegendert, aus einer Ideologie heraus (Meinung) und auch gegen ihren Willen (Macht). Totalitarismus statt Demokratie, könnte man sagen. Bereits 2015 ist von Oliver Bendel „Der kleine Lauschangriff: Auditive Systeme aus Sicht der Ethik“ in Telepolis erschienen, wo ebenfalls auf Echo und Alexa eingegangen wurde.
Abb.: Schlafende (Foto eines „sleep“-Bilds von Gottfried Helnwein)
„Keywords wie Digitalisierung, Künstliche Intelligenz und Big Data sind in aller Munde. Der Versicherungs- und Bankenmarkt steht unter ständiger Veränderung, Rahmenbedingungen ändern sich rapide und eine optimale Kundenbindung gewinnt zunehmend an Bedeutung. Doch worauf dürfen – und müssen – wir uns zukünftig einstellen?“ (Einladung APRIL) Über diese und weitere Themen wird beim diesjährigen APRIL-Praxisforum in München am 26. September 2018 diskutiert. Die Keynote von Oliver Bendel aus Zürich trägt den Titel „Im Dialog mit Maschinen“. Ob iPal, Pepper oder Lio – viele Roboter verstehen uns und sprechen mit uns. Virtuelle Assistenten wie Siri und Cortana belauschen uns und klingen immer menschenähnlicher. Alexa kann dank SSML inzwischen flüstern. Mit SSML kann man grundsätzlich in die Stimme eingreifen, sie höher und tiefer, jünger und älter machen, sie zufrieden und unsicher klingen lassen. Bei Google Duplex wurde zudem die Sprechweise angepasst, wurden Unterbrechungen und Ähs eingebaut. Was ist der technische Stand bei der Sprachsynthese, was ist aus ethischer Sicht anzumerken? Auf solche Fragen gibt Oliver Bendel Antworten. Weitere Informationen über www.april.de/index.php?id=124 (Link nicht mehr gültig).
„Amazon spricht von einer ‚unwahrscheinlichen‘ Verkettung von Ereignissen: Ein Paar aus den USA berichtet, ihr Alexa-Lautsprecher habe ein Gespräch in seiner Wohnung aufgenommen und dann ungefragt an einen Kontakt im Adressbuch verschickt.“ (SPON, 25. Mai 2018) In Wirklichkeit ist diese Verkettung von Ereignissen gar nicht so unwahrscheinlich. Es fängt an beim Codewort. Oliver Bendel hat 2015 in seinem Artikel „Der kleine Lauschangriff: Auditive Systeme aus Sicht der Ethik“ für Telepolis geschrieben: „Das Codewort ist der nicht ganz ungebräuchliche Mädchenname ‚Alexa‘.“ Dass man das System versehentlich aktivieren kann, weil man diesen Namen (oder ein ähnliches Wort) sagt, war jederzeit klar. Was dann kam, hat man schon bei verschiedenen Konferenzen beobachtet. Wenn der Redner dort Alexa oder Google Assistant erwähnt, setzen sich im Zuschauerraum mehrere Smartphones in Betrieb. Die Assistenten werden durch die Begriffe aufgeweckt und werten die Rede laufend aus. Dann beginnen sie selbst zu sprechen. Und warten auf Aussagen, die sie als Anweisungen verstehen. Es kann sich alles Mögliche daraus ergeben. Alexa hat eben ein Privatgespräch aufgezeichnet und verschickt. Zum Glück ging es nur um „Holzfußböden“ (SPON, 25. Mai 2018).
„Ein virtueller Assistent ist ein Dialogsystem, das Anfragen der Benutzer beantwortet und Aufgaben für sie erledigt, in privaten und wirtschaftlichen Zusammenhängen. Er ist auf dem Smartphone ebenso zu finden wie in Unterhaltungsgeräten und in Fahrzeugen.“ Mit diesen Worten beginnt ein am 15. Mai 2018 erschienener Beitrag von Oliver Bendel im Wirtschaftslexikon von Gabler Springer. Erwähnt werden virtuelle Assistenten bzw. Sprachassistenten wie Siri, Cortana, Google Assistant (auch im Zusammenhang mit Google Duplex) und Alexa. Am Ende heißt es: „Mit Systemen wie Google Duplex kehren sich die Verhältnisse in gewisser Hinsicht um. Man nimmt einen Anruf entgegen, kommuniziert wie gewohnt, hat aber vielleicht, ohne es zu wissen, einen Computer am Apparat, keinen Menschen. Für Chatbots wurde bereits früh vorgeschlagen, dass diese klarmachen sollen, dass sie keine Menschen sind. Möglich ist es zudem, die Stimme roboterhaft klingen zu lassen, sodass kaum Verwechslungsgefahr besteht. Dies sind Themen für Informationsethik, Roboterethik und Maschinenethik und allgemein Roboterphilosophie.“ (Gabler Wirtschaftslexikon) Der Beitrag kann über wirtschaftslexikon.gabler.de/definition/virtueller-assistent-99509 aufgerufen werden.
2013 wurden für eine Maschine mit natürlichsprachlichen Fähigkeiten sieben Metaregeln entwickelt, an die sie sich halten sollte. Diese sind so aktuell wie nie zuvor, seit Google Duplex durch die Medien geistert und Entwickler wie Benutzer beschäftigt. Eine Regel des GOODBOT lautete, er solle dem Benutzer klarmachen, dass er eine Maschine ist, eine andere, er solle nicht lügen. Es folgte, ebenfalls im Kontext der Maschinenethik, das LIEBOT-Projekt (2016), mit dem Erkenntnisse zu Vertrauenswürdigkeit und Verlässlichkeit, auch in Bezug auf Quellen, verbunden waren. Momentan entwickelt Oliver Bendel den BESTBOT. Alle drei Maschinen wurden im Rahmen der AAAI Spring Symposia (2016 – 2018) an der Stanford University sowie auf der ISAIM 2018 in Fort Lauderdale vorgestellt, der LÜGENBOT auch auf Konferenzen in Krakau (2016) und München (2016). Vor dem Hintergrund der bisherigen Projekte und in Anbetracht der jüngsten Entwicklungen – Google Assistant bzw. Duplex wurde erwähnt, aber auch Siri und Alexa haben neuartige Fähigkeiten – verfasste Oliver Bendel zehn Regeln (oder Metaregeln), die eine Diskussionsgrundlage sein sollen, mit Blick auf (auch moralisch) gute virtuelle Assistenten und Chatbots (die sozusagen eine Selbstverpflichtung abgeben). Sie sind insgesamt nicht erschöpfend (so wird etwa nicht auf die Stimme eingegangen), und sie sind jeweils nicht immer ausreichend, aber sie bieten Leitplanken und einen Ausgangspunkt für Richtlinien. Speziell für Sprachassistenten bietet sich das Moralmenü (MOME) an.