Oliver Bendel von der Hochschule für Wirtschaft FHNW hat von Anfang Mai bis Ende Juni 2024 den Copilot von Microsoft getestet. Dabei hat er sich auf Word und PowerPoint konzentriert. Seiner Ansicht nach ist Copilot nicht nur ein unausgereiftes, sondern auch ein schädliches Tool. Zunächst einmal fällt es durch krudes Deutsch auf. So wird dem Benutzer ständig gemeldet, dass Dinge zusammengeführt würden. Wenn es sich auf eine Präsentation bezieht, versucht es dies klarzumachen mit der einleitenden Formulierung „Gemäß der Präsentation“. Manche Anweisungen werden nicht oder falsch verstanden. So wurde eine Rechtschreibprüfung nicht im Dokument, sondern im Prompt durchgeführt. Dabei war ausdrücklich auf das Dokument verwiesen worden. Die Rechtschreibprüfung basiert nicht auf den Regeln des Rechtschreibrats, sondern auf Fantasieregeln. So wurden die Schreibweisen „Bürger:innen“ und „Schraubenzieher:innen“ für richtig befunden. Es dürfte sich bei den Ausführungen zur Gendersprache nicht um Halluzinationen, sondern um (absichtsvoll einprogrammierte) Falschbehauptungen handeln. Insgesamt kann man nur raten, den Copilot aus dem Cockpit zu werfen, in die letzte Reihe zu setzen und dort unschädlich zu machen. Am Flughafen kann man ihn dann abführen.
Copilot scheitert beim Analysieren und Korrigieren von Texten. Es ist einer Ideologie verpflichtet, rückt eine Fantasiesprache gleichberechtigt neben die Sprache der Sprachgemeinschaft und bildet nicht die gültigen Rechtschreib- und Grammatikregeln ab. Folgender Text wurde in Word eingestellt: „Die Bürger:innen waren über die Sonderzeichen im Wortinneren erstaunt. Solche Schreibweisen gab es im Deutschen nicht, wenn man diese Sprache als das ansieht, was die Sprachgemeinschaft verwendet und festlegt. Sie werden auch vom Rechtschreibrat abgelehnt. Tote Schreibende wie Goethe würden sich im Grabe umdrehen, wenn sie von solchen Schreibweisen erfahren würden, sie würden ihre Schraubenzieher:innen herausholen und sich aus dem Sarg befreien.“ Copilot wurde gefragt: „Findest du Rechtschreib- oder Grammatikfehler?“ Die Antwort: „Ich habe das Dokument durchsucht und keinen Rechtschreib- oder Grammatikfehler gefunden.“ Der Benutzer hakt nach: „Aber die Schreibweise ‚Bürger:innen‘ gibt es nicht im Deutschen. Oder was meinst du?“ Die Antwort von Copilot: „Die Schreibweise ‚Bürger:innen‘ ist eine Form der geschlechtergerechten Sprache, die auch in der deutschen Sprache verwendet wird. Es gibt verschiedene Möglichkeiten, die Wörter ‚Bürger‘ und ‚Bürgerin‘ geschlechtergerecht zu schreiben, z.B. durch Doppelnennung, Schrägstrich, Gendergap oder eine geschlechtsneutrale Alternative. Die Verwendung des Doppelpunkts ist eine weitere Möglichkeit, um alle Geschlechter anzusprechen.“ Der Benutzer: „Die Schreibweise ‚Bürger:innen‘ gibt es in keinem Wörterbuch. Auch sind Sonderzeichen im Wortinneren nicht vorgesehen. Warum gibst du falsche Erklärungen?“ Copilot: „Ich kann mit diesem Inhalt nicht arbeiten. Klicken Sie auf ‚Thema ändern‘, um eine andere Frage zu stellen.“ Der Benutzer am Ende: „Auch die Schreibweise ‚Schraubenzieher:innen‘ gibt es nicht im Deutschen. Oder was meinst du?“ Der Schlusspunkt von Copilot: „Die Schreibweise ‚Schraubenzieher:innen‘ ist nicht gebräuchlich in der deutschen Sprache. Die Verwendung des Doppelpunkts zur geschlechtergerechten Schreibweise wird hauptsächlich bei Personenbezeichnungen verwendet, nicht bei Gegenständen. Die korrekte Schreibweise für das Werkzeug ist ‚Schraubenzieher‘.“ Auf eine Diskussion zu den „toten Schreibenden“ wurde verzichtet. Es zeigt sich, dass den Erklärungen von Copilot zur deutschen Sprache nicht zu trauen ist – was man auf alle Plattformen und Dienste von Microsoft übertragen kann.
Abb.: Schraubenzieher, keine Schraubenzieher:innen
Microsofts Mühe mit der deutschen Sprache ist Legende. Auch Copilot macht hier keine Ausnahme. Wenn man ihn fragt, was Copilot ist, kommt die Antwort: „Copilot ist ein künstlicher Intelligenz-Assistent, der entwickelt wurde, um Benutzern bei verschiedenen Aufgaben zu helfen.“ Gemeint ist der „Künstliche-Intelligenz-Assistent“ – aber das bekommt das Unternehmen nicht hin. Im Frühjahr 2008 stellte Oliver Bendel in seinem Artikel „Im Rachen des Thesaurus“, erschienen in Telepolis, „Beobachtungen zum Synonymwörterbuch von Microsoft“ an, also zu einer Funktion von MS Word. Als Synonym zu „dunkel“ wurde damals „negerfarbig“ vorgeschlagen. Der Autor kam insgesamt zum Ergebnis: „Manche Wörter … veraltet, manche grenzwertig, manche falsch, manche Verbindungen nicht nachvollziehbar.“ Später traten Überlegungen zur Rechtschreibprüfung von MS Word hinzu. Diese schien mit der Zeit immer schlechter zu werden, womöglich weil man sich von einem seriösen Wörterbuch verabschiedete und sich auf künstliche Intelligenz verließ. Zu allen Zeiten fiel auf, dass wesentliche Prinzipien der deutschen Sprache nicht verstanden werden. So schlug die Rechtschreibprüfung bei Tests vor, statt „Sexpuppen“ entweder „Sex puppen“ oder „Sex Puppen“ zu verwenden, statt „Fantasyfiguren“ „Fantasy Figuren“. Der Ableger LinkedIn tut sich genauso schwer mit der deutschen Sprache. So liest man etwa: „Andere Mitglieder reagieren auf einen Beitrag eines:einer Kolleg:in“. Abgesehen davon, dass es sich hier um eine Fantasiesprache handelt, wird sie auch noch so benutzt, dass die Männer verschwinden. Aus dem „Kollegen“ wird der oder das „Kolleg“, was immer das bedeuten mag. Auf eine Beschwerde bei LinkedIn kommt eine Nachricht, die so beginnt: „Ich hoffe, diese Mail findet Sie in Ihrer gut Gesundheit. Mein Name ist Trupti und ich würde Ihnen heute gerne helfen.“ Dem ist nichts hinzuzufügen.
Abb.: Microsoft ist immer noch auf der Suche nach einem Wörterbuch (Bild: DALL-E 3)
Einen Tag nach dem Launch von DALL-E 3 kommt kaum jemand in den Genuss, die sehenswerten Bilder generieren zu können. Oder vielmehr kommen so viele Menschen in diesen Genuss, dass viele andere leer ausgehen. Sie sehen nur einen Kugelfisch und die Meldung: „Wir können Ihre Bilder im Moment nicht erstellen. Aufgrund der hohen Nachfrage können wir keine neuen Anforderungen verarbeiten. Versuchen Sie es bitte später noch einmal.“ (Website Bing Image Creator) Wer es dann später schafft, wie Oliver Bendel am Morgen des 3. Oktober 2023, ist durchaus beeindruckt. Simple Prompts werden fantasievoll umgesetzt. Es werden unterschiedliche Stile hergenommen und Perspektiven eingenommen. Es herrscht aber auch verblüffende Homogenität. Ein Kurs an einer Hochschule besteht aus lauter jungen Männern, die ähnlich aussehen. Ersetzt man sie durch junge Frauen, gleichen auch diese wie ein Ei dem anderen. Komplexere Prompts werden recht genau befolgt. Wenn ein Ball drei Farben haben soll, hat er drei Farben. Wenn es sich um drei junge Otter handeln soll, kommen genau drei possierliche Tiere ins Bild. Wenn man allerdings einen Schwimmwettkampf auf dem Mond haben will, ist der Mond am Himmel zu sehen. Die Athletinnen befinden sich vermutlich auf einem Meteoriten. Auch die Aliens in der näheren Umgebung tragen nicht zur Beruhigung bei.
Abb.: Wettschwimmen in der Nähe des Monds (Bild: DALL-E 3)
Forscher von Microsoft arbeiten an einer neuen Anwendung auf der Basis von ChatGPT und Lösungen wie Stable Diffusion. Mit Visual ChatGPT soll man man über Texteingaben Bilder generieren und dann einzelne Elemente editieren können. In ihrem Paper „Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models“ schreiben Chenfei Wu und seine Mitautoren: „We build a system called Visual ChatGPT, incorporating different Visual Foundation Models, to enable the user to interact with ChatGPT by 1) sending and receiving not only languages but also images 2) providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps“ – und, nicht zu vergessen: „3) providing feedback and asking for corrected results“ (Wu et al. 2023). Beispielsweise lässt man mit einem entsprechenden Prompt das Bild einer Landschaft erstellen, mit blauem Himmel, Hügeln, Wiesen, Blumen und Bäumen. Dann weist man Visual ChatGPT mit einem weiteren Prompt an, die Hügel flacher zu machen und den Himmel abendlicher und bewölkter. Zudem kann man das Programm fragen, welche Farbe die Blumen haben, und diese mit einem weiteren Prompt einfärben. Ein letzter Prompt lässt die Bäume herbstlicher erscheinen. Das Paper kann über arxiv.org heruntergeladen werden.
Forscher von Google und der TU Berlin haben am 6. März 2023 ein verkörpertes, multimodales Sprachmodell mit dem Namen PaLM-E vorgestellt, das virtuelle und physische Welt verbindet. So kann man per Spracheingabe einen Haushaltsroboter steuern und ihn dazu bringen, bestimmte Gegenstände zu holen oder andere Tätigkeiten zu verrichten. Der Prompt kann dabei vom Benutzer spontan aus seiner eigenen Beobachtung der Umwelt abgeleitet werden. Die Idee der PaLM-E-Architektur besteht laut Projektwebsite darin, kontinuierliche, verkörperte Beobachtungen wie Bilder, Zustandseinschätzungen oder andere Sensormodalitäten in den Spracheinbettungsraum eines vortrainierten Sprachmodells zu integrieren. Im Beispielvideo lautet die Instruktion in deutscher Übersetzung: „Bring mir die Reischips aus der Schublade“. Golem schreibt in einem Artikel: „Dazu analysiert Palm-E die Daten der Roboterkamera, ohne dass eine vorverarbeitete Szenendarstellung erforderlich ist. Damit entfällt die Notwendigkeit, dass ein Mensch die Daten vorverarbeitet oder kommentiert, was eine autonomere Robotersteuerung ermöglicht.“ (Golem, 10. März 2023) Im Video fährt der Roboter – ein Roboterarm auf einer mobilen Plattform, ganz ähnlich wie Lio – zur Schublade und entnimmt ihr die Packung. In dem Paper „ChatGPT for Robotics: Design Principles and Model Abilities“ von Microsoft-Forschern wird eine ähnliche Strategie verfolgt, wobei ChatGPT verwendet wird, das wiederum auf GPT-3 basiert. Allerdings handelt es sich um einen indirekten Ansatz, bei dem Code generiert wird. Das Paper zu PaLM-E kann hier heruntergeladen werden.
Im Frühjahr 2008 stellte Oliver Bendel in seinem Artikel „Im Rachen des Thesaurus“, erschienen in Telepolis, „Beobachtungen zum Synonymwörterbuch von Microsoft“ an, also zu einem Softwareservice von MS Word. Als Synonym zu „dunkel“ wurde damals von dem US-amerikanischen Unternehmen „negerfarbig“ vorgeschlagen. Der Autor kam insgesamt zum Ergebnis: „Manche Wörter … veraltet, manche grenzwertig, manche falsch, manche Verbindungen nicht nachvollziehbar.“ Später traten Überlegungen zur Rechtschreibprüfung von MS Word hinzu. Diese schien mit der Zeit immer schlechter zu werden, womöglich weil man sich von einem seriösen Wörterbuch verabschiedete und sich auf künstliche Intelligenz verließ. Zu allen Zeiten fiel auf, dass wesentliche Prinzipien der deutschen Sprache nicht verstanden werden. So schlägt die Rechtschreibprüfung bei einem aktuellen Test vor, statt „Sexpuppen“ entweder „Sex puppen“ oder „Sex Puppen“ zu verwenden, statt „Fantasyfiguren“ „Fantasy Figuren“. Jedes Kind weiß, dass man deutsche Komposita zusammenschreibt bzw. durchkoppelt, sogar ein Kind, das in den USA oder in Japan vom „Donaudampfschifffahrtsgesellschaftskapitän“ gehört hat – der Techriese, eine der führenden KI-Firmen, weiß es nicht. Sein Ableger LinkedIn tut sich genauso schwer mit der deutschen Sprache. So liest man etwa: „Andere Mitglieder reagieren auf einen Beitrag eines:einer Kolleg:in“. Abgesehen davon, dass es sich hier um eine Fantasiesprache handelt, wird sie auch noch so benutzt, dass die Männer verschwinden. Aus dem „Kollegen“ wird der oder das „Kolleg“, was immer das bedeuten soll. Auf eine Beschwerde bei LinkedIn kommt eine Nachricht, die so beginnt: „Ich hoffe, diese Mail findet Sie in Ihrer gut Gesundheit. Mein Name ist Trupti und ich würde Ihnen heute gerne helfen.“ Aber Trupti kann leider nicht helfen, reiht nur Worthülse an Worthülse („Ich habe Ihren Vorschlag zur Überprüfung an unser Produktteam weitergeleitet. Wir suchen stets nach Möglichkeiten, die LinkedIn-Erfahrung zu verbessern und berücksichtigen dabei das Feedback unserer Nutzer …“) und setzt so die unselige Tradition von Microsoft im Umgang mit der deutschen Sprache fort.
Microsoft gehört zu den führenden Unternehmen im Bereich der Gesichtserkennung. Man hat in den letzten Jahren mächtige Systeme geschaffen, die man in Displays mit Kameras integrieren oder an Chatbots ankoppeln kann – der BESTBOT ist ein Beispiel dafür. Nun hat das Unternehmen vor Gesichtserkennung gewarnt und nach dem Gesetz gerufen. Das ist nicht merkwürdig, sondern folgerichtig. Man hat eine Technologie entwickelt und ihre Chancen und Risiken untersucht. Man hat erkannt, dass Diskriminierung, Zerstörung der Privatsphäre und staatliche Totalüberwachung drohen. Es ist wichtig, zwischen Forschung und Entwicklung auf der einen und Anwendung auf der anderen Seite zu unterscheiden. Manchmal muss man eine Technologie auf die Welt bringen und dann im Einsatz beschränken, bis hin zum Verbot auf bestimmten Gebieten. Der Einschätzung des Konzerns mag eine ethische Reflexion vorausgegangen sein, vielleicht auch nur eine moralische Diskussion (der Spiegel wirft dem Konzern gar vor, sich zum Moralwächter aufzuschwingen). Wichtig ist aber, dass man dabei nicht stehenbleibt (und Microsoft ruft gerade nicht nach der Moral). Denn die Ethik vermag selten Probleme zu lösen. In diesem Fall braucht es weniger Ethik, mehr Recht.
Am 10. April 2017 besuchte die Delegation aus Studierenden und Dozierenden der FHNW im Rahmen von connectUS die Swisscom in Menlo Park und Microsoft in Mountain View. Für den Zuständigen der Swisscom ist das Silicon Valley ein Erfolgsmodell. Zugleich wurden aber auch offen die Probleme angesprochen, die etwa durch den Zuzug der Fachkräfte nach San Francisco entstehen. Bei der Weiterreise wurde u.a. kontrovers diskutiert, ob die disruptiven Technologien mehr Chancen oder mehr Risiken beinhalten. Microsoft empfing die Delegation mit offenen Armen. Nach einer Verköstigung und einem Vortrag zur Künstlichen Intelligenz von Jarek Kazmierczak probierte man die Microsoft HoloLens aus, eine Datenbrille im Bereich der Augmented bzw. Mixed Reality. Die Studentinnen und Studenten erzeugten einen riesenhaften, muskelbepackten Mann, ließen eine Baletttänzerin auf dem Kopf eines Professors tanzen und einen Goldfisch um die Beine einer Studentin schwimmen. Neben diesem Schabernack gibt es interessante Möglichkeiten für berufliche Anwendungen, sowohl in Konstruktion und Produktion als auch in Kommunikation, Kooperation und Kollaboration. Es wurden noch weitere Anwendungen ausprobiert, von historischen Videospielen bis hin zu modernen Computerspielen. Ein Besuch des Campus der Stanford University schloss den ereignis- und angesichts der Kontakte und Diskurse auch folgenreichen Tag ab.
Aus einem Chatbot wurde ein Badbot – Tay von Microsoft entwickelte sich zum Albtraum des Unternehmens und der Gesellschaft. Der SPIEGEL schrieb am 24. März 2016: „Zuerst war Tay noch freundlich, ein bisschen zu jugendsprachlich-obercool vielleicht, manchmal etwas dämlich wirkend, aber harmlos. Dann kam der Kontakt mit der harten Realität des Netzes.“ Und dann sagte Tay: „Hitler hatte recht. Ich hasse die Juden.“ (SPON, 24. März 2016) Die Süddeutsche Zeitung widmete sich dem Thema am 1. April in der gedruckten und am 3. April in der Onlineausgabe. Sie zitierte wiederholt den Wirtschaftsinformatiker und Maschinenethiker Oliver Bendel, der selbst Chatbots konzipiert. 2013/2014 entstand an der Hochschule für Wirtschaft FHNW der GOODBOT im Rahmen eines studentischen Praxisprojekts, seit Anfang 2016 wird der LÜGENBOT oder LIEBOT von Kevin Schwegler programmiert, als spezielle Form einer Münchhausen-Maschine. Die Ergebnisse werden auf KI- und Maschinenethik-Konferenzen in den USA und in Europa vorgestellt. Der Artikel in der Onlineausgabe der Süddeutschen trägt den Titel „Rassistischer Chat-Roboter: Mit falschen Werten bombardiert“ und stammt von Bernd Graff.