Sprachmodelle als Münchhausen-Maschinen

Der Lügenbot wurde 2013 von Prof. Dr. Oliver Bendel im Kontext der Maschinenethik ausgedacht und 2016 von seinem damaligen Projektmitarbeiter und Studenten Kevin Schwegler umgesetzt. Vorgestellt wurde er auf KI-Konferenzen an der Stanford University und in Krakau. Der LIEBOT, wie sein englischer Name lautet, suchte auf eine Frage des Benutzers eine wahre oder richtige Antwort und manipulierte diese nach einer von sieben verschiedenen Strategien, sodass er eine unwahre oder unrichtige Antwort an den Benutzer weitergeben konnte. Er behauptete z.B. im Sommer 2016, dass Donald Trump der Präsident der USA sei. Oliver Bendel sprach auch von Münchhausen-Maschinen. Jüngste Ergebnisse von Forschern des Start-ups Anthropic zeigen nun laut Andreas Donath von Golem, „dass KI-Systeme darauf trainiert werden können, Menschen anzuschwindeln und in die Irre zu führen“ (Golem, 14. Januar 2024). Hier kann man von Münchhausen-Maschinen sprechen, da – wie beim LIEBOT – eine Absicht besteht, anders als etwa beim Halluzinieren, das gelegentlich und versehentlich geschieht. Der Golem-Artikel mit dem Titel „Anthropic zeigt Gefahren absichtlich schwindelnder KI“ (später umbenannt in „Mit dem richtigen Training kann KI täuschen und schwindeln“) kann hier abgerufen werden.

Abb.: Der Baron nicht nur auf einer Kugel, sondern auf einer ganzen Kanone (Bild: DALL-E 3)

Die Maschinenethik wendet sich Sprachmodellen zu

Die Maschinenethik kennt ganz unterschiedliche Ansätze. Man kann moralische Regeln und Werte in Systeme und Maschinen einpflanzen. Sie können vom Entwickler stammen oder von einer Ethikkommission. Sie können auch in einem mehrstufigen Verfahren von verschiedenen Interessengruppen entwickelt worden sein. Die Maschinen halten sich strikt an die moralischen Regeln und Werte – dies ist der Normalfall und der Fall bei Maschinen wie GOODBOT, BESTBOT oder HAPPY HEDGEHOG – oder passen sie selbst an. Wenn sie sie selbst anpassen, kann Machine Learning zum Einsatz kommen. Eine Ergänzung der klassischen moralischen Maschinen ist das Moralmenü, das dem Benutzer oder Besitzer die Auswahl verschiedener Optionen erlaubt. Bei Sprachmodellen gibt es ebenfalls mehrere Umsetzungen. Dass sie bestimmte Prompts verweigern, wurde ihnen i.d.R. einprogrammiert. Dass sie in eine bestimmte Richtung tendieren, etwa was Atomkraft angeht, kann am Reinforcement Learning from Human Feedback (RLFH) liegen. Das Unternehmen Anthropic, gegründet von ehemaligen Open-AI-Mitarbeitern, trainiert laut The Verge seinen Chatbot Claude – der auf einem Sprachmodell basiert – mit Hilfe von ethischen Prinzipien. Es greift u.a. auf die Allgemeine Erklärung der Menschenrechte der Vereinten Nationen und die Nutzungsbedingungen von Apple zurück. Es handelt sich laut Mitgründer Jared Kaplan um Constitutional AI – im Grunde nichts anderes als eine spezifische Methode der Maschinenethik. Er gibt zur Auskunft: „The basic idea is that instead of asking a person to decide which response they prefer [with RLHF], you can ask a version of the large language model, ‚which response is more in accord with a given principle?'“ (The Verge, 9 May 2023) Im Paper „Constitutional AI: Harmlessness from AI Feedback“ erklärt eine Forschergruppe um Yuntao Bai: „We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a list of rules or principles, and so we refer to the method as ‚Constitutional AI‘. The process involves both a supervised learning and a reinforcement learning phase.“ Das Paper erwähnt Maschinenethik nicht einmal – aber diese Disziplin wird durch die Anwendung bei Sprachmodellen einen weiteren Aufschwung erleben.

Abb.: Anthropic sitzt in San Francisco (Foto: Stefanie Hauske)