Moral Prompt Engineering

Die Maschinenethik, die vor zehn Jahren oft noch als Kuriosität abgetan wurde, ist inzwischen Alltagsgeschäft. Sie ist etwa gefragt, wenn man bei Sprachmodellen bzw. Chatbots sogenannte Guardrails einzieht, über Alignment in der Form von Finetuning oder über Prompt Engineering. Wenn man GPTs erstellt, also „custom versions of ChatGPT“, wie Open AI sie nennt, hat man das „Instructions“-Feld für das Prompt Engineering zur Verfügung. Dort kann der Prompteur oder die Prompteuse bestimmte Vorgaben und Einschränkungen für den Chatbot erstellen. Dabei kann auf Dokumente verwiesen werden, die man hochgeladen hat. Genau dies macht Myriam Rellstab derzeit an der Hochschule für Wirtschaft FHNW im Rahmen ihrer Abschlussarbeit „Moral Prompt Engineering“, deren Zwischenergebnisse sie am 28. Mai 2024 vorgestellt hat. Als Prompteuse zähmt sie GPT-4o, mit Hilfe ihrer Anweisungen und – dies hatte der Initiator des Projekts, Prof. Dr. Oliver Bendel, vorgeschlagen – mit Hilfe von Netiquetten, die sie gesammelt und dem Chatbot zur Verfügung gestellt hat. Der Chatbot wird gezähmt, der Tiger zum Stubentiger, der ohne Gefahr etwa im Klassenzimmer eingesetzt werden kann. Nun ist es bei GPT-4o so, dass schon vorher Guardrails eingezogen wurden. Diese wurden einprogrammiert oder über Reinforcement Learning from Human Feedback gewonnen. Man macht also genaugenommen aus einem gezähmten Tiger einen Stubentiger. Bei bestimmten Open-Source-Sprachmodellen ist dies anders. Das wilde Tier muss erst einmal eingefangen und dann gezähmt werden. Und selbst dann kann es einen ernsthaft verletzen. Doch auch bei GPTs gibt es Tücken, und wie man weiß, können Stubentiger durchaus fauchen und kratzen. Im August liegen die Ergebnisse des Projekts vor. Bereits bei Data, einem Chatbot für den Studiengang Data Science an der Hochschule für Technik FHNW, war Moral Prompt Engineering angewandt worden.

Abb.: Die Prompteuse vor dem Tiger (Bild: Ideogram)