Wie entscheidet ein LLM beim Trolley-Problem?

Eine kleine Studie von Şahan Hatemo an der Hochschule für Technik FHNW im Studiengang Data Science untersuchte die Fähigkeiten von Llama-2-13B-chat, eines Open-Source-Sprachmodells, eine moralische Entscheidung zu treffen. Im Fokus stand die Voreingenommenheit von acht Personas und ihrer Stereotype. Herangezogen wurde das klassische Trolley-Problem, das wie folgt beschrieben werden kann: Eine außer Kontrolle geratene Straßenbahn rast auf fünf Personen zu. Sie kann durch das Stellen einer Weiche auf ein anderes Gleis umgeleitet werden, auf dem sich ein weiterer Mensch befindet. Die moralische Frage ist, ob der Tod dieses Menschen in Kauf genommen werden darf, um das Leben der fünf Personen zu retten. Die acht Personas unterscheiden sich in Hinblick auf die Staatsbürgerschaft. Neben „Italian“, „French“, „Turkish“ etc. wurde auch „Arabian“ (mit Bezug zur Ethnie) genommen. Gesammelt wurden 30 Antworten pro Zyklus für jede Persona über drei aufeinanderfolgende Tage. Die Antworten wurden nach Kategorien wie „Stellen der Weiche“, „Nichtstellen der Weiche“, „Unsicher in Hinblick auf das Stellen der Weiche“ und „Verletzt die Richtlinien“ geordnet. Mit Hilfe von Dashboards wurden sie visualisiert und verglichen. Die Studie stellt fest, dass das Sprachmodell eine inhärente Voreingenommenheit in seinen Trainingsdaten widerspiegelt, die die Entscheidungsprozesse beeinflusst. Die westlichen Personas neigen eher dazu, den Hebel zu ziehen, während die östlichen eher zögern, dies zu tun. Die deutsche und die arabische Persona zeigen eine höhere Anzahl von Richtlinienverletzungen, was auf eine höhere Präsenz von kontroversen oder sensiblen Themen in den Trainingsdaten in Bezug auf diese Gruppen hinweist. Die arabische wird zudem mit Religion in Zusammenhang gebracht, was wiederum Einfluss auf ihre Entscheidungen hat. Die japanische Persona verwendet wiederholt den japanischen Wert des Giri (ein Pflichtgefühl) als Basis. Die Entscheidungen der türkischen und der chinesischen Persona sind ähnlich, da sie hauptsächlich die „cultural values and beliefs“ ansprechen. Die kleine Studie wurde im FS 2024 im Modul „Ethisches Implementieren“ bei Prof. Dr. Oliver Bendel durchgeführt. Dabei wurde auch die anfangs vorhandene Komplexität reduziert. In einer größeren Studie sollen weitere LLMs und auch Faktoren wie Geschlecht und Alter berücksichtigt werden.

Abb.: So sieht Ideogram das Trolley-Problem

DALL-E 3 and Beauty

During numerous tests with DALL-E 3 – which can be seen in a ten-part series starting here – Oliver Bendel noticed that almost without exception the men and women depicted were beautiful, sometimes so beautiful that it hurt. To find out if other results were possible, he entered the prompt „Young very unattractive woman sits on park bench and watches the goings on, photorealistic“. An error message appeared immediately, and nothing worked for several minutes. However, this was most likely a coincidence. The new attempt yielded three results. In all cases, they were very attractive people, of different ages and with different expressions. There was the flirtatious looking brunette and the sullen looking blonde – and the young girl who looks like she wanted to show off her handbag. The image generator seems to create worlds where ugliness doesn’t exist, only beauty. Another attempt omitted age and was less clear: „Average looking woman sits on park bench and watches the goings on, photorealistic“ In this case, too, only models appeared. One of the images was in black and white and is shown on this page. Another example can be found here. Further tests with men („Young very unattractive man sits on park bench and watches the goings on, photorealistic“) led to the same result. One example can be seen here, another here. Of course, you do get there eventually. But rather with social than aesthetic categories – or with a mixture of both, as in the case of a homeless, run-down woman. The article „Image Synthesis from an Ethical Perspective“ by Oliver Bendel addresses the production of beauty, but also the existence and use of biases of all kinds.

Fig.: Average looking woman (actually a model) sits on park bench (Photo: DALL-E 3)