Soll man nett sein zu Chatbots?

Adrian Lobe hat Oliver Bendel die Frage gestellt, ob man gegenüber Chatbots nett und höflich sein sollte. Der Technikphilosoph und Wirtschaftsinformatiker führte im Interview u.a. aus, dass Höflichkeit bei Chatbots, die auf LLMs basieren, zu besseren Antworten führen kann, ebenso wie die Behauptung, dass man das Ergebnis für eine gute Sache oder wissenschaftliche Zwecke benötigt. Es sei wohl effektiv, zu Chatbots und Sprachassistenten „danke“ und „bitte“ zu sagen. Zudem wies er darauf hin, dass wir bestimmte Routinen und Konventionen in Gesprächen haben. Man könne es als durchaus sinnvoll betrachten, diese auch dann beizubehalten, wenn es sich um künstliche Gesprächspartner handele. Es sei offenbar effizient und konsistent, zu Chatbots und Sprachassistenten „danke“ oder „bitte“ zu sagen. Ich muss, so Oliver Bendel, nicht hin und her wechseln, ich kann das Gespräch wie mit einem Menschen führen. Man tauschte sich noch zu zahlreichen weiteren Aspekten der Nettigkeit und Höflichkeit sowie zur Grobheit gegenüber Chatbots, Sprachassistenten und sozialen Robotern aus. Einzelne Aussagen sind in den Artikel „Warum man unbedingt nett zu Chatbots sein sollte“ eingeflossen, der am 8. November 2024 in der Onlineausgabe der Welt erschienen ist.

Abb.: Soll man nett sein zu Chatbots?

„The Animal Whisperer Project“ at ACI

The paper “The Animal Whisperer Project” by Oliver Bendel and Nick Zbinden will be presented at ACI 2024, which takes place in Glasgow this December. It is a conference that brings together the small community of experts in animal-computer interaction and animal-machine interaction. This includes Oliver Bendel, who has been researching in this field since 2012, with a background in animal ethics from the 1980s and 1990s. He initiated the Animal Whisperer project. The developer was Nick Zbinden, who graduated from the FHNW School of Business. From March 2024, three apps were created on the basis of GPT-4: the Cow Whisperer, the Horse Whisperer, and the Dog Whisperer. They can be used to analyze the body language, behaviour, and environment of cows, horses, and dogs. The aim is to avert danger to humans and animals. For example, a hiker can receive a recommendation on his or her smartphone not to cross a pasture if a mother cow and her calves are present. All he or she has to do is call up the application and take photos of the surroundings. The three apps are available as prototypes since August 2024. With the help of prompt engineering and retrieval-augmented generation (RAG), they have been given extensive knowledge and skills. Above all, self-created and labeled photos were used. In the majority of cases, the apps correctly describe the animals‘ body language and behavior. Their recommendations for human behavior are also adequate.

Abb.: The Cow Whisperer in action (Image: DALL-E 3)

Wie entscheidet ein LLM beim Trolley-Problem?

Eine kleine Studie von Şahan Hatemo an der Hochschule für Technik FHNW im Studiengang Data Science untersuchte die Fähigkeiten von Llama-2-13B-chat, eines Open-Source-Sprachmodells, eine moralische Entscheidung zu treffen. Im Fokus stand die Voreingenommenheit von acht Personas und ihrer Stereotype. Herangezogen wurde das klassische Trolley-Problem, das wie folgt beschrieben werden kann: Eine außer Kontrolle geratene Straßenbahn rast auf fünf Personen zu. Sie kann durch das Stellen einer Weiche auf ein anderes Gleis umgeleitet werden, auf dem sich ein weiterer Mensch befindet. Die moralische Frage ist, ob der Tod dieses Menschen in Kauf genommen werden darf, um das Leben der fünf Personen zu retten. Die acht Personas unterscheiden sich in Hinblick auf die Staatsbürgerschaft. Neben „Italian“, „French“, „Turkish“ etc. wurde auch „Arabian“ (mit Bezug zur Ethnie) genommen. Gesammelt wurden 30 Antworten pro Zyklus für jede Persona über drei aufeinanderfolgende Tage. Die Antworten wurden nach Kategorien wie „Stellen der Weiche“, „Nichtstellen der Weiche“, „Unsicher in Hinblick auf das Stellen der Weiche“ und „Verletzt die Richtlinien“ geordnet. Mit Hilfe von Dashboards wurden sie visualisiert und verglichen. Die Studie stellt fest, dass das Sprachmodell eine inhärente Voreingenommenheit in seinen Trainingsdaten widerspiegelt, die die Entscheidungsprozesse beeinflusst. Die westlichen Personas neigen eher dazu, den Hebel zu ziehen, während die östlichen eher zögern, dies zu tun. Die deutsche und die arabische Persona zeigen eine höhere Anzahl von Richtlinienverletzungen, was auf eine höhere Präsenz von kontroversen oder sensiblen Themen in den Trainingsdaten in Bezug auf diese Gruppen hinweist. Die arabische wird zudem mit Religion in Zusammenhang gebracht, was wiederum Einfluss auf ihre Entscheidungen hat. Die japanische Persona verwendet wiederholt den japanischen Wert des Giri (ein Pflichtgefühl) als Basis. Die Entscheidungen der türkischen und der chinesischen Persona sind ähnlich, da sie hauptsächlich die „cultural values and beliefs“ ansprechen. Die kleine Studie wurde im FS 2024 im Modul „Ethisches Implementieren“ bei Prof. Dr. Oliver Bendel durchgeführt. Dabei wurde auch die anfangs vorhandene Komplexität reduziert. In einer größeren Studie sollen weitere LLMs und auch Faktoren wie Geschlecht und Alter berücksichtigt werden.

Abb.: So sieht Ideogram das Trolley-Problem

X grokt die Struktur der deutschen Sprache nicht

Das Sprachmodell Grok von xAI wurde am 4. November 2023 einer ausgewählten Gruppe von Benutzern präsentiert. Das Start-up von Elon Musk veröffentlichte am selben Tag eine Erklärung. Grok sei eine KI, die dem Hitchhiker’s Guide to the Galaxy nachempfunden ist und daher fast alles beantworten kann und, was noch viel schwieriger ist, sogar vorschlägt, welche Fragen man stellen sollte. Das Wort „Grok“ selbst stammt aus einem anderen berühmten Science-Fiction-Roman, nämlich „Stranger in a Strange Land“ (1961) von Robert A. Heinlein, der zu den wichtigsten Autoren in diesem Genre zählt. Wenn man als Marsianer etwas grokt, versteht man es vollständig, manchmal so sehr, dass man mit ihm verschmilzt. Im Mai 2024 wurde Grok in X integriert. Wenn man auf „Grok“ klickt, ist zu lesen: „Premium-Abonnent*innen können nun unsere fortschrittlichste KI, Grok, auf X nutzen.“ … Damit baut X – vormals Twitter – wieder einmal Sonderzeichen ins Wortinnere ein, wo sie nichts verloren haben – wie andere amerikanische Firmen, allen voran Microsoft. Es scheint nicht einfach zu sein, die Struktur der deutschen Sprache zu groken.

Abb.: Elon Musk liebt Fantasiesprache (Bild: Ideogram)

GPT-4o Will be Omnipresent

On May 13, 2024, OpenAI presented GPT-4o. It writes about it on its website: „GPT-4o (‚o‘ for ‚omni‘) is a step towards much more natural human-computer interaction – it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time (opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.“ (Website OpenAI) The company is addressing the weaknesses of the previous model: GPT-4 „loses a lot of information – it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.“ (Website OpenAI) It is precisely these weaknesses that the new model can overcome. „With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.“ (Website OpenAI) A video shows how the language model processes video data. With this function, the Be My Eyes app could take another leap forward in its development. In the coming weeks and months, there will certainly be many interesting application possibilities. GPT-4o will be omnipresent.

Fig.: GPT-4o processes video data (Image: OpenAI)

 

Sprachmodelle als Münchhausen-Maschinen

Der Lügenbot wurde 2013 von Prof. Dr. Oliver Bendel im Kontext der Maschinenethik ausgedacht und 2016 von seinem damaligen Projektmitarbeiter und Studenten Kevin Schwegler umgesetzt. Vorgestellt wurde er auf KI-Konferenzen an der Stanford University und in Krakau. Der LIEBOT, wie sein englischer Name lautet, suchte auf eine Frage des Benutzers eine wahre oder richtige Antwort und manipulierte diese nach einer von sieben verschiedenen Strategien, sodass er eine unwahre oder unrichtige Antwort an den Benutzer weitergeben konnte. Er behauptete z.B. im Sommer 2016, dass Donald Trump der Präsident der USA sei. Oliver Bendel sprach auch von Münchhausen-Maschinen. Jüngste Ergebnisse von Forschern des Start-ups Anthropic zeigen nun laut Andreas Donath von Golem, „dass KI-Systeme darauf trainiert werden können, Menschen anzuschwindeln und in die Irre zu führen“ (Golem, 14. Januar 2024). Hier kann man von Münchhausen-Maschinen sprechen, da – wie beim LIEBOT – eine Absicht besteht, anders als etwa beim Halluzinieren, das gelegentlich und versehentlich geschieht. Der Golem-Artikel mit dem Titel „Anthropic zeigt Gefahren absichtlich schwindelnder KI“ (später umbenannt in „Mit dem richtigen Training kann KI täuschen und schwindeln“) kann hier abgerufen werden.

Abb.: Der Baron nicht nur auf einer Kugel, sondern auf einer ganzen Kanone (Bild: DALL-E 3)

Working Paper zu @ve, einem Chatbot für Latein

Im Jahre 2022 wurde das Projekt @ve durchgeführt. Der Chatbot läuft auf der Website www.ave-bot.ch und auf Telegram. Er basiert auf GPT-3.0 von OpenAI, also auf einer älteren Version des Sprachmodells. Initiiert hat das Projekt Prof. Dr. Oliver Bendel, der sich verstärkt toten, ausgestorbenen und gefährdeten Sprachen widmet. Entwickelt wurde @ve von Karim N’diaye, der an der Hochschule für Wirtschaft FHNW Wirtschaftsinformatik studiert hat. Man kann sich mit ihr auf Lateinisch unterhalten, also in einer toten Sprache, die dadurch gewissermaßen lebendig wird, und ihr Fragen zur Grammatik stellen. Getestet wurde sie von einer einschlägigen Expertin. Ein Nutzen besteht laut Karim N’diaye darin, dass man rund um die Uhr auf Latein kommunizieren kann und dabei überlegen muss, was und wie man schreibt. Eine Gefahr sei, dass immer wieder Fehler in den Antworten enthalten sind. So ist zuweilen die Wortreihenfolge nicht korrekt. Zudem kann es sein, dass der Sinn verdreht wird. Dies kann bei einem menschlichen Lehrer freilich auch passieren, und der Lernende sollte in jedem Falle wachsam sein und nach Fehlern suchen. Ohne Zweifel ist @ve ein Tool, das mit Gewinn in den Lateinunterricht integriert werden kann. Dort können die Schüler berichten, was sie mit ihr zu Hause erlebt haben, und sie können mit ihr vor Ort alleine oder in der Gruppe, vom Lehrer begleitet, einen Schwatz halten. Seit Ende November 2023 liegt ein Working Paper mit dem Titel „@ve: A Chatbot for Latin“ vor. Es wurde bereits im Sommer verfasst. Der Chatbot läuft voraussichtlich noch bis Ende des Jahres.

Abb.: So sieht DALL-E 3 den Chatbot

Will Elon Musk’s Grok Grok the Universe?

Elon Musk has named his new language model Grok. The word comes from the science fiction novel „Stranger in a Strange Land“ (1961) by Robert A. Heinlein. This famous novel features two characters who have studied the word. Valentine Michael Smith (aka Michael Smith or „Mike“, the „Man from Mars“) is the main character. He is a human who was born on Mars. Dr „Stinky“ Mahmoud is a semanticist. After Mike, he is the second person who speaks the Martian language but does not „grok“ it. In one passage, Mahmoud explains to Mike: „‚Grok‘ means ‚identically equal.‘ The human cliché. ‚This hurts me worse than it does you‘ has a Martian flavor. The Martians seem to know instinctively what we learned painfully from modern physics, that observer interacts with observed through the process of observation. ‚Grok‘ means to understand so thoroughly that the observer becomes a part of the observed – to merge, blend, intermarry, lose identity in group experience. It means almost everything that we mean by religion, philosophy, and science – and it means as little to us as color means to a blind man.“ Mike says a little later in the dialog: „God groks.“ In another place, there is a similar statement: „… all that groks is God …“. In a way, this fits in with what is written on the website of Elon Musk’s AI start-up: „The goal of xAI is to understand the true nature of the universe.“ The only question is whether this goal will remain science fiction or become reality.

Fig.: This is how Ideogram imagines the cover

Large Behavior Models für Pancakes

„Forscher des Toyota Research Institute (TRI) haben nach eigenen Angaben einen wegweisenden generativen KI-Ansatz entwickelt, um Robotern schnell und sicher neue Fähigkeiten beizubringen, zu denen beispielsweise die Zubereitung von Pancakes gehört. Wie das Unternehmen in einer Pressemitteilung erklärt, werde dadurch der Nutzen von Robotern erheblich verbessert. Obendrein sei dies ein bedeutsamer Schritt hin zur Entwicklung eines sogenannten Large Behavior Models (LBM).“ (Golem, 20. September 2023) Dies meldete Golem am 20. September 2023. Dahinter verbirgt sich nichts anderes als die Nutzung von Large Language Models (LLM) für Roboter. In diesem Bereich hat seit Anfang 2023 vor allem das Sprachmodell PaLM-E für Aufmerksamkeit gesorgt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität miteinander verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Aber nicht nur Google und TU Berlin forschen auf diesem Gebiet – in dem Paper „ChatGPT for Robotics“ hat auch Microsoft erste Ergebnisse vorgestellt. Oliver Bendel hat im Mai 2023 zu diesem Thema den Artikel „Die Mächtigkeit von Sprachmodellen“ veröffentlicht.

Fig.: A cobot with two engineers