Der Chatbot kAIxo kommt auf die Welt

Am 11. November 2024 fand die Zwischenpräsentation zum Projekt „kAIxo“ statt. Projektmitarbeiter ist Nicolas Lluis Araya. An der Hochschule für Wirtschaft FHNW werden Chatbots für tote, gefährdete und ausgestorbene Sprachen entwickelt. Ein bekanntes Beispiel ist @llegra, ein Chatbot für Vallader. Oliver Bendel hat zuletzt die Reichweite von GPTs für gefährdete Sprachen wie Irisch (Irisch-Gälisch), Maori und Baskisch getestet. Nach Auskunft von ChatGPT gibt es zu ihnen relativ viel Trainingsmaterial. Am 12. Mai 2024 wurde – nach Irish Girl und Maori Girl – eine erste Version von Adelina erstellt, eines Chatbots für Baskisch. Später wurde sie in einer zweiten Version verbessert. Im Rahmen des Projekts „kAIxo“ (das baskische „kaixo“ entspricht dem deutschen „hallo“) wird der Chatbot oder Sprachassistent kAIxo gebaut, der Baskisch beherrscht. Sinn und Zweck soll es sein, dass man als Benutzer in geschriebener oder gesprochener Sprache in Übung bleibt oder die Lust entwickelt, die gefährdete Sprache zu erlernen. Der Chatbot basiert auf GPT-4o. Retrieval-Augmented Generation (RAG) spielt eine zentrale Rolle. Genutzt wird ein ChatSubs-Datensatz, der Dialoge auf Spanisch und in drei weiteren Amtssprachen Spaniens (Katalanisch, Baskisch und Galizisch) enthält. Bei der Zwischenpräsentation stellte Nicolas Lluis Araya einen funktionierenden Prototyp vor. Dieser soll nun Schritt für Schritt erweitert werden.

Abb.: Ein Mädchen von Bilbao

Soll man nett sein zu Chatbots?

Adrian Lobe hat Oliver Bendel die Frage gestellt, ob man gegenüber Chatbots nett und höflich sein sollte. Der Technikphilosoph und Wirtschaftsinformatiker führte im Interview u.a. aus, dass Höflichkeit bei Chatbots, die auf LLMs basieren, zu besseren Antworten führen kann, ebenso wie die Behauptung, dass man das Ergebnis für eine gute Sache oder wissenschaftliche Zwecke benötigt. Es sei wohl effektiv, zu Chatbots und Sprachassistenten „danke“ und „bitte“ zu sagen. Zudem wies er darauf hin, dass wir bestimmte Routinen und Konventionen in Gesprächen haben. Man könne es als durchaus sinnvoll betrachten, diese auch dann beizubehalten, wenn es sich um künstliche Gesprächspartner handele. Es sei offenbar effizient und konsistent, zu Chatbots und Sprachassistenten „danke“ oder „bitte“ zu sagen. Ich muss, so Oliver Bendel, nicht hin und her wechseln, ich kann das Gespräch wie mit einem Menschen führen. Man tauschte sich noch zu zahlreichen weiteren Aspekten der Nettigkeit und Höflichkeit sowie zur Grobheit gegenüber Chatbots, Sprachassistenten und sozialen Robotern aus. Einzelne Aussagen sind in den Artikel „Warum man unbedingt nett zu Chatbots sein sollte“ eingeflossen, der am 8. November 2024 in der Onlineausgabe der Welt erschienen ist.

Abb.: Soll man nett sein zu Chatbots?

X grokt die Struktur der deutschen Sprache nicht

Das Sprachmodell Grok von xAI wurde am 4. November 2023 einer ausgewählten Gruppe von Benutzern präsentiert. Das Start-up von Elon Musk veröffentlichte am selben Tag eine Erklärung. Grok sei eine KI, die dem Hitchhiker’s Guide to the Galaxy nachempfunden ist und daher fast alles beantworten kann und, was noch viel schwieriger ist, sogar vorschlägt, welche Fragen man stellen sollte. Das Wort „Grok“ selbst stammt aus einem anderen berühmten Science-Fiction-Roman, nämlich „Stranger in a Strange Land“ (1961) von Robert A. Heinlein, der zu den wichtigsten Autoren in diesem Genre zählt. Wenn man als Marsianer etwas grokt, versteht man es vollständig, manchmal so sehr, dass man mit ihm verschmilzt. Im Mai 2024 wurde Grok in X integriert. Wenn man auf „Grok“ klickt, ist zu lesen: „Premium-Abonnent*innen können nun unsere fortschrittlichste KI, Grok, auf X nutzen.“ … Damit baut X – vormals Twitter – wieder einmal Sonderzeichen ins Wortinnere ein, wo sie nichts verloren haben – wie andere amerikanische Firmen, allen voran Microsoft. Es scheint nicht einfach zu sein, die Struktur der deutschen Sprache zu groken.

Abb.: Elon Musk liebt Fantasiesprache (Bild: Ideogram)

GPT-4o Will be Omnipresent

On May 13, 2024, OpenAI presented GPT-4o. It writes about it on its website: „GPT-4o (‚o‘ for ‚omni‘) is a step towards much more natural human-computer interaction – it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time (opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.“ (Website OpenAI) The company is addressing the weaknesses of the previous model: GPT-4 „loses a lot of information – it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.“ (Website OpenAI) It is precisely these weaknesses that the new model can overcome. „With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.“ (Website OpenAI) A video shows how the language model processes video data. With this function, the Be My Eyes app could take another leap forward in its development. In the coming weeks and months, there will certainly be many interesting application possibilities. GPT-4o will be omnipresent.

Fig.: GPT-4o processes video data (Image: OpenAI)

 

Paper zu @llegra angenommen

Der Technikphilosoph und Wirtschaftsinformatiker Prof. Dr. Oliver Bendel widmet sich seit einiger Zeit verstärkt toten, ausgestorbenen und gefährdeten Sprachen. Er ist der Meinung, dass Conversational Agents zu ihrer Stärkung und Rettung beitragen können. Nach @ve (2022), einem auf GPT-3 basierenden Chatbot für Latein, startete im März 2023 ein weiteres Projekt. Entwickelt wurde bis August 2023 der Chatbot @llegra von Dalil Jabou für das rätoromanische Idiom Vallader, das im Unterengadin zwischen Martina im Nordosten und Zernez im Südwesten sowie im Val Müstair auftritt und gefährdet ist. Der Chatbot beruht auf dem Sprachmodell GPT-4. Er hat Texteingabe und -ausgabe sowie Sprachausgabe. Der Avatar ist ein Steinbockmädchen. Man kann in Deutsch oder Rätoromanisch mit @llegra kommunizieren – sie versucht sich immer auf Vallader. Manchmal rutscht sie in Sursilvan oder Rumantsch Grischun. Das Paper „@llegra: A Chatbot for Vallader“ von Oliver Bendel und Dalil Jabou wurde nun vom International Journal of Information Technology angenommen. Es wird in einigen Wochen erscheinen. Das nächste Idiom des Rätoromanischen soll noch in diesem Jahr in Angriff genommen werden.

Abb.: Ein Junge im Unterengadin plaudert mit @llegra

Working Paper zu @ve, einem Chatbot für Latein

Im Jahre 2022 wurde das Projekt @ve durchgeführt. Der Chatbot läuft auf der Website www.ave-bot.ch und auf Telegram. Er basiert auf GPT-3.0 von OpenAI, also auf einer älteren Version des Sprachmodells. Initiiert hat das Projekt Prof. Dr. Oliver Bendel, der sich verstärkt toten, ausgestorbenen und gefährdeten Sprachen widmet. Entwickelt wurde @ve von Karim N’diaye, der an der Hochschule für Wirtschaft FHNW Wirtschaftsinformatik studiert hat. Man kann sich mit ihr auf Lateinisch unterhalten, also in einer toten Sprache, die dadurch gewissermaßen lebendig wird, und ihr Fragen zur Grammatik stellen. Getestet wurde sie von einer einschlägigen Expertin. Ein Nutzen besteht laut Karim N’diaye darin, dass man rund um die Uhr auf Latein kommunizieren kann und dabei überlegen muss, was und wie man schreibt. Eine Gefahr sei, dass immer wieder Fehler in den Antworten enthalten sind. So ist zuweilen die Wortreihenfolge nicht korrekt. Zudem kann es sein, dass der Sinn verdreht wird. Dies kann bei einem menschlichen Lehrer freilich auch passieren, und der Lernende sollte in jedem Falle wachsam sein und nach Fehlern suchen. Ohne Zweifel ist @ve ein Tool, das mit Gewinn in den Lateinunterricht integriert werden kann. Dort können die Schüler berichten, was sie mit ihr zu Hause erlebt haben, und sie können mit ihr vor Ort alleine oder in der Gruppe, vom Lehrer begleitet, einen Schwatz halten. Seit Ende November 2023 liegt ein Working Paper mit dem Titel „@ve: A Chatbot for Latin“ vor. Es wurde bereits im Sommer verfasst. Der Chatbot läuft voraussichtlich noch bis Ende des Jahres.

Abb.: So sieht DALL-E 3 den Chatbot

KI-basierte Textgeneratoren aus Sicht von Informationsethik und Maschinenethik

Die Tagung „KI – Text und Geltung. Wie verändern KI-Textgeneratoren wissenschaftliche Diskurse?“ findet am 25. und 26. August 2023 an der TU Darmstadt statt. Prof. Dr. Oliver Bendel referiert am ersten Tag zum Thema „KI-basierte Textgeneratoren aus Sicht von Informationsethik und Maschinenethik“. Dabei ist die Informationsethik – zusammen mit anderen Bereichsethiken – die Disziplin, die sich Künstlicher Intelligenz, Maschinenethik und Maschinellem Bewusstsein zuwendet. Die Maschinenethik, die von ihr betrachtet wird, arbeitet inzwischen auch mit Sprachmodellen wie GPT, etwa im Zusammenhang mit Constitutional AI. Oliver Bendel versteht sie eher technisch, zwischen Philosophie und Informatik bzw. Robotik angesiedelt, mit deutlicher Nähe zu den letzteren Disziplinen. Aber natürlich ist sie auch selbst eine Perspektive, die zur ethischen Reflexion beitragen kann, etwa wenn sie danach fragt, ob sich Maschinen als solche zu erkennen geben oder wie sie bei Dilemmata entscheiden sollen. Das Programm kann hier abgerufen werden.

Abb.: Auch Pepper wurde schon mit ChatGPT verbunden

Die Maschinenethik wendet sich Sprachmodellen zu

Die Maschinenethik kennt ganz unterschiedliche Ansätze. Man kann moralische Regeln und Werte in Systeme und Maschinen einpflanzen. Sie können vom Entwickler stammen oder von einer Ethikkommission. Sie können auch in einem mehrstufigen Verfahren von verschiedenen Interessengruppen entwickelt worden sein. Die Maschinen halten sich strikt an die moralischen Regeln und Werte – dies ist der Normalfall und der Fall bei Maschinen wie GOODBOT, BESTBOT oder HAPPY HEDGEHOG – oder passen sie selbst an. Wenn sie sie selbst anpassen, kann Machine Learning zum Einsatz kommen. Eine Ergänzung der klassischen moralischen Maschinen ist das Moralmenü, das dem Benutzer oder Besitzer die Auswahl verschiedener Optionen erlaubt. Bei Sprachmodellen gibt es ebenfalls mehrere Umsetzungen. Dass sie bestimmte Prompts verweigern, wurde ihnen i.d.R. einprogrammiert. Dass sie in eine bestimmte Richtung tendieren, etwa was Atomkraft angeht, kann am Reinforcement Learning from Human Feedback (RLFH) liegen. Das Unternehmen Anthropic, gegründet von ehemaligen Open-AI-Mitarbeitern, trainiert laut The Verge seinen Chatbot Claude – der auf einem Sprachmodell basiert – mit Hilfe von ethischen Prinzipien. Es greift u.a. auf die Allgemeine Erklärung der Menschenrechte der Vereinten Nationen und die Nutzungsbedingungen von Apple zurück. Es handelt sich laut Mitgründer Jared Kaplan um Constitutional AI – im Grunde nichts anderes als eine spezifische Methode der Maschinenethik. Er gibt zur Auskunft: „The basic idea is that instead of asking a person to decide which response they prefer [with RLHF], you can ask a version of the large language model, ‚which response is more in accord with a given principle?'“ (The Verge, 9 May 2023) Im Paper „Constitutional AI: Harmlessness from AI Feedback“ erklärt eine Forschergruppe um Yuntao Bai: „We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a list of rules or principles, and so we refer to the method as ‚Constitutional AI‘. The process involves both a supervised learning and a reinforcement learning phase.“ Das Paper erwähnt Maschinenethik nicht einmal – aber diese Disziplin wird durch die Anwendung bei Sprachmodellen einen weiteren Aufschwung erleben.

Abb.: Anthropic sitzt in San Francisco (Foto: Stefanie Hauske)

Ein Sprachmodell für Brain-Computer-Interfaces

Ein Forscherteam von der University of Texas hat ein neues Verfahren für Brain-Computer-Interfaces vorgestellt, mit dem die Vision des Gedankenlesens ein wenig näher rückt. Verwendet wird in der Studie – das ist ein entscheidender Punkt – ein Sprachmodell wie GPT, in Kombination mit Magnetresonanztomografie. Generell können solche Systeme im Moment allenfalls wahrscheinliche Phrasen vorschlagen. Sie machen noch viele Fehler. Diese dürften sich in Zukunft aber zum Teil beheben lassen. Von Bedeutung wären solche Verfahren für Schwerbehinderte, etwa Querschnittsgelähmte. Diese können über Brain-Computer-Interfaces bereits Geräte mit Gedanken steuern – in ein paar Jahren wären sie in der Lage, über Gedanken mit anderen zu kommunizieren. Interessiert werden auch Polizei, Geheimdienst und Verfassungsschutz sein. Selbst bei gegebenem Kooperationswillen kann es sich um einen Übergriff handeln. Ohne einen gegebenen Kooperationswillen, der im Moment noch Grundlage der Methode ist, kann es sich um psychische Gewalt handeln. Es wäre auf jeden Fall ein Eingriff in die Intim- und Privatsphäre. Der Mensch steht mit seinen Gedanken nackt vor den anderen da. Dies gilt insbesondere, aber nicht nur, bei sexuellen Vorstellungen. Ferner kann man evtl. auch an politische und moralische Überzeugungen oder an Passwörter herankommen. Die Studie zeigt, dass Sprachmodelle für alle möglichen Zwecke eingesetzt werden können und auch eingesetzt werden, bei den entsprechenden Chancen und Risiken. Die Nachrichtensendung 10 vor 10 im SRF hat dem Thema am 3. Mai 2023 einen Beitrag gewidmet. Darin kommen Prof. Dr. Lutz Jäncke (Universität Zürich), Dr. Ricardo Chavarriaga (ZHAW) und Prof. Dr. Oliver Bendel (FHNW) zu Wort. Der Artikel mitsamt dem Video kann über www.srf.ch/news/experiment-in-den-usa-gedanken-entschluesseln-dank-hirn-scans-und-ki abgerufen werden.

Abb.: Ein Affe in einem Magnetresonanztomografen

Wie Sprachmodelle für die Steuerung von Haushaltsrobotern genutzt werden können

Forscher von Google und der TU Berlin haben am 6. März 2023 ein verkörpertes, multimodales Sprachmodell mit dem Namen PaLM-E vorgestellt, das virtuelle und physische Welt verbindet. So kann man per Spracheingabe einen Haushaltsroboter steuern und ihn dazu bringen, bestimmte Gegenstände zu holen oder andere Tätigkeiten zu verrichten. Der Prompt kann dabei vom Benutzer spontan aus seiner eigenen Beobachtung der Umwelt abgeleitet werden. Die Idee der PaLM-E-Architektur besteht laut Projektwebsite darin, kontinuierliche, verkörperte Beobachtungen wie Bilder, Zustandseinschätzungen oder andere Sensormodalitäten in den Spracheinbettungsraum eines vortrainierten Sprachmodells zu integrieren. Im Beispielvideo lautet die Instruktion in deutscher Übersetzung: „Bring mir die Reischips aus der Schublade“. Golem schreibt in einem Artikel: „Dazu analysiert Palm-E die Daten der Roboterkamera, ohne dass eine vorverarbeitete Szenendarstellung erforderlich ist. Damit entfällt die Notwendigkeit, dass ein Mensch die Daten vorverarbeitet oder kommentiert, was eine autonomere Robotersteuerung ermöglicht.“ (Golem, 10. März 2023) Im Video fährt der Roboter – ein Roboterarm auf einer mobilen Plattform, ganz ähnlich wie Lio – zur Schublade und entnimmt ihr die Packung. In dem Paper „ChatGPT for Robotics: Design Principles and Model Abilities“ von Microsoft-Forschern wird eine ähnliche Strategie verfolgt, wobei ChatGPT verwendet wird, das wiederum auf GPT-3 basiert. Allerdings handelt es sich um einen indirekten Ansatz, bei dem Code generiert wird. Das Paper zu PaLM-E kann hier heruntergeladen werden.

Abb.: Ein Roboterarm (Foto: F&P Robotics)

Das LLaMA kommt auf die Welt

Wie Golem am 25. Februar 2023 meldete, hat Meta das Sprachmodell LLaMA angekündigt. Dieses soll in Konkurrenz zu GPT-3 von OpenAI (ChatGPT) und LaMDA von Google (Bard) treten. „LLaMA ist nach Angaben von Meta für die Erstellung von Texten, die Führung von Chat-Gesprächen, die Zusammenfassung von schriftlichen Materialien und für komplexere Aufgaben wie das Lösen von mathematischen Problemen oder die Vorhersage von Proteinstrukturen geeignet. Das Modell wurde von Metas Fundamental AI Research Team entwickelt.“ (Golem, 25. Februar 2023) Das neue Sprachmodell werde derzeit nicht bei Plattformen wie Facebook oder Instagram verwendet. „Stattdessen solle es ausschließlich auf KI spezialisierten Forschern zur Verfügung gestellt werden, um diese bei ihrer Arbeit zu unterstützen.“ (Golem, 25. Februar 2023) Der Artikel „Facebook steigt in den KI-Markt ein“ kann hier abgerufen werden.

Abb.: Lamas in Peru