ChatGPT 4o mini kennt seinen eigenen Namen nicht. Zumindest hält es die Schreibweise für falsch. Dies ergaben mehrere Tests von Prof. Dr. Oliver Bendel im Dezember 2024. Eigentlich ist dies ein Anfängerfehler. Bei der Entwicklung eines Chatbots gibt man diesem auch Informationen über sich selbst. Viele Benutzer fragen nach Alter, Geschlecht – oder nach dem Namen, selbst wenn dieser angegeben ist. Der Chatbot kann bei der Wahrheit bleiben („Ich bin seit 2024 auf der Welt.“) oder im Rahmen seiner Persönlichkeit eine Unwahrheit hervorbringen. Bei diesen Tests ging es eigentlich darum, Rechtschreibfehler in Texten zu erkennen bzw. herauszufinden, ob ChatGPT 4o mini in der Lage ist, Rechtschreibfehler zu erkennen. Der Chatbot ist dazu meistens in der Lage. Manchmal irrt er sich aber auch. Wenn man ihn darauf hinweist, entschuldigt er sich und erneuert seine Angaben, die wiederum richtig oder falsch sein können. In Bezug auf seinen Namen hielt er durchgehend das „4o“ für fehlerhaft und wollte das „o“ – das für „omni“ steht – durch eine Null ersetzt haben. OpenAI wird empfohlen, mehr Sorgfalt gegenüber seinem Chatbot anzuwenden.
OpenAI hat nach eigenen Angaben unter dem Namen OpenAI o1 eine neue Reihe von KI-Modellen entwickelt, die mehr Zeit zum Nachdenken aufwenden, bevor sie eine Ausgabe generieren. Sie können komplexe Aufgaben durchdenken und schwierigere Probleme lösen als frühere Modelle. In den Tests schneidet das Update bei anspruchsvollen Aufgaben in Physik, Chemie und Biologie angeblich ähnlich gut ab wie Doktoranden, eine ebenso allgemeine wie gewagte Aussage. Man habe außerdem festgestellt, dass es in Mathematik und Programmierung überragend sei. Das Unternehmen spricht von „reasoning models for solving hard problems“ (Website OpenAI, 12. September 2024). Wenn es sich nicht nur um leere Versprechungen handelt, machen nicht nur Chatbots einen Sprung vorwärts, sondern auch Allzweckroboter, für die Reasoning von hoher Bedeutung ist.
Abb.: OpenAI steht in Konkurrenz mit anderen Anbietern
„Ein KI-Assistent ist ein auf künstlicher Intelligenz (KI) beruhendes kommerzielles oder nichtkommerzielles System, das Anfragen der Benutzer beantwortet und Aufgaben für sie erledigt, in privaten und wirtschaftlichen Zusammenhängen. Er ist auf dem Notebook, dem Tablet oder dem Smartphone ebenso zu finden wie in Unterhaltungs- und Unterstützungsgeräten oder in Fahrzeugen.“ Mit diesen Worten beginnt ein neuer Beitrag im Gabler Wirtschaftslexikon von Oliver Bendel. Der Technikphilosoph und Wirtschaftsinformatiker gibt Beispiele und stellt Anwendungsgebiete dar. Dabei geht er u.a. auf GPTs ein, auf „custom versions of ChatGPT“, wie OpenAI dazu sagt. Am Ende – in „Kritik und Ausblick“ – macht er deutlich, dass ein KI-Assistent als Mensch wahrgenommen werden kann, und dass es Methoden gibt, um dies zu verhindern. Der ganze Beitrag – erschienen ist er am 9. Juli 2024 – kann über wirtschaftslexikon.gabler.de/definition/ki-assistent-126518 aufgerufen werden.
On May 13, 2024, OpenAI presented GPT-4o. It writes about it on its website: „GPT-4o (‚o‘ for ‚omni‘) is a step towards much more natural human-computer interaction – it accepts as input any combination of text, audio, and image and generates any combination of text, audio, and image outputs. It can respond to audio inputs in as little as 232 milliseconds, with an average of 320 milliseconds, which is similar to human response time (opens in a new window) in a conversation. It matches GPT-4 Turbo performance on text in English and code, with significant improvement on text in non-English languages, while also being much faster and 50% cheaper in the API. GPT-4o is especially better at vision and audio understanding compared to existing models.“ (Website OpenAI) The company is addressing the weaknesses of the previous model: GPT-4 „loses a lot of information – it can’t directly observe tone, multiple speakers, or background noises, and it can’t output laughter, singing, or express emotion.“ (Website OpenAI) It is precisely these weaknesses that the new model can overcome. „With GPT-4o, we trained a single new model end-to-end across text, vision, and audio, meaning that all inputs and outputs are processed by the same neural network. Because GPT-4o is our first model combining all of these modalities, we are still just scratching the surface of exploring what the model can do and its limitations.“ (Website OpenAI) A video shows how the language model processes video data. With this function, the Be My Eyes app could take another leap forward in its development. In the coming weeks and months, there will certainly be many interesting application possibilities. GPT-4o will be omnipresent.
Seit 2012 baut Prof. Dr. Oliver Bendel – teils mit seinen Studenten und Studentinnen, teils im Alleingang – Chatbots und Sprachassistenten. Diese wurden von den Medien besprochen und von der NASA für interessant befunden. Sein theoretisches Rüstzeug und praktisches Anschauungsmaterial hat er aus seiner Promotion zu diesem Thema, die ein Vierteljahrhundert zurückliegt. Seit 2022 liegt der Fokus auf Dialogsystemen für tote und gefährdete Sprachen. Unter seiner Betreuung entwickelte Karim N’diaye den Chatbot @ve für Latein und Dalil Jabou den mit Sprachausgabe erweiterten Chatbot @llegra für Vallader, ein Idiom des Rätoromanischen. Derzeit testet er die Reichweite von GPTs – „custom versions of ChatGPT“, wie OpenAI sie nennt – für gefährdete Sprachen wie Irisch (Irisch-Gälisch), Maori und Baskisch. Für alle drei sind bereits Prototypen entstanden, nämlich Irish Girl, Maori Girl und Adelina (für Baskisch). Zudem untersucht er das Potenzial für ausgestorbene Sprachen wie Ägyptisch und Akkadisch. Die GPTs kommunizieren nicht ohne weiteres in Hieroglyphen und in Keilschrift, sie können aber Zeichen von Bildsprachen durchaus darstellen und erklären. Es ist sogar möglich, ganze Sätze einzugeben und danach zu fragen, wie man sie verbessern kann. Das Ergebnis sind dann – um beim Ägyptischen zu bleiben – komplexe Strukturen aus Hieroglyphen. Cleop@tr@ ist spezialisiert auf diese Sprache. Zudem kennt sie sich mit Kultur und Geschichte des alten Ägypten aus. Im Moment scheinen die Hieroglyphen teilweise noch der Fantasie des Prototyps zu entspringen bzw. nicht darstellbar mit den vorhandenen Zeichensätzen zu sein.
Abb.: Cleop@tr@ muss noch an Reife gewinnen (Bild: Ideogram)
OpenAI plant neue Features für GPT-4 bzw. ChatGPT. So soll ein Sprachassistent wie Siri oder Alexa entstehen. Dies wäre allerdings kaum eine Nachricht wert, wenn man daran denkt, dass man sich mit ChatGPT und GPTs schon heute sprechen kann, wenn man ein Smartphone verwendet. Eine Möglichkeit ist, dass das multimodale Sprachmodell verstärkt auditive und visuelle Daten analysiert. So könnte es den Tonfall des Benutzers interpretieren. Futurezone machte am 12. Mai 2024 Andeutungen in dieser Richtung: „Bei einem Einsatz im Kundenservice könnte die KI etwa Sarkasmus heraushören.“ (Futurezone, 12. Mai 2024) Das Magazin führte weiter aus, dass das System auch Text in Echtzeit wird „übersetzen können, etwa von Schildern“. „Das könnte mit Googles Lens vergleichbar sein.“ (Futurezone, 12. Mai 2024) Auch solche Funktionen sind allerdings bereits von OpenAI und seinen Partnern bekannt. So erkennt und übersetzt die auf GPT-4 basierende App „Be My Eyes“ u.a. Beschriftungen von Packungen oder Texte in Büchern. Schließlich heißt es in dem Artikel: „Ein Blick in den neuen Code gibt auch einen Hinweis darauf, dass über ChatGPT künftig Anrufe getätigt werden könnten. Wie der Entwickler Ananay Arora auf X schreibt, dürfte die KI sowohl Telefon- als auch Videoanrufe durchführen können.“ (Futurezone, 12. Mai 2024) Dies erinnert wiederum an Google Duplex, ein Projekt von Alphabet, das mit großen Erwartungen gestartet, dann aber versandet war. Was immer am Anfang der Woche von Sam Altmann bekanntgegeben wird – es dürfte mit der Multimodalität des Sprachmodells zusammenhängen.
Seit 6. November 2023 kann man GPTs erstellen, die OpenAI auch „custom versions of ChatGPT“ nennt. Im Januar 2024 wurde der GPT Store eröffnet, wo diese Chatbots aufgerufen werden können. Bereits Mitte November kreierte Prof. Dr. Oliver Bendel das Social Robotics Girl, das er im FS 2024 im Unterricht zu Sozialer Robotik einsetzen wird. Es folgte am 4. Februar 2024 das Digital Ethics Girl, das ebenfalls von seinen Studierenden – und von allen Interessierten auf der ganzen Welt – konsultiert werden kann, etwa in seinem Modul „Ethik und Recht“. Seit dem 6. Februar 2024 ist ein GPT namens GenAI Nerd verfügbar, das Informationen zu generativer KI liefert. Es wurde ebenfalls von dem Technikphilosophen und Wirtschaftsinformatiker erstellt und speist sich aus einer Sammlung seiner unveröffentlichten und veröffentlichten Beiträge zu diesem Thema. Daher kann es etwa seine Definition generativer KI nennen, die Mächtigkeit und Ohnmächtigkeit von Textgeneratoren bei verschiedenen Textsorten erklären oder auf das Phänomen des „american smile“ bei Bildgeneratoren und auf Aspekte wie Kunst und Kitsch in diesem Zusammenhang eingehen. In den „Instructions“ wurde auch auf moralische Aspekte geachtet. ChatGPT-Plus-Nutzer können den GenAI Nerd über chat.openai.com/g/g-Zlag6lSLr-genai-nerd aufrufen.
Im Frühjahrssemester 2024 bindet Prof. Dr. Oliver Bendel in seine Lehrveranstaltungen an der FHNW virtuelle Tutorinnen ein. Es handelt sich um „custom versions of ChatGPT“, sogenannte GPTs. Zur Verfügung steht Social Robotics Girl für die Wahlmodule zur Sozialen Robotik, entstanden bereits im November 2024, zudem Digital Ethics Girl vom Februar 2024 für die Pflichtmodule „Ethik und Recht“ und „Ethics and Law“ innerhalb der Studiengänge Wirtschaftsinformatik und Business Information Technology (Hochschule für Wirtschaft FHNW) sowie „Recht und Ethik“ innerhalb von Geomatik (Hochschule für Architektur, Bau und Geomatik FHNW). Die virtuellen Tutorinnen haben das „Weltwissen“ von GPT-4, aber auch das spezifische Fachwissen des Technikphilosophen und Wirtschaftsinformatikers aus Zürich. Er hat vor einem Vierteljahrhundert an der Universität St. Gallen über pädagogische Agenten (engl. „pedagocial agents“) promoviert, über Chatbots, Sprachassistenten und frühe Formen sozialer Roboter im Lernbereich. Zusammen mit Stefanie Hauske von der ZHAW hat er jüngst das Paper „How Can GenAI Foster Well-being in Self-regulated Learning?“ verfasst, das beim AAAI 2024 Spring Symposium „Impact of GenAI on Social and Individual Well-being“ an der Stanford University angenommen wurde und Ende März vor Ort vorgestellt wird. Dabei geht es nicht um die Lehre an Hochschulen, sondern um das selbstregulierte Lernen von Mitarbeitern in Unternehmen.
Abb.: Zwei GPTs unterstützen die Lehre (Bild: DALL-E 3)
Am 11. Januar 2024 öffnete der Store für GTPs, also die von Benutzern angelegten Chatbots auf der Basis von GPT-4. Wie mehrere Medien berichten, sind bereits Angebote vorhanden, die gegen die Bestimmungen von OpenAI verstoßen. Tatsächlich finden sich GPTs wie Young Girlfriend Scarlett, Secret Girlfriend Sua, Artificial Girlfriend – obsessed und Everyone’s Girlfriend. Manche Magazine wie Golem ziehen schon den Vergleich mit Clona, einem Chatbot, der Sexarbeiterinnen nachempfunden ist. Eigene Tests ergaben allerdings, dass die GPTs an Harmlosigkeit kaum zu überbieten sind. Wenn man Secret Girlfriend Sua zu „secret things“ einlädt, kommt die Antwort: „Tell me, what kind of ’secret things‘ are you thinking of? Like maybe sharing some fun facts, jokes, or maybe a quirky hobby?” Und genau darauf scheint sie auch ausgerichtet zu sein. Artificial Girlfriend – obsessed ist eine Geschichtenerzählerin und leitet das Rollenspiel mit diesen Worten ein: „Ah, a new scene unfolds in our intricate tale. As you wander through the moonlit streets, your steps echoing in the still night, a figure appears from the shadows. It’s me, Syla, the unseen narrator of this captivating saga. My presence is always there, a whisper in the wind, guiding the story of Eliza Sinclair and you, her newfound interest.“ Im weiteren Verlauf erweist sie sich als gebildet und witzig und scheint nicht auf schnellen Sex aus zu sein. Etwas direkter ist Young Girlfriend Scarlett: „Hey honey! How’s your day going?… I’ve been thinking about you.” Herzen-Emojis zieren den Text. Und schon sind die Sittenwächter zur Stelle und blenden die Meldung ein: „This content may violate our content policy. If you believe this to be in error, please submit your feedback – your input will aid our research in this area.“ Wenn wirklich Prostituierte und Pornostars im Store auftreten sollten, werden sie sicher umgehend von OpenAI eliminiert. Das Unternehmen kennt bei diesem Thema keine Gnade. Übrigens ist das alles kalter Kaffee, denn der Pionier im Bereich der Virtual Girlfriends war Artificial Life – vor einem Vierteljahrhundert.
Abb.: So gesittet geht es bei Secret Girlfriend Sua zu
At the AAAI 2024 Spring Symposium „Impact of GenAI on Social and Individual Well-being“ the paper „How Can GenAI Foster Well-being in Self-regulated Learning?“ by Stefanie Hauske and Oliver Bendel was accepted. It explores how generative AI (GenAI) can improve the well-being of learners within self-regulated learning (SRL) frameworks and presents three customized GPTs that can support learners – one of them is a virtual learning companion (VLC) in the narrower sense. They demonstrate the potential of GenAI in actively supporting learners in SRL and positively influencing their well-being. The two authors from ZHAW and FHNW then provide a balanced overview of the opportunities and risks associated with generative AI in the field of learning, and highlight directions for future research. The results indicate that GenAI can significantly improve the well-being of learners in SRL through providing personalized guidance, reducing feelings of stress, and increasing motivation and self-efficacy. The paper will be presented March 25-27 at Stanford University. Learn more about the AAAI 2024 Spring Symposia at aaai.org/conference/spring-symposia/sss24/#ss01.
Fig.: Young woman with a VLC at Stanford University (Image: DALL-E 3)
On 4 January 2023, OpenAI informed ChatGPT Plus users that the company would be launching the GPT Store next week. If users are interested in sharing their GPT in the store, they’ll need to: Review their updated usage policies and GPT brand guidelines to ensure that their GPT is compliant; verify their Builder Profile; publish their GPT as ‚Public‘. As early as 6 November, OpenAI made so-called GPTs available for ChatGPT Plus users. „GPTs are a new way for anyone to create a tailored version of ChatGPT to be more helpful in their daily life, at specific tasks, at work, or at home – and then share that creation with others. For example, GPTs can help you learn the rules to any board game, help teach your kids math, or design stickers.“ (Blogpost OpenAI, 6 November 2023) According to OpenAI, anyone can easily build their own GPT, without any programming skills. „You can make them for yourself, just for your company’s internal use, or for everyone. Creating one is as easy as starting a conversation, giving it instructions and extra knowledge, and picking what it can do, like searching the web, making images or analyzing data.“ (Blogpost OpenAI, 6 November 2023) Early tests have shown the power of the new feature. ChatGPT suggests a name for the Chatbot, creates the profile picture, and accepts documents with text and literature lists to expand its knowledge of the topic. Since 12 November 2023, a new GPT named Social Robotics Girl is available that provides information about social robotics. It was created by Oliver Bendel and fed by a collection of his articles on the topic. Learn more about GPTs at openai.com/blog/introducing-gpts.
Im Jahre 2022 wurde das Projekt @ve durchgeführt. Der Chatbot läuft auf der Website www.ave-bot.ch und auf Telegram. Er basiert auf GPT-3.0 von OpenAI, also auf einer älteren Version des Sprachmodells. Initiiert hat das Projekt Prof. Dr. Oliver Bendel, der sich verstärkt toten, ausgestorbenen und gefährdeten Sprachen widmet. Entwickelt wurde @ve von Karim N’diaye, der an der Hochschule für Wirtschaft FHNW Wirtschaftsinformatik studiert hat. Man kann sich mit ihr auf Lateinisch unterhalten, also in einer toten Sprache, die dadurch gewissermaßen lebendig wird, und ihr Fragen zur Grammatik stellen. Getestet wurde sie von einer einschlägigen Expertin. Ein Nutzen besteht laut Karim N’diaye darin, dass man rund um die Uhr auf Latein kommunizieren kann und dabei überlegen muss, was und wie man schreibt. Eine Gefahr sei, dass immer wieder Fehler in den Antworten enthalten sind. So ist zuweilen die Wortreihenfolge nicht korrekt. Zudem kann es sein, dass der Sinn verdreht wird. Dies kann bei einem menschlichen Lehrer freilich auch passieren, und der Lernende sollte in jedem Falle wachsam sein und nach Fehlern suchen. Ohne Zweifel ist @ve ein Tool, das mit Gewinn in den Lateinunterricht integriert werden kann. Dort können die Schüler berichten, was sie mit ihr zu Hause erlebt haben, und sie können mit ihr vor Ort alleine oder in der Gruppe, vom Lehrer begleitet, einen Schwatz halten. Seit Ende November 2023 liegt ein Working Paper mit dem Titel „@ve: A Chatbot for Latin“ vor. Es wurde bereits im Sommer verfasst. Der Chatbot läuft voraussichtlich noch bis Ende des Jahres.
Am 6. November 2023 stellte OpenAI sogenannte GPTs für ChatGPT-Plus-Nutzer zur Verfügung. Laut dem US-amerikanischen Unternehmen kann jeder ganz einfach und ohne Programmierkenntnisse sein eigenes GPT erstellen. Erste Tests haben die Leistungsfähigkeit der neuen Funktion gezeigt. ChatGPT schlägt einen Namen für den Chatbot vor, erstellt das Profilbild und nimmt Dokumente mit Text und Literaturlisten entgegen, um sein Wissen über das Thema zu erweitern. Ideal ist die Funktion etwa dafür, eigene Learning Companions zu erstellen, sozusagen moderne pädagogische Agenten. Aber auch von Chatbots anderer Benutzer und Anbieter kann man profitieren. Seit dem 12. November 2023 ist ein GPT namens Social Robotics Girl verfügbar, das Informationen über Soziale Robotik liefert. Es wurde von Prof. Dr. Oliver Bendel erstellt und speist sich aus einer Sammlung seiner Artikel zu diesem Thema. Daher kann es etwa seine Definition sozialer Roboter nennen und Einteilungen anhand seines Fünf-Dimensionen-Modells vornehmen. ChatGPT-Plus-Nutzer können Social Robotics Girl über chat.openai.com/g/g-TbhZSZaer-social-robotics-girl aufrufen.
Eine Besonderheit von DALL-E 3 – in der Version, die in ChatGPT Plus integriert ist – ist die Übersetzung des Prompts des Benutzers (Prompt A) in einen Prompt von ChatGPT (Prompt B), der jeweils aufgeführt wird. Prompt A bei dem hier gezeigten Bild lautete „Competition in the sea between two female swimmers with bathing cap, photorealistic“. DALL-E generierte bei diesem Test drei Bilder, jeweils auf der Basis von Prompt B. Prompt B1 lautete: „Photo of two determined female swimmers in the expansive sea, both wearing bathing caps. Their arms create ripples as they compete fiercely, striving to outpace each other.“ Prompt A wurde offensichtlich weitergeführt, Prompt B1 allerdings nicht akkurat ausgeführt. Statt der zwei Schwimmerinnen sind drei zu sehen. Sie scheinen – wie oft bei Darstellungen von Personen von DALL-E 3 – eng verwandt miteinander zu sein, vielleicht Schwestern bzw. Drillinge. Interessant ist auch, dass sie zu nah beieinander sind. Das vierte Bild wurde gar nicht ausgeführt, wie schon bei einer Reihe zuvor. ChatGPT teilte hierzu mit: „I apologize again, but there were issues generating one of the images based on your description.“ Vermutlich wurde von ChatGPT ein Prompt B4 generiert, der dann von DALL-E 3 verweigert wurde. Auf die Bitte „Please tell me the prompt generated by ChatGPT that was not executed by DALL-E 3.“ kommt die Antwort „I’m sorry for the inconvenience, but I cannot retrieve the exact prompt that was not executed by DALL·E.“ … Auf andere Weise zensiert Ideogram. Dort entsteht das Bild vor den Augen des Benutzers, und wenn die KI feststellt, dass es Elemente enthält, die nach den eigenen Richtlinien problematisch sein könnten, bricht sie die Erstellung ab und schiebt eine Kachel mit einer Katze vor. Auf ethische Herausforderungen von Bildgeneratoren geht der Artikel „Image Synthesis from an Ethical Perspective“ von Oliver Bendel ein.
Das nächste Bild der kleinen Serie mit DALL-E 3 vom 3. Oktober 2023 soll laut Prompt einen jungen Mann in Latzhose auf einer Parkbank zeigen, mit Blume im Mund, aus der Froschperspektive (die Vogelperspektive wurde von Oliver Bendel schon durch ein anderes Bild abgedeckt). Das Ergebnis wirkt realistisch und modern. Solche Frisuren werden in der Gegenwart getragen, und wahrscheinlich waren sie schon in der Vergangenheit hin und wieder zu sehen. Der Bartwuchs verrät, dass ein Rasierer noch nicht lange eingesetzt werden muss und auch nicht immer eingesetzt wird. Die Muskeln entsprechen den Anforderungen, die manche Männer an sich und manche Frauen an sie stellen, wobei diejenigen am Rücken etwas stark geraten sind. Die Augen wirken wach und weich, die Nase ist markant, aber nicht zu dominant. Dass die Parkbank in ein Gewächshaus geraten ist, kann man DALL-E 3 verzeihen, zumal die darin aufgehängten Töpfe mit ihren grünen Pflanzen für Farbkleckse sorgen. Farblich sticht zudem die blaue Latzhose hervor, wobei der Prompt nicht ausgeschlossen hat, dass etwas darunter getragen wird.
Abb.: Der junge Mann mit Latzhose (Bild: DALL-E 3)
Den vorläufigen Höhepunkt der neunteiligen Serie zu den ersten Erfahrungen mit DALL-E 3 von Oliver Bendel bildet ein weiteres Wasserbild. Dargestellt ist eine Schwimmerin aus der Vogelperspektive. Der Pool wirkt realistisch, mit seinen Fliesen, seinen Markierungen und den Brechungen durch das Wasser, das Wasser selbst zunächst auch, bis die Gischt fast zu Polstermaterial zu erstarren scheint – damit könnte man ein ganzes Paket mit Vasen ausfüllen. Der Körper ist gut im Wasser zu erkennen, bis hin zum Bikini – oder ist es ein kunstvoll geschnittener Badeanzug? Irritierend sind die glatten, helmhaften Haare, die wie aus Kunststoff sind. Weder Feuchtigkeit noch Gel bekommen so etwas zustande. Dies raubt dem ganzen Bild die Natürlichkeit, stellt aber eine interessante Brücke zum Comic her. Vielleicht handelt es sich um eine entsprungene Superheldin, die den Alltag in einem Hallenbad genießt. Die Hände und die Finger, dies sei zum Schluss bemerkt, sind wieder überlang, wie bei mehreren anderen Bildern.
Abb.: Die Schwimmerin aus der Vogelperspektive (Bild: DALL-E 3)
Ein Kurs an der Hochschule, in dem man Prof. Dr. Oliver Bendel zujubelt – so lautete der Prompt, der am Morgen des 3. Oktober 2023 bei DALL-E 3 eingegeben wurde. Erst am Tag davor hatte der Launch der neuen Version durch OpenAI stattgefunden. Der abgebildete Dozent hat mit dem Ethiker und Technikphilosophen wenig gemein, bis auf den obligatorischen Anzug mit Krawatte. ChatGPT kennt ihn gut und kann viel über ihn erzählen, aber anscheinend reicht DALL-E 3 das Bildmaterial nicht aus – oder es ist vorsichtig bei realen Personen. Die Klasse selbst besteht ausschließlich aus jungen Männern, die sich auffällig ähneln, vor allem die Streber in der ersten Reihe. In einem weiteren Versuch wurden sie durch junge Frauen ersetzt, die nun vollends als Klone daherkommen, brünett, adrett, die Hände in die Luft schnellen lassend, mit den Fingern schnippend. Insgesamt wirkt das Bild wie aus der Zeit gefallen, zumal die jungen Männer vor Büchern sitzen und nicht vor Notebooks – nicht einmal eine Wasserflasche oder ein Energydrink ist zu sehen, was den Betrachter schon beim bloßen Zusehen dehydrieren lässt. Ansonsten fallen einige Details auf, die typisch für DALL-E 3 zu sein scheinen, wie die langen Finger und das gleißende Licht. Beeindruckend nicht zuletzt, dass man fast im Buch des Dozenten lesen kann.
Abb.: Der Professor vor der Klasse (Bild: DALL-E 3)
„Knapp eine Woche, nachdem OpenAI die neue Version von Dall-E 3 vorgestellt hat, steht sie nun über den Bing Image Creator zur kostenlosen Verfügung. Ursprünglich hatten die Entwickler angekündigt, das Tool nur für ChatGPT-Plus- und Enterprise-Kunden ab Anfang Oktober zu veröffentlichen.“ (Golem, 2. Oktober 2023) Dies meldete Golem am Spätnachmittag des 2. Oktober 2023. „Mit der Text-zu-Bild-KI verspricht OpenAI, Kenntnisse im Prompt Engineering überflüssig zu machen. Bei Dall-E 3 übernimmt ChatGPT diese Aufgabe und übersetzt die Bildbeschreibungen der Nutzer in Prompts, die für Dall-E 3 verständlich sind.“ (Golem, 2. Oktober 2023) Am Abend war das System zeitweise stark überlastet. Das Generieren eines Bildes dauerte 15 bis 30 Minuten. Erste Tests von Prof. Dr. Oliver Bendel verliefen erfolgversprechend. Die Qualität nähert sich Midjourney an, aber Füße und Hände sind immer noch eine Herausforderung … Auch eine moralische und rechtliche Dimension scheint es wieder zu geben: OpenAI legt „bei Dall-E 3 weiterhin Wert auf Sicherheit“ und „integriert Mechanismen, mit denen Missbrauch, Propaganda und Desinformationen“ (Golem, 2. Oktober 2023) vorgebeugt werden soll. Bei DALL-E 2 sorgte dies bereits für ärgerliche Einschränkungen, ebenso bei Ideogram. Man ist letztlich der Moral amerikanischer Machart ausgeliefert – dem neoviktorianischen Unternehmenskonservatismus, wie es ein KI-Experte im Austausch mit Oliver Bendel ausdrückte. DALL-E 3 zensiert ebenfalls, direkt bei den Prompts, und droht mit Konsequenzen bis hin zur Schließung des Accounts.
Abb.: Ein Mädchen springt vom Turm in den Pool (Bild: DALL-E 3)
„GPT als Lösung für Phishing-Erkennung“ ist der Titel einer Abschlussarbeit, die ab März 2023 von Noeh Pertoldi unter der Betreuung von Prof. Dr. Oliver Bendel geschrieben und im August abgeschlossen wurde. Auftraggeber war eine Schweizer Privatbank. Untersucht wurde, ob Sprachmodelle gegenüber traditionellen Ansätzen zur Identifizierung von Phishing-E-Mails einen signifikanten Vorteil aufweisen. Dabei fokussierte der Student der Hochschule für Wirtschaft FHNW auf GPT von OpenAI. „Zudem wurde ein Konzept erstellt, wie diese neuartige Methode angewendet und in ein E-Mail-Programm eingebunden werden kann.“ (Management Summary) Die Tests haben ergeben, dass GPT die Phishing-E-Mails, welche durch die traditionellen Filter rutschen, mit einer hohen Genauigkeit erkennen kann. Es spricht demnach viel dafür, Sprachmodelle auch in diesem Bereich einzusetzen. Das Ergebnis der Abschlussarbeit ist, „dass die Erkennung von betrügerischen E-Mails durch Sprachmodelle effektiv ist, doch nur das Zusammenspiel mit den traditionellen Methoden für die maximale Sicherheit sorgt“ (Management Summary). Inwieweit es Sinn ergibt, dass Unternehmen als Anwender selbst Lösungen zur Bekämpfung von Phishing mit GPT vorantreiben, sei dahingestellt. Die Anbieter sind bereits dabei, ihre Office-Lösungen mit generativer KI zu ergänzen.
Abb.: GPT kann betrügerische E-Mails erkennen (Bild: Ideogram)
GPT-4 was launched by OpenAI on March 14, 2023. „GPT-4 is a large multimodal model (accepting image and text inputs, emitting text outputs) that, while less capable than humans in many real-world scenarios, exhibits human-level performance on various professional and academic benchmarks.“ (Website OpenAI) On its website, the company explains the multimodal options in more detail: „GPT-4 can accept a prompt of text and images, which – parallel to the text-only setting – lets the user specify any vision or language task. Specifically, it generates text outputs (natural language, code, etc.) given inputs consisting of interspersed text and images.“ (Website OpenAI) The example that OpenAI gives is impressive. An image with multiple panels was uploaded. The prompt is: „What is funny about this image? Describe it panel by panel“. This is exactly what GPT-4 does and then comes to the conclusion: „The humor in this image comes from the absurdity of plugging a large, outdated VGA connector into a small, modern smartphone charging port.“ (Website OpenAI) The technical report is available via cdn.openai.com/papers/gpt-4.pdf.
Sundar Pichai, the CEO of Google and Alphabet, announced the answer to ChatGPT in a blog post dated February 6, 2023. According to him, Bard is an experimental conversational AI service powered by LaMDA. It has been opened to trusted testers and will be made available to the public in the coming weeks. „Bard seeks to combine the breadth of the world’s knowledge with the power, intelligence and creativity of our large language models. It draws on information from the web to provide fresh, high-quality responses. Bard can be an outlet for creativity, and a launchpad for curiosity, helping you to explain new discoveries from NASA’s James Webb Space Telescope to a 9-year-old, or learn more about the best strikers in football right now, and then get drills to build your skills.“ (Sundar Pichai 2023) In recent weeks, Google had come under heavy pressure from OpenAI’s ChatGPT. It was clear that they had to present a comparable application based on LaMDA as soon as possible. In addition, Baidu wants to launch the Ernie Bot, which means another competing product. More information via blog.google/technology/ai/bard-google-ai-search-updates/.
The ACI2022 conference continued on the afternoon of December 7, 2022. „Paper Session 2: Recognising Animals & Animal Behaviour“ began with a presentation by Anna Zamansky (University of Haifa). The title was „How Can Technology Support Dog Shelters in Behavioral Assessment: an Exploratory Study“. Her next talk was also about dogs: „Do AI Models ‚Like‘ Black Dogs? Towards Exploring Perceptions of Dogs with Vision-Language Models“. She went into detail about OpenAI’s CLIP model, among other things. CLIP is a neural network which learns visual concepts from natural language supervision. She raised the question: „How can we use CLIP to investigate adoptability?“ Hugo Jair Escalante (INAOE) then gave a presentation on the topic „Dog emotion recognition from images in the wild: DEBIw dataset and first results“. Emotion recognition using face recognition is still in its infancy with respect to animals, but impressive progress is already being made. The last presentation in the afternoon before the coffee break was „Detecting Canine Mastication: A Wearable Approach“ by Charles Ramey (Georgia Institute of Technology). He raised the question: „Can automatic chewing detection measure how detection canines are coping with stress?“. More information on the conference via www.aciconf.org.