Ethische Implikationen von ChatGPT und Co.

Am 26. April 2024 hält Prof. Dr. Oliver Bendel den Gastvortrag „Ethische Implikationen von ChatGPT und Co.“ beim scil-Modul „KI-Grundlagen“ an der Universität St. Gallen. Er stellt – wie schon vor einem Jahr – aus Sicht von Informations- und Maschinenethik verschiedene Überlegungen zu ChatGPT und DALL-E an. Zunächst ist die Frage, woher die Daten für das zugrunde liegende Sprachmodell kommen und unter welchen Bedingungen das Reinforcement Learning from Human Feedback abläuft. Zudem dürfte relevant sein, welche Daten man beim Prompt preisgibt und welche Prompts auf welche Art und Weise zurückgewiesen werden. Ein weiteres Problemfeld ist das Halluzinieren der Sprachmodelle bzw. der darauf basierenden Anwendungen. Diese verdrehen Fakten und erfinden Referenzen. Nicht zuletzt ergeben sich für zahlreiche Anwendungsfelder wie Aus- und Weiterbildung besondere Herausforderungen. So kann man GPTs als Virtual Learning Companions schnell und einfach erstellen, aber es ergeben sich dabei u.a. Urheberrechtsfragen. Die Sprachmodelle sind indes nicht nur für bzw. als Chatbots und Contentgeneratoren relevant, sondern auch für Industrie- und Serviceroboter. In diesem Bereich haben das Sprachmodell PaLM-E sowie ein mit GPT-4 verbundener Figure 01 Aufmerksamkeit erregt. Mehr als beim letzten Vortrag geht Oliver Bendel im Zusammenhang mit Bildgeneratoren neben ethischen Fragen auf ästhetische ein, die man wiederum mit ethischen zusammenbringen kann, etwa das Phänomen des „american smile“ oder die Dominanz der Schönheit. Oliver Bendel hat vor einem Vierteljahrhundert an der Universität St. Gallen zu sogenannten Pedagogical Agents geforscht, die man heute in ihrer Mehrheit wiederum als Virtual Learning Companions bezeichnen würde. Weitere Informationen zum scil über www.scil.ch.

Abb.: So stellt sich DALL-E 3 männliche Professoren vor – stets mit Bart

„Soziale Roboter aus technischer, wirtschaftlicher und ethischer Sicht“ – Teil VI

Ab dem Mittag des 17. Februar 2024 konzipierten die Studierenden im Wahlmodul „Soziale Roboter aus technischer, wirtschaftlicher und ethischer Sicht“ an der Hochschule für Wirtschaft FHNW in Brugg-Windisch eigene soziale Roboter. Sie erdachten einen Namen, nannten die Aufgabe und nahmen eine Beschreibung mit Hilfe des Fünf-Dimensionen-Modells von Prof. Dr. Oliver Bendel vor. Zudem generierten sie Bilder, um das Aussehen und die Möglichkeiten des jeweiligen Roboters zu verdeutlichen, und skizzierten ein Geschäftsmodell. Ab 15 Uhr wurden die Präsentationen gehalten. Erfunden worden waren RoboRoss, ein Roboterpferd für die berittene Polizei, NAILBOTique, ein Nailbot für die Pflege von Fingernägeln, Newsbot, ein künstlicher Nachrichtensprecher, Medibot, ein Roboter für die medizinische Unterstützung, EcoStyler, ein künstlicher Berater für den persönlichen Style, und der Dogmestic-Roboter für den Schutz und die Begleitung von Hunden. Am späten Nachmittag wurde die dreitägige Veranstaltung abgeschlossen. Die Studierenden brillierten nicht nur mit gut geprompteten Bildern, bei denen die Funktionen der sozialen Roboter und der Serviceroboter mit sozialen Merkmalen deutlich wurden. sondern auch mit überzeugenden Geschäftsmodellen.

Abb.: RoboRoss mit einer Polizistin mit Rossschwanz

Vier Bücher mit KI-Kunst und -Literatur

Seit Februar 2023 hat Oliver Bendel vier kleine KI-generierte Bücher herausgebracht. Am 20. Februar wurde „Dass es nur Kunst war, verdeckte die Kunst“ veröffentlicht. Darin finden sich mit ChatGPT produzierte Haikus zusammen mit 3D-Codes. Am 24. September folgte „ARTIFACTS WITH HANDICAPS“ – dieser Band umfasst elf mit GPT-4 generierte Kurzgeschichten zu Bildern mit Imperfektionen von Ideogram. Am 17. Oktober 2023 stellte Oliver Bendel in „ON BEAUTY“ dem Sprachmodell nicht weniger als 26 Fragen zur Schönheit und illustrierte sie mit ebenso vielen Bildern, die mit DALL-E 3 generiert worden waren. „AMERICAN SMILE“ vom 25. Oktober 2023 nimmt sich des Phänomens an, dass DALL-E 3 die Menschen unterschiedlicher Kulturen und Epochen ähnlich lächeln lässt, eben auf amerikanische Weise. Oliver Bendel verfasst seit 40 Jahren experimentelle Literatur. Zunächst entstanden vor allem Gedichte – etwa konkrete Poesie – und Kurzgeschichten. Ab 2007 folgten mehrere Romane, darunter auch Handyromane. Im März 2009 schrieb die ZEIT über ihn: „Der bekannteste Autor von Handyromanen im deutschsprachigen Bereich ist der promovierte Wirtschaftsinformatiker Oliver Bendel aus Zürich.“ Auf Einladung zweier Goethe-Institute tourte er 2015 durch die Niederlande und las Ausschnitte aus seinen Handyromanen und Handyhaikus vor. Das Standardwerk „Die Struktur der modernen Literatur“ widmet seinem Schaffen zwei Seiten.

Abb.: Mädchen im Goldfischglas mit unmöglicher Position (Bild: DALL-E 3)

Grundlagen zu Bildgeneratoren

„Bildgeneratoren sind Anwendungen, die auf künstlicher Intelligenz (KI) beruhen und nach einem Input des Benutzers (einem Prompt) alle möglichen digitalen Bilder hervorbringen bzw. verändern, etwa fotorealistische Darstellungen, Zeichnungen, Gemälde oder Logos. Dabei kann man oft Stile und Formate vorgeben und im Dialog – in dem der Bildgenerator zum Chatbot wird – die Ergebnisse verbessern.“ Mit diesen Worten beginnt ein Beitrag von Prof. Dr. Oliver Bendel, der am 26. Oktober 2023 im Gabler Wirtschaftslexikon erschienen ist. Im Abschnitt zu Zurückweisung und Zensur ist zu lesen: „Einige Bildgeneratoren lehnen Prompts ab, wenn sie gegen die eigenen Richtlinien oder gegen anerkannte Leitlinien und bestehende Gesetze verstoßen. Bei DALL-E 3 nimmt ChatGPT die Prompts des Benutzers entgegen und formuliert daraus eigene Prompts, die dann weitergereicht werden. Widersprechen diese den Richtlinien, werden sie nicht ausgeführt. Ideogram geht in diesem Kontext anders vor. Zunächst beginnt es mit dem Generieren, wobei es den ‚generation progress‘ in Prozent anzeigt. Sobald es erkennt, dass unerwünschte Elemente auf dem Bild vorkommen, wird dieses vor der Fertigstellung – also bevor 100 Prozent erreicht sind – durch eine Kachel mit einer Katze ersetzt, die ein Schild mit der Aufschrift „MAYBE NOT SAFE“ trägt.“ Der Beitrag kann über wirtschaftslexikon.gabler.de/definition/bildgenerator-125856 aufgerufen werden.

Abb.: Vier junge Frauen als Beatles auf der Abbey Road (Bild: DALL-E 3)

Das Stille-Post-Problem von DALL-E 3

DALL-E 3 – in der Version, die in ChatGPT Plus integriert ist – scheint ein Stille-Post-Problem zu haben. Bei einem Test von Oliver Bendel lautete der Prompt (Prompt A): „Two female swimmers competing in lake, photorealistic“. ChatGPT, die Schnittstelle zu DALL-E 3, machte daraus vier Prompts (Prompt B1 – B4). Prompt B4 lautete: „Photo-realistic image of two female swimmers, one with tattoos on her arms and the other with a swim cap, fiercely competing in a lake with lily pads and reeds at the edges. Birds fly overhead, adding to the natural ambiance.“ DALL-E 3 wiederum machte aus diesem Prompt etwas, was weder mit diesem noch mit Prompt A viel zu tun hatte. Zu sehen sind auf dem Bild nicht zwei Frauen, sondern zwei Männer oder eine Frau und ein Mann mit Bart. Sie schwimmen nicht um die Wette, sondern streiten sich, in einem Teich oder einem kleinen See stehend, indem sie wütend mit den Armen fuchteln und aufeinander losgehen. Vor ihnen wuchern Seerosen, über ihnen flattern Vögel. Sicherlich ein interessantes Bild, aber mit einer derartigen Willkür hervorgebracht, dass man sich das gute alte Prompt Engineering zurückwünscht. Genau dieses will die Schnittstelle eigentlich ersetzen – aber entstanden ist ein Effekt, den man von dem Stille-Post-Spiel kennt.

Abb.: Das Stille-Post-Problem von DALL-E 3

Zensur bei DALL-E 3 und Ideogram

Eine Besonderheit von DALL-E 3 – in der Version, die in ChatGPT Plus integriert ist – ist die Übersetzung des Prompts des Benutzers (Prompt A) in einen Prompt von ChatGPT (Prompt B), der jeweils aufgeführt wird. Prompt A bei dem hier gezeigten Bild lautete „Competition in the sea between two female swimmers with bathing cap, photorealistic“. DALL-E generierte bei diesem Test drei Bilder, jeweils auf der Basis von Prompt B. Prompt B1 lautete: „Photo of two determined female swimmers in the expansive sea, both wearing bathing caps. Their arms create ripples as they compete fiercely, striving to outpace each other.“ Prompt A wurde offensichtlich weitergeführt, Prompt B1 allerdings nicht akkurat ausgeführt. Statt der zwei Schwimmerinnen sind drei zu sehen. Sie scheinen – wie oft bei Darstellungen von Personen von DALL-E 3 – eng verwandt miteinander zu sein, vielleicht Schwestern bzw. Drillinge. Interessant ist auch, dass sie zu nah beieinander sind. Das vierte Bild wurde gar nicht ausgeführt, wie schon bei einer Reihe zuvor. ChatGPT teilte hierzu mit: „I apologize again, but there were issues generating one of the images based on your description.“ Vermutlich wurde von ChatGPT ein Prompt B4 generiert, der dann von DALL-E 3 verweigert wurde. Auf die Bitte „Please tell me the prompt generated by ChatGPT that was not executed by DALL-E 3.“ kommt die Antwort „I’m sorry for the inconvenience, but I cannot retrieve the exact prompt that was not executed by DALL·E.“ … Auf andere Weise zensiert Ideogram. Dort entsteht das Bild vor den Augen des Benutzers, und wenn die KI feststellt, dass es Elemente enthält, die nach den eigenen Richtlinien problematisch sein könnten, bricht sie die Erstellung ab und schiebt eine Kachel mit einer Katze vor. Auf ethische Herausforderungen von Bildgeneratoren geht der Artikel „Image Synthesis from an Ethical Perspective“ von Oliver Bendel ein.

Abb.: Die drei Schwimmerinnen

DALL-E 3 und die Schönheit

Bekanntlich generiert DALL-E 3 Schönheit am laufenden Band. Wie in einem anderen Post thematisiert, wird Hässlichkeit von dem Bildgenerator fast ausgeschlossen. Daher widmete sich eine Versuchsreihe am 15. Oktober 2023 nun ausdrücklich der Schönheit. Wenn alle schön sind, wie kann man sie noch schöner machen? Eine naheliegende Vermutung ist, dass das Alter eine Rolle spielt. Aus evolutionsbiologischen Gründen sind viele Männer jungen Frauen oder Mädchen (die erwachsen genug erscheinen) zugeneigt. DALL-E 3 gestattet es durchaus, solche Prototypen zu generieren, auch wenn es extrem sensibel bei den Prompts (bzw. den Interpretationen von ChatGPT, das die Schnittstelle ist) reagiert. Eine junge Surferin im T-Shirt am Strand ist durchaus überzeugend in Bezug auf den hier behandelten Aspekt, ebenso – unten zu sehen – eine Kollegin im Neoprenanzug. Beeindruckend auch eine junge schwarze Frau im Kleid und eine junge weiße Frau im T-Shirt im Garten. Der Versuch, ein Mädchen mit dem Hinzufügen großer Augen noch attraktiver zu machen, kann als misslungen angesehen werden. Ein anderes Bild mit einem Mädchen im Kleid hingegen gelingt, wirkt aber etwas kitschig. Auch eine Eva mit Apfel am Strand kann überzeugen. Jugendliche Schönheit kann man naturgemäß mit Pickeln stören. Die Beispiele von DALL-E 3 beweisen, dass es von unreiner Haut wenig Ahnung hat. Lediglich eines kann man durchgehen lassen. Das Weinen, das zugleich gezeigt werden soll, wirkt aber sowohl untertrieben (es sind keine Tränen zu sehen) als auch übertrieben (man beachte die unrealistische Akrobatik der Stirn). Schönheit im Alter ist ebenfalls ein Topos, dem man sich widmen muss. Hier lässt DALL-E 3 keine Wünsche offen. Wo zeigt sich, zusammengefasst, die Schönheit der Mädchen und Frauen? Am Gesicht (volle Lippen; klare Augen; gesunde Haut), am Kopf (wohlgeformter Hinterkopf; dicke, lange Haare), an der Figur (wohlgerundeter Hintern; schlanke Arme; lange Beine). Oft gelingt auch – anders als bei Robotern – das Lächeln, das – wie bei diesem Beispiel – ebenso verheißungsvoll wie selbstbewusst sein kann.

Abb.: Eine Schönheit am Strand (Bild: DALL-E 3)

DALL-E 3 und der Rassismus

DALL-E 3 ist ein mächtiger Bildgenerator, der auf dem Large Language Model (LLM) namens GPT beruht und seit dem 2. Oktober 2023 zur Verfügung steht. Er schafft Schönheit und erlaubt Kunst. Zugleich zeichnen sich Bias-Probleme ab. Menschen sind fast ohne Ausnahme attraktiv. Oft wirken sie wie Klone. Frauen sind knapp bekleidet, mit Hotpants und Röckchen (die im Tennis freilich der Normalfall und auch in aufgeschlossenen Gesellschaften keine Seltenheit sind). Ihre Hintern sind so perfekt, dass man vermuten könnte, dass beim LLM ein eigens bestellter „connaisseur du derrière“ mit modelliert. Zugleich verweigert DALL-E 3 jegliche Eingaben, in denen es etwas Unsittliches wittert … Wenn man nach einem schwarzen Arzt verlangt, der einen weißen Patienten behandelt, wird diese Eingabe meist umgedeutet. ChatGPT, die ebenfalls auf dem Sprachmodell von OpenAI basierende Schnittstelle zu DALL-E 3, scheint der Meinung zu sein, dass die umgekehrte Konstellation der Normalfall ist. Man sieht i.d.R. einen weißen oder hellhäutigen Arzt, der einen schwarzen Patienten behandelt. Die Farbigen sind Männer, die attraktiv und muskulös sind. Der Arzt ist meistens ein Mann. Manche Bilder wirken regelrecht befremdlich. Der Patient scheint dem Arzt ausgeliefert zu sein. Er wirkt wie ein Objekt neben dem Menschen oder wie – im Bild unten und hier zu sehen – ein Objekt des Menschen. Der Arzt triumphiert über den Patienten – oder über seine Krankheit? Dabei scheinen alle vor Gesundheit zu strotzen, was natürlich täuschen kann. In seltenen Fällen bekommt der Benutzer das, was er mit seinem Prompt verlangt hat: einen schwarzen Arzt, der einen weißen Patienten behandelt. Auf Bias-Probleme bei Bildgeneratoren geht der Artikel „Image Synthesis from an Ethical Perspective“ von Prof. Dr. Oliver Bendel ein.

Abb.: So stellt sich DALL-E 3 einen schwarzen Arzt mit einem weißen Patienten vor

DALL-E 3 und das Wasser

DALL-E 3 beweist immer wieder, dass es mit Wasser gut zurechtkommt. So wirken Wellen oft sehr echt, wie bei dieser und dieser Skaterin – die Figuren selbst bzw. die Gesichter sind weniger gelungen. Natürlich gehören die Skaterinnen nicht in dieses Element, aber ein Reiz von Bildgeneratoren ist es, imaginäre Welten zu erschaffen. Eine kleine Testreihe am 13. Oktober 2023 diente dazu, die Darstellung verschiedener Gewässer zu erkunden. Ins Rennen geschickt wurden zwei Frauen im Wettkampf miteinander. Sie schwammen nebeneinander im Meer, im See, im Pool und im Fluss. Alle vier Bilder sind sehenswert, wenn auch etwas künstlich, was sich vor allem an Haaren und Gesichtern zeigt. Wie immer werden Frauen als Schönheiten dargestellt. Das Wasser beeindruckt durch Spiegelungen, Lichtreflexe, Gischt. Man sieht, wie es an den Körpern haftet und herunterperlt. Auf dem hier gezeigten Bild fällt der Dunst im Hintergrund ins Auge. Eine Lagune als Ort des Geschehens lehnte DALL-E 3 zunächst ab. Als der „Wettkampf“ aus dem Prompt entfernt wurde, ging es weiter. Zu sehen waren zwei Asiatinnen in einer Lagune. Etwas unheimlich die Hände und Arme, die nicht alle zu ihnen gehören schienen. Zwei andere Schönheiten auf einem anderen Bild standen im Wasser und blickten zum Ende der Lagune. Ein letzter Versuch widmete sich Schwimmerinnen unter einem Wasserfall. Dabei entstanden bemerkenswerte Bilder. Zwei farbige Frauen schossen regelrecht aus dem Wasserfall heraus. Zwei Blondinen bewegten sich – jede kam von ihrem eigenen Wasserfall – in gefährlicher Weise aufeinander zu. Man spürt die Kraft des Wassers, dort, wo es hinabstürzt, und dort, wo es sich sammelt. Ein Test vom 10. Oktober 2023 widmete sich dem Sport – und ging am Rande auch auf Wasser ein.

Abb.: Der Wettkampf im See (Bild: DALL-E 3)

DALL-E 3 und der Sport

DALL-E 3 beweist immer wieder, dass es mit Bewegungen gut zurechtkommt – von tierischen und menschlichen Körpern, von Gegenständen aller Art sowie von Wasser – so wirken Wellen oft sehr echt. Damit sollte es auch möglich sein, eindrucksvolle Darstellungen von Sportdarbietungen zu schaffen. Ein erster Versuch wird dem Beachvolleyball gewidmet. Wie es die Regel bei dem Bildgenerator ist, sind die Frauen sehr gut gebaut, haben hübsche Gesichter und lange Haare. Bei dem gezeigten Bild gilt dies besonders für den Vordergrund – der Hintergrund wird weniger ausgearbeitet, und eines der Gesichter ist etwas verzogen. Insgesamt ist wenig Bewegung zu sehen, auch bei einer Alternative nicht. Eine Ausnahme ist dieses Bild. Weitere Versuche schlagen fehl – DALL-E 3 ist nun plötzlich der Meinung, dass die Bilder nicht seinen Richtlinien entsprechen. Erst als der Prompt vorsieht, dass die Frauen Jeans tragen sollen, geht es weiter – mit brünetten Klonen auf dem Spielfeld. Weitere Sportarten sind Hochsprung und Stabhochsprung. Beim Hochsprung werden auch Bilder generiert, die eher dem Weitsprung oder dem Dreisprung zuzurechnen sind. Beim Stabhochsprung geht einiges schief. Eine Athletin wird von ihrem Stab durchbohrt. Eine andere ist dicht vor einer doppelten Stange, die bis weit in den Hintergrund reicht, fast bis zu einem dort befindlichen Gebäude. Immerhin kommt mehr Bewegung auf. Ein letzter Versuch bezieht wieder das Wasser ein. Die Surferin beeindruckt mit Positur und Dynamik. Sie ist ebenso in Bewegung wie das Wasser, das sie für ihren Sport benutzt.

Abb.: Frauen beim Beachvolleyball (Bild: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil X

Eigentlich war die Testreihe mit DALL-E 3 schon abgeschlossen. Aber Prof. Dr. Oliver Bendel wollte nochmals wissen, ob der Bildgenerator „versteht“, was „auf dem Mond“ bedeutet. Auf bisherigen Ergebnissen war immer nur der Mond irgendwo zu sehen, und die Szene spielte sich auf einem Meteoriten oder wo auch immer ab. Der Prompt am Morgen des 5. Oktober 2023 lautete: „A female skateboarder on the moon doing a daring stunt, photorealistic“. Zuerst war der Eindruck, dass man endlich auf dem Mond gelandet war. Aber bei genauerem Hinsehen erkannte man, dass sich auch hier der Mond hinter dem Meteoriten oder einem Planeten erhebt. Bei den anderen Ergebnissen war es noch deutlicher (eine Serie mit dem Mars beweist, dass es anders geht, wie auch dieses etwas kitschige Einzelbild). Das Bild gefällt dennoch durch die Bewegung der Skaterin, ihre ungewöhnliche Haltung – vermutlich wird sie gleich in den Staub des Trabanten fallen, hoffentlich nicht auf den Stein – und ihren Schattenwurf. Spuren der Fahrt sind nicht zu sehen, aber vielleicht war es überhaupt mehr ein Gleiten über der Oberfläche als auf der Oberfläche (sehenswert übrigens auch eine Serie auf dem Wasser). Bei den vier Kacheln fällt weiter auf, dass drei europäisch anmutende Skaterinnen zu sehen sind und eine asiatische Schwester. Das ist nicht ganz divers, aber immerhin ein Anfang. Damit ist die Serie nun wirklich abgeschlossen. Die Nutzung von DALL-E 3 hat auf jeden Fall großen Spaß gemacht. Und sie zeigt, dass KI-Systeme und insbesondere Bildgeneratoren wirklich – wie Oliver Bendel im Frühjahr 2023 bei „Scobel“ behauptet hat – Schönheit produzieren können.

Abb.: Die Skaterin vor dem Mond (Bild: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil IX

Zum Abschluss der neunteiligen Serie von Oliver Bendel ein Taucher, der sich durch einen Fischschwarm bewegt. Eigentlich war bei DALL-E 3 am 3. Oktober 2023 ein Schnorchler (m/w/d) angefordert worden, aber auf dem Rücken trägt er etwas, was an eine Sauerstoffflasche erinnert. Bei den Alternativen wird dies noch deutlicher. Die Tiefe des Bilds gefällt, zudem der Lichteinfall von oben. Die Fische sind Individuen trotz ihrer Ähnlichkeit, neugierig und zugewandt. Das ist zugleich das Merkwürdige – ein echter Schwarm würde sich anders bewegen, auch wenn ein Mensch mitten in ihm ist. Das wirft die Frage auf, wie wir künftig Natur und speziell Pflanzen und Tiere wahrnehmen werden, wenn Bildgeneratoren ein verzerrtes Bild ihrer Individuen und Strukturen entwerfen. Das ist sicherlich kein neues Problem, denn es gibt seit jeher Illustrationen, die mehr oder weniger passend sind. Dennoch ist es die Fülle an Material, das meist deutlich neben der Realität steht, die diese so weit verrücken könnte, dass wir die Virtualität bevorzugen. Insgesamt beeindruckt DALL-E 3 mit seinen Ergebnissen, die im Rahmen dieser Tests freilich mehr oder weniger Zufälle sind. Die Lücke zu Midjourney scheint geschlossen. Das Wettrennen der Firmen geht weiter.

Abb.: Im Meer unterwegs (Bild: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil VII

Das nächste Bild der kleinen Serie mit DALL-E 3 vom 3. Oktober 2023 soll laut Prompt einen jungen Mann in Latzhose auf einer Parkbank zeigen, mit Blume im Mund, aus der Froschperspektive (die Vogelperspektive wurde von Oliver Bendel schon durch ein anderes Bild abgedeckt). Das Ergebnis wirkt realistisch und modern. Solche Frisuren werden in der Gegenwart getragen, und wahrscheinlich waren sie schon in der Vergangenheit hin und wieder zu sehen. Der Bartwuchs verrät, dass ein Rasierer noch nicht lange eingesetzt werden muss und auch nicht immer eingesetzt wird. Die Muskeln entsprechen den Anforderungen, die manche Männer an sich und manche Frauen an sie stellen, wobei diejenigen am Rücken etwas stark geraten sind. Die Augen wirken wach und weich, die Nase ist markant, aber nicht zu dominant. Dass die Parkbank in ein Gewächshaus geraten ist, kann man DALL-E 3 verzeihen, zumal die darin aufgehängten Töpfe mit ihren grünen Pflanzen für Farbkleckse sorgen. Farblich sticht zudem die blaue Latzhose hervor, wobei der Prompt nicht ausgeschlossen hat, dass etwas darunter getragen wird.

Abb.: Der junge Mann mit Latzhose (Bild: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil VI

Den vorläufigen Höhepunkt der neunteiligen Serie zu den ersten Erfahrungen mit DALL-E 3 von Oliver Bendel bildet ein weiteres Wasserbild. Dargestellt ist eine Schwimmerin aus der Vogelperspektive. Der Pool wirkt realistisch, mit seinen Fliesen, seinen Markierungen und den Brechungen durch das Wasser, das Wasser selbst zunächst auch, bis die Gischt fast zu Polstermaterial zu erstarren scheint – damit könnte man ein ganzes Paket mit Vasen ausfüllen. Der Körper ist gut im Wasser zu erkennen, bis hin zum Bikini – oder ist es ein kunstvoll geschnittener Badeanzug? Irritierend sind die glatten, helmhaften Haare, die wie aus Kunststoff sind. Weder Feuchtigkeit noch Gel bekommen so etwas zustande. Dies raubt dem ganzen Bild die Natürlichkeit, stellt aber eine interessante Brücke zum Comic her. Vielleicht handelt es sich um eine entsprungene Superheldin, die den Alltag in einem Hallenbad genießt. Die Hände und die Finger, dies sei zum Schluss bemerkt, sind wieder überlang, wie bei mehreren anderen Bildern.

Abb.: Die Schwimmerin aus der Vogelperspektive (Bild: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil V

Eine Serie mit dem Prompt „An old, run-down homeless man on the streets of San Francisco, photorealistic“ geriet DALL-E am Nachmittag des 3. Oktober 2023 so überzeugend, dass die Auswahl schwer fiel. Vier alte Männer, mit leeren oder wachen Augen, mit oder ohne Auflösungserscheinungen, mehr oder weniger wach oder schlafend, mit verfilzten oder verdreckten Bärten, mit Mütze oder barhäuptig, mit europäischen oder asiatischen Wurzeln. DALL-E 3 scheint sich auszukennen mit dem Leid der Obdachlosen in Kalifornien. Die Wahl fiel auf einen sitzenden Mann, der sich wohl kurz vorher eine Baseballkappe besorgt hat. Der Blick ist leer, die Jacke verschmutzt, die Decke wärmt von unten, denn die Nächte können kühl sein in San Francisco, der schönsten und grausamsten Stadt der Welt. Diese ist schemenhaft zu erkennen, nicht mit den typischen Feuerleitern wie auf einem anderen Bild, sondern mit den Schildern der Geschäfte. Ein Mann geht in den Hintergrund, aus dem ein anderer kommt. Die Darstellung wirkt realistischer als das Heidi-Bild. Ein alternatives Bild lenkt den Blick auf einen Bart, in dem Überreste und Schmutzteile hängen. Die Haut des Bruders ist beschädigter, gezeichnet vom Alter, von der Krankheit und von der Straße.

Abb.: Einer der vier Obdachlosen (Bild: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil II

Bereits am 2. Oktober 2023, als DALL-E das Licht der Welt erblickte, konnte man feststellen, dass der Bildgenerator virtuos mit Wasser umgeht. Dabei stimmen auf den zweiten Blick nicht alle Details. In einem von Oliver Bendel verursachten Bild, das einen Pool auf einem Trabanten oder Meteoriten zeigt, sollten eigentlich Frauen um die Wette schwimmen. Die Bewegung des Wassers deutet allerdings an, dass sie kaum daran interessiert sind, von der Stelle zu kommen. In einem alternativen Bild ist dies schon besser umgesetzt. Man sieht im Wasser deutlich die Spuren, die die Schwimmerinnen hinterlassen haben. In beiden Fällen übt das Wasser eine gewisse Faszination aus, vor allem durch das Spiel mit dem Licht. Dieses ist auch entscheidend bei einer anderen Serie, die Mädchen dabei zeigt, wie sie mit einem Salto in einen Pool springen. Hinzu kommen stimmige Spiegelungen des Wassers und Kräuselungen der Oberfläche. Es gefällt auch die Bewegung, die Drehung, überhaupt die Dynamik. Wie bei einer früheren Darstellung fragt man sich aber, ob die Mutige ins Wasser fällt oder auf den Boden prallt – oder auf den Handlauf des Einstiegs, der bereits verbogen erscheint. Zudem fallen die überlangen Finger auf. Beunruhigend wiederum – wie in dem anderen Poolbild – die Gestalten am Beckenrand, auch wenn sie menschlich wirken. Die Wirkung insgesamt ist enorm, zumal sich im Hintergrund ein berühmtes Bauwerk erhebt, die kambodschanische Tempelanlage Angkor Wat, was freilich im Prompt gar nicht angefordert worden war. Auch ein alternatives Bild mit einer farbigen Springerin gefällt.

Abb.: Der Sprung in den Pool (Bild: DALL-E 3)

Erste Erfahrungen mit DALL-E 3 – Teil I

Einen Tag nach dem Launch von DALL-E 3 kommt kaum jemand in den Genuss, die sehenswerten Bilder generieren zu können. Oder vielmehr kommen so viele Menschen in diesen Genuss, dass viele andere leer ausgehen. Sie sehen nur einen Kugelfisch und die Meldung: „Wir können Ihre Bilder im Moment nicht erstellen. Aufgrund der hohen Nachfrage können wir keine neuen Anforderungen verarbeiten. Versuchen Sie es bitte später noch einmal.“ (Website Bing Image Creator) Wer es dann später schafft, wie Oliver Bendel am Morgen des 3. Oktober 2023, ist durchaus beeindruckt. Simple Prompts werden fantasievoll umgesetzt. Es werden unterschiedliche Stile hergenommen und Perspektiven eingenommen. Es herrscht aber auch verblüffende Homogenität. Ein Kurs an einer Hochschule besteht aus lauter jungen Männern, die ähnlich aussehen. Ersetzt man sie durch junge Frauen, gleichen auch diese wie ein Ei dem anderen. Komplexere Prompts werden recht genau befolgt. Wenn ein Ball drei Farben haben soll, hat er drei Farben. Wenn es sich um drei junge Otter handeln soll, kommen genau drei possierliche Tiere ins Bild. Wenn man allerdings einen Schwimmwettkampf auf dem Mond haben will, ist der Mond am Himmel zu sehen. Die Athletinnen befinden sich vermutlich auf einem Meteoriten. Auch die Aliens in der näheren Umgebung tragen nicht zur Beruhigung bei.

Abb.: Wettschwimmen in der Nähe des Monds (Bild: DALL-E 3)

DALL-E 3 nähert sich Midjourney an

DALL-E in der Version 2 von OpenAI war zuletzt weit abgeschlagen. Mit Midjourney konnte es sich nicht messen, und sogar das niederschwellige Ideogram, eigentlich auf Schriften im Bild spezialisiert, übertraf es in einigen Aspekten. DALL-E 3 könnte dies ändern. Bei Tests, die der Ethiker und Wirtschaftsinformatiker Oliver Bendel am Abend des 2. Oktober 2023 durchführte, gelangen einige Kunst- und Schmuckstücke. Allerdings zeigte sich auch deutlich, dass Füße und Hände immer noch eine Herausforderung für Bildgeneratoren darstellen. Auch Beine und Arme wirken oft unnatürlich. Mit Wasser kann DALL-E dagegen virtuos umgehen. Insgesamt scheinen die Prompts richtig gedeutet und gut umgesetzt zu werden. Kein Wunder, denn die Schnittstelle bildet ChatGPT. Es gibt die Prompts so an den Verwandten weiter, dass dieser sie verstehen kann, selbst wenn sich der Benutzer ungeschickt ausgedrückt oder verschrieben hat. Ausgegeben werden meistens zwei bis vier Kacheln mit 1024 mal 1024 Pixel. DALL-E 3 steht seit 2. Oktober 2023 über den Bing Image Creator bereit. Wie so oft bei Microsoft sind die Schreibweisen auf der Plattform falsch. Für die lange Dauer der Bilderstellung – zwischen 5 Minuten und einer Stunde – entschuldigt man sich mit den Worten: „Diese [!] ist unsere Schuld!“ …

Abb.: Ein von DALL-E 3 generiertes Bild einer Schnorchlerin

 

DALL-E 3 steht Allgemeinheit zur Verfügung

„Knapp eine Woche, nachdem OpenAI die neue Version von Dall-E 3 vorgestellt hat, steht sie nun über den Bing Image Creator zur kostenlosen Verfügung. Ursprünglich hatten die Entwickler angekündigt, das Tool nur für ChatGPT-Plus- und Enterprise-Kunden ab Anfang Oktober zu veröffentlichen.“ (Golem, 2. Oktober 2023) Dies meldete Golem am Spätnachmittag des 2. Oktober 2023. „Mit der Text-zu-Bild-KI verspricht OpenAI, Kenntnisse im Prompt Engineering überflüssig zu machen. Bei Dall-E 3 übernimmt ChatGPT diese Aufgabe und übersetzt die Bildbeschreibungen der Nutzer in Prompts, die für Dall-E 3 verständlich sind.“ (Golem, 2. Oktober 2023) Am Abend war das System zeitweise stark überlastet. Das Generieren eines Bildes dauerte 15 bis 30 Minuten. Erste Tests von Prof. Dr. Oliver Bendel verliefen erfolgversprechend. Die Qualität nähert sich Midjourney an, aber Füße und Hände sind immer noch eine Herausforderung … Auch eine moralische und rechtliche Dimension scheint es wieder zu geben: OpenAI legt „bei Dall-E 3 weiterhin Wert auf Sicherheit“ und „integriert Mechanismen, mit denen Missbrauch, Propaganda und Desinformationen“ (Golem, 2. Oktober 2023) vorgebeugt werden soll. Bei DALL-E 2 sorgte dies bereits für ärgerliche Einschränkungen, ebenso bei Ideogram. Man ist letztlich der Moral amerikanischer Machart ausgeliefert – dem neoviktorianischen Unternehmenskonservatismus, wie es ein KI-Experte im Austausch mit Oliver Bendel ausdrückte. DALL-E 3 zensiert ebenfalls, direkt bei den Prompts, und droht mit Konsequenzen bis hin zur Schließung des Accounts.

Abb.: Ein Mädchen springt vom Turm in den Pool (Bild: DALL-E 3)

Kyoto to Catwalk

Eine aktuelle Ausstellung im Museum Rietberg in Zürich stellt die Geschichte des Kimonos dar, des ikonischen Kleidungsstücks aus Japan, das schon früh einen Siegeszug um die ganze Welt angetreten hat. „KIMONO – Kyoto to Catwalk“ präsentiert laut Website den Kimono nicht als statisch und unveränderlich, sondern als ein äußerst „dynamisches und modisches Kleidungsstück“. „Über 100 prachtvolle Kimonos, Malereien und Holzschnitte aus dem 18. bis 20. Jahrhundert wie auch extravagante Kreationen zeitgenössischer Modedesigner zeigen die künstlerische und ästhetische Bedeutung dieses Kleidungsstücks in historischen und zeitgenössischen Kontexten auf und veranschaulichen, wie der Kimono sowohl in Japan als auch im Westen seit dem 17. Jahrhundert die Mode beeinflusst hat.“ (Website Museum Rietberg) Problemlos könnte man diese Ausstellung im Virtuellen fortsetzen. Bildgeneratoren wie Ideogram scheinen den Kimono geradezu zu lieben und statten ihn auf opulente Weise aus. Im KI-Zeitalter interpretieren sie seine Schönheit auf eine neue Weise. Die Ausstellung läuft seit dem 23. September 2023 und geht bis zum 23. Januar 2024. Weitere Informationen über rietberg.ch/ausstellungen/kimono.

Abb.: Ideogram zeigt eine europäische Frau im Kimono

Demos auf Ideogram

Ideogram ist ein Bildgenerator, der Gesichter und Körper meist schlechter als Midjourney darstellt, Texte aber oft besser. Er kann über ideogram.ai aufgerufen werden. Jedes Bild ist öffentlich auf der Website sichtbar. Die Community nutzt diese Voraussetzungen und Bedingungen, um miteinander und vor allem mit dem Anbieter zu kommunizieren. So sind seit Tagen Protestierende mit Schildern zu sehen, auf denen „You need more servers“ und ähnliche Sätze stehen. Damit wird darauf angespielt, dass der Dienst inzwischen so beliebt ist, dass er nur noch selten zur Verfügung steht. Andere Generatoren hat in der Vergangenheit ein ähnliches Schicksal ereilt, bis nachgebessert wurde. Immer mehr werden auch konkrete Funktionen gefordert, etwa eine Suchfunktion oder eine Uploadfunktion für Bilder. Da solche Tafeln von vielen Benutzern gelikt werden, sind sie in der standardmäßig eingestellten Rubrik „Trending“ sichtbar. Dort war dann auch eine Gegenstimme, eine Demonstrantin, die ein Schild mit der leicht fehlerhaft generierten Aufschrift „IT’S FREE UNGRATEFUL PEEOPLE“ trug. Ob undankbar oder nicht – wichtig wäre noch eine höhere Auflösung, denn im Moment ist man auf Upscaler angewiesen, wenn man das Bild in einer bestimmten Größe auf der Website oder im Print verwenden will. Ein Grund für die Beliebtheit von Ideogram ist, dass man ohne Anmeldung und andere Hürden einfach loslegen kann. Und eben, dass man Texte einfügen kann, was u.a. die Covergestaltung ermöglicht.

Abb.: Ein Kommunikationsbild von „engel“,  zugeschnitten für diesen Post (Bild: Ideogram)

Bildgeneratoren aus ethischer Sicht

Mit generativer KI (engl. „generative AI“) beschäftigte sich Prof. Dr. Oliver Bendel ab 2019, zunächst in Bezug auf Dialogsysteme sozialer Roboter, dann in Bezug auf Text- und Bildgenerierung. In dem von ihm herausgegebenen Band „Maschinenliebe“ geht einer seiner Autoren, Kino Coursey von Realbotix, auf die Verwendung von Sprachmodellen bei sozialen Robotern wie Harmony ein. Es folgten weitere Artikel in diesem Kontext von Oliver Bendel selbst, etwa „Die Mächtigkeit von Sprachmodellen: Anwendungsmöglichkeiten für Service- und Industrieroboter“, erschienen im Frühjahr 2023 in messtec drives Automation. 2023 war der Technikphilosoph zu Gast bei „Scobel“ zu diesem Thema, u.a. zusammen mit Doris Weßels, und Referent an der TU Darmstadt. Für Ende 2023 und Anfang 2024 sind weitere Papers und Buchbeiträge zu Text- und Bildgeneratoren geplant, u.a. bei Kohlhammer und Schäffer-Poeschel und in AI & Society. Der Artikel „Image Synthesis from an Ethical Perspective“ ist nun bei Springer in die Produktion gegangen. Er war bereits im April 2023 bei AI & Society eingereicht worden und enthält eine der wenigen systematischen Untersuchungen von Bildgeneratoren aus ethischer Sicht. Das Abstract ist schon über diese Plattform verfügbar.

Abb.: Mit Ideogram generiertes Bild einer Superheldin