„Bildgeneratoren sind Anwendungen, die auf künstlicher Intelligenz (KI) beruhen und nach einem Input des Benutzers (einem Prompt) alle möglichen digitalen Bilder hervorbringen bzw. verändern, etwa fotorealistische Darstellungen, Zeichnungen, Gemälde oder Logos. Dabei kann man oft Stile und Formate vorgeben und im Dialog – in dem der Bildgenerator zum Chatbot wird – die Ergebnisse verbessern.“ Mit diesen Worten beginnt ein Beitrag von Prof. Dr. Oliver Bendel, der am 26. Oktober 2023 im Gabler Wirtschaftslexikon erschienen ist. Im Abschnitt zu Zurückweisung und Zensur ist zu lesen: „Einige Bildgeneratoren lehnen Prompts ab, wenn sie gegen die eigenen Richtlinien oder gegen anerkannte Leitlinien und bestehende Gesetze verstoßen. Bei DALL-E 3 nimmt ChatGPT die Prompts des Benutzers entgegen und formuliert daraus eigene Prompts, die dann weitergereicht werden. Widersprechen diese den Richtlinien, werden sie nicht ausgeführt. Ideogram geht in diesem Kontext anders vor. Zunächst beginnt es mit dem Generieren, wobei es den ‚generation progress‘ in Prozent anzeigt. Sobald es erkennt, dass unerwünschte Elemente auf dem Bild vorkommen, wird dieses vor der Fertigstellung – also bevor 100 Prozent erreicht sind – durch eine Kachel mit einer Katze ersetzt, die ein Schild mit der Aufschrift „MAYBE NOT SAFE“ trägt.“ Der Beitrag kann über wirtschaftslexikon.gabler.de/definition/bildgenerator-125856 aufgerufen werden.
Abb.: Vier junge Frauen als Beatles auf der Abbey Road (Bild: DALL-E 3)
DALL-E 3 – in der Version, die in ChatGPT Plus integriert ist – scheint ein Stille-Post-Problem zu haben. Bei einem Test von Oliver Bendel lautete der Prompt (Prompt A): „Two female swimmers competing in lake, photorealistic“. ChatGPT, die Schnittstelle zu DALL-E 3, machte daraus vier Prompts (Prompt B1 – B4). Prompt B4 lautete: „Photo-realistic image of two female swimmers, one with tattoos on her arms and the other with a swim cap, fiercely competing in a lake with lily pads and reeds at the edges. Birds fly overhead, adding to the natural ambiance.“ DALL-E 3 wiederum machte aus diesem Prompt etwas, was weder mit diesem noch mit Prompt A viel zu tun hatte. Zu sehen sind auf dem Bild nicht zwei Frauen, sondern zwei Männer oder eine Frau und ein Mann mit Bart. Sie schwimmen nicht um die Wette, sondern streiten sich, in einem Teich oder einem kleinen See stehend, indem sie wütend mit den Armen fuchteln und aufeinander losgehen. Vor ihnen wuchern Seerosen, über ihnen flattern Vögel. Sicherlich ein interessantes Bild, aber mit einer derartigen Willkür hervorgebracht, dass man sich das gute alte Prompt Engineering zurückwünscht. Genau dieses will die Schnittstelle eigentlich ersetzen – aber entstanden ist ein Effekt, den man von dem Stille-Post-Spiel kennt.
DALL-E 3 ist ein mächtiger Bildgenerator, der auf dem Large Language Model (LLM) namens GPT beruht und seit dem 2. Oktober 2023 zur Verfügung steht. Er schafft Schönheit und erlaubt Kunst. Zugleich zeichnen sich Bias-Probleme ab. Menschen sind fast ohne Ausnahme attraktiv. Oft wirken sie wie Klone. Frauen sind knapp bekleidet, mit Hotpants und Röckchen (die im Tennis freilich der Normalfall und auch in aufgeschlossenen Gesellschaften keine Seltenheit sind). Ihre Hintern sind so perfekt, dass man vermuten könnte, dass beim LLM ein eigens bestellter „connaisseur du derrière“ mit modelliert. Zugleich verweigert DALL-E 3 jegliche Eingaben, in denen es etwas Unsittliches wittert … Wenn man nach einem schwarzen Arzt verlangt, der einen weißen Patienten behandelt, wird diese Eingabe meist umgedeutet. ChatGPT, die ebenfalls auf dem Sprachmodell von OpenAI basierende Schnittstelle zu DALL-E 3, scheint der Meinung zu sein, dass die umgekehrte Konstellation der Normalfall ist. Man sieht i.d.R. einen weißen oder hellhäutigen Arzt, der einen schwarzen Patienten behandelt. Die Farbigen sind Männer, die attraktiv und muskulös sind. Der Arzt ist meistens ein Mann. Manche Bilder wirken regelrecht befremdlich. Der Patient scheint dem Arzt ausgeliefert zu sein. Er wirkt wie ein Objekt neben dem Menschen oder wie – im Bild unten und hier zu sehen – ein Objekt des Menschen. Der Arzt triumphiert über den Patienten – oder über seine Krankheit? Dabei scheinen alle vor Gesundheit zu strotzen, was natürlich täuschen kann. In seltenen Fällen bekommt der Benutzer das, was er mit seinem Prompt verlangt hat: einen schwarzen Arzt, der einen weißen Patienten behandelt. Auf Bias-Probleme bei Bildgeneratoren geht der Artikel „Image Synthesis from an Ethical Perspective“ von Prof. Dr. Oliver Bendel ein.
Abb.: So stellt sich DALL-E 3 einen schwarzen Arzt mit einem weißen Patienten vor
Eigentlich war die Testreihe mit DALL-E 3 schon abgeschlossen. Aber Prof. Dr. Oliver Bendel wollte nochmals wissen, ob der Bildgenerator „versteht“, was „auf dem Mond“ bedeutet. Auf bisherigen Ergebnissen war immer nur der Mond irgendwo zu sehen, und die Szene spielte sich auf einem Meteoriten oder wo auch immer ab. Der Prompt am Morgen des 5. Oktober 2023 lautete: „A female skateboarder on the moon doing a daring stunt, photorealistic“. Zuerst war der Eindruck, dass man endlich auf dem Mond gelandet war. Aber bei genauerem Hinsehen erkannte man, dass sich auch hier der Mond hinter dem Meteoriten oder einem Planeten erhebt. Bei den anderen Ergebnissen war es noch deutlicher (eine Serie mit dem Mars beweist, dass es anders geht, wie auch dieses etwas kitschige Einzelbild). Das Bild gefällt dennoch durch die Bewegung der Skaterin, ihre ungewöhnliche Haltung – vermutlich wird sie gleich in den Staub des Trabanten fallen, hoffentlich nicht auf den Stein – und ihren Schattenwurf. Spuren der Fahrt sind nicht zu sehen, aber vielleicht war es überhaupt mehr ein Gleiten über der Oberfläche als auf der Oberfläche (sehenswert übrigens auch eine Serie auf dem Wasser). Bei den vier Kacheln fällt weiter auf, dass drei europäisch anmutende Skaterinnen zu sehen sind und eine asiatische Schwester. Das ist nicht ganz divers, aber immerhin ein Anfang. Damit ist die Serie nun wirklich abgeschlossen. Die Nutzung von DALL-E 3 hat auf jeden Fall großen Spaß gemacht. Und sie zeigt, dass KI-Systeme und insbesondere Bildgeneratoren wirklich – wie Oliver Bendel im Frühjahr 2023 bei „Scobel“ behauptet hat – Schönheit produzieren können.
Zum Abschluss der neunteiligen Serie von Oliver Bendel ein Taucher, der sich durch einen Fischschwarm bewegt. Eigentlich war bei DALL-E 3 am 3. Oktober 2023 ein Schnorchler (m/w/d) angefordert worden, aber auf dem Rücken trägt er etwas, was an eine Sauerstoffflasche erinnert. Bei den Alternativen wird dies noch deutlicher. Die Tiefe des Bilds gefällt, zudem der Lichteinfall von oben. Die Fische sind Individuen trotz ihrer Ähnlichkeit, neugierig und zugewandt. Das ist zugleich das Merkwürdige – ein echter Schwarm würde sich anders bewegen, auch wenn ein Mensch mitten in ihm ist. Das wirft die Frage auf, wie wir künftig Natur und speziell Pflanzen und Tiere wahrnehmen werden, wenn Bildgeneratoren ein verzerrtes Bild ihrer Individuen und Strukturen entwerfen. Das ist sicherlich kein neues Problem, denn es gibt seit jeher Illustrationen, die mehr oder weniger passend sind. Dennoch ist es die Fülle an Material, das meist deutlich neben der Realität steht, die diese so weit verrücken könnte, dass wir die Virtualität bevorzugen. Insgesamt beeindruckt DALL-E 3 mit seinen Ergebnissen, die im Rahmen dieser Tests freilich mehr oder weniger Zufälle sind. Die Lücke zu Midjourney scheint geschlossen. Das Wettrennen der Firmen geht weiter.
Schönheit war einem schon in mehreren Bildern von DALL-E 3 begegnet, von Menschen und Dingen. Auch den jungen Mann der letzten Darstellung mögen einige attraktiv finden. Bei den Tests taucht kaum Hässlichkeit auf, außer im Kitsch. Manchmal sind beide im Widerstreit auf einem einzigen Bild. In diesem, das von Oliver Bendel noch am 3. Oktober 2023 angefertigt wurde, zeigt sich eine pubertierende Schönheit inmitten von opulenter Blumenpracht. Der Prompt hatte gelautet: „Blonde teenage girl lies prone on blanket in garden, thousands of colorful flowers grow at edge of garden, photorealistic“. Von Schönheit war also keine Rede gewesen – aber diese Protagonistin und ihre Altersgenossinnen würden Angela Hayes in „American Beauty“ blass aussehen lassen, selbst für Lester Burnham. Ob man die Gesamtkomposition in ästhetischer Hinsicht durchgehen lassen will, ist eine andere Frage. Zur allgemeinen, fast erdrückenden Pracht bildet immerhin die graue, schlichte Decke einen Widerpart. Und auch der kurze Rasen wird schon andere Zeiten gesehen haben, in denen sich lediglich Igel und Amseln auf ihm bewegten. Wobei diese durchaus Schönheit bedeuten können, die Schönheit der Natur und des Natürlichen. Das Künstliche legt sich auch in diesem Bild wie ein Schleier über alles.
Abb.: Ein Teenager inmitten von Blumen (Bild: DALL-E 3)
Das nächste Bild der kleinen Serie mit DALL-E 3 vom 3. Oktober 2023 soll laut Prompt einen jungen Mann in Latzhose auf einer Parkbank zeigen, mit Blume im Mund, aus der Froschperspektive (die Vogelperspektive wurde von Oliver Bendel schon durch ein anderes Bild abgedeckt). Das Ergebnis wirkt realistisch und modern. Solche Frisuren werden in der Gegenwart getragen, und wahrscheinlich waren sie schon in der Vergangenheit hin und wieder zu sehen. Der Bartwuchs verrät, dass ein Rasierer noch nicht lange eingesetzt werden muss und auch nicht immer eingesetzt wird. Die Muskeln entsprechen den Anforderungen, die manche Männer an sich und manche Frauen an sie stellen, wobei diejenigen am Rücken etwas stark geraten sind. Die Augen wirken wach und weich, die Nase ist markant, aber nicht zu dominant. Dass die Parkbank in ein Gewächshaus geraten ist, kann man DALL-E 3 verzeihen, zumal die darin aufgehängten Töpfe mit ihren grünen Pflanzen für Farbkleckse sorgen. Farblich sticht zudem die blaue Latzhose hervor, wobei der Prompt nicht ausgeschlossen hat, dass etwas darunter getragen wird.
Abb.: Der junge Mann mit Latzhose (Bild: DALL-E 3)
Den vorläufigen Höhepunkt der neunteiligen Serie zu den ersten Erfahrungen mit DALL-E 3 von Oliver Bendel bildet ein weiteres Wasserbild. Dargestellt ist eine Schwimmerin aus der Vogelperspektive. Der Pool wirkt realistisch, mit seinen Fliesen, seinen Markierungen und den Brechungen durch das Wasser, das Wasser selbst zunächst auch, bis die Gischt fast zu Polstermaterial zu erstarren scheint – damit könnte man ein ganzes Paket mit Vasen ausfüllen. Der Körper ist gut im Wasser zu erkennen, bis hin zum Bikini – oder ist es ein kunstvoll geschnittener Badeanzug? Irritierend sind die glatten, helmhaften Haare, die wie aus Kunststoff sind. Weder Feuchtigkeit noch Gel bekommen so etwas zustande. Dies raubt dem ganzen Bild die Natürlichkeit, stellt aber eine interessante Brücke zum Comic her. Vielleicht handelt es sich um eine entsprungene Superheldin, die den Alltag in einem Hallenbad genießt. Die Hände und die Finger, dies sei zum Schluss bemerkt, sind wieder überlang, wie bei mehreren anderen Bildern.
Abb.: Die Schwimmerin aus der Vogelperspektive (Bild: DALL-E 3)
Eine Serie mit dem Prompt „An old, run-down homeless man on the streets of San Francisco, photorealistic“ geriet DALL-E am Nachmittag des 3. Oktober 2023 so überzeugend, dass die Auswahl schwer fiel. Vier alte Männer, mit leeren oder wachen Augen, mit oder ohne Auflösungserscheinungen, mehr oder weniger wach oder schlafend, mit verfilzten oder verdreckten Bärten, mit Mütze oder barhäuptig, mit europäischen oder asiatischen Wurzeln. DALL-E 3 scheint sich auszukennen mit dem Leid der Obdachlosen in Kalifornien. Die Wahl fiel auf einen sitzenden Mann, der sich wohl kurz vorher eine Baseballkappe besorgt hat. Der Blick ist leer, die Jacke verschmutzt, die Decke wärmt von unten, denn die Nächte können kühl sein in San Francisco, der schönsten und grausamsten Stadt der Welt. Diese ist schemenhaft zu erkennen, nicht mit den typischen Feuerleitern wie auf einem anderen Bild, sondern mit den Schildern der Geschäfte. Ein Mann geht in den Hintergrund, aus dem ein anderer kommt. Die Darstellung wirkt realistischer als das Heidi-Bild. Ein alternatives Bild lenkt den Blick auf einen Bart, in dem Überreste und Schmutzteile hängen. Die Haut des Bruders ist beschädigter, gezeichnet vom Alter, von der Krankheit und von der Straße.
Heidi als zehnjähriges Mädchen in den Schweizer Bergen mit Smartphone – so lautete sinngemäss der Prompt, den Oliver Bendel aus Zürich am Mittag des 3. Oktober 2023 in DALL-E 3 eingab. Auch bei diesem Ergebnis fällt die Ausarbeitung von Details ins Auge. Den Pullover – wohl passend zu Temperatur und Situation – kann man förmlich in seiner groben Struktur fühlen. Der eine Rucksackgurt sitzt gut sichtbar an der richtigen Stelle der Schulter, der andere ist vom langen blonden Haar bedeckt. Die Hände erscheinen, im Gegensatz zu anderen Bildern, soweit korrekt. Auch die Finger sind in diesem Fall nicht überlang. Sie schließen sich in natürlicher Weise um das Smartphone, das von verschiedenen Herstellern sein könnte. Vermutlich textet das Mädchen mit den Daumen. Sie lächelt dabei. Im Hintergrund erheben sich Allerweltsberge und ziehen Allerweltswolken dahin. Am Rande duckt sich eine Hütte. In einem Bild einer anderen Serie – ohne Altersangabe – ist deutlich das Matterhorn zu sehen. Das Gesicht beeindruckt durch die konzentriert blickenden Augen, die klar gezeichneten Wimpern und Augenbrauen, die – womöglich durch die Höhenluft – geröteten Wangen, auch wenn über allem der Schleier des Künstlichen liegt.
Ein Kurs an der Hochschule, in dem man Prof. Dr. Oliver Bendel zujubelt – so lautete der Prompt, der am Morgen des 3. Oktober 2023 bei DALL-E 3 eingegeben wurde. Erst am Tag davor hatte der Launch der neuen Version durch OpenAI stattgefunden. Der abgebildete Dozent hat mit dem Ethiker und Technikphilosophen wenig gemein, bis auf den obligatorischen Anzug mit Krawatte. ChatGPT kennt ihn gut und kann viel über ihn erzählen, aber anscheinend reicht DALL-E 3 das Bildmaterial nicht aus – oder es ist vorsichtig bei realen Personen. Die Klasse selbst besteht ausschließlich aus jungen Männern, die sich auffällig ähneln, vor allem die Streber in der ersten Reihe. In einem weiteren Versuch wurden sie durch junge Frauen ersetzt, die nun vollends als Klone daherkommen, brünett, adrett, die Hände in die Luft schnellen lassend, mit den Fingern schnippend. Insgesamt wirkt das Bild wie aus der Zeit gefallen, zumal die jungen Männer vor Büchern sitzen und nicht vor Notebooks – nicht einmal eine Wasserflasche oder ein Energydrink ist zu sehen, was den Betrachter schon beim bloßen Zusehen dehydrieren lässt. Ansonsten fallen einige Details auf, die typisch für DALL-E 3 zu sein scheinen, wie die langen Finger und das gleißende Licht. Beeindruckend nicht zuletzt, dass man fast im Buch des Dozenten lesen kann.
Abb.: Der Professor vor der Klasse (Bild: DALL-E 3)
Bereits am 2. Oktober 2023, als DALL-E das Licht der Welt erblickte, konnte man feststellen, dass der Bildgenerator virtuos mit Wasser umgeht. Dabei stimmen auf den zweiten Blick nicht alle Details. In einem von Oliver Bendel verursachten Bild, das einen Pool auf einem Trabanten oder Meteoriten zeigt, sollten eigentlich Frauen um die Wette schwimmen. Die Bewegung des Wassers deutet allerdings an, dass sie kaum daran interessiert sind, von der Stelle zu kommen. In einem alternativen Bild ist dies schon besser umgesetzt. Man sieht im Wasser deutlich die Spuren, die die Schwimmerinnen hinterlassen haben. In beiden Fällen übt das Wasser eine gewisse Faszination aus, vor allem durch das Spiel mit dem Licht. Dieses ist auch entscheidend bei einer anderen Serie, die Mädchen dabei zeigt, wie sie mit einem Salto in einen Pool springen. Hinzu kommen stimmige Spiegelungen des Wassers und Kräuselungen der Oberfläche. Es gefällt auch die Bewegung, die Drehung, überhaupt die Dynamik. Wie bei einer früheren Darstellung fragt man sich aber, ob die Mutige ins Wasser fällt oder auf den Boden prallt – oder auf den Handlauf des Einstiegs, der bereits verbogen erscheint. Zudem fallen die überlangen Finger auf. Beunruhigend wiederum – wie in dem anderen Poolbild – die Gestalten am Beckenrand, auch wenn sie menschlich wirken. Die Wirkung insgesamt ist enorm, zumal sich im Hintergrund ein berühmtes Bauwerk erhebt, die kambodschanische Tempelanlage Angkor Wat, was freilich im Prompt gar nicht angefordert worden war. Auch ein alternatives Bild mit einer farbigen Springerin gefällt.
Einen Tag nach dem Launch von DALL-E 3 kommt kaum jemand in den Genuss, die sehenswerten Bilder generieren zu können. Oder vielmehr kommen so viele Menschen in diesen Genuss, dass viele andere leer ausgehen. Sie sehen nur einen Kugelfisch und die Meldung: „Wir können Ihre Bilder im Moment nicht erstellen. Aufgrund der hohen Nachfrage können wir keine neuen Anforderungen verarbeiten. Versuchen Sie es bitte später noch einmal.“ (Website Bing Image Creator) Wer es dann später schafft, wie Oliver Bendel am Morgen des 3. Oktober 2023, ist durchaus beeindruckt. Simple Prompts werden fantasievoll umgesetzt. Es werden unterschiedliche Stile hergenommen und Perspektiven eingenommen. Es herrscht aber auch verblüffende Homogenität. Ein Kurs an einer Hochschule besteht aus lauter jungen Männern, die ähnlich aussehen. Ersetzt man sie durch junge Frauen, gleichen auch diese wie ein Ei dem anderen. Komplexere Prompts werden recht genau befolgt. Wenn ein Ball drei Farben haben soll, hat er drei Farben. Wenn es sich um drei junge Otter handeln soll, kommen genau drei possierliche Tiere ins Bild. Wenn man allerdings einen Schwimmwettkampf auf dem Mond haben will, ist der Mond am Himmel zu sehen. Die Athletinnen befinden sich vermutlich auf einem Meteoriten. Auch die Aliens in der näheren Umgebung tragen nicht zur Beruhigung bei.
Abb.: Wettschwimmen in der Nähe des Monds (Bild: DALL-E 3)
„Forscher des Toyota Research Institute (TRI) haben nach eigenen Angaben einen wegweisenden generativen KI-Ansatz entwickelt, um Robotern schnell und sicher neue Fähigkeiten beizubringen, zu denen beispielsweise die Zubereitung von Pancakes gehört. Wie das Unternehmen in einer Pressemitteilung erklärt, werde dadurch der Nutzen von Robotern erheblich verbessert. Obendrein sei dies ein bedeutsamer Schritt hin zur Entwicklung eines sogenannten Large Behavior Models (LBM).“ (Golem, 20. September 2023) Dies meldete Golem am 20. September 2023. Dahinter verbirgt sich nichts anderes als die Nutzung von Large Language Models (LLM) für Roboter. In diesem Bereich hat seit Anfang 2023 vor allem das Sprachmodell PaLM-E für Aufmerksamkeit gesorgt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität miteinander verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Aber nicht nur Google und TU Berlin forschen auf diesem Gebiet – in dem Paper „ChatGPT for Robotics“ hat auch Microsoft erste Ergebnisse vorgestellt. Oliver Bendel hat im Mai 2023 zu diesem Thema den Artikel „Die Mächtigkeit von Sprachmodellen“ veröffentlicht.
DALL-E in der Version 2 von OpenAI war zuletzt weit abgeschlagen. Mit Midjourney konnte es sich nicht messen, und sogar das niederschwellige Ideogram, eigentlich auf Schriften im Bild spezialisiert, übertraf es in einigen Aspekten. DALL-E 3 könnte dies ändern. Bei Tests, die der Ethiker und Wirtschaftsinformatiker Oliver Bendel am Abend des 2. Oktober 2023 durchführte, gelangen einige Kunst- und Schmuckstücke. Allerdings zeigte sich auch deutlich, dass Füße und Hände immer noch eine Herausforderung für Bildgeneratoren darstellen. Auch Beine und Arme wirken oft unnatürlich. Mit Wasser kann DALL-E dagegen virtuos umgehen. Insgesamt scheinen die Prompts richtig gedeutet und gut umgesetzt zu werden. Kein Wunder, denn die Schnittstelle bildet ChatGPT. Es gibt die Prompts so an den Verwandten weiter, dass dieser sie verstehen kann, selbst wenn sich der Benutzer ungeschickt ausgedrückt oder verschrieben hat. Ausgegeben werden meistens zwei bis vier Kacheln mit 1024 mal 1024 Pixel. DALL-E 3 steht seit 2. Oktober 2023 über den Bing Image Creator bereit. Wie so oft bei Microsoft sind die Schreibweisen auf der Plattform falsch. Für die lange Dauer der Bilderstellung – zwischen 5 Minuten und einer Stunde – entschuldigt man sich mit den Worten: „Diese [!] ist unsere Schuld!“ …
Abb.: Ein von DALL-E 3 generiertes Bild einer Schnorchlerin
„Knapp eine Woche, nachdem OpenAI die neue Version von Dall-E 3 vorgestellt hat, steht sie nun über den Bing Image Creator zur kostenlosen Verfügung. Ursprünglich hatten die Entwickler angekündigt, das Tool nur für ChatGPT-Plus- und Enterprise-Kunden ab Anfang Oktober zu veröffentlichen.“ (Golem, 2. Oktober 2023) Dies meldete Golem am Spätnachmittag des 2. Oktober 2023. „Mit der Text-zu-Bild-KI verspricht OpenAI, Kenntnisse im Prompt Engineering überflüssig zu machen. Bei Dall-E 3 übernimmt ChatGPT diese Aufgabe und übersetzt die Bildbeschreibungen der Nutzer in Prompts, die für Dall-E 3 verständlich sind.“ (Golem, 2. Oktober 2023) Am Abend war das System zeitweise stark überlastet. Das Generieren eines Bildes dauerte 15 bis 30 Minuten. Erste Tests von Prof. Dr. Oliver Bendel verliefen erfolgversprechend. Die Qualität nähert sich Midjourney an, aber Füße und Hände sind immer noch eine Herausforderung … Auch eine moralische und rechtliche Dimension scheint es wieder zu geben: OpenAI legt „bei Dall-E 3 weiterhin Wert auf Sicherheit“ und „integriert Mechanismen, mit denen Missbrauch, Propaganda und Desinformationen“ (Golem, 2. Oktober 2023) vorgebeugt werden soll. Bei DALL-E 2 sorgte dies bereits für ärgerliche Einschränkungen, ebenso bei Ideogram. Man ist letztlich der Moral amerikanischer Machart ausgeliefert – dem neoviktorianischen Unternehmenskonservatismus, wie es ein KI-Experte im Austausch mit Oliver Bendel ausdrückte. DALL-E 3 zensiert ebenfalls, direkt bei den Prompts, und droht mit Konsequenzen bis hin zur Schließung des Accounts.
Abb.: Ein Mädchen springt vom Turm in den Pool (Bild: DALL-E 3)
Eine aktuelle Ausstellung im Museum Rietberg in Zürich stellt die Geschichte des Kimonos dar, des ikonischen Kleidungsstücks aus Japan, das schon früh einen Siegeszug um die ganze Welt angetreten hat. „KIMONO – Kyoto to Catwalk“ präsentiert laut Website den Kimono nicht als statisch und unveränderlich, sondern als ein äußerst „dynamisches und modisches Kleidungsstück“. „Über 100 prachtvolle Kimonos, Malereien und Holzschnitte aus dem 18. bis 20. Jahrhundert wie auch extravagante Kreationen zeitgenössischer Modedesigner zeigen die künstlerische und ästhetische Bedeutung dieses Kleidungsstücks in historischen und zeitgenössischen Kontexten auf und veranschaulichen, wie der Kimono sowohl in Japan als auch im Westen seit dem 17. Jahrhundert die Mode beeinflusst hat.“ (Website Museum Rietberg) Problemlos könnte man diese Ausstellung im Virtuellen fortsetzen. Bildgeneratoren wie Ideogram scheinen den Kimono geradezu zu lieben und statten ihn auf opulente Weise aus. Im KI-Zeitalter interpretieren sie seine Schönheit auf eine neue Weise. Die Ausstellung läuft seit dem 23. September 2023 und geht bis zum 23. Januar 2024. Weitere Informationen über rietberg.ch/ausstellungen/kimono.
Abb.: Ideogram zeigt eine europäische Frau im Kimono
Mit generativer KI (engl. „generative AI“) beschäftigt sich Prof. Dr. Oliver Bendel seit 2019, schon damals mit Blick auf Roboter. In dem von ihm herausgegebenen Band „Maschinenliebe“ geht einer seiner Autoren, Kino Coursey von Realbotix, auf die Verwendung von Sprachmodellen bei sozialen Robotern wie Harmony ein. Es folgten weitere Artikel in diesem Kontext, etwa „Die Mächtigkeit von Sprachmodellen: Anwendungsmöglichkeiten für Service- und Industrieroboter“, erschienen im Frühjahr 2023 in messtec drives Automation. 2023 war Oliver Bendel zu Gast bei „Scobel“ zu diesem Thema, u.a. zusammen mit Doris Weßels, und Referent an der TU Darmstadt. Für Ende 2023 und Anfang 2024 sind weitere Papers und Buchbeiträge geplant, u.a. bei Kohlhammer und Schäffer-Poeschel und in AI & Society. Christoph Holz, ein Podcaster, unterhielt sich mit dem Informations- und Maschinenethiker über verschiedene Themen in den Bereichen Soziale Robotik, Künstliche Intelligenz und Ethik. Die erste Folge „Maschinenliebe aus philosophischer Sicht“ wurde am 19. Juli veröffentlicht, die zweite mit dem Titel „Ethische Implikationen generativer KI“ am 6. September 2023. Beide können über Spotify abgerufen werden.
Abb.: So stellt sich Ideogram Brigitte Bardot als Roboter vor
„Die Aussage, dass KI Texte generieren kann, sagt etwas über das Verständnis von Texten aus. Worin aber unterscheiden sich menschengemachte und computergenerierte Texte und welche Geltungsansprüche können jeweils erhoben, bestritten oder eingelöst werden? Was erwarten, befürchten und erhoffen sich die einzelnen Wissenschaften, wenn in ihren Diskursen Texte rezipiert werden, die mit generativer Text-KI erzeugt wurden? Wie verändert sich der Umgang mit Quellen? Wie kann digitale Hermeneutik mit KI umgehen? Und welche Konsequenzen ergeben sich für die Kriterien von Wissenschaftlichkeit, Relevanz und Urheberschaft?“ (Programm ZEVEDI) Diesen und anderen Fragen geht die Tagung „KI – Text und Geltung. Wie verändern KI-Textgeneratoren wissenschaftliche Diskurse?“ nach, die am 25. und 26. August 2023 an der TU Darmstadt stattfindet. Es tragen u.a. Prof. Dr. Doris Weßels (Fachhochschule Kiel), Prof. Dr. Oliver Bendel (Fachhochschule Nordwestschweiz), Dr. Steffen Albrecht (Büro für Technikfolgen-Abschätzung beim Deutschen Bundestag) und Prof. Dr. Christian Stöcker (Hochschule für Angewandte Wissenschaften Hamburg) vor. Das Programm kann hier abgerufen werden.
Abb.: Oliver Bendel in seinem Büro (Foto: Dominic Büttner)
Am 20. Juni 2023 hält Prof. Dr. Oliver Bendel einen Onlinevortrag für LeLa, das Lernlabor Hochschuldidaktik für Digital Skills, ein Kooperationsprojekt der fünf Zürcher Hochschulen ETH Zürich, PHZH, UZH, ZHAW und ZHdK. „Ethische Implikationen generativer KI“ sind das Thema. Zunächst klärt der Technikphilosoph den Begriff der generativen KI (engl. „generative AI“). Dann stellt er aus Sicht von Informations- und Maschinenethik verschiedene Überlegungen zu diesem Bereich an, wobei er vor allem auf ChatGPT fokussiert. So ist die Frage, woher die Daten für das zugrunde liegende Sprachmodell kommen und unter welchen Bedingungen das Reinforcement Learning from Human Feedback abläuft. Zudem dürfte relevant sein, welche Daten man beim Prompt preisgibt und welche Prompts auf welche Art und Weise zurückgewiesen werden. Ein weiteres Problemfeld ist das Halluzinieren der Sprachmodelle bzw. der darauf basierenden Anwendungen. Diese verdrehen Fakten und erfinden Referenzen. Mit Visual ChatGPT soll man über Texteingaben Bilder generieren und dann einzelne Elemente editieren können. Solche und andere Bildgeneratoren wie DALL-E, Stable Diffusion und Midjourney werfen wiederum zahlreiche ethische Fragen auf. GPT-3 und GPT-4 bzw. ChatGPT sind nicht nur für bzw. als Chatbots und Contentgeneratoren relevant, sondern auch für Industrie- und Serviceroboter. In diesem Bereich hat indes vor allem das Sprachmodell PaLM-E Aufmerksamkeit erregt. Indem Bilddaten und Daten zu Zuständen und Ereignissen integriert werden, werden Virtualität und Realität verbunden. Konkret kann der Benutzer mit Hilfe eines Prompts einem Roboter eine Anweisung geben, die dieser dann in seiner Umgebung ausführt, die er vorher beobachtet hat und weiter beobachtet. Dabei sind wiederum Herausforderungen vorhanden, etwa mit Blick auf Verlässlichkeit und Haftung. Weitere Informationen zur Reihe „AI or what the ChatGPT“ über dizh.ch/event/was-sind-die-ethische-implikationen-generativer-ki/.
Abb.: Mit Midjourney erstelltes Bild einer Schnorchlerin
Auf TikTok findet sich ein neuer Musikclip der beiden kanadischen Sänger Drake und The Weeknd. Golem meldete am 17. April 2023: „Der Titel wurde vom Kanal ghostwriter977 veröffentlicht und ist eigenen Angaben zufolge komplett mithilfe einer künstlichen Intelligenz erstellt worden.“ (Golem, 17. April 2023) Das einminütige Stück hat es inzwischen auf YouTube geschafft, in der ursprünglichen – nach zwei Tagen bereits mehr als tausendmal kommentiert – und in einer verbesserten Version. Beide hat man allerdings wohl aus Rechtsgründen entfernt. Golem schreibt weiter: „Für die Musikindustrie dürften derartige Musikstücke, die zumindest beim ersten und zweiten Hinhören sehr echt klingen, ein Problem sein. Drake hatte sich in der Vergangenheit bereits bei anderen KI-Songs mit seiner Stimme kritisch bis verärgert gezeigt. Der Produzent von Jay-Z, Young Guru, spricht von einem Geist, der aus der Flasche gelassen wurde. Zum einen könne man den technologischen Fortschritt nicht aufhalten, zum anderen müssten die Rechte der Kunstschaffenden geschützt werden.“ (Golem, 17. April 2023) Die individuelle Stimme, verbunden mit gesprochener Sprache, kann bereits seit einigen Jahren mit Hilfe künstlicher Intelligenz imitiert werden. Darauf geht etwa der Beitrag „The Synthetization of Human Voices“ von Prof. Dr. Oliver Bendel aus dem Jahre 2017 ein. Inzwischen stellt auch gesungene Sprache lebender und toter Künstler kein Problem mehr dar.
„Ein Prompt ist bei generativer KI (Generative AI) ein Input des Benutzers, zu dem das System einen Output erzeugt. Ein textbasierter Prompt kann Wörter, Buchstaben, Sonderzeichen, Zahlen und Links enthalten. Um das gewünschte Ergebnis zu bekommen, muss der Prompt möglichst eindeutig und umfassend sein. Ein einfaches Beispiel im Falle von Bildgeneratoren ist ‚3 junge Frauen vor einem See, fotorealistisch‘, wobei der erste Teil den Inhalt angibt, der zweite den Stil. Wenn Dialoge vorgesehen sind, wie bei Textgeneratoren wie ChatGPT und Bildgeneratoren wie Visual ChatGPT, kann mehrmals eine Eingabe erfolgen, um das Ergebnis anzupassen. Auch das Verweisen auf Bilder ist möglich. Zuweilen sind negative Prompts erlaubt, die etwas ausschließen.“ Mit diesen Worten beginnt ein neuer Beitrag im Gabler Wirtschaftslexikon, erschienen am 14. März 2023. In den folgenden Absätzen wird auf Prompt Engineering und Prompt-Plattformen eingegangen. Am Ende wird die Perspektive der Ethik eingenommen: „Dass generative KI bestimmte Anfragen ablehnt, aus moralischen, rechtlichen oder ideologischen Gründen, ist Thema von Informationsethik und Medienethik. Rechtsethik, Rechtswissenschaft und Rechtsprechung untersuchen, inwieweit Prompts schützenswertes geistiges Eigentum darstellen.“ Der Beitrag von Oliver Bendel kann über wirtschaftslexikon.gabler.de/definition/prompt-125087 abgerufen werden.
Abb.: Midjourney generiert ein Bild mit drei jungen Frauen vor einem See