DALL-E 3 nähert sich Midjourney an

DALL-E in der Version 2 von OpenAI war zuletzt weit abgeschlagen. Mit Midjourney konnte es sich nicht messen, und sogar das niederschwellige Ideogram, eigentlich auf Schriften im Bild spezialisiert, übertraf es in einigen Aspekten. DALL-E 3 könnte dies ändern. Bei Tests, die der Ethiker und Wirtschaftsinformatiker Oliver Bendel am Abend des 2. Oktober 2023 durchführte, gelangen einige Kunst- und Schmuckstücke. Allerdings zeigte sich auch deutlich, dass Füße und Hände immer noch eine Herausforderung für Bildgeneratoren darstellen. Auch Beine und Arme wirken oft unnatürlich. Mit Wasser kann DALL-E dagegen virtuos umgehen. Insgesamt scheinen die Prompts richtig gedeutet und gut umgesetzt zu werden. Kein Wunder, denn die Schnittstelle bildet ChatGPT. Es gibt die Prompts so an den Verwandten weiter, dass dieser sie verstehen kann, selbst wenn sich der Benutzer ungeschickt ausgedrückt oder verschrieben hat. Ausgegeben werden meistens zwei bis vier Kacheln mit 1024 mal 1024 Pixel. DALL-E 3 steht seit 2. Oktober 2023 über den Bing Image Creator bereit. Wie so oft bei Microsoft sind die Schreibweisen auf der Plattform falsch. Für die lange Dauer der Bilderstellung – zwischen 5 Minuten und einer Stunde – entschuldigt man sich mit den Worten: „Diese [!] ist unsere Schuld!“ …

Abb.: Ein von DALL-E 3 generiertes Bild einer Schnorchlerin

 

Article on the Ethical Challenges of AI-based Image Synthesis

The article „Image Synthesis from an Ethical Perspective“ by Prof. Dr. Oliver Bendel was submitted on 18 April and accepted on 8 September 2023. It was published on 27 September 2023. From the abstract: „Generative AI has gained a lot of attention in society, business, and science. This trend has increased since 2018, and the big breakthrough came in 2022. In particular, AI-based text and image generators are now widely used. This raises a variety of ethical issues. The present paper first gives an introduction to generative AI and then to applied ethics in this context. Three specific image generators are presented: DALL-E 2, Stable Diffusion, and Midjourney. The author goes into technical details and basic principles, and compares their similarities and differences. This is followed by an ethical discussion. The paper addresses not only risks, but opportunities for generative AI. A summary with an outlook rounds off the article.“ The article was published in the long-established and renowned journal AI & Society and can be downloaded here.

Fig.: Are there biases in image generators? (Image: Ideogram)

Unheimlich echt

Adrian Lobe stellte einige Fragen an Oliver Bendel, die sich auf Generative AI bezogen. Im Fokus waren KI-basierte Bildgeneratoren, die inzwischen fotorealistische Abbildungen erschaffen können. Solche legte der Journalist dem in Zürich lebenden Professor vor und wollte von ihm wissen, wie er diese Retortenmenschen aus ethischer Sicht bewertet. Die Antwort begann mit den folgenden Worten: „Es spricht zunächst nichts dagegen, mit Hilfe von KI-basierten Bildgeneratoren fiktive Frauen und Männer zu erschaffen, also Avatare oder Hologramme. Man schadet niemandem, wenn die Bilder auf dem Bildschirm oder in einem Gerät erscheinen. Problematischer sind Deep Fakes, die reale Personen teilweise oder gesamthaft abbilden. Sie können die Menschenwürde verletzen, vor allem bei sexuellen Darstellungen. Aus ästhetischer Sicht ist es interessant, Menschen auf die Welt zu bringen, die man selbst schön findet, die man aber weder in den Medien noch im Alltag antrifft. Es wird ein Mensch gemacht, hat Wagner in ‚Faust II‘ ausgerufen, als Mephistopheles zu ihm getreten ist. Allerdings war es nur ein kleiner Homunkulus. Nun kann man seinen Traum verwirklichen und eine realistische Figur nach seinen Wünschen kreieren. Das ist auch aus ethischer Sicht relevant – denn es kann zu einem guten, erfüllten Leben beitragen. Vielleicht werden einem bestimmte Wünsche auch erst klar. Man versteht besser, was man will und was man nicht will, was man schön findet und was nicht. Man lernt sich besser kennen und kann auch anderen mitteilen, was man will und schön findet. Nur werden sich nicht alle Wünsche erfüllen lassen. Und eine Partnerschaft ist auch kein Wunschkonzert.“ Es folgten durchaus kritische Anmerkungen zur Praxis des Bildergenerierens sowie weitere Antworten auf weitere Fragen. Einzelne Statements wurden in den Artikel „Sieht unheimlich echt aus!“ (auch: „Unheimlich echt!“) übernommen, der am 27. Februar 2023 in ca. 20 Schweizer Zeitungen erschienen ist, etwa in der Aargauer Zeitung, in der Luzerner Zeitung und im St. Galler Tagblatt, und auf den in der Folge etwa bei 20 Minuten Bezug genommen wurde.

Abb.: Ein viel gezeigtes KI-generiertes Bild

Generative KI im Überblick

„Generative KI (‚KI‘ steht für ‚künstliche Intelligenz‘) ist ein Sammelbegriff für KI-basierte Systeme, mit denen auf scheinbar professionelle und kreative Weise alle möglichen Ergebnisse produziert werden können, etwa Bilder, Video, Audio, Text, Code, 3D-Modelle und Simulationen. Menschliche Fertigkeiten sollen erreicht oder übertroffen werden. Generative KI kann Schüler, Studenten, Lehrkräfte, Büromitarbeiter, Politiker, Künstler und Wissenschaftler unterstützen und Bestandteil von komplexeren Systemen sein. Man spricht auch, dem englischen Wort folgend, von Generative AI, wobei ‚AI‘ die Abkürzung für ‚Artificial Intelligence‘ ist.“ Mit diesen Worten beginnt ein Beitrag, der am 22. Februar 2023 im Gabler Wirtschaftslexikon erschienen ist. Es werden Informationen zu Entwicklung und Hintergrund sowie einige Beispiele für Anwendungen gegeben. Am Ende wird die Perspektive der Ethik eingenommen, unter besonderer Berücksichtigung der Informationsethik. Der Beitrag von Oliver Bendel kann über wirtschaftslexikon.gabler.de/definition/generative-ki-124952 abgerufen werden.

Abb.: Midjourney generiert ein Bild einer Schnorchlerin im Meer

Aktuelle Themen der KI-Ethik

Wie bereits in seinen Büchern „400 Keywords Informationsethik“ und „450 Keywords Digitalisierung“ beschäftigt sich Prof. Dr. Oliver Bendel im Gabler Wirtschaftslexikon mit der KI-Ethik. Er stellt ausführlich dar, wie diese mit den klassischen Bereichsethiken und mit der Maschinenethik verbunden ist. Am Ende heißt es: „Die KI-Ethik erhält Auftrieb durch Entwicklungen seit 2022 wie ChatGPT, DeepL Write und DALL-E 2 oder Lensa. Zunächst handelt es sich dabei um ebenso mächtige wie disruptive Tools. Bei ChatGPT stellt sich die Frage, wie fehleranfällig und vorurteilsbeladen das Reinforcement Learning from Human Feedback (RLHF) ist. Zudem kann die Datenqualität unter die Lupe genommen werden. Auch wenn Dokumente und Quellen von Arbeitskräften klassifiziert und qualifiziert werden, bedeutet das nicht unbedingt, dass ihre Verwendung unproblematisch ist. Die Arbeitsverhältnisse selbst thematisiert die Wirtschaftsethik. Bei DeepL Write kann man beanstanden, dass dieses Lektorprogramm offensichtlich nicht den Regeln des Rechtschreibrats, sondern eigenen Regeln folgt. So werden Rechtschreibfehler, die mit Sonderzeichen im Wortinneren zusammenhängen, also mit einer sogenannten geschlechtergerechten Sprache, nicht als solche erkannt bzw. beanstandet. Dies kann man in der Informationsethik und in der Medienethik untersuchen. DALL-E 2 und Lensa schaffen auf der Grundlage von Text- und Bildmaterial wirkungsstarke Visualisierungen. Angeblich werden bei Lensa die weiblichen Avatare sexualisiert, was aber nicht von allen Benutzern bestätigt werden kann. Die KI-Ethik dringt zum Kern vor, zum Machine Learning, und widmet sich der Herkunft und Qualität der Daten und dem Aufbau, der Anpassung und der Weiterentwicklung der Algorithmen. Sie behandelt mehr und mehr, wie Roboterethik und Maschinenethik, ganz grundsätzliche Aspekte, etwa in Bezug auf das Verhältnis zwischen (den Funktionsweisen und Endresultaten) künstlicher und menschlicher Intelligenz.“ Der Beitrag ist am 24. Januar 2023 erschienen und kann über wirtschaftslexikon.gabler.de/definition/ki-ethik-124922 abgerufen werden.

Abb.: Eine futuristische Darstellung eines humanoiden Roboters

A New Text-to-Art Engine

DALL·E 2 is a new AI system that can create realistic images and art from a description in natural language. It was announced by OpenAI in April 2022. The name is a portmanteau of „WALL-E“ and „Salvador Dalí“. The website openai.com says more about the program: „DALL·E 2 can create original, realistic images and art from a text description. It can combine concepts, attributes, and styles.“ (Website openai.com) Moreover, it is able to „make realistic edits to existing images from a natural language caption“ and to „add and remove elements while taking shadows, reflections, and textures into account“ (Website openai.com). Last but not least, it „can take an image and create different variations of it inspired by the original“ (Website openai.com). The latter form of use is shown by variations of the famous painting „Girl with a Pearl Earring“ by Johannes Vermeer. The website says about the principle of the program: „DALL·E 2 has learned the relationship between images and the text used to describe them. It uses a process called ‚diffusion,‘ which starts with a pattern of random dots and gradually alters that pattern towards an image when it recognizes specific aspects of that image.“ (Website openai.com) DALL·E mini is a slimmed down version of the powerful program, with which you can gain a first insight. The six images below were automatically generated by DALL·E mini from the text „A young female astronaut with long hair on the flight to Mars“. In total, 9 suggestions were made in a few seconds. Overall, this is a fascinating and valuable project. From the perspective of information ethics and the philosophy of technology, many questions arise.

Fig.: A young female astronaut with long hair on the flight to Mars (Photo: DALL·E mini)