Mit Visual ChatGPT Bilder generieren und editieren

Forscher von Microsoft arbeiten an einer neuen Anwendung auf der Basis von ChatGPT und Lösungen wie Stable Diffusion. Mit Visual ChatGPT soll man man über Texteingaben Bilder generieren und dann einzelne Elemente editieren können. In ihrem Paper „Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models“ schreiben Chenfei Wu und seine Mitautoren: „We build a system called Visual ChatGPT, incorporating different Visual Foundation Models, to enable the user to interact with ChatGPT by 1) sending and receiving not only languages but also images 2) providing complex visual questions or visual editing instructions that require the collaboration of multiple AI models with multi-steps“ – und, nicht zu vergessen: „3) providing feedback and asking for corrected results“ (Wu et al. 2023). Beispielsweise lässt man mit einem entsprechenden Prompt das Bild einer Landschaft erstellen, mit blauem Himmel, Hügeln, Wiesen, Blumen und Bäumen. Dann weist man Visual ChatGPT mit einem weiteren Prompt an, die Hügel flacher zu machen und den Himmel abendlicher und bewölkter. Zudem kann man das Programm fragen, welche Farbe die Blumen haben, und diese mit einem weiteren Prompt einfärben. Ein letzter Prompt lässt die Bäume herbstlicher erscheinen. Das Paper kann über arxiv.org heruntergeladen werden.

Abb.: Eine Landschaft mit Bäumen und Blumen