4. Ausgabe 2023 | Nr. 91

Einstieg in die Welt der Bildgeneratoren

KI Glossar: Midjourney & Co.

Papst Franziskus in stylischer Daunenjacke. Ex-US-Präsident Trump wird gewaltsam verhaftet. Ein Fotograf lehnt seine Auszeichnung ab, weil das eingereichte Bild von einer KI generiert wurde. Was sind Midjourney & Co. eigentlich? Ein kurzer Überblick.

„Nightcafé“ ist nur eine von vielen Möglichkeiten, kostenlos mit generativer KI herumzuspielen. Gemäß dem weihnachtlichen Rahmen der hier vorliegenden Ausgabe hatten wir folgenden augenzwinkernden Textbefehl („Prompt“) für die KI:  „five people having a christmas party in an office full of old computers, funny, christmas, as a cartoon“
Das Ergebnis:

/imagine: eine kleine Midjourney-Übersicht

„Midjourney“ ist omnipräsent im Netz, zumindest im Kontext zum Thema „Künstliche Intelligenz“. Die generative KI generiert Bilder in allen erdenklichen Zeichenstilen; Motive aus allen Genres; lebensechte Fotoimitationen. Grenzen gibt es eigentlich kaum.

Die Nutzung von Midjourney war bei seiner Startphase in 2022 in einem gewissen Rahmen kostenlos. Nach eigenen Aussagen des Midjourney-Teams rückte man wegen der hohen Nachfrage und missbräuchlicher Nutzung davon ab. Nun entscheidet sich der Nutzer bei der Registrierung für ein Abomodell: Der günstigste „Basic Plan“ startet ab umgerechnet 9,36 Euro pro Monat; der teuerste „Mega Plan“ schlägt mit umgerechnet 112,31 Euro zu Buche. Bezahlt wird vor allem die Zeit, die die High-End-Grafikprozessoren bei Midjourney benötigen, um die Textbefehle/Prompts in Grafik zu übersetzen und das Bild dann letztendlich zu generieren. Nutzer kaufen auch den Luxus, einfach nur Text einzugeben und das generierte Bild mit einem Klick hochskalieren zu lassen.

Es gibt auch Open-Source-Alternativen für PC oder Mac. „Stable Diffusion“ ist so eine Software. Hierfür braucht der Casual User allerdings ein erweitertes IT-Grundverständnis und vor allem die entsprechende Hardware; dedizierter Grafikspeicher ab 16 GB aufwärts wäre wünschenswert.

Die Nutzung von Bild-generierender KI als Cloud-Service, in Form von Midjourney oder bald auch Adobe Firefly, funktioniert folglich nur im Online-Betrieb. Und in Kooperation mit einer weiteren Anwendung: Discord. Letzterer ist ein Kommunikationsdienst, der ursprünglich von Gamern als Teamchat genutzt wurde und sich seit seinem Start 2015 rasant zu einer Social-Media-Plattform weiterentwickelt hat. Auf dieser betreibt auch Midjourney einen Kanal, der letztendlich die Benutzeroberfläche in Form eines automatisierten Bots darstellt. Deswegen beginnt auch jede Beschreibung für das künftige Bild mit dem Textbefehl an den Bot, sich die dann folgenden Prompts vorzustellen: /imagine

/imagine: Fütterungszeit

Haben Sie sich schon gefragt, warum unser Weihnachtspartybild am Anfang des Textes verzerrte Gesichter, groteske Hände und Arme zeigt, die ins Nichts laufen? Diese Phänomene erinnern uns daran, dass generative KIs weder eine bestimmte Sprache sprechen, noch über die Textbefehle „nachdenken“, vielmehr stellen generative KIs statistische Korrelationen zwischen Keywords fest. Wenn wir nun „Möwe am Hafen“ prompten, also als Textbefehl angeben, orientieren sich Midjourney & Co. an dem vorhandenen Datenmaterial und der Verknüpfung mit entsprechenden Keywords. Deshalb „weiß“ die KI trotzdem nicht, was eine Hand ist oder wie viele Finger regulär an einer solchen sind. Sie „weiß“ auch nicht, wie Gesichter aussehen und hat auch kein Verständnis von Perspektiven und Proportionen. Alles steht und fällt mit dem vorhandenen Trainingsmaterial.

Dieses wird immer besser und führt zu solchen Hypes wie dem Papst in seinem stylischen Daunengewand und Aufregern wie den fotorealistischen KI-Bildern, auf denen Ex-Präsident Trump vermeintlich von der Polizei gewaltsam verhaftet wird – erstellt und gepostet vom US-Journalist Elliot Higgins.

Es wird übrigens empfohlen, Bilder auf Englisch zu prompten: In dieser Sprache gibt es einfach überbordend viel Trainingsmaterial. Vielleicht prompten wir also besser „seagull at the harbor“ und hoffen auf das Beste.

/imagine: KI-Bilder als Politikwerkzeug

Es ist kein großer Gedankensprung: Wenn teils fotorealistische Wunschmotive in wenigen Minuten erzeugt werden können, dann ist Propaganda auf Knopfdruck kein Hirngespinst mehr. Generierte Bilder von aufgebrachten südländisch aussehenden Männern werden als Anti-Flüchtlingspropaganda genutzt; ein anderes generiertes Bild zeigt Russlands Staatschef Putin, kniend vor Chinas Präsidenten Xi Jinping – KI-Bilder haben Sprengkraft.

Auf der anderen Seite werden Methoden entwickelt, um KI-Bilder zu erkennen. Webseiten wie IsItAI.com bieten eine Überprüfung von Bildern an, räumen aber selbst ein, dass die Resultate fehleranfällig sind.

/imagine: Ausblick

An dieser Stelle kann leider kein Fazit stehen, denn das Thema ist zu umfangreich, um es nach einem kurzweiligen Streifen an der Oberfläche abzuschließen. Womöglich setzen wir unsere kleine Reise an anderer Stelle fort – damit Sie, liebe Leserschaft, sich selbst ein Bild von der Thematik machen können.

Robert Gryczke