Analogien, Assoziationen und Symbole sind die Sprache der visuellen Kommunikation. Leider wird der Thematik in Ausbildung und Literatur zu wenig Beachtung geschenkt. Ich hatte deshalb vor einigen Jahren die Idee, ein Buch dazu zu schreiben – eine Art Lexikon der symbolischen Motive. Es wäre aber wohl ein Ladenhüter geworden, da sich Dinge, die wenig beachtet werden, auch wenig verkaufen.
Im Zuge der Beschäftigung mit KI ist die Idee wieder in meinen Fokus geraten, wenn auch nicht in Form eines Buches. Vielmehr habe ich ein Projekt in Angriff genommen, bei dem ich mir Begriffe vornehme und nach Motiven suche, die symbolisch dafür stehen bzw. von Betrachter:innen damit assoziiert werden. Für mich ist das eine wunderbare Übung in visueller Kommunikation, mit der ich zugleich meine Erfahrung mit generativer KI praktisch vertiefen kann. Mittlerweile sind 24 Begriffe mit jeweils neun assoziativen Bildern zusammengekommen, die ich jeweils in meinem Instagram-Profil veröffentlicht habe und die jetzt auch hier auf meiner Site als Galerie ausgestellt sind.
Botschaft statt Eye-Candy
Die Anbieter generativer KI zeigen auf ihren Seiten üblicherweise User-Galerien mit Unmengen beeindruckender KI-Bilder. Bei kritischer Betrachtung fällt jedoch auf, dass nahezu alle Bilder Subjekte zeigen. Kaum zu sehen sind komplexe Szenen und Motive, in denen Subjekte miteinander interagieren.
Man kann bei Midjourney & Co zwar einen beliebigen, simplen Prompt eingeben und bekommt ein beeindruckendes Resultat. Es macht auch durchaus Spaß, mit Prompts zu spielen und auszuprobieren, was man an Fantastischem herauskitzeln kann. Doch fantastisch und beeindruckend sind keine Kriterien der visuellen Kommunikation. Den Kern des Kommunikationsdesigns bildet die Kommunikation. Was zählt, ist die intuitiv erfassbare Aussage. Die Bildästhetik soll ansprechen, darf aber nicht von der Botschaft ablenken.
Geht es dabei nur um eine weiße Taube, um Frieden zu vermitteln, einen Pfeil für Schnelligkeit, ein Kleeblatt für Glück oder Albert Einstein für Intelligenz, ist die Sache einfach. Herausfordernd sind Motive, die eine Aktion oder Interaktion darstellen: Eine Frau verlässt eine Wohnung; eine glückliche Familie passiert das Schaufenster eines Elektrohändlers, in dem ein Fernseher Nachrichten mit vor Krieg flüchtenden Menschen zeigt; Perseus, der über die spiegelnde Innenseite seines Schilds auf die Medusa blickt; eine Sicherheitskamera, die den Garten vor einem Haus überwacht auf dem Kinder spielen. Für einige Motive habe ich stundenlang mit der KI gerungen und musste mich am Ende doch mit einem Kompromiss zufriedengeben, für den mindestens ein Auge zuzudrücken war. Gelegentlich habe ich kapituliert und die Idee verworfen. So auch bei einer Szene, bei der sich eine Person vor eine als Immigrantin erkennbare Frau stellt, die von einer Gruppe von Skinheads angepöbelt wird.
Suchen ist oft effizienter als generieren
Für mein Buch »Grafik und Gestaltung« brauchte ich dutzende illustrative Bilder. Im Wissen darum, wie schwierig es ist, einer generativen KI genau das abzuringen, was man braucht, habe ich mich auf die Nutzung lizenzfreier Bilder konzentriert (überwiegend von Unsplash im Unsplash-Plus-Abomodell). Nur einmal habe ich versucht, ein sehr simples Motiv mittels KI zu generieren. Dabei hat sich gezeigt, dass der Zeitaufwand zu erzeugen, was ich brauche, größer ist, als bei Stock-Anbietern nach passenden Fotos zu suchen.
Es kommt nicht auf die Länge an!
Ja, ja, ich weiß! Man muss nur richtig prompten können. Aber: Wenn es mich mehr Zeit kostet, einen erfolgreichen Prompt zu verfassen, als das Motiv bei einem Stock-Anbieter zu suchen, ist die Sache ineffizient.
Ich habe zahlreiche Stunden Tutorials zu Prompt-Engineering angesehen, gelesen und nachgespielt. Dabei habe ich zwar auch viel Nützliches gelernt, aber ebenso die Erfahrung gemacht, dass die Reproduktion des Vorgeführten meist ganz andere Resultate liefert und die Tricks oft nicht halten, was die Tutor:innen versprechen.
Es deckt sich auch nicht mit meiner Erfahrung, dass die Resultate umso besser ausfallen, je länger und ausführlicher der Prompt ist – nicht bei generativer KI für Bilder. Ganz im Gegenteil bekomme ich sogar mit kurzen, präzisen Prompts eher, was ich im Kopf habe, als mit ausschweifenden Beschreibungen. Ich bin auch dem Rat gefolgt, andere Tools Prompts für mich schreiben zu lassen, z.B. ChatGPT. Dass das bessere Resultate liefert, als das, was ich selbst formuliere, kann ich nicht bestätigen. Eher im Gegenteil.
Ich starte inzwischen mit kurzen Prompts, die lediglich das Grundthema umreißen und von denen ich nicht erwarte, dass sie bereits das gewünschte Endergebnis liefern. Der erste Versuch dient nur dazu, herauszufinden, was die KI aus der Grundidee macht. Danach experimentiere ich so lange mit Formulierungen und baue den Prompt aus, bis das Bild auf dem Monitor dem Bild in meinem Kopf ähnelt. Nicht selten, dass ich über den Umweg einer umfangreicheren Definition zu einem kurzen Prompt zurückfinde, der dann das erforderliche Resultat bringt.
Midjourney vor DALL-E vor Firefly
Bevor ich in den vergangenen Monaten eine Zwangspause mit meinem Projekt einlegen musste, habe ich wohl etwa 90% der Bilder mit Midjourney generiert. Open AIs DALL-E habe ich erst aufgerufen, wenn ich mit Midjourney kein zufriedenstellendes Resultat erzielen konnte. Die Kröte, dass dessen Resultate immer sehr artifiziell wirkten, habe ich notwendigerweise schlucken müssen. Für mein Projekt, indem es vor allem um die Botschaft und weniger um den Look geht, kein Problem. In der Praxis inakzeptabel.
Der Vorteil von DALL-E gegenüber Midjourney oder Firefly war, dass man damit in einen Dialog treten konnte, um ihr zu erklären, was am Motiv zu ändern ist. Dass das Large Language Model zwar oft »verstanden« hat, was man von ihm wollte, der generative Teil der KI das aber nicht umgesetzt hat, steht auf einem anderen Blatt.
Um dem künstlichen Look von mit DALL-E zu entgehen, aber sein (gelegentliches) Verständnis zu nutzen, habe ich gelegentlich seine Resultate heruntergeladen und an Midjourney als Vorlage übergeben. Kam ich weder mit Midjourney noch mit DALL-E zu einem brauchbaren Resultat, habe ich es mit Firefly versucht – selten mit Erfolg.
Sora zieht an Midjourney vorbei
Nun, da mein Buch »Grafik und Gestaltung« abgeschlossen ist und in den Buchhandlungen steht, habe ich wieder Zeit, mich meinem Analogien-Projekt zu widmen. Neben der Möglichkeit via ChatGPT Bilder mit DALL-E zu generieren, findet sich in der Seitenleiste jetzt auch ein Einstieg in Sora, Open AIs Video-KI. Zunächst hatte ich angenommen, Sora würde DALL-E ersetzen. Doch laut ChatGPT ist das nicht der Fall. DALL-E soll weiterhin über ChatGPT Standbilder generieren, während Sora als Video-Tool fungiert.
Nun kann aber Sora eben nicht nur Videos generieren, sondern ebenso Images. Nach einigen Tagen damit habe ich entschieden, mein Midjourney-Abo zu kündigen. Sora arbeitet zwar deutlich langsamer als Midjourney und generiert in der doppelten Zeit nur halb so viele Bilder, doch diese sind häufiger brauchbar, was Sora zum effizienteren Werkzeug macht. Im folgenden drei Beispiele.
Royal Guard
Zuletzt habe ich mir den Begriff »Ausdauer« ausgesucht. Ein Motiv, das ich dafür gewählt habe, ist das eines Wachsoldaten der britischen Krone, eines sogenannten Royal Guards. Diese stehen stundenlang unbewegt Wache, was zweifelsohne immense Disziplin und Ausdauer erfordert. Um die Botschaft zu verstärken, sollte der Soldat ungemütlichen Wetterbedingungen ausgesetzt sein – einmal der Hitze des Hochsommers und einmal Kälte und Schneefall im Winter. Hier ein Auszug der Resultate von Midjourney.
Für beide KIs stellte die Aufgabe keine allzu große Herausforderung dar und beide haben Brauchbares sowie Unbrauchbares generiert. Beide haben mehrfach zwischen Bärenfellmütze und Kinnriemen verunstaltete Gesichter oder gar kein menschliches Gesicht generiert. Doch während die Unbrauchbarkeit der Sora-Ergebnisse (Galerie unten) eher im Detail zu finden war, generierte Midjourney einige sehr surrealistische Szenen – einzelne davon vielleicht geeignet, als solche in der User-Galerie gepostet zu werden, aber eben nicht als Mittel der visuellen Kommunikation.
Pianistin
Wer ein Instrument spielt, weiß, dass Ausdauer erforderlich ist, es zu lernen – der Rest kann es sich sicher vorstellen. Doch wie verpacke ich diese Botschaft in ein Bild, damit für Betrachterinnen nicht Spiel und Musik im Vordergrund stehen, sondern der Prozess des Übens? Ich habe mich dafür entschieden, eine Pianistin darzustellen, die nachts in einem spärlich beleuchteten Konservatorium übt. Um deutlich zu machen, dass es sich um Übungsstunden handelt, sollte die Szene ein Metronom und Notenblätter enthalten. Als eines der generierten Bilder einen Vollmond am Nachthimmel vor dem Fenster zeigte, habe ich diese Idee aufgenommen und in den Prompt integriert. Hier ist ein Auszug der Resultate Midjourneys.
Zunächst einmal scheint sich bei Midjourney das Problem zu verdichten, dass Motive oft stark unterbelichtet interpretiert werden. Beim letzten Beispiel – dem Mönch – hat sich das noch deutlicher gezeigt. Es erzeugt viele Detailfehler: Hände, die nicht da sind, wo sie beim Klavierspielen sein sollten; ein Stöckelschuh mit zwei Absätzen; falsche Proportionen; einen viel zu großen Mond, der teilweise auch noch im Raum schwebt; von einem Pianisten, der sein Klavier von hinten spielt, ganz abgesehen. Die Vorgabe, ein Metronom zu integrieren, hat die KI schlicht ignoriert.
Sora hat kaum große Fehler produziert. Die Hände sind da, wo sie hingehören; die Abstände zwischen Pianistin und Instrument scheinen korrekt; das Metronom ist durchwegs vorhanden; auch die Beziehungen zwischen Lichtquelle und beleuchteten Flächen werden zuverlässiger interpretiert. In einzelnen Fällen hat Sora die Notenblätter ignoriert und aus der vorgegebenen Stehlampe eine Tischlampe gemacht. Verhältnisse sind nirgends auffällig disproportional, der Mond ist nicht riesig und da, wo er hingehört: vor dem Fenster.
Mönch
Viel Ausdauer mussten auch die Mönche mitbringen, die im Mittelalter vor der Einführung des Buchdrucks mit beweglichen Lettern Bücher von Hand schrieben. Die folgende Galerie zeigt zunächst Midjourneys Resultate.
Wie bereits weiter oben angemerkt, sind die Resultate von Midjourney überwiegend zu dunkel. Beide KIs (die Sora-Resultate sind unten zu sehen) haben nicht verstanden, dass das Papier links oberhalb des Schreibwerkzeugs beschrieben sein muss, das darunter leer. Trotz diverser Prompt-Versuche ist es mir nicht gelungen, das hervorzubringen. Sie waren auch nicht in der Lage links und rechts korrekt zu interpretieren. Das Problem dabei: links vom Betrachter oder links des Mönchs?
Beide haben das Schreibwerkzeug mitten auf die voll beschriebenen Blätter gesetzt. Ich versuchte, das Problem zu umgehen, indem ich promptete, die Schreibhand mit dem Schreibwerkzeug sollte neben dem Buch liegen und der Mönch würde die Seiten betrachten. Beim von Sora generierten Ergebnis, das ich am Ende gewählt habe, betrachtet der Mönch eine leere Seite. Alles andere als optimal, doch ich muss der Zeit, in der ich mich mit einem Motiv befasse, Grenzen setzen.
Von den drei hier vorgestellten Motiven hatten beide KIs mit dem Mönch die größten Probleme. Falsch ausgerichtete Bücher oder hochkant verlaufender Text haben beide produziert, Sora allerdings deutlich weniger als Midjourney. Das sind nur drei Beispiele, von einem guten Dutzend, die ich bislang im Vergleich bearbeitet habe, aber es ist ausreichend Erfahrung für mich, meine Midjourney-Mitgliedschaft zu kündigen. Ich bin nicht unglücklich darüber, dass ich mir nun die Kosten für eines der beiden Modelle sparen kann.