001 - KI & Kultur - Text zu Bild Generatoren

Shownotes

Was ist eigentlich ein Prompt Book – und wozu braucht man es?

Der Podcasts erläutert die Funktion und Nützlichkeit von Prompt Books. Als Anschauungsobjekt wird das generative KI-Tool von OpenAI Dall-e verwendet.

https://openai.com/product/dall-e-2

Dall-E ist ein Programm, das eigene Bilder aus Textbeschreibungen mithilfe von maschinellem Lernen erstellt – teilweise mit verblüffenden Resultaten. Das Prompt Book findet sich hier:

https://dallery.gallery/the-dalle-2-prompt-book/

Allgemeines Begleitmaterial zum Podcast:

https://www.kultursphaere.sh/wp-content/uploads/2023/06/Begleitmaterial-KI-Podcasts.pdf

Transkript anzeigen

Episode 1: DALL-E

Episode 1: Herzlich willkommen zum kultursphäre.sh KI-Podcast. Ich freue mich, Sie in der ersten Episode zu begrüßen. Die Entwicklung künstlicher Intelligenz, kurz KI oder im Englischen auch AI ist durch die großen Erfolge der letzten Monate im öffentlichen Diskurs angekommen. Waren KI-Themen bisher eher in Fachkreisen präsent, haben sie nun den Sprung in den Mainstream geschafft. Unmittelbar, dadurch stellen sich aber die Fragen nach den verursachten Folgen. Die Entwicklungen in der KI bieten wie fast jede Technologie Chancen und Risiken. In diesem Podcast möchten wir Ihnen besonders die Chancen zeigen, die Ihre tägliche Arbeit einfacher und kreativer gestalten können.

Episode 1: Künstliche Intelligenz ist ein so vielfältiges Thema, das sich in der 70-jährigen Geschichte verschiedene Zweige herausbildeten, die selber wiederum ein riesiges Astwerk gebildet haben. Denken wir an die optische Zeichenerkennung, die automatische Brief-Sortier-Maschinen möglich gemacht hat. Roboter, die in Pflegeheimen unterstützen oder Sprachassistenten, die auch in Situationen ein Computer zugänglich machen, wenn wir gerade joggen oder Autofahren.

Episode 1: Wurde in den 1970 er Jahren noch der teils gescheiterte Ansatz verfolgt, einer künstlichen Intelligenz das gesamte menschliche Wissen manuell einzuprogrammieren. Kann man heutzutage durch die Möglichkeiten großer Datenberge ein System mit konkreten Beispielen anlernen. Das maschinelle Lernen kurz, ML, als unter Disziplin der künstlichen Intelligenz, war somit geboren. Die Verfügbarkeit leistungsstarker Spezial-Computer konnte dieses Training deutlich verbessern und somit war das tiefe Lernen bzw. Deep Learning möglich. Ein Großteil der Innovationen findet auf genau diesem Unter-Unter-Gebiet statt. Da das Anlernen der an die echte Welt angelehnten Modelle immer besser wird. Wie wir jetzt also wissen, ist KI eigentlich deutlich mehr als das maschinelle Lernen. Obgleich die Begriffe oft synonym verwendet werden. Die Innovationen der letzten zehn Jahre sind im Wesentlichen Innovation maschinellen Lernens. Trotzdem werde ich, um das Verständnis nicht zu beeinträchtigen, KI und ML synonym benutzen. Bedenken Sie einfach nur, dass KI eigentlich noch so viel mehr ist, zum Beispiel eben Robotik. Kommen wir zu einer Klasse von KI’s, die im Jahr 2022 für viel Aufsehen gesorgt hat. DALL-E, Midjourney und Stable Diffusion sind die wichtigsten Vertreter von generativen Bild-KI’s. Sie ermöglichen es, aus einer Kurzbeschreibung verschiedene Bilder, üblicherweise im quadratischen Format und in einer festen Auflösung zu generieren. Möglich wurden die KIs durch das soeben beschriebene Lernen aus Beispielen. Dem System wurden hunderttausende Bilder aus dem Internet in Kombination mit einer Text Beschriftung gezeigt. Ziel war es, den Modellen ein Zusammenhang zwischen Textbeschriftung und Bilddaten zu vermitteln um später ohne die Bilddaten, dann selbstständig neue Bilder aus den Textbeschriftungen generieren zu können oder eben aus Teilen dieser Beschriftung.

Zeigt man dem System also Salvador Dalis Bild, die “Beständigkeit der Erinnerung” und beschriftet es mit den Worten: surrealistisches Bild mit zerfließenden Uhren in einer katalanischen Landschaft vor schroffen Felsen- So soll das passend benannte KI-System DALL-E also von Salvador Dali und WALL-E, dem Film, von Open AI eben lernen, wie Surrealismus, Uhren oder eine katalanische Landschaft aussehen. Hat alles funktioniert, kann man jetzt umgedreht das Modell nach Uhren in einem surrealistischen Stil fragen und erhält mitunter ein zufriedenstellendes Ergebnis. Die KI reproduziert dann nicht Dalis Bild eins zu eins, sondern greift lediglich auf das zurück, was sie über die vielen verschiedenen Bilder gelernt hat. Sie ist eben ein Modell, das viele Bilder bereits gesehen hat. Und die Schnittstelle zu dieser KI ist eben das Texteingabefeld. Und hier ist der Knackpunkt: Die Fähigkeit, das gewünschte Ergebnis zu erzielen, hängt von der Präzision der Fragestellung an das Bilder-KI-Modell ab. Diese Fragestellung wird auch als Prompt bezeichnet. Als Folge haben sich in der Community schnell Prompt-Books entwickelt.

Aber was ist denn ein Prompt-Book eigentlich? Ein Prompt-Book, auch als Soufflier-Buch bekannt, ist im Theater-Kontext ein Skript, das alle wichtigen Informationen zu einer Theateraufführung beinhaltet. Das umfasst also nicht nur die Dialoge, sondern auch Regieanweisungen, Bühnenbilder sowie Licht- und Klangeffekte. Es ist das zentrale Dokument für alle Beteiligten und stellt die reibungslose Inszenierung sicher. Diese Analogie wird das hier im Podcast vorgestellte Prompt-Book zu DALL-E gerecht. In dem PDF-Dokument von „DALL-Ery GALL-Ery“ lassen sich auf 82 PDF-Seiten spezifische Textanweisungen nachvollziehen, die das generierte Bild betreffen. Schauen wir uns einfach mal eine konkrete Prompt an und gehen auf Seite 7 des Prompt Books, das in den Materialien unter anderem verlinkt ist. Prompts für DALL-E werden üblicherweise auf Englisch geschrieben, um gute Ergebnisse zu erzielen, da die gelernten Bildbeschriftung selber oft auf Englisch waren. Die Prompt: “A Portrait of a dog in a library, Sigma 85Mm F/1.4” zeigt einen Hund in einer bestimmten Kameraeinstellung. Jetzt wird es spannend. Sigma 85 Millimeter F/1.4 bedeutet, dass wir ein Bild so wünschen, als wäre es mit einem Sigma Objektiv mit einer 85 Millimeter Brennweite und einer Blende 1.4 aufgenommen worden. Wir lernen also durch das Prompt-Book, dass wir verschiedene Kameraeinstellungen durch bestimmte Begriffe anpeilen können, um das Bild zu beeinflussen.

Aber was ist denn ein Prompt-Book eigentlich? Ein Prompt-Book, auch als Soufflier-Buch bekannt, ist im Theater-Kontext ein Skript, das alle wichtigen Informationen zu einer Theateraufführung beinhaltet. Das umfasst also nicht nur die Dialoge, sondern auch Regieanweisungen, Bühnenbilder sowie Licht- und Klangeffekte. Es ist das zentrale Dokument für alle Beteiligten und stellt die reibungslose Inszenierung sicher. Diese Analogie wird das hier im Podcast vorgestellte Prompt-Book zu DALL-E gerecht. In dem PDF-Dokument von „DALL-Ery GALL-Ery“ lassen sich auf 82 PDF-Seiten spezifische Textanweisungen nachvollziehen, die das generierte Bild betreffen. Schauen wir uns einfach mal eine konkrete Prompt an und gehen auf Seite 7 des Prompt Books, das in den Materialien unter anderem verlinkt ist. Prompts für DALL-E werden üblicherweise auf Englisch geschrieben, um gute Ergebnisse zu erzielen, da die gelernten Bildbeschriftung selber oft auf Englisch waren. Die Prompt: Auf Seite 21 befinden sich konkrete Details dazu. Eine Weitwinkel Aufnahme lässt sich mit dem Begriff „Wide Angle Lens“ oder „15 Millimeter“ erreichen. Dabei ist es weniger entscheidend, den Begriff an der richtigen Stelle einzusetzen, Hauptsache der Begriff kommt überhaupt im Prompt vor. Aber nicht nur das, Sie können sehr gerne, wie auch auf die nachfolgenden Seiten beschrieben, auch definieren, ob das Bild Autochrome, Lomografisch oder wie von einer Überwachungskamera, also CCTV, aussehen soll. Darüber hinaus ist aber noch mehr möglich. Denken Sie daran Grundlage ist immer ein umfassender Beschreibungstext. Es können somit nicht nur Kameraeinstellung, sondern auch Bild-Stil, Illustrationsarten oder Vorbilder wie Künstler, Filmcharaktere oder Kunststile wie Art Deco oder Bauhaus eingebunden werden.

Aber was ist denn ein Prompt-Book eigentlich? Ein Prompt-Book, auch als Soufflier-Buch bekannt, ist im Theater-Kontext ein Skript, das alle wichtigen Informationen zu einer Theateraufführung beinhaltet. Das umfasst also nicht nur die Dialoge, sondern auch Regieanweisungen, Bühnenbilder sowie Licht- und Klangeffekte. Es ist das zentrale Dokument für alle Beteiligten und stellt die reibungslose Inszenierung sicher. Diese Analogie wird das hier im Podcast vorgestellte Prompt-Book zu DALL-E gerecht. In dem PDF-Dokument von „DALL-Ery GALL-Ery“ lassen sich auf 82 PDF-Seiten spezifische Textanweisungen nachvollziehen, die das generierte Bild betreffen. Schauen wir uns einfach mal eine konkrete Prompt an und gehen auf Seite 7 des Prompt Books, das in den Materialien unter anderem verlinkt ist. Prompts für DALL-E werden üblicherweise auf Englisch geschrieben, um gute Ergebnisse zu erzielen, da die gelernten Bildbeschriftung selber oft auf Englisch waren. Die Prompt: Jetzt zur Aufgabenstellung. Wie stellen Sie sich eigentlich ein Prompt-Book bildlich vor? Wenn Sie Inspiration benötigen, können Sie doch einfach DALL-E befragen. Erstellen Sie mit DALL-E einfach mal einige wenige Bilder. Überlegen Sie sich hierfür eine englischsprachige Prompt um eine Nahaufnahme, englisch „close up“ von einem geschlossenen Prompt-Book im Stil von Albrecht Dürer oder Roy Lichtenstein zu erstellen. Zwei Künstler, die unterschiedliche Kunststile haben und auch für unterschiedliche Kunststile stehen. Sie werden für jede Eingabe von DALL-E vier verschiedene Bilder erhalten, die DALL-E extra für Sie generiert hat. Vielleicht geben Ihnen die Bilder Denkanstöße, die Sie für Ihre eigenen Kunstprojekte selber weiterverwenden können. DALL-E selber ist eigentlich kostenpflichtig, aber stellt jeden Monat für Sie ein kleines frei Kontingent zur Verfügung, so dass sie auch einige wenige Bilder kostenlos generieren können. Passen Sie einfach auf, dass Sie nicht zu viele Bilder generieren oder hinterlegen Sie eine entsprechende Zahlungsinformation, um ein größeres Kontingent nutzen zu können. DALL-E selber ist wie gesagt auch nur ein Vertreter von vielen. Es gibt also noch viel mehr Möglichkeiten, um Bild-KI’s zu nutzen. Ja, und das war sie. Das war die erste Episode des kultursphäre.sh KI-Podcasts. In den Begleitmaterial zu diesem Podcast können Sie weitere spannende Informationen zu DALL-E sowie dem Prompt-Book finden. Und ich freue mich, wenn Sie auch bei der nächsten Episode wieder dabei sind. Auf Wiederhören!

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.