002 - KI & Kultur - Text zu Text Generatoren

Shownotes

KI erstellt eigenständig Texte. Sind Autor*innen damit überflüssig geworden?

Der Podcasts erläutert die Wirkungsweise und konkreten Anwendungsweisen von generativen Text-KI-Programmen am Beispiel des vielbeachteten Programms ChatGPT.

https://openai.com/blog/chatgpt

Was kann das Programm, was kann es nicht?

Wie arbeitet es?

Ist es wirklich kreativ?

Und nicht zuletzt, wie können Kulturmanager*innen es nutzen?

Allgemeines Begleitmaterial zum Podcast:

https://www.kultursphaere.sh/wp-content/uploads/2023/06/Begleitmaterial-KI-Podcasts.pdf

Transkript anzeigen

Episode 2: ChatGPT

Episode 2: Herzlich willkommen zur zweiten Episode des kultursphäre.sh KI-Podcasts. Ich bin Ihr Moderator Viktor Garske und in dieser spannenden Folge begeben wir uns wieder auf ein aufregendes Abenteuer in die faszinierende Welt der künstlichen Intelligenz. Wir sprechen heute über ein Thema, das viele Kulturschaffende aufhorchen lässt. Generative Text-KI-Systeme wie GPT-3, GPT-4 und insbesondere ChatGPT. Die Programme sind in der Lage, eigenständig Texte zu erstellen. Doch bedeutet das, dass wir über Nacht überflüssig werden? Oder eröffnen sich durch diese innovativen Helferlein ganz neue kreative Möglichkeiten? In dieser Folge tauchen wir in die Geheimnisse dieser KI-Programme ein, erforschen ihre Funktionsweise, hinterfragen ihre Kreativität und zeigen auf, wie sie die Kulturszene nachhaltig verändern können. Nehmen Sie sich einige Minuten Zeit und begleiten Sie mich auf diese spannende Reise in die Zukunft der Textkreation.

Episode 2: Haben Sie etwas gemerkt? Die Einleitung der heutigen Podcast Episode wurde Ihnen, Sie können es vermuten, präsentiert von Chat GPT bzw. GPT-4. Einem der aktuell leistungsfähigsten KI-Generatoren. Um diese Antwort zu erzeugen, habe ich dem System erläutert, dass es in die Rolle eines Podcaster schlüpfen und eine Einleitung schreiben soll. Weiterhin habe ich den Stichpunktzettel für die Episode eingegeben, damit das System weiß, worum es geht. Anschließend habe ich mir zwei Varianten von Einleitungen generieren lassen und das Beste aus beiden Vorschlägen mitsamt meiner Anpassung in die eigentliche Einleitung übertragen, die Sie soeben gehört. Ist das die Zukunft des Text Schreibens? Ich würde das bejahen. Vor allem, wenn die Werkzeuge als Werkzeuge verstanden und eingesetzt werden.

Aber warum funktionieren diese Systeme überhaupt so gut? Und seit wann gibt es überhaupt solche Text KI-Systeme? Gehen wir hierzu einen Schritt zurück und rekapitulieren das, was wir bisher gehört haben. Grundsätzlich handelt es sich bei diesen Systemen wie GPT-3 oder GPT-4 um Deep Learning Systeme. Das bedeutet, dass es Systeme des Machine Learning sind, welches auch als ML abgekürzt wird. ML-Systeme lernen aus Beispielen. Um allerdings aus solchen Beispielen auch lernen zu können, müssen wir erst einmal festlegen, was die Eingabe und was die Ausgabe des Modells ist. Vereinfacht gesagt handelt es sich bei diesen Modellen um eine große Box, in die Eingaben gesteckt und Ausgaben herausgeholt werden. Und um das Folgende alles zu erläutern, werde ich natürlich einige Vereinfachungen nutzen, damit das Ganze so eingängig wie möglich ist. Während des Trainings zeigen wir der Box, welche Eingaben wir zu welchen Ausgaben verwandelt sehen wollen. Im späteren Wird-Betrieb wollen wir dann zu einer Eingabe eine uns bisher noch unbekannte Ausgabe erfahren und hoffen, dass sie unseren Erwartungen genügt. Beispielsweise kann eine Eingabe lauten: “Wie heißt die Hauptstadt von Deutschland?” Und eine dazugehörige Ausgabe wäre dann zum Beispiel entweder „Berlin“ oder „Die Hauptstadt ist Berlin.“ oder „Die Hauptstadt von Deutschland ist Berlin.“ Die ersten Versuche, ein solches System zu bauen, gehen bis in die 50er und 60er Jahre zurück.

Aber warum funktionieren diese Systeme überhaupt so gut? Und seit wann gibt es überhaupt solche Text KI-Systeme? Gehen wir hierzu einen Schritt zurück und rekapitulieren das, was wir bisher gehört haben. Grundsätzlich handelt es sich bei diesen Systemen wie GPT-3 oder GPT-4 um Deep Learning Systeme. Das bedeutet, dass es Systeme des Machine Learning sind, welches auch als ML abgekürzt wird. ML-Systeme lernen aus Beispielen. Um allerdings aus solchen Beispielen auch lernen zu können, müssen wir erst einmal festlegen, was die Eingabe und was die Ausgabe des Modells ist. Vereinfacht gesagt handelt es sich bei diesen Modellen um eine große Box, in die Eingaben gesteckt und Ausgaben herausgeholt werden. Und um das Folgende alles zu erläutern, werde ich natürlich einige Vereinfachungen nutzen, damit das Ganze so eingängig wie möglich ist. Während des Trainings zeigen wir der Box, welche Eingaben wir zu welchen Ausgaben verwandelt sehen wollen. Im späteren Wird-Betrieb wollen wir dann zu einer Eingabe eine uns bisher noch unbekannte Ausgabe erfahren und hoffen, dass sie unseren Erwartungen genügt. Beispielsweise kann eine Eingabe lauten: Alan Turing, einer der einflussreichsten Theoretiker der frühen Informatik, hatte bereits 1950 einen Test formuliert, der heute als Turing Test bekannt ist. Hier setzt man einen Menschen vor einen Computer mit einer Tastatur. In einem zweiten Raum sitzen dann ein weiterer Mensch sowie ein Computer. Der Mensch im ersten Raum kann nun mit dem anderen Menschen und dem Computer im zweiten Raum chatten, ohne Hör- und Sichtkontakt. Gelingt es dem Menschen im ersten Raum nicht, den Computer vom Menschen im zweiten Raum zu unterscheiden, so gilt der Turing Test als bestanden. Hiermit soll überprüft werden, ob ein Computer ein ähnliches Intelligenzverhalten wie ein Mensch aufweisen kann. Der Test ist seit jeher in Benutzung und uns auch im Rahmen des „Completely Automated Public Turing test to tell Computers and Humans Apart“, kurz „Captcha“ bekannt, der, wie der Name schon sagt, automatisiert als Turing Test herausfinden soll, ob vor dem Bildschirm auch wirklich ein Mensch sitzt, der sich gerade auf der Webseite registrieren möchte. Einer der frühesten Versuche, diesen Turing Test zu bestreiten, war der interaktive Chatbot „Eliza“ von Joseph Weizenbaum aus dem Jahre 1966. „Eliza“ hat das Skript Dr. abgearbeitet und sollte einen Psychotherapeuten simulieren. Dabei hat das Programm mit einem Wörterbuch bzw. Thesaurus die Eingabe versucht zu interpretieren und ausgehend von ähnlichen Begriffen Antworten zu liefern. Findet das Programm keine sinnvolle Antwort. Nutzt es einprogrammierte Ausweich-Phrasen und versucht zum Beispiel das Thema zu wechseln. Viele Versuchspersonen haben ihr Herz „Eliza“ ausgeschüttet und geglaubt, dass „Eliza“ wirklich ihre Probleme verstand, was zu großem Entsetzen führte.

Über 50 Jahre später ist die Technologie deutlich fortgeschrittener und so funktioniert sie: Gehen wir noch einmal zurück zur Ein- und Ausgabe. Im konkreten Hauptstadt Beispiel habe ich eine essenzielle Einschränkung getroffen. Ein und Ausgabe sind nämlich Texte beliebiger Länge. Das ist ein großer Unterschied zu DALL-E aus der vergangenen Episode, wo zwar ebenso ein Text beliebiger Länge als Eingabe diente, die Ausgabe aber stets ein quadratisches Bild war. Bei der Konstruktion einer solchen KI stehen wir jetzt allerdings vor einer Herausforderung. Wie gehen wir mit Texten beliebiger Länge um? Hier wenden wir einen Trick an. Wir lassen die Antwort nicht in einem Zug ausgeben, sondern immer stückchenweise. Unser Modell generiert effektiv nur eine Wahrscheinlichkeitsvorhersage, welches Wort, welche Silbe oder welcher Buchstabe auf Basis der Fragestellung und der schon ausgegebenen Antwort als nächstes folgt. Kommen wir zurück zu unserem Beispiel „Wie heißt die Hauptstadt von Deutschland?“ Und die möglichen Trainings antworten „Berlin.“ oder „Die Hauptstadt ist Berlin“ oder „Die Hauptstadt von Deutschland ist Berlin.“ Das System lernt, dass die Antwort auf die Frage in zwei von drei Fällen mit dem Wort „die“ beginnt, in einem von drei Fällen mit „Berlin“ und in keinem der drei Fälle mit, nicht zum Trainingssatz gehörenden Wörtern wie „das, der“ oder „Kiel, Stralsund oder Schleswig-Holstein“. Das System ist nun geneigt, die Antwort mit „die“ beginnen zu lassen. Danach folgt unserem Training Satz zufolge in jedem Fall das Wort „Hauptstadt“. Und danach gibt es wieder eine Gabelung: Wir können entweder von Deutschland ist Berlin oder direkt ist Berlin nehmen. Da auch noch die Wahrscheinlichkeiten für beide Varianten gleich sind, entscheidet der Zufall. Deswegen kann Chat-GPT auf die gleiche Fragestellung zwei verschiedene Antworten geben.

Über 50 Jahre später ist die Technologie deutlich fortgeschrittener und so funktioniert sie: Die GPT-Modelle sind somit im Wesentlichen nur gut konstruierte Wortvorhersage-Maschinen. Mit dem richtigen Trainingsdatensatz zum Beispiel vielen Texten im Internet können Sie allerdings beeindruckende Ergebnisse ausgeben, weil Sie Strukturen über Sprache oder Wissenszusammenhänge auf die Weise lernen können. Diese Wissenszusammenhänge erstrecken sich allerdings nur auf Wortfolgen. Deswegen wird in der aktuellen Version von Chat-GPT das System auch noch an komplizierten Mathematikaufgaben scheitern, die nicht irgendwo im Datensatz so oder so ähnlich vorgerechnet wurden. Das ist auch eine der größten Schwächen des Systems. Probieren Sie das einfach mal aus. Geben Sie eine lange, komplizierte Matheaufgaben ein und prüfen Sie mit einem Taschenrechner nach, ob es stimmt. Auch wenn diese Systeme die Biologie als Vorbild haben, handelt es sich weiterhin lediglich um Text zu Text-Systeme. Wir als Kulturschaffende haben aber noch viel mehr Sinne und können mehr Nuancen ausnutzen, um zum Beispiel Emotionen oder Ironie zu verstehen und zu transportieren. Kulturschaffende sind wichtiger denn je und können mehr erreichen denn je, weil die Konzentration auf den wesentlichen Wert im Vordergrund steht. Originelle kreative Komposition von Inhalten, Eindrücken und Emotion von Menschen für Menschen. Chat-GPT, welches das Endprodukt ist, das auf die Modelle GPT-3 und GPT-4 aufsetzt und diese anreichert, wurde im Übrigen auf Instruktionen trainiert und ist ein gutes Werkzeug zur Inspiration, genau wie ein Synonym Wörterbuch und hilft zum Beispiel Schreibblockaden zu überwinden. Wenn wir das Antizipieren, können wir auch wieder, wie in der vorherigen Episode gezeigt, Prompt-Engineering betreiben, um unsere Antworten besser gewinnen zu können. Wichtig ist es, hier eine Rolle zum Beispiel in der Frage zu definieren, Zusatzinformationen zum Kontext zu geben und weitere Informationen dann anzureichern. Absatzende

Zum Abschluss möchte ich ein Beispiel geben, wie man einen Prompt formulieren kann. Z.B.: „Du bist ein Podcaster für den Podcast kultursphäre.sh Kultur Podcast. Du schreibst Texte für den Moderator Viktor Garske der den Podcast moderiert. In der Prompt wird ein Thema benannt, welches angesprochen werden soll. Der Podcast dauert etwa acht Minuten. Du schreibst eine Einleitung und eine Struktur des Podcasts.“ Promt Ende. Danach folgten Stichpunkte über die Podcast Themen der heutigen Episode. Wer an weiteren Prompts interessiert ist, kann zum Beispiel die Webseite Share GPU nutzen, wo viele Anfragen hinterlegt sind. Auch wenn viele Beispiele auf Englisch sind, ist ChatGPT in der Lage, deutschsprachige Texte zu verarbeiten- besser als DALLE. ChatGPT ist ein interessantes Werkzeug, das den Stand des Internets widerspiegelt, da es darauf trainiert wurde. Es hilft ähnlich wie früher ein Thesaurus für einzelne Wörter, Vorentwürfe für Texte zu erstellen, die als Inspiration dienen können. Allerdings ist auch das Internet nicht perfekt und das kann sich in den Ergebnissen zeigen. Sie als Kulturschaffender werden daher weiterhin eine entscheidende Rolle im Prozess haben, auch wenn Sie das Werkzeug in Ihre Arbeitsweise integrieren. Probieren Sie es einfach mal aus, wenn Sie es nicht sowieso schon haben. CHatGPT kann kurze Artikel erstellen, Gedichte schreiben oder einen Tagesplan strukturieren. Sie werden früher oder später die Grenzen feststellen, bei denen die Antworten unzureichend sind. Chat-GPT ist aber weiterhin nur ein Werkzeug unter vielen und entwickelt sich stetig fort.

Zum Abschluss möchte ich ein Beispiel geben, wie man einen Prompt formulieren kann. Z.B.: In der dritten Episode werden wir uns mit Systemen beschäftigen, die mehrere Medien als Ein- und Ausgabe akzeptieren. Bleiben Sie gespannt auf Wiederhören.

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.