003 - KI & Kultur - Multimodale KI's

Shownotes

Diese Folge unseres Podcasts nutzt das Programm bzw. die App Tome,

https://beta.tome.app

um zu erläutern, was mit dem Begriff transmodale KI gemeint ist.

Indem Tome verschiedene Medien generieren kann (etwa Texte und Bilder), eignet es sich als Storytelling Tool, insbesondere ganze Präsentationen für die man früher sehr viel Zeit benötigt hat.

Allgemeines Begleitmaterial zum Podcast:

https://www.kultursphaere.sh/wp-content/uploads/2023/06/Begleitmaterial-KI-Podcasts.pdf

Transkript anzeigen

Episode: Multimodal

Herzlich willkommen zur dritten Episode des kultussphäre.sh KI- Podcasts. Das heutige Thema sind Multimodale-KI’s. Stellen Sie sich vor, Sie könnten Ihre Präsentationen und Geschichten in einem Bruchteil der Zeit erstellen, die Sie früher benötigt hätten. In den vorherigen Episoden haben wir uns bereits mit zwei Grundlagen beschäftigt, die hierfür wichtig sind: Text zu Bild Systeme und Text zu Text Systeme. Dabei will DALL-E ein Beispiel, bei dem aus einer Textprompt ein Bild generiert wurde und Chat-GPT, hat lediglich aus einer Prompt, einer Textprompt eine Text Antwort generiert.

Herzlich willkommen zur dritten Episode des kultussphäre.sh KI- Podcasts. Das heutige Thema sind Multimodale-KI’s. Stellen Sie sich vor, Sie könnten Ihre Präsentationen und Geschichten in einem Bruchteil der Zeit erstellen, die Sie früher benötigt hätten. In den vorherigen Episoden haben wir uns bereits mit zwei Grundlagen beschäftigt, die hierfür wichtig sind: Was ist aber, wenn wir zum Beispiel zu einem Bild eine konkrete Frage haben? Wenn wir zum Beispiel für ein Museum einen Chatbot austesten wollen, der Fragen zu konkret dargestellten Ausstellungsstücken beantworten soll? Wenn wir Gemälde mit KI analysieren und mehr über sie lernen wollen, dann brauchen wir ein Text und Bild zu Text Modell oder kurz ein multimediales Modell. Diese Techniken existieren bereits und werden ausprobiert, allerdings eher in den KI-Forschungslaboren. Erste Produkte hierzu sind in den folgenden Monaten erst zu erwarten. Open AI’s Chat-DPT-4 soll zwar auch über eine Erweiterung für Multimodalität verfügen, diese wurde aber zum Aufnahmezeitpunkt Anfang April 2023 noch nicht veröffentlicht. Was allerdings feststeht ist, dass einiges auf uns zukommt, da bereits Trainings Datensätze wie Science QA oder Konzept Versuche wie der Lama Adapter in der Wissenschaft ausgetauscht werden. Die Ergebnisse sehen vielversprechend aus. Es wird allerdings noch vermutlich einige Zeit dauern, bis daraus marktreife Produkte gebaut werden können. Diese Produkte werden dann recht leistungsstark sein, da sie direkt Bilddaten im Kern verarbeiten können.

Multimodale KI-Systeme ermöglichen es nicht nur Inhalte auf Bildern beschreiben zu lassen, sondern Schlüsse auf Bildern zu ziehen. Wenn wir zum Beispiel eine Deutschlandkarte in das System laden, dort Schleswig Holstein markieren und die Frage stellen: “Was ist die Hauptstadt vom markierten Bundesland?” Kommt als Antwort „Kiel“ raus. Geben wir das Bild, die“ Beständigkeit der Erinnerung“ von Salvador Dali ein und fragen, mit welcher Maltechnik das Gemälde gemalt wurde. Gibt das System „Ölmalerei“ aus, ohne dass wir Namen oder Maler eingeben oder kennen müssen. Eben eine Verarbeitung von einem Bild und einer Frage zu einer Antwort.

Multimodale KI-Systeme ermöglichen es nicht nur Inhalte auf Bildern beschreiben zu lassen, sondern Schlüsse auf Bildern zu ziehen. Wenn wir zum Beispiel eine Deutschlandkarte in das System laden, dort Schleswig Holstein markieren und die Frage stellen: Es gibt allerdings auch Systeme, die geschickt die GPT-Modelle und DALL-E kombinieren, um ähnlich atemberaubende Resultate zu erzeugen. Mit Tome möchten wir in der heutigen Episode einen Vertreter vorstellen. Bei dieser Anwendung handelt es sich im Wesentlichen um Storytelling und Präsentation. Das heißt, wir möchten aus einer einfachen Idee eine fesselnde Story erzeugen, um unseren Vorschlag, unseren Pitch, unsere Vorstellung besser untermauern zu können. Heutzutage ist es dafür gängig, eine unterstützende Powerpoint- Präsentation hierfür zu erstellen. Das kann aber auch sehr aufwendig sein und setzt voraus, dass wir schon wissen, was wir sagen wollen. Powerpoint ist also eher für die Ausführung und weniger für die Inspiration geeignet. Zwar ist mit den Copilot Werkzeugen auch hier sehr viel im Wandel, Tome bietet aber heute zum aktuellen Zeitpunkt schon Werkzeuge, die Sie sofort ausprobieren können. Im Vordergrund steht wieder die Prompt. Sie müssen also Ihre Idee grob formulieren, damit Tome eine Vorstellung hat, welche Story Sie erzählen möchten. Jedoch ist Ihre Arbeit nach dem Druck auf die Enter Taste fürs Erste erledigt, da das Werkzeug jetzt selbstständig einen Foliensatz generiert. Mit allem, was dazu gehört. Das umfasst die nötigen Texte sowie die Bilder. Die multimodalen KI-Werkzeuge übernehmen auch die Aufgabe der Bildgenerierung und stellen somit eine Alternative zur mitunter aufwändigen Bildersuche dar. Die Story können Sie im Anschluss nach Belieben manuell oder durch weitere Prompts anpassen. Es ist für die Prompt sehr empfehlenswert, vorerst die englische Sprache zu nutzen, um gute Ergebnisse zu erhalten. Hinweise dazu gibt es natürlich auch in den Begleitmaterialien. Anschließend kann das Ergebnis präsentiert oder exportiert werden. So können Sie schnell und einfach zum Beispiel Pitches für Exhibition, also Ausstellungen, ausprobieren.

Multimodale KI-Systeme ermöglichen es nicht nur Inhalte auf Bildern beschreiben zu lassen, sondern Schlüsse auf Bildern zu ziehen. Wenn wir zum Beispiel eine Deutschlandkarte in das System laden, dort Schleswig Holstein markieren und die Frage stellen: Neuer Absatz

Multimodale KI-Systeme ermöglichen es nicht nur Inhalte auf Bildern beschreiben zu lassen, sondern Schlüsse auf Bildern zu ziehen. Wenn wir zum Beispiel eine Deutschlandkarte in das System laden, dort Schleswig Holstein markieren und die Frage stellen: Wird hierdurch jetzt die Powerpoint überflüssig? Mitnichten. Da die menschliche Kreativität, wie wir in den vergangenen Episoden bereits gesehen haben, für das Endprodukt unerlässlich ist. KI ermöglicht es aber, mehr in gleicher Zeit zu erledigen. Sie erhalten erstmals die Möglichkeit, ohne größeren Zeitaufwand mehrere verschiedene Entwürfe für eine Präsentation zu erhalten, so dass Sie sich einfacher ein Bild von der Vielfalt der Möglichkeiten machen können. Die Ergebnisse, die Sie weiterverwenden wollen, können Sie dann in eine hochwertige Präsentation einfließen lassen. Sie können auch durch multimediale KI-Werkzeuge Begleitmaterial erstellen lassen, für die Sie sonst keine Zeit gehabt hätten.

Ein Medium haben wir im Podcast allerdings noch nicht angesprochen und das machen wir jetzt. Audio: Auch hier schreitet die Entwicklung schnell voran. Google hat zum Beispiel Anfang 2023 die Ergebnisse von der Arbeit am Modell MusicLM veröffentlicht, was eine Umwandlung von Text zu Audio ermöglicht. Damit wird es möglich auf Knopfdruck ein Audioerlebnis generieren zu lassen, welches auf einer Prompt basiert. In den Begleitmaterialien ist eine Webseite mit Beispielen verlinkt, wo Sie einmal selber reinhören können. Als Eingabe zur Generierung können einfache Texte oder auch einzelne Musikstücke dienen. So können Sie zum Beispiel ein Gitarrensolo aufnehmen und so umwandeln lassen, als würde es von einem Streichquartett gespielt werden. Mit ein wenig Kreativität können Sie auch Gemälde vertonen, wie Sie am Beispiel von Salvador Dalis angesprochenen Gemälde sehen können. Text zu Audio-Modelle bieten für die Kunstszene viele spannende Möglichkeiten, da sie dynamisch zum Beispiel in einem Museum oder Theater eine Audiokulisse erzeugen können. Sie können mit den Modellen aber auch experimentieren und eigene Werke erschaffen. Die schnelle Entwicklung zeigt aber auch, dass das gesamte Feld im Wandel ist und die profitieren, die schon jetzt die Entwicklung antizipieren.

Ein Medium haben wir im Podcast allerdings noch nicht angesprochen und das machen wir jetzt. Audio: Und damit schließen wir auch die heutige Episode zum Thema multimodale KI. Zu diesem Thema gibt es so viele wöchentliche Neuerungen, dass wir Ihnen hiermit lediglich ein kleinen Schnappschuss der aktuellen Möglichkeiten vorstellen können. Wenn Sie Ideen für mögliche Projekte haben, können Sie uns ansprechen. Wir beraten und unterstützen Sie gerne dabei. Auf Wiederhören!

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.