KI-Technologien für kreative Projekte

In diesem Beitrag möchte ich einen Einblick geben, welche KI-Technologien ich bisher in verschiedenen kreativen Projekten eingesetzt habe. Diese Übersicht basiert ausschließlich auf meinen persönlichen Anwendungen und spiegelt daher meine subjektiven Erfahrungen wider.

Warum KI für meine kreativen Projekte?

Seit dem Aufkommen von ChatGPT wird in der Gesellschaft intensiv diskutiert, wie Künstliche Intelligenz den Kreativmarkt beeinflusst. Dabei stehen unter anderem folgende Fragen im Raum:

  • Kann KI-"Kunst" überhaupt als Kunst bezeichnet werden?
  • Fehlt KI-"Kunst" die Seele?
  • Wie wird sich der Arbeitsmarkt für Künstler und Kreativschaffende verändern?
  • Woher beziehen die KI-Modelle ihre Trainingsdaten?
  • Werden Urheberrechte und die Rechte von Kreativschaffenden verletzt?

Das sind alles relevante und wichtige Fragen, mit denen wir uns auf verschiedenen Ebenen auseinandersetzen müssen. Plattformen wie Vertex AI zeigen bereits, wohin die Entwicklung geht: Sie bündeln Werkzeuge zur Generierung und KI-gestützten Bearbeitung aller Arten von Medien – seien es Bilder, Videos, Sprache oder Musik. Es wird eine gesamtgesellschaftliche Herausforderung sein, diese Technologien ethisch und wirtschaftlich gerecht zu nutzen. Diese grundlegenden Fragen sollen jedoch nicht das Hauptthema dieses Beitrags sein. Hier geht es primär um meine ganz persönlichen Erfahrungen und Anwendungsfälle.

Abseits dieser wichtigen Debatten habe ich für mich persönlich einen enormen kreativen Nutzen in diesen Technologien entdeckt – und zwar ganz direkt für meine eigene Unterhaltung und kreative Entfaltung. Ich bin ein großer Fan von Sherlock Holmes, lese viele der neueren Geschichten im Sherlock-Holmes-Universum und höre zahlreiche Hörspielserien wie Sherlock Holmes von Maritim, Sherlock Holmes Chronicles und Holmes & Watson Mysterys. Mich fasziniert, wie immer wieder neue Geschichten erdacht werden, die manchmal sogar übernatürliche Elemente oder Crossover mit anderen Figuren aus der viktorianischen Zeit beinhalten.

Diese Leidenschaft brachte mich dazu, mit Large Language Models (LLMs) zu experimentieren, um eigene Sherlock-Holmes-Geschichten zu schreiben. Dabei reizte es mich besonders, Sherlock Holmes mit eher ungewöhnlichen Universen zu kombinieren, wie zum Beispiel The Witcher.

Sherlock Holmes trifft Geralt von Riva

Generiert mit Stable Diffusion XL

Für das Schreiben der Geschichten habe ich gute Erfahrungen mit Claude (speziell Sonnet 3.5) gemacht, während mich ChatGPT (GPT-4) zu diesem Zeitpunkt weniger überzeugen konnte. Das Experimentieren hat mir unglaublich viel Spaß gemacht, und ich merkte schnell, wie entscheidend ein zielführendes Prompting ist. Auch wenn ich den Begriff "Prompt Engineering" für etwas überhöht halte, kam ich oft nur durch verschiedene Strategien und Iterationen ans Ziel. Ein Tipp: Man kann das LLM selbst bitten, dabei zu helfen, einen geeigneten Prompt für das gewünschte Ergebnis zu entwerfen. An Claude gefiel mir damals schon die Artefakt-Funktion sehr gut, in der einzelne generierte Abschnitte (wie Kapitel) übersichtlich abgelegt wurden.

Diese Text-Experimente weckten meine Neugier, welche anderen Medien ich noch erstellen könnte. Da ich ein großer Fan von Hörspielen bin, beschäftigte ich mich mit verschiedenen Text-to-Speech (TTS)-Modellen. Zunächst testete ich alltalk_tts. Die Ergebnisse waren beeindruckend: Aus nur wenigen Sekunden eines Sprachsamples lässt sich eine Stimmkopie erstellen, die beliebige Texte sprechen kann. Die Modelle benötigen erstaunlich wenig VRAM und können problemlos auf lokalen Systemen laufen. Allerdings waren für mich doch einige hörbare Artefakte störend, weshalb ich nach Alternativen suchte. Dabei stieß ich auf ElevenLabs und bin bis heute von der Qualität dieser Technologie sehr angetan. Mit Claudes Hilfe generierte ich ein kurzes Hörspielskript und produzierte mein erstes eigenes Hörspiel: Sherlock Holmes - The Shadows of Arkham. ElevenLabs bietet sogar Möglichkeiten, Soundeffekte zu generieren, wobei ich für Musik und Effekte auch gerne auf Ressourcen von pixabay zurückgreife.

Für die Bilder in meinen Projekten nutze ich Stability Matrix. Dieses Programm ermöglicht es, lokal Bilder mit freien Modellen wie Stable Diffusion und FLUX zu generieren. Wer keine lokale Installation möchte, kann Stable Diffusion auch online nutzen, zum Beispiel über Stable Diffusion Online.

Wie ihr seht, lassen sich bereits mit diesen Werkzeugen auch ungewöhnliche kreative Ideen in die Realität umsetzen.

Freie Alternativen für kreative Projekte

Obwohl ich verschiedene kommerzielle Technologien nutze, möchte ich auch dazu ermutigen, sich Alternativen zu den großen Anbietern wie Google, Anthropic (Claude) und OpenAI (ChatGPT) anzusehen. Wer über entsprechende Computerleistung verfügt, kann auf frei verfügbare Modelle und Anwendungen zurückgreifen. Eine andere Möglichkeit sind APIs, die freie Modelle nutzen und oft deutlich preiswerter sind als die der großen kommerziellen Anbieter. Ich nutze beispielsweise die Nebius Studio API, die eine Vielzahl von Modellen zu moderaten Preisen anbietet. Persönlich bevorzuge ich dabei Modelle mit offenen Lizenzen (wie MIT), die auch mit dem EU AI Act kompatibel sind. Auf Llama-Modelle von Meta verzichte ich bewusst, da deren Lizenz die Nutzung in Europa außerhalb der Meta-eigenen Apps stark einschränkt.

Da mich die Generierung von Geschichten mit KI besonders interessiert, habe ich – ebenfalls mit Unterstützung von KI – Skripte entwickelt, um diesen Prozess zu vereinfachen und unterhaltsamer zu gestalten. Mein Story Generator ist ein Beispiel dafür. Er schlägt Ideen basierend auf bis zu drei Genres vor und generiert daraus Kurzgeschichten. Das zugrundeliegende Modell ist Microsoft phi-4, das unter einer MIT-Lizenz steht. Die Herausforderung bei der Nutzung solch kleiner Modelle für das Geschichtenschreiben liegt darin, Kohärenz über längere Texte zu wahren. Bisher kann kaum ein freies Modell wirklich lange, zusammenhängende Geschichten schreiben. Daher sind verschiedene Mechanismen zur Generierung von Plots, Outlines, Kapiteln und Kapitelzusammenfassungen notwendig. Die Entwicklung war ein langer Prozess, insbesondere die Optimierung der Prompts, damit das Modell zumindest annähernd das liefert, was ich mir vorstelle. Experimente mit Mixtral führten bei mir leider nicht zum gewünschten Ergebnis, da es Prompts oft nicht so gut verstand wie phi-4.

Für die Sprachgenerierung in Hörspielen habe ich bereits alltalk_tts erwähnt. Die Qualität ist wirklich gut, und es macht Spaß, beispielsweise englische Sprachsamples als Basis für deutsche Stimmen zu verwenden. Ich arbeite bereits an einem Projekt, das direkt Hörspielskripte generiert, die für die Produktion optimiert sind.

Und schließlich möchte ich noch einmal Stability Matrix erwähnen, das ich uneingeschränkt empfehlen kann, um mit der Generierung von Bildern zu experimentieren.

Bei allen genannten Technologien gilt: Die Qualität der Ergebnisse kann stark variieren. Ich kann nur nochmals betonen, wie wichtig es ist, sich intensiv mit dem Prompting auseinanderzusetzen, um brauchbare Resultate zu erzielen.

Fazit

Meine Reise durch die Welt der KI-Werkzeuge für kreative Projekte war bisher unglaublich spannend und bereichernd. Wie die Beispiele zeigen, eröffnen Technologien wie LLMs (Claude, phi-4), Sprachsynthese (ElevenLabs, alltalk_tts) und Bildgeneratoren (Stable Diffusion) faszinierende Möglichkeiten, eigene Ideen zum Leben zu erwecken – von einzigartigen Sherlock-Holmes-Geschichten über selbstproduzierte Hörspiele bis hin zu passenden Illustrationen.

Obwohl kommerzielle Tools oft eine hohe Qualität und Benutzerfreundlichkeit bieten, gibt es auch leistungsfähige und kostengünstige oder sogar kostenlose Open-Source-Alternativen, die Experimente auf lokaler Hardware oder über preiswerte APIs ermöglichen. Der Schlüssel zum Erfolg liegt dabei fast immer im geschickten Formulieren von Prompts und der Bereitschaft, zu experimentieren und zu lernen.

Die ethischen und gesellschaftlichen Fragen rund um KI in der Kreativbranche bleiben wichtig und müssen weiter diskutiert werden. Gleichzeitig zeigt meine persönliche Erfahrung aber, dass KI ein mächtiges Werkzeug sein kann, um die eigene Kreativität zu beflügeln und Projekte umzusetzen, die sonst vielleicht nur Ideen geblieben wären. Ich kann jeden nur ermutigen, selbst in diese Welt einzutauchen und die Potenziale für die eigene kreative Arbeit zu entdecken. Die Entwicklung schreitet rasant voran, und es bleibt spannend, welche neuen Möglichkeiten sich in Zukunft ergeben werden.