Weil moderne KI-Modelle wie ChatGPT (in der Pro-Version mit GPT-4) inzwischen multimodal arbeiten, übernehmen sie viele der komplexen Zwischenschritte, die früher manuell über sogenanntes Prompt-Engineering nötig waren. Wenn du z.B. einen einfachen Prompt wie „Erstelle mir ein Bild von einem Mann am Strand“ eingibst, versteht ChatGPT nicht nur den Inhalt, sondern übersetzt ihn intern in einen optimierten Prompt für ein bildgenerierendes System wie Sora (auch bekannt als GPT-Image1).
Dabei interpretiert das Sprachmodell deine Anfrage, ermittelt automatisch die richtigen Begriffe und Strukturen für den Bildstil und leitet diese Information weiter an das Bildmodell. Dieses gibt dann die fertigen Pixel, also das Bild, zurück, das du direkt in ChatGPT angezeigt bekommst.
Das bedeutet: Du musst kein detailliertes Wissen mehr über Blenden, Brennweiten oder künstlerische Stile haben, um ein qualitativ hochwertiges Bild zu erzeugen. Der Umweg über manuelles Prompt-Engineering entfällt, zumindest im einfachen Anwendungsfall. Dennoch bleibt ein grundlegendes Verständnis hilfreich, wenn du gezielt bestimmte Stile oder Looks erzielen willst. Aber für viele Zwecke reicht es heute, einfach zu sagen, was du möchtest. Den Rest übernimmt die KI.
Du möchtest Kommentare bearbeiten, voten und über Antworten benachrichtigt werden?
Jetzt kostenlos Community-Mitglied werden