Pixelgenerierende KI-Systeme, wie zum Beispiel Stable Diffusion oder deren Varianten, lernen, indem sie große Mengen an Bild-Text-Paaren analysieren. Diese Paare stammen meist aus öffentlich zugänglichen Webseiten oder Datenbanken. Dabei wird das Bild selbst gemeinsam mit dem begleitenden Text (etwa Bildunterschriften oder Beschreibungen) verarbeitet. Die KI speichert diese Informationen in einem sogenannten "Latent Space", einem abstrakten Raum, in dem Bilder nicht mehr als Pixel, sondern als mathematische Repräsentationen vorliegen. Innerhalb dieses Latent Space lernt die KI, Zusammenhänge zwischen Sprache und Bildinhalten zu erkennen. Auf Basis dieses Wissens kann sie dann neue Bilder erzeugen, die zu einem eingegebenen Text passen. Dieses Grundverständnis ist zentral, um zu begreifen, wie solche KI-Systeme funktionieren.
Um eine Frage zu beantworten, melde dich bitte zunächst an.
Wenn du noch kein Konto hast, kannst du dich
hier kostenlos registrieren.
Du möchtest Kommentare bearbeiten, voten und über Antworten benachrichtigt werden?
Jetzt kostenlos Community-Mitglied werden