Zum Inhalt springen
VGSD-Netzwerktag mit Barcamp am 14./15. Oktober in Frankfurt: zu 80% ausverkauft Jetzt Platz sichern
Mitglied werden

KI-Crawler müssen draußen bleiben So schützt du Texte und Bilder auf deiner Webseite vor einer Verwendung durch OpenAI

Crawler kriegen einen Platzverweis: So schützt du deine Webseite vor dem Zugriff durch OpenAI

Dass deine eigenen Webseitentexte und -bilder zum Training und zur Verarbeitung durch ChatGPT und Co. verwendet werden – damit kann jetzt Schluss sein; zumindest Crawlern des Unternehmens OpenAI kannst du nun den Riegel vorschieben. Was du unternehmen musst, um deine Inhalte künftig zu schützen - das erfährst du im Beitrag von VGSD-Mitglied Branko Trebsche, Experte für Digitalisierung und Automatisierung.

Ungefragter Zugriff zu Trainingsmaterial? Nicht mehr lange...

Das Anliegen vieler Selbstständiger vor allem aus dem künstlerischen Bereich, etwa Texter, Autoren und Fotografen, ihre Webseiteninhalte vor dem ungefragten Zugriff künstlicher Intelligenz zu schützen, scheint bei OpenAI angekommen zu sein: Zumindest ermöglicht das Unternehmen jetzt, dass Webseiten sich abschirmen können. 

OpenAI ist ein US-amerikanisches Unternehmen, das sich auf künstliche Intelligenz und maschinelles Lernen spezialisiert hat. Es wurde gegründet, um fortschrittliche KI-Technologien zu erforschen, zu entwickeln und bereitzustellen. Eine der bekanntesten Entwicklungen von OpenAI sind der KI-Bildgenerator DALL-E oder der Chatbot ChatGPT.

ChatGPT aussperren? Das gelingt etwa über robots.txt

Ein Weg, das Unternehmen hinter ChatGPT künftig auszusperren, funktioniert über die Datei robots.txt. Fast jede Website verfügt bereits darüber, ansonsten muss man sie neu anlegen. Der Sinn dieser Datei ist es unter anderem, einem Webcrawler zu sagen, welche Bereiche einer Internetseite er durchsuchen darf und welche nicht.

Achtung: Nur, weil deine Datei Vorgaben macht, bedeutet dies noch nicht, dass alle Webcrawler, die deine Webseite besuchen, sich daran halten. Insbesondere Crawler, hinter denen Programmierer mit unlauteren Motiven stehen, ignorieren gerne die definierten Regeln in der robots.txt-Datei.

Welche Vorteile hat es, OpenAI auszusperren?

Wenn du unserer Anleitung folgst, werden in Zukunft keine Texte und Bilder auf deiner Website mehr für das Training einer KI von OpenAI benutzt. Allerdings: Vor dem Zugriff lassen sich nur neue Beiträge schützen. Die, die bereits verarbeitet wurden, bleiben Teil des Datenmaterials von OpenAI.  Und: Andere Anbieter von KI-Lösungen werden zunächst weiter auf deine Inhalte zugreifen, du sperrst durch die unten beschriebene Vorgehensweise bisher nur OpenAI von der Verwendung aus. Du musst also überlegen, ob sich diese Maßnahme sich überhaupt für dich lohnt.

Nachteile?

Den GPTBot auszusperren, bedeutet, technische Maßnahmen zu ergreifen, die Folgen haben. Das ist einerseits aufwändig, andererseits muss die Konfiguration der robots.txt -Datei so gut sein, dass du nicht versehentlich anderen, womöglich nützlichen Bots ebenfalls einen Platzverweis erteilst. Was du auch überlegen solltest: Möglicherweise ist ein alternativer Weg, um die Webcrawler zu lenken, besser für deine Webseiten-Umgebung: Es ist grundsätzlich auch direkt über den HTML-Code mit Hilfe eines META-Tags möglich, die rote Karte an Crawler auszuspielen. Lass dich im Zweifel fachlich beraten!

GPTBot über robot.txt auszusperren  so geht es:

Solltest du noch keine robots.txt Datei für deine Internetpräsenz haben, gilt es als Erstes, diese Datei zu erstellen. Die Datei sollte im Root-Verzeichnis deiner Website liegen. Du kannst auch ganz einfach auf herausfinden, ob du eine hast, indem du deine eigenen Domain aufrufst und ein "/robots.txt" anfügst, etwa im Falle des VGSD: www.vgsd.de/robots.txt. Hast du keine Datei, erhältst du nun eine Fehlermeldung und solltest dich darum kümmern. Bei Google for Developers findest du etwa eine Anleitung dazu. 

Wenn die Datei vorhanden ist, reicht es, wenn du ihr wenige Textzeilen hinzufügst. Das ist auf zweierlei Weise möglich.

  1. Folgendes Code-Beispiel instruiert den GPTBot, den Inhalten auf deiner Website gar nicht zu folgen:

User-agent: GPTBot

Disallow: /

2. Die folgende Konfiguration wiederum zeigt, wie man dem GPTBot mitteilt, bestimmte Verzeichnisse deiner Website nicht zu durchsuchen:

User-agent: GPTBot

Allow: /directory-1/

Disallow: /directory-2/

Es wäre auch möglich, einzelne Dokumente oder Dateien auszuschließen. 

Ein letzter Tipp, um ChatGPT auszusperren:

Du kannst jeden Bot dieser Welt außerdem durch einen Passwortschutz aussperren. Inhalte, die dir besonders wichtig oder wertvoll für deine Kunden sind, kannst du auf diese einfache Art und Weise schützen. Doch: Wie du diese Möglichkeit nutzt, ohne den Komfort für den Nutzer einzuschränken, ist schon wieder eine andere Frage.

Neuester Hilfreichster Kontroversester
Kommentar schreiben
Abbrechen

Du möchtest Kommentare bearbeiten, voten und über Antworten benachrichtigt werden?

Jetzt kostenlos Community-Mitglied werden

Zum Seitenanfang

#

#
# #