Website-Zugriff von KI-Bots kontrollieren. Warum das wichtig sein kann, und wie es einfach geht

KI-Bots wie ChatGPT werden auf verschiedene Weisen trainiert. Die deutsche Ausgabe von ComputerWeekly beschreibt es so:

ChatGPT wird mit bestärkendes Lernen (Reinforcement Learning) durch menschliches Feedback und Belohnungsmodelle trainiert, die die besten Antworten bewerten. Dieses Feedback trägt dazu bei, ChatGPT mit maschinellem Lernen (ML) zu ergänzen, um zukünftige Antworten zu verbessern.

Link: https://www.computerweekly.com/de/definition/ChatGPT

KI-Tools wie ChatGPT durchstöbern das Web nach Informationen, die beim Trainieren helfen

Das ist aber nicht alles. Für spezifische Informationen wird das ganze Web durchstöbert. Über frühere Versionen von ChatGPT wurde gesagt, dass sie rege Programmcode auf GitHub, ein bei Entwicklern beliebter Onlinedienst zur Versionsverwaltung von Software-Projekten aber auch für Zusammenarbeit, einsammelten. Übrigens: GitHub hat mittlerweile ein eigenes KI-Tool namens «Copilot».

Wer einen Blog mit praktischen Tipps und Tricks zu einem Thema schreibt, könnte ebenfalls in die Fänge der KIs geraten. Eine Buchautorin in den USA behauptet, dass genau das ihr passiert ist.

Das bekannte IT-Online-Magazin heise.de schreibt einen ausführlichen Bericht in der Rubrik «Künstliche Intelligenz» mit dem Titel: ChatGPT in Verdacht: US-Autorin findet Werke unter ihrem Namen bei Amazon.

Das Hauptproblem ist offenbar (so suggeriert es heise.de), dass Plattformen für elektronische Bücher wie Amazon nicht darauf vorbereitet sind, mit möglichen rechtlichen Problemen wie Autoren- oder Markenrechten von KI-produzierten Werken umzugehen. Nachdem sich Amazon und auch Goodreads weigerten, die offensichtlichen Plagiate von Büchern der US-Autorin, dreist veröffentlicht unter ihrem Namen, zu löschen, schrieb sie darüber in ihrem Blog, was mit dem resultierenden Medienecho offenbar dazu führte, dass die Plattformen zurückkrebsten und die beanstandeten Bücher doch noch entfernten.

Das Thema KI und Urheberrecht wird uns noch lange beschäftigen. Eine abschliessende Antwort gibt es noch nicht. Noch zu neu ist das Ganze. Es gibt selbstverständlich Orte im Web, wo man Raubkopien aller Arten von Büchern bekommen kann. Es würde uns nicht erstaunen, falls KIs auf dieses Material Zugriff haben. Doch darum geht es in diesem Artikel nicht.

Jane Friedman, die angesprochene Autorin oben, schreibt augenscheinlich seit fast fünfzehn Jahren im Web und in ihrem eigenen Blog, wie Autoren E-Bücher erstellen und veröffentlichen können, mit vielen praxisnahen Tipps und Tricks. Natürlich wirbt sie darüber hinaus für ihre eigenen Bücher.

Sie schreibt in ihrem Blogeintrag vom 8. August mit dem Titel «I Would Rather See My Books Get Pirated Than This (Or: Why Goodreads and Amazon Are Becoming Dumpster Fires)»:

«Wer auch immer das tut, macht offensichtlich auf Autoren Jagd, die meinem Namen vertrauen und denken, dass ich diese Bücher tatsächlich geschrieben habe. Ich habe es nicht. Höchstwahrscheinlich wurden sie von KI generiert. (Warum denke ich das? Ich habe diese KI-Tools ausgiebig verwendet, um zu testen, wie gut sie mein Wissen reproduzieren können. Ich mache auch viele Vanity-Promptings, wie zum Beispiel ‘Was würde Jane Friedman über die Erstellung einer Autorenplattform sagen?’) Ich blogge seit 2009 – viele meiner Inhalte sind zum Trainieren von KI-Modellen öffentlich verfügbar. Sobald ich die ersten Seiten dieser gefälschten Bücher las, war es, als würde ich ChatGPT-Antworten lesen, die ich selbst generiert hatte.)»

Das bringt uns zum Kernthema des Artikels: wie kann ich verhindern, dass die bekannten KI-Tools meine Website nach nützlichen Infos abgrasen?

ChatGPT verbieten, meine Web-Inhalte zu indexieren

Interessanterweise hat heise.de unabhängig vom obigen Artikel dazu einen Beitrag geschrieben: Crawler für Training von GPT ausschließen: OpenAI stellt Code für robots.txt vor.

Die meisten Websites besitzen eine Textdatei mit dem Namen «robots.txt» im obersten Verzeichnis der Website-Dateien.

Speziell ChatGPT bietet ab sofort die Möglichkeit, die eigene Website vom Indexieren auszunehmen.

Füge ganz einfach diese Zeile ins robots.txt oder erstelle eins, falls noch keines besteht:

User-agent: GPTBot
Disallow: /

Der Schrägstrich nach Disallow: bedeutet, dass alle Verzeichnisse auf der Website ausgeschlossen werden sollen.

Man kann hier differenziert vorgehen, und nur spezifische Verzeichnisse ins Indexieren aufnehmen oder rausnehmen:

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

Wenn dein SEO-Plugin das Editieren von robots.txt nicht in der Gratisversion bietet, kannst du dieses Plugin benützen:

https://wordpress.org/plugins/pc-robotstxt/.

Einfach die Voreinstellungen des Plugins löschen und mit dem Code-Snippet oben ersetzen und speichern.

GPTBot behaupten, sie würden diese Instruktion im robots.txt befolgen. Es wird sich zeigen, ob das genügt. Auch ist unklar, wie es mit den vielen anderen KI-Tools wie die von Microsoft und Google (Bard) steht.

Eine zusätzliche Möglichkeit wäre, ein «ai.txt» zu erstellen. Die komplette Anleitung, wie das geht, findest du hier: https://site.spawning.ai/spawning-ai-txt.

Von der Website:

«Der ai.txt-Generator von Spawning erstellt eine ai.txt-Datei, die die Nutzung des Inhalts Ihrer Website für kommerzielles KI-Training selektiv einschränkt oder zulässt.»

Du kannst im Generator die Datentypen auswählen, die du erlauben willst. Voreinstellt ist alles abgelehnt.

Die fertige Datei «ai.txt» kannst du runterladen und in das oberste Verzeichnis deiner Website legen. Es gibt zwar eine Installationsanleitung auf spawning.ai für WordPress, aber das dort erwähnte Plugin gibt es offenbar noch nicht. Wir konnten es nicht finden. Bei Problemen helfen wir gerne weiter.

Dr. DSGVO erwähnt auf seinem Blog weitere KI-Crawlers, die man ins robots.txt einbinden kann: https://dr-dsgvo.de/kuenstliche-intelligenz-werke-von-urhebern-und-deren-schutz/.

Und noch ein Nachtrag: heise.de berichtet bereits über Folgen aus der Ankündigung von ChatGPT (Open AI), unter dem Titel «Large Language Models: Kein Training mit Inhalten der New York Times».

Hat dir der Beitrag gefallen?

Hinterlassen Sie einen Kommentar