Text- und Data Mining-Vorbehalt

Eine Sammlung.

Seit Juni 2021 ist im Urheberrechtsgesetz verankert, dass urheberrechtlich geschützte Werke auch außerhalb der wissenschaftlichen Forschung zu Zwecken des Text- und Data Minings vervielfältigt werden dürfen. Was genau unter „Text und Data Mining“ zu verstehen ist, und ob wirklich jede Art von Training eines KI-Modells dazu zählt, wird andernorts rege diskutiert (vgl. hierzu z.B. Käde, CR 9/2024, 598).

Fest steht jedoch: Der § 44b UrhG, der die Vervielfältigungen auch ohne Lizenz für zulässig erklärt, sieht auch vor, dass Rechtsinhaber:innen einen Vorbehalt gegen solche Vervielfältigungen erklären können (§ 44b Abs. 3 UrhG). Bei online verfügbaren Werken muss dies in „maschinenlesbarer Form“ geschehen. Noch keine Einigkeit herrscht allerdings bislang darüber, was „maschinenlesbar“ bedeutet, und wie dieser Vorbehalt in der Praxis konkret anzubringen ist. Der deutsche Gesetzgeber geht in der Gesetzesbegründung unter anderem davon aus, dass ein solcher Vorbehalt auch in Nutzungsbedingungen oder im Impressum einer Webseite erklärt werden kann, „wenn er dort maschinenlesbar ist“ (vgl. BT-Drs. 19/27426, S. 89).

Ohne die Begrifflichkeiten an dieser Stelle weiter zu diskutieren, sammeln wir auf dieser Seite Möglichkeiten und Hinweise, wie ein solcher Vorbehalt gestaltet werden kann, denn es entwickeln sich bereits zahlreiche praktische Ansätze zur Umsetzung.

Am 27.09.2024 hat das Landgericht Hamburg in einem Verfahren entschieden, in dem es letztendlich auf die Wirksamkeit eines Vorbehalts nicht mehr ankam, weil der Beklagte sich auf § 60d UrhG berufen konnte (Text und Data Mining für die wissenschaftliche Forschung – gegen Vervielfältigungen zu diesem Zweck kann kein Vorbehalt erklärt werden). In einem obiter dictum ist das Gericht aber auch auf die Frage der Maschinenlesbarkeit eingegangen, und geht dabei davon aus, dass auch ein in natürlicher Sprache formulierter Vorbehalt den Anforderungen des § 44b Abs. 3 UrhG entspricht. Was für Rechtsinhaber:innen erfreulich ist, dürfte in der Praxis für alle, die sich auf die Schranke berufen wollen, erheblichen Aufwand bedeuten. Die unten dargestellten Möglichkeiten der Erklärung eines Vorbehaltes stellen daher insbesondere Anregungen an Rechtsinhaber:innen dar, wie eine Erklärung des Vorbehalts in einer Form möglich ist, die Interessierten die Berücksichtigung des Vorbehalts erleichtert. Gegen das Urteil wurde Berufung eingelegt, es bleibt also abzuwarten, ob hier weitere Ausführungen der höheren Instanzgerichte folgen, oder ob sogar eine Entscheidung des EuGH in dieser Sache ansteht.

Außerdem weisen wir darauf hin, dass wir selbstverständlich nicht mit Sicherheit sagen können, dass die hier gesammelten Informationen den möglichen Anforderungen der Gerichte an die Maschinenlesbarkeit genügen – dafür ist die Informationslage aktuell noch zu dünn.

0. Warum Maschinenlesbarkeit wichtig ist

Um ein KI-Modell zu trainieren, sind in der Regel große Mengen von Trainingsdaten erforderlich. Soll etwa eine KI trainiert werden, die Bilder analysieren kann, müssen große Mengen entsprechender Bilder gesammelt werden. Wenn nicht auf eine bestehende, online verfügbare Sammlung zurückgegriffen werden soll oder kann, ist ein Weg, an eine Sammlung von Bildern zu gelangen, selbst das Web danach zu suchen. Da dies manuell einen zu großen Aufwand bedeuten würde, werden automatisierte Programme entwickelt, die Webseiten gezielt nach Bildern bzw. Links zu Bildern durchsuchen und diese herunterladen. Damit diese aber den Wunsch der Rechtsinhaber:innen berücksichtigen können, die nicht wünschen, dass ihre Werke – Bilder – für Zwecke des Text- und Data Minings heruntergeladen werden, muss diesen Programmen eine Funktion implementiert werden, die jede besuchte Webseite (bzw. im Idealfall jedes angefragte Bild) auf das Vorhandensein eines solchen Vorbehaltes untersucht.

1. Robots.txt

In dem Zusammenhang der Maschinenlesbarkeit findet stets die Nutzung der Robots.txt-Datei Erwähnung. Dieses Dateiformat wird bereits seit vielen Jahren für die Kommunikation zwischen Webseitenbetreiber und Suchmaschinenbots genutzt. In der Datei lässt sich anhand eines standardisierten Textformates (Robots Exclusion Protocol) festlegen, welche Bereiche einer Seite von (Suchmaschinen)Bots durchsucht werden dürfen und welche nicht indiziert werden sollen (Beispiel: jbb.de/robots.txt). Diese Dateien ermöglichen allerdings keine Durchsetzung dieser Regeln.

Da auch für die automatisierte Sammlung von KI-Trainingsdaten mitunter Bots zum Einsatz kommen, kann diese Datei auch für eine Erklärung eines entsprechenden Vorbehaltes zum Einsatz kommen. Und weil es sich bei der Robots.txt um eine reine Textdatei handelt, kann grundsätzlich auch sämtlicher anderer Text aufgenommen werden, wie etwa ein menschenlesbarer Text, der den Vorbehalt erklärt.

Nachteile:

  • Um Bots effektiv auszuschließen, muss der Name des Bots bekannt sein. Das lässt sich für die großen bekannten Player herausfinden, aber sobald neue Bots mit neuen Namen unterwegs sind, können diese nicht direkt adressiert werden. Ein pauschaler Ausschluss von Bots führt aber dazu, dass auch Suchmaschinen die Seite nicht mehr durchsuchen.
  • Bei der Verwendung menschenlesbarer Texte besteht für die Crawler die Herausforderung, diese zu erkennen und zu analysieren. Dies dürfte zu beträchtlichen Verzögerungen im Crawling-Prozess führen.

Vorteile:

  • Die Verwendung dieser Datei in automatisierten Systemen ist bereits etablierter Standard.
  • Die Handhabung ist einfach, weil es ausreicht, diese Datei im Wurzelverzeichnis der Webseite abzulegen.
  • Es können spezifische Ordnerpfade angegeben werden, die nicht gecrawlt werden sollen.

 

2. X-Robots-Tags (http-Header / HTML meta-tags)

Eine weitere Möglichkeit ist die Definition sogenannter „X-Robots-Tags“ in den Server-Einstellungen (http-Header) oder im HTML (meta tags). Weiterführende anschauliche Informationen mit Beispielen hierzu finden sich auf den Google Developer-Webseiten. Eine vereinfachte Erklärung mit Anleitung findet sich auch in Käde, CR 9/2024, 598, 602. Für diese Tags können grundsätzlich beliebige Text-Werte angegeben werden (so z.B. auch frei erfundene Angaben wie „noTDMinGermany“ oder Ähnliches), zu etablieren scheinen sich aber Werte wie „noai“, „noimageai“ oder „noml“ (vgl. z.B. A Survey of Web Content Control for Generative AI sowie Opt-Out bei „img2dataset“).

Für die Nutzung dieser Tags sind unter Umständen Server-Einstellungen anzupassen. Daher ist diese Möglichkeit, einen Vorbehalt zu erklären, nicht unbedingt intuitiv und nicht für alle Rechtsinhaber:innen einfach zu bewältigen – ermöglicht aber, dass das Vorliegen eines Vorbehalts beim Abruf jeder einzelnen Datei geprüft werden kann.

Nachteile:

  • Um diese Tags zu nutzen, müssen ggf. das HTML der Webseite oder Server-Einstellungen angepasst werden.
  • Es ist bisher keine allgemeine Liste mit gültigen Werten bekannt, an denen sich Crawler orientieren können.
  • Auch diese Methode bietet keine Garantie, dass Crawler sich an die Vorgaben halten.

Vorteile:

  • Die Überprüfung ist für Crawler / Scraper besonders gut zugänglich, weil zum einen Informationen in strukturiertem Format vorliegen und zum anderen direkt beim Download etwa eines Bildes geprüft werden kann, ob ein Vorbehalt vorliegt. Wenn ein entsprechendes X-Robots-Tag gefunden wird, könnte die heruntergeladene Datei sofort automatisiert gelöscht werden.
  • Die Erklärung eines Vorbehaltes ist hier granular möglich, so können etwa mit dem Tag „noimageai“ gezielt solche Crawler angesprochen werden, die Bilder sammeln.
  • Es werden bereits erste Plugins für große Content-Management-Systeme angeboten, die die Nutzung der X-Robots-Tags einfacher ermöglichen.

 

3. TDM Reservation Protocol

Auch beim sich auch in anderen Punkten mit Standardisierung befassenden World Wide Web Consortium (W3C) existiert inzwischen eine Gruppe, die sich des Themas Text und Data Mining-Vorbehalt angenommen hat. Dort wird derzeit an einer einheitlichen Möglichkeit gearbeitet, einen solchen Vorbehalt zu erklären (vgl. dazu auch deren GitHub-Repository).

Es bestehen zwei Ansätze, den Nutzungsvorbehalt nach dem Protokoll zu erklären: tdm-reservation und tdm-policy. Zentral bei tdm-reservation ist das Festlegen des Wertes auf entweder „1“ (Vorbehalt erklärt) oder „0“ (kein Vorbehalt erklärt). Das TDM Reservation Protocol schlägt in der aktuellen Version sodann verschiedene Orte vor, an denen dieser Wert festgelegt werden kann, etwa in einer strukturierten Datei (im JSON-Format), in HTTP-Headern, in HTML-Dateien oder auch in E-Book-Dateiformaten wie z.B. epub. Mittels tdm-policy kann darüber hinaus eine Richtlinie hinterlegt werden, mit der ein ausführlicherer und differenzierender Vorbehalt erklärt werden kann. Insoweit wird darauf verwiesen, dass die Policy für eine maschinenlesbare Erklärung das Format application/json bzw. application/ld+json aufweisen muss.

Nachteile:

  • Siehe X-Robots-Tags – ggf. nicht einfach zugänglich, es ist aber zu erwarten, dass die Konfigurationsoberflächen der Webseiten und gängige Content-Management-Systeme bei einer Etablierung dieses Standards bald nachziehen und die Erklärung einfacher machen.
  • Es ist nicht garantiert, dass Crawler sich an die Vorgaben halten.

Vorteile:

  • W3C ist ein anerkanntes Standardisierungsgremium mit entsprechender Reichweite.
  • In den Protokolldokumenten ist genau festgelegt, wie die Erklärung erfolgen soll – transparent für Rechtsinhaber:innen und Crawling-Interessierte.
  • Fokussierung auf einen simplen Ja/Nein bzw. 1/0-Wert dürfte die Überprüfung auch für Crawler effizienter machen.

 

4. Weitere Möglichkeiten

Neben den schon genannten Möglichkeiten werden stellenweise auch weitere maschinenlesbare Nutzungsvorbehalte diskutiert:

Einen ähnlichen Ansatz wie Robots.txt verfolgt das Projekt spawning.ai. Über die Website kann eine ai.txt Datei generiert werden, um die Verwendung von Inhalten für KI-Modelle zuzulassen oder zu verbieten – die Auffindbarkeit in Suchmaschinen soll davon nicht beeinflusst werden („Will ai.txt file impact my website’s SEO? No, the ai.txt file is specifically designed for AI miners and does not impact traditional search engine crawlers or your website’s SEO”).

Nur vereinzelt berücksichtigt wird bisher das im Mai 2024 vorgestellte TDM·AI Protokoll zur Verknüpfung maschinen-lesbarer Opt-out-Erklärungen für KI-Trainingsdaten mit digitalen Mediendateien. TDM·AI adressiert spezifisch Text und Data Mining Nutzungen für KI-Training. Durch die Verwendung des International Standard Content Code (ISCC ISO 24138:2024), einen neuen ISO-Standard zur Identifikation digitaler Medieninhalte, sowie Creator Credentials soll sichergestellt werden, dass überprüfbare und maschinenlesbare Erklärungen eine ordnungsgemäße Zuordnung von Präferenzen der Rechtsinhaber:innen enthalten.

 Auch bei der Internet Engineering Task Force (IETF), eine führende Organisation für die Entwicklung von Internetstandards, gibt es seit Februar 2025 eine Gruppe (AI Preferences Working Group – AIPREF), die an der Standardisierung von Bausteinen arbeiten wird, die es ermöglichen sollen, Präferenzen in Bezug auf die Art und Weise der Erfassung und Verarbeitung von Inhalten für die Entwicklung, den Einsatz und die Nutzung von KI-Modellen auszudrücken.

Diese Seite wird laufend aktualisiert. Letzte Aktualisierung: 05.03.2025