Text- und Data Mining-Vorbehalt

Eine Sammlung.

Seit Juni 2021 ist im Urheberrechtsgesetz verankert, dass urheberrechtlich geschützte Werke auch außerhalb der wissenschaftlichen Forschung zu Zwecken des Text- und Data Minings vervielfältigt werden dürfen. Was genau unter „Text und Data Mining“ zu verstehen ist, und ob wirklich jede Art von Training eines KI-Modells dazu zählt, wird andernorts rege diskutiert (vgl. hierzu z.B. Käde, CR 9/2024, 598).

Fest steht jedoch: Der § 44b UrhG, der die Vervielfältigungen auch ohne Lizenz für zulässig erklärt, sieht auch vor, dass Rechtsinhaber einen Vorbehalt gegen solche Vervielfältigungen erklären können (§ 44b Abs. 3 UrhG). Bei online verfügbaren Werken muss dies in „maschinenlesbarer Form“ geschehen. Noch keine Einigkeit herrscht allerdings bislang darüber, was „maschinenlesbar“ bedeutet, und wie dieser Vorbehalt in der Praxis konkret anzubringen ist. Der deutsche Gesetzgeber geht in der Gesetzesbegründung unter anderem davon aus, dass ein solcher Vorbehalt auch in Nutzungsbedingungen oder im Impressum einer Webseite erklärt werden kann, „wenn er dort maschinenlesbar ist“ (vgl. BT-Drs. 19/27426, S. 89).

Ohne die Begrifflichkeiten an dieser Stelle weiter zu diskutieren, sammeln wir an dieser Stelle Möglichkeiten und Hinweise, wie ein solcher Vorbehalt gestaltet werden kann, denn es entwickeln sich bereits zahlreiche praktische Ansätze zur Umsetzung. Wir weisen darauf hin, dass zu diesem Thema aktuell ein Verfahren am LG Hamburg anhängig ist (an dem wir nicht beteiligt sind), und dass zumindest gewisse Hoffung besteht, dass am Ende des Verfahrens etwas mehr Klarheit über das Merkmal der Maschinenlesbarkeit herrscht.

Am 27.09.2024 hat das Landgericht Hamburg in einem Verfahren entschieden, in dem es letztendlich auf die Wirksamkeit eines Vorbehalts nicht mehr ankam, weil der Beklagte sich auf § 60d UrhG berufen konnte (Text und Data Mining für die wissenschaftliche Forschung – gegen Vervielfältigungen zu diesem Zweck kann kein Vorbehalt erklärt werden). In einem obiter dictum ist das Gericht aber auch auf die Frage der Maschinenlesbarkeit eingegangen, und geht dabei davon aus, dass auch ein in natürlicher Sprache formulierter Vorbehalt den Anforderungen des § 44b Abs. 3 UrhG entspricht. Was für Rechtsinhaber:innen erfreulich ist, dürfte in der Praxis für alle, die sich auf die Schranke berufen wollen, erheblichen Aufwand bedeuten. Die unten dargestellten Möglichkeiten der Erklärung eines Vorbehaltes stellen daher insbesondere Anregungen an Rechtsinhaber:innen dar, wie eine Erklärung des Vorbehalts in einer Form möglich ist, die Interessierten die Berücksichtigung des Vorbehalts erleichtert.

Außerdem weisen wir darauf hin, dass wir selbstverständlich nicht mit Sicherheit sagen können, dass die hier gesammelten Informationen den möglichen Anforderungen der Gerichte an die Maschinenlesbarkeit genügen – dafür ist die Informationslage aktuell noch zu dünn.

0. Warum Maschinenlesbarkeit wichtig ist

Um ein KI-Modell zu trainieren, sind in der Regel große Mengen von Trainingsdaten erforderlich. Um eine KI zu trainieren, die Bilder analysieren kann, müssen etwa große Mengen entsprechender Bilder gesammelt werden. Wenn nicht auf eine bestehende, online verfügbare Sammlung zurückgegriffen werden soll oder kann, ist ein Weg, an eine Sammlung von Bildern zu gelangen, selbst das Web danach zu suchen. Da dies manuell einen zu großen Aufwand bedeuten würde, werden automatisierte Programme entwickelt, die Webseiten gezielt nach Bildern bzw. Links zu Bildern durchsuchen und diese herunterladen. Damit diese aber den Wunsch der Rechtsinhaber:innen berücksichtigen können, die nicht wünschen, dass ihre Werke – Bilder – für Zwecke des Text- und Data Minings heruntergeladen werden, muss diesen Programmen eine Funktion implementiert werden, die jede besuchte Webseite (bzw. im idealfall jedes angefragte Bild) auf das Vorhandensein eines solchen Vorbehaltes untersucht.

1. Robots.txt

In dem Zusammenhang der Maschinenlesbarkeit findet stets die Nutzung der Robots.txt-Datei Erwähnung. Dieses Dateiformat wird bereits seit vielen Jahren für die Kommunikation zwischen Webseitenbetreiber und Suchmaschinenbots genutzt. In der Datei lässt sich anhand eines standardisierten Textformates (Robots Exclusion Protocol) festlegen, welche Bereiche einer Seite von (Suchmaschinen)Bots durchsucht werden dürfen und welche nicht indiziert werden sollen (Beispiel: jbb.de/robots.txt). Diese Dateien ermöglichen allerdings keine Durchsetzung dieser Regeln.

Da auch für die automatisierte Sammlung von KI-Trainingsdaten mitunter Bots zum Einsatz kommen, kann diese Datei auch für eine Erklärung eines entsprechenden Vorbehaltes zum Einsatz kommen. Und weil es sich bei der Robots.txt um eine reine Textdatei handelt, kann grundsätzlich auch sämtlicher anderer Text aufgenommen werden, wie etwa ein menschenlesbarer Text, der den Vorbehalt erklärt.

Nachteile:

  • Um Bots effektiv auszuschließen, muss der Name des Bots bekannt sein. Das lässt sich für die großen bekannten Player herausfinden, aber sobald neue Bots mit neuen Namen unterwegs sind, können diese nicht direkt adressiert werden. Ein pauschaler Ausschluss von Bots führt aber dazu, dass auch Suchmaschinen die Seite nicht mehr durchsuchen.
  • Bei der Verwendung menschenlesbarer Texte besteht für die Crawler die Herausforderung, diese zu erkennen und zu analysieren. Dies dürfte zu beträchtlichen Verzögerungen im Crawling-Prozess führen.

Vorteile:

  • Die Verwendung dieser Datei in automatisierten Systemen ist bereits etablierter Standard.
  • Die Handhabung ist einfach, weil es ausreicht, diese Datei im Wurzelverzeichnis der Webseite abzulegen.
  • Es können spezifische Ordnerpfade angegeben werden, die nicht gecrawlt werden sollen.

 

2. X-Robots-Tags (http-Header / HTML meta-tags)

Eine weitere Möglichkeit ist die Definition sogenannter „X-Robots-Tags“ in den Server-Einstellungen (http-Header) oder im HTML (meta tags). Weiterführende anschauliche Informationen mit Beispielen hierzu finden sich auf den Google Developer-Webseiten. Eine vereinfachte Erklärung mit Anleitung findet sich auch in Käde, CR 9/2024, 598, 602. Für diese Tags können grundsätzlich beliebige Text-Werte angegeben werden (so z.B. auch frei erfundene Angaben wie „noTDMinGermany“ oder Ähnliches), zu etablieren scheinen sich aber Werte wie „noai“, „noimageai“ oder „noml“ (vgl. z.B. A Survey of Web Content Control for Generative AI sowie Opt-Out bei „img2dataset“).

Für die Nutzung dieser Tags sind unter Umständen Server-Einstellungen anzupassen. Daher ist diese Möglichkeit, einen Vorbehalt zu erklären, nicht unbedingt intuitiv und nicht für alle Rechtsinhaber:innen einfach zu bewältigen – ermöglicht aber, dass das Vorliegen eines Vorbehalts beim Abruf jeder einzelnen Datei geprüft werden kann.

Nachteile:

  • Um diese Tags zu nutzen, müssen ggf. das HTML der Webseite oder Server-Einstellungen angepasst werden
  • Es ist bisher keine allgemeine Liste mit gültigen Werten bekannt, an denen sich Crawler orientieren können
  • Auch diese Methode bietet keine Garantie, dass Crawler sich an die Vorgaben halten

Vorteile:

  • Die Überprüfung ist für Crawler / Scraper besonders gut zugänglich, weil zum einen Informationen in strukturiertem Format vorliegen und zum anderen direkt beim Download etwa eines Bildes geprüft werden kann, ob ein Vorbehalt vorliegt. Wenn ein entsprechendes X-Robots-Tag gefunden wird, könnte die heruntergeladene Datei sofort automatisiert gelöscht werden
  • Die Erklärung eines Vorbehaltes ist hier granular möglich, so können etwa mit dem Tag „noimageai“ gezielt solche Crawler angesprochen werden, die Bilder sammeln.
  • Es werden bereits erste Plugins für große Content-Management-Systeme angeboten, die die Nutzung der X-Robots-Tags einfacher ermöglichen.

 

3. TDM Reservation Protocol

Auch beim sich auch in anderen Punkten mit Standardisierung befassenden World Wide Web Consortium (W3C) existiert inzwischen eine Gruppe, die sich des Themas Text und Data Mining-Vorbehalt angenommen hat. Dort wird derzeit an einer einheitlichen Möglichkeit gearbeitet, einen solchen Vorbehalt zu erklären (vgl. dazu auch deren GitHub-Repository).

Zentral ist hier das Festlegen des Wertes „tdm-reservation“ auf entweder „1“ (Vorbehalt erklärt) oder „0“ (kein Vorbehalt erklärt). Das TDM Reservation Protocol schlägt in der aktuellen Version sodann verschiedene Orte vor, an denen dieser Wert festgelegt werden kann, etwa in einer strukturierten Datei (im JSON-Format), in HTTP-Headern, in HTML-Dateien oder auch in E-Book-Dateiformaten wie z.B. epub.

Nachteile:

  • Siehe X-Robots-Tags – ggf. nicht einfach zugänglich, es ist aber zu erwarten, dass die Konfigurationsoberflächen der Webseiten und gängige Content-Management-Systeme bei einer Etablierung dieses Standards bald nachziehen und die Erklärung einfacher machen
  • Keine Garantie, dass Crawler sich an die Vorgaben halten
  • Keine Differenzierungsmöglichkeiten

Vorteile:

  • W3C ist ein anerkanntes Standardisierungsgremium mit entsprechender Reichweite
  • in den Protokolldokumenten ist genau festgelegt, wie die Erklärung erfolgen soll – transparent für Rechtsinhaber:innen und Crawling-Interessierte
  • Fokussierung auf simplen Ja/Nein bzw. 1/0-Wert dürfte die Überprüfung auch für Crawler effizienter machen

 

Diese Seite wird laufend aktualisiert. Letzte Aktualisierung: 30.09.2024.