17. Oktober 2024 | KI, Urheberrecht

To Mine or Not To Mine.

Dr. Lisa Käde

 

Seit 2021 erlaubt das Urheberrechtsgesetz allgemein Vervielfältigungen für Zwecke des Text- und Data Minings (§ 44b UrhG). Damit wird eine Vorgabe aus einer EU-Richtlinie umgesetzt, die das Text- und Data Mining (TDM) EU-weit konturiert (Artikel 4 DSM-Richtlinie). Schon zuvor war es Forschungsorganisationen zu Zwecken der wissenschaftlichen Forschung gestattet, entsprechende Vervielfältigungen vorzunehmen (§ 60d UrhG).

Mit zunehmender Bedeutung von KI-Modellen wie ChatGPT und Co. rückt diese auch „Text- und Data Mining-Schranke“ genannte Norm in den letzten Jahren mehr und mehr in den Fokus der Diskussion. Denn: Die Sammlung urheberrechtlich geschützter Werke sowohl für das Training von KI-Modellen als auch zur Analyse ebendieser Daten erfordert regelmäßig eine Vervielfältigung, etwa in Form eines Downloads eines Bildes oder der Speicherung auf einem zentralen Server.

Erstmals hatte nun ein deutsches Gericht die Möglichkeit, sich (wenn auch indirekt) mit der Anwendung der Vorschrift zu befassen: In dem Verfahren gegen einen gemeinnützigen Verein (LAION e.V.) kam das Landgericht Hamburg zu dem Ergebnis, dass ein Fotoproduzent, dessen Bilder durch eine Forschungsorganisation von einer Webseite automatisiert heruntergeladen und mit „Software“ analysiert werden, die dafür erforderlichen Vervielfältigungen nicht untersagen kann.

Aber Eins nach dem Anderen:

Sachverhalt

In dem Verfahren klagte ein Fotoproduzent (K) gegen den gemeinnützigen Verein LAION e.V. (B). K hatte Fotos auf einem Fotoportal Dritter hochgeladen. Diese Webseite wurde von der Organisation „CommonCrawl“ erfasst, die regelmäßig „Backups“ oder auch „Abbilder“ des Internets erstellt. Dabei werden alle über Links erreichbaren Webseiten in Textform vervielfältigt (Bilder, Videos und andere Nicht-Text-Daten werden dabei allerdings nicht aufgenommen, die Datensammlung enthält lediglich den Quelltext der Webseiten samt Links zu diesen Inhalten – einfach nachzuvollziehen: Schauen Sie sich einmal den „Quellcode“ dieser Webseite an – Rechtsklick, „Seitenquelltext anzeigen“ – vielfach funktioniert auch Strg + U).

CommonCrawl stellt also auf der eigenen Webseite Datensätze bereit, die den „Quelltext“ von Internetseiten enthalten. Einen solchen Datensatz hat B genutzt, um daraus einen eigenen Datensatz für Bilder zu erzeugen, die beispielsweise für KI-Training genutzt werden können. B hat dafür aus dem CommonCrawl-Datensatz Links zu Bildern herausgefiltert. Der Datensatz von B sollte über die Links zu den Bildern hinaus auch weitere Informationen über die Bilder enthalten, etwa Beschreibungen oder Informationen dazu, ob ein Bild ein Wasserzeichen aufweist oder jugendgefährdende Inhalte enthält. Um diese Informationen zu bekommen, hat B die Bilder anhand der Links heruntergeladen und mit eigenen KI-Modellen analysiert. Der resultierende Datensatz von B ähnelt einer Tabelle, die je Zeile einen Link zu einem Bild enthält und weitere Informationen zu dem Bild.

K ist der Ansicht, dass der Download seiner Bilder eine urheberrechtswidrige Vervielfältigung darstelle – nicht zuletzt auch deshalb, weil sich in den Nutzungsbedingungen des Bilderportals ein Passus findet, der das automatisierte Downloaden von Inhalten untersagt. Daher verlangte er von B unter anderem Unterlassung.

B macht geltend, Forschung zu betreiben, weshalb B sich auf die TDM-Schranke des § 60d UrhG berufen könne. Besonderheit hierbei: § 60d UrhG sieht nicht wie § 44b UrhG die Möglichkeit für Rechtsinhaber:innen vor, einen „Vorbehalt“ gegen Vervielfältigungen zu erklären.

Der Mechanismus im Urheberrecht stellt sich also wie folgt dar:

  • Rechtsinhaber:innen können grundsätzlich einen Vorbehalt erklären, der Vervielfältigungen auch zu TDM-Zwecken ohne Lizenz unzulässig macht (vgl. § 44b Abs. 3 UrhG)
  • Wer sich auf § 44b UrhG beruft, um ohne Erlaubnis Vervielfältigungen für TDM vorzunehmen, muss erklärte Vorbehalte berücksichtigen.
  • Wer aber wissenschaftliche Forschung betreibt und sich auf § 60d UrhG berufen kann, kann Vorbehalte außer Acht lassen.

Das Gericht musste sich also mit folgenden Fragen befassen:

  • Fällt das Analysieren von Bildern mit Software unter den Begriff des TDM im Sinne von § 44b bzw. § 60d UrhG?
  • Kann B sich auf § 60d UrhG berufen?

 

 

Eine Entscheidung…

Beide Fragen hat das Gericht bejaht. In der Analyse eines Bildes mittels Software sieht das Gericht die Voraussetzungen des TDM erfüllt, weshalb auch eine Vervielfältigung für diesen Zweck unter § 44b UrhG bzw. § 60d UrhG fällt. Das Gericht hat B auch als Forschungsorganisation im Sinne des § 60d UrhG eingeordnet, mit der Konsequenz, dass ein etwa auf dem Fotoportal erklärter Nutzungsvorbehalt nicht zu berücksichtigen ist.

 

… und ein massives Obiter Dictum!

Interessanter ist aber eigentlich, was das Gericht nicht beantworten musste: Da sich B auf § 60d UrhG berufen konnte, war die Frage, ob der Passus in den Nutzungsbedingungen der Webseite einen Vorbehalt im Sinne von § 44b Abs. 3 UrhG darstellt, nicht entscheidungserheblich.

 

Wirksamkeit eines in natürlicher Sprache gefassten Vorbehalts im Sinne des § 44b Abs. 3 UrhG

Dennoch hat sich das Gericht sehr ausführlich dazu eingelassen, dass es eine Erklärung in Nutzungsbedingungen, die auch nicht konkret die Worte „Text- und Data Mining“ enthält, für einen wirksamen Vorbehalt halten würde. Das ist deshalb spektakulär, weil § 44b Absatz 3 UrhG vorsieht, dass ein Vorbehalt nur dann wirksam ist, wenn er in „maschinenlesbarer Form“ erklärt wird. Was allerdings „Maschinenlesbarkeit“ ausmacht, ist bisher unklar. Das Gericht hält es für erforderlich, auch einen in natürlicher Sprache (beliebig) formulierten Vorbehalt für wirksam zu erachten, um es Rechtsinhaber:innen so einfach wie möglich zu machen, einen Vorbehalt zu erklären.

Dann allerdings hätte sich der Gesetzgeber das Kriterium der Maschinenlesbarkeit fast auch sparen können. Unter Einsatz von KI können Texte in natürlicher Sprache grundsätzlich sogar dann analysiert werden, wenn sie handschriftlich auf einem Zettel formuliert werden, der Zettel sodann abfotografiert und das Bild auf einer Webseite als Hintergrundgrafik eingebunden wird. Die technischen Möglichkeiten dafür sind längst geschaffen. Der Aufwand für die Analyse ist aber so groß, dass er das automatisierte Crawlen (Auslesen von Webseiten) unpraktikabel macht, weil für jede gecrawlte Seite zunächst eine Suche durchgeführt werden muss nach einem Ort, an dem ein Vorbehalt vorliegen könnte, dann eine Analyse unter Einsatz von KI geschehen muss, und erst dann die Entscheidung getroffen werden kann, ob Inhalte für die automatisierte Analyse vervielfältigt werden dürfen oder nicht. Konkret: Derzeit enthält der letzte Datensatz von CommonCrawl 2.786.769.935 eindeutige URLs. Wenn für jede besuchte URL 1 Sekunde Zeit für eine automatisierte Analyse erforderlich sind, würde es knapp über 88 Jahre dauern, alle URLs zu überprüfen. Natürlich ist das überspitzt – für ein gezieltes Crawling werden nicht alle Webseiten durchsucht, und in der Regel gehört eine ganze Reihe Links zu einer einzelnen Haupt-Webseite, die sich ggf. zusammenfassen lassen – aber die potenziellen Auswirkungen sind dennoch immens.

Noch dazu besteht auch mit der von dem Gericht vorgesehenen Lösung keine Rechtssicherheit für Rechtsinhaber:innen, weil diese nicht wissen, wann ein Vorbehalt konkret genug formuliert ist.

Auf der anderen Seite bestehen bereits zahlreiche Ansätze, ein tatsächlich maschinenlesbares Format zu etablieren. Eine erste grobe Übersicht haben wir hier zusammengestellt.

Aber auch dazwischen gibt es noch Möglichkeiten für eine verträglichere Lösung: Man könnte sich beispielsweise auf eine einheitliche Formulierung eines Satzes einigen, den dann Rechtsinhaber:innen verwenden können und der von Crawler-Programmen gezielt gesucht werden kann.

 

Erfasst § 44b UrhG auch KI-Training?

Neben der Maschinenlesbarkeit hat sich das Gericht auch mit zahlreichen Argumenten auseinandergesetzt, die aktuell gegen die Anwendbarkeit der TDM-Schranke auf das KI-Training vorgebracht werden, obwohl KI-Training nicht Gegenstand des Verfahrens war. Diese Diskussion würde an dieser Stelle jedoch zu weit gehen und wird für diesen Beitrag daher bewusst ausgeklammert. In aller Kürze: Das Gericht hält einige der in der Literatur vorgebrachten Argumente gegen die Anwendbarkeit von § 44b UrhG auf KI-Training für nicht überzeugend. Eine Anwendbarkeit auf die Vervielfältigungen auch für Zwecke des KI-Trainings scheint damit zumindest auch in der Rechtsprechung nicht ausgeschlossen.

 

EU-weit relevante Sachverhalte erfordern EU-weit einheitliche Vorgaben

Es ist zu erwarten, dass in dieser Sache noch nicht das letzte Wort gesprochen wurde. Überdies ist auch wünschenswert, dass langfristig insbesondere in Bezug auf die Wirksamkeit des Vorbehalts eine EuGH-Vorlage erfolgt: Denn derartiges Crawling endet nicht an den Staatsgrenzen, sondern erfolgt in der Regel international. Aufgrund des Territorialitäts– und des Schutzlandprinzips des Urheberrechts gilt das nationale Urheberrecht aber nur für das Land, in dem die urheberrechtlich relevante Handlung vorgenommen wird – in der Regel also der Ort, an dem etwa ein Download passiert – jedoch unabhängig davon, aus welchem Land der Inhalt bzw. Rechtsinhaber:innen stammen, die geschützte Werke im Internet bereitstellen. Demnach gelten für französische Rechtsinhaber:innen, die einen in Deutschland wirksamen Vorbehalt erklären möchten, die Maßstäbe des deutschen Urheberrechts. Umgekehrt kann sich eine deutsche Urheberin nicht darauf verlassen, dass ein in natürlicher Sprache vage erklärter Vorbehalt auch in Frankreich einen wirksamen Vorbehalt darstellt. Dies ist dem Umstand geschuldet, dass die entsprechenden Vorschriften durch die EU im Rahmen einer Richtlinie eingeführt wurden, für die die Mitgliedsstaaten einen gewissen Umsetzungsspielraum haben, und nicht durch eine Verordnung, die in allen Mitgliedsstaaten unmittelbar gleichermaßen gilt.

 

Empfehlung: Jetzt mit dem Thema 44b-Vorbehalt befassen!

Die Lage ist auch nach dem Urteil mehr als unklar. Es ist allerdings zu empfehlen, sich mit den gängigen bekannten Möglichkeiten einer Vorbehaltserklärung zu befassen; insbesondere das TDM-Reservation-Protocol in Verbindung mit der Robots.txt-Datei seien dabei hervorgehoben (Informationen dazu hier).

Es bleibt zu hoffen, dass sich diese Standards in der Praxis durchsetzen, und dass auch die Gerichte zu der Erkenntnis gelangen, dass hier Wege bestehen, die Interessen beider Seiten praktikabler zu berücksichtigen.

 

Beitragsbild: erstellt mit ChatGPT 4o / Dall-E