Oder: Warum es so wichtig ist, mit dem Datensammelprozess für Machine Learning-Modelle auch die Lizenzinformationen zu dokumentieren
Schnelles Sammeln in der Proof of Concept Phase
Viele Softwareprojekte entstehen aus einer Idee heraus, für die dann zunächst ein Proof-of-Concept gebaut wird, also eine erste Rohfassung, die demonstriert, dass die Idee umsetzbar ist. Um möglichst schnell zu einem Prototypen zu gelangen, verwenden und erweitern Entwickler:innen vorbestehenden Code. Warum sollte man etwas neu erfinden, was andere schon implementiert und getestet haben? Wenn die Idee Machine Learning (ML) involviert, weil man zum Beispiel Bilder kategorisieren möchte und dafür ein neu zu trainierendes klassifizierendes Machine-Learning-Modell – oder auch gleich mehrere – zum Einsatz kommen sollen, sind Daten gefragt. Große Mengen von Daten. Bevorzugt qualitativ hochwertig, bewährt und getestet im Machine Learning-Umfeld und in eine einheitliche Form gebracht.
Damit Unternehmen sparen und den Aufwand der eigenen Datensammlung reduzieren können (es soll ja möglichst schnell ein Prototyp auf die Beine gestellt werden, um dann potenziellen Investoren ein MVP – Minimum Viable Product – zu präsentieren), greifen die Entwickler:innen oft auf vorbestehende Datensets und vortrainierte Modelle zurück. Diese gibt es auf den ersten Blick auch wie Sand am Meer. Dem Sammeln und Trainieren steht also nichts mehr im Wege – die unbequemen rechtlichen Fragestellungen werden auf die Zeit „kurz vor Launch“ verschoben.
Nachträgliche Rekonstruktion der verwendeten Modelle und Lizenzen schwierig
Kurz vor Fertigstellung des Produktes steht dann aber der Punkt „Abklären von Rechten Dritter“ auf der Tagesordnung. Viele Unternehmen können dann kaum noch rekonstruieren, welche Modelle tatsächlich verwendet und welche nach ersten Versuchen wieder verworfen wurden, welche Trainingsdaten zum Einsatz kamen, und wo vielleicht auch noch eigene Daten mit eingeflossen sind. Können die Entwickler:innen nachträglich eine Liste der verwendeten Modelle und Trainingsdatensets erstellen – idealerweise mit Herkunft (Downloadlink, Datum und Land) und Lizenzinformationen – ist es die Aufgabe von Spezialist:innen, herauszufinden, ob das Endprodukt in dieser Form auf den Markt gebracht werden kann, ohne Rechte Dritter zu verletzen.
Viele Lizenzen gestatten keine kommerzielle Nutzung
Schnell merken die Unternehmen dann, dass von den wenigen Trainingsdatensets, die überhaupt Lizenzinformationen enthalten, zahlreiche die kommerzielle Nutzung verbieten. Dann ist guter Rat…gefragt. Zwar hat der Gesetzgeber mit § 44b UrhG eine Norm geschaffen, die das Anfertigen von Vervielfältigungen im Rahmen des Text- und Data Mining gestattet. Allerdings kann in einer Lizenz, die die kommerzielle Nutzung nicht erlaubt, ein Vorbehalt gem. § 44b Abs. 3 UrhG zu sehen sein. Hinzu kommt noch, dass § 44b UrhG nur die Vervielfältigung, nicht aber die Verbreitung umfasst. Immer mehr generative Machine Learning-Modelle reproduzieren aber (gewollt oder ungewollt) Trainingsdaten, sodass mit der Verbreitung des trainierten Modells im Einzelfall unter Umständen auch eine – unerlaubte – Verbreitung der Trainingsdaten erfolgt.
Darüber hinaus ist häufig unklar, ob auch für die einzelnen Trainingsdaten Lizenzen bekannt und ob oder inwiefern diese im weiteren Verlauf zu berücksichtigen sind. Das Ganze ließe sich so weit treiben, zu fragen, ob nicht auf ein generatives ML-Modell, dass mit einem GPL-3.0-lizenzierten Trainingsdatensatz trainiert wurde, die Lizenzbedingungen der GPL-3.0 Anwendung finden. Zwar sprechen gute Argumente dagegen, denn möglicherweise könnte ein ML-Modell, das Trainingsdaten zuverlässig reproduziert, als ein „abgeleitetes Werk“ im Sinne der Lizenz anzusehen sein. Wie das die Gerichte beurteilen werden, ist jedoch unklar.
Besser: frühe Berücksichtigung von Lizenzen im Entwicklungsprozess
Nach alledem sind die rechtlichen Fragestellungen rund um die Verwendung von Trainingsdaten nicht zu vernachlässigen, entscheiden sie mitunter doch über „Go“ oder „No-Go“ der zeitnahen Veröffentlichung des Produkts. Im Idealfall besteht das Bewusstsein für diese Themen schon früh im Entwicklungsprozess, damit nicht in blinder, „unstillbarer Gier“ der Blick fürs Wesentliche verloren geht.
„Ich will die Welt verstehen
und alles wissen,
und kenn mich selber nicht“
– Zitat aus „Unstillbare Gier“, Jim Steinman
Bei JBB begleiten wir sie mit unserer Expertise im Open Source- und KI-Bereich gerne durch den Prüfungsprozess!