Künstliche Intelligenz: Kennzeichnung in ONIX und alles Wissenswerte zum Nutzungsvorbehalt
Wie können KI-generierte Inhalte in ONIX gekennzeichnet werden? Und wie ein maschinenlesbarer Nutzungsvorbehalt umgesetzt werden? Eine neue Best Practice gibt Auskunft zu diesen Fragen. | Ein Beitrag der PG Digitale Distribution und KI im ONIX
Erstellt am 28.10.2024
Künstliche Intelligenz (KI) ist in vielen Bereichen im Einsatz, von analytischen bis zu generativen Anwendungen. Der EU AI Act verlangt hierbei die technische Umsetzung von Urheberschutz und die klare Kennzeichnung von KI-generierten Inhalten. Die Peergroup Digitale Distribution und KI im ONIX zeigen in diesem Best Practice die Möglichkeiten zur Umsetzung im ONIX-Standard auf.
Zudem wird der maschinenlesbare Nutzungsvorbehalt (TDM Opt-Out) für Formate wie EPUB, PDF, JPG (Cover) und Webseiten erläutert. Anhand konkreter Beispiele werden auch Varianten zur Lockerung des TDM Opt-Outs und entsprechende Nutzungsrichtlinien (z.B. gegen eine Gebühr) vorgestellt.
Direkt zum Download der Best Practice
Schutz von eigenen Inhalten
Die rasante Entwicklung künstlicher Intelligenz hat in der Branche einige urheberrechtliche Fragen ausgelöst. Insbesondere die Input-Seite, sprich die genutzten Trainingsdaten, sind umstritten. Das Training generativer KI-Systeme basiert auf der Auswertung einer großen Menge an Daten. Oftmals werden dafür frei zugängliche Texte aus dem Internet genutzt. Dies geschieht durch systematisches Crawling, also das Durchsuchen des Netzes. Dass dabei urheberrechtlich geschützte, digitale Inhalte zum Trainieren von KI-Systemen verwendet wurde, ist inzwischen bekannt. Die Bandbreite des Scraping (des Auslesens von Daten) reicht dabei von Grafiken / Bildern, über Cover von Büchern bis hin zu Inhalten von Büchern und Stimmen von Sprecher*innen.
Was ist erlaubt?
Die „EU-Richtlinie über das Urheberrecht und die verwandten Schutzrechte im digitalen Binnenmarkt“ erlaubt, im Internet veröffentlichte Texte zum Zweck von Text- und Data-Mining (TDM) zu kommerziellen Zwecken zu verwenden. Die Richtlinie bezog sich zum Zeitpunkt ihrer Veröffentlichung 2019 noch nicht auf sogenannte Foundation Models wie ChatGPT, sondern auf die Analyse großer Datenmengen. Dennoch ist nicht auszuschließen, dass das Trainieren einer KI gerichtlich als zulässiges Text and Data Mining gilt (zur rechtlichen Einschätzung lesen Sie hier mehr).
Die Möglichkeit des Nutzungsvorbehalts
Rechteinhaber*innen können sich allerdings das Recht vorbehalten, dass ihre Texte zum Zwecke des Text und Data Mining genutzt werden. Durch die Formulierung eines solchen Opt-Outs kann die Nutzung von freizugänglichen Inhalten für das Training generativer KIs verhindert werden. Eine gemeinsame Arbeitsgruppe der IG Produktmetadaten und der IG Digital hat in Zusammenarbeit mit EDItEUR Lösungen zu diesem Thema entwickelt, um sowohl den Content selbst als auch einzelne Ressourcen (Cover, Leseprobe, Innenseiten) für mögliches KI-Training freizugeben oder davon auszuschließen. Diese Möglichkeiten stellten Herbert Barkmann und Carsten Wehmeyer (IG Produktmetadaten / IG Digital) in der Metadatenlounge im Juni 2024 vor (siehe Video unten). Letzteres (einzelne Ressourcen) ist allerdings erst in der allerneuesten ONIX-Version möglich, daher ist ein schnelles Upgrade auf diese neueste Version 3.1.1 für alle Beteiligten an der Metadatenverwertung in D/A/CH ein Muss.
Kennzeichnung von KI-generierten Inhalten
Während der Nutzungsvorbehalt die Input-Seite künstlicher Intelligenz regelt, stellt sich auch auf der Output-Seite die Frage nach Transparenz im Umgang mit KI. Inhalte, die mit künstlicher Intelligenz generiert wurden, müssen nicht als solche gekennzeichnet werden (mehr Informationen zu gesetzlichen Kennzeichnungspflichten finden Sie in einem FAQ unserer Rechtsberatung).
Eine Kennzeichnung KI-generierter Inhalte erfolgt daher bisher freiwillig. Verlage gehen aber sehr unterschiedlich mit deren Kennzeichnung um: Manche führen die KI als „Autor*in“ auf dem Cover, andere weisen im Impressum daraufhin, wiederum andere nutzen die Möglichkeiten der ONIX-Kennzeichnung. Eine einheitliche Kennzeichnung von KI-Inhalten hilft insbesondere dem Handel, dem kritisch Lesenden gegenüber auskunftsfähig zu sein, ob ein Werk mit Hilfe einer KI generiert wurde.
Die Peergroups Digitale Distribution und KI im ONIX zeigen in ihrer neuen Best Practice die Möglichkeiten zur Umsetzung im ONIX-Standard auf. Zudem wird der maschinenlesbare Nutzungsvorbehalt (TDM Opt-Out) erläutert.
Wie dies technisch umzusetzen ist, erläutern Barkmann und Wehmeyer im Juni 2024 in ihrer Präsentation zur Metadatenlounge.