In jüngster Zeit hat die rasante Entwicklung der Künstlichen Intelligenz (KI) das Bedürfnis nach ethischer und rechtlich einwandfreier Datenlizenzierung in den Vordergrund gerückt. Die Dataset Providers Alliance (DPA) wurde gegründet, um diese Notwendigkeit zu adressieren. Diese neu ins Leben gerufene Handelsgruppe besteht aus sieben KI-Lizenzierungsfirmen, darunter Rightsify, Pixta und Calliope Networks. Ziel der DPA ist es, den Umgang mit KI-Daten zu standardisieren und fairer zu gestalten.
Die erste Welle bedeutender generativer KI-Tools wurde überwiegend mit "öffentlich zugänglichen" Daten trainiert, die aus dem Internet gesammelt wurden. Mit der zunehmenden Beschränkung dieser Datenquellen und dem Drang nach Lizenzvereinbarungen sind neue Lizenzierungs-Startups entstanden, um den Fluss des Ausgangsmaterials aufrechtzuerhalten. Diese Entwicklung unterstreicht die Notwendigkeit eines geordneten und transparenten Umgangs mit Trainingsdaten.
Die DPA setzt sich für ein Opt-in-System ein, bei dem Daten nur nach ausdrücklicher Zustimmung der Urheber und Rechteinhaber verwendet werden dürfen. Dies stellt eine bedeutende Abkehr von den bisherigen Praktiken der meisten großen KI-Unternehmen dar, die oft auf Opt-out-Systeme setzen oder gar keine Opt-out-Möglichkeiten bieten. Alex Bestall, CEO von Rightsify, betont die ethische und pragmatische Bedeutung des Opt-in-Ansatzes: „Öffentlich verfügbare Datensätze zu verkaufen, ist eine Möglichkeit, verklagt zu werden und keine Glaubwürdigkeit zu haben.“
Die DPA hat ein Positionspapier veröffentlicht, in dem sie sich gegen eine gesetzlich vorgeschriebene Lizenzierung ausspricht und stattdessen einen „freien Markt“-Ansatz befürwortet, bei dem Datenursprung und KI-Unternehmen direkt verhandeln. Weitere Richtlinien umfassen verschiedene Vergütungsstrukturen, um sicherzustellen, dass Urheber und Rechteinhaber angemessen für ihre Daten bezahlt werden. Diese Modelle reichen von abonnementbasierten Ansätzen über nutzungsbasierte Lizenzierung bis hin zu ergebnisbasierten Lizenzierungen.
Die DPA unterstützt auch die Nutzung synthetischer Daten – also Daten, die von KI generiert werden – und argumentiert, dass diese in naher Zukunft den Großteil der Trainingsdaten ausmachen werden. Die Allianz setzt sich für eine ordnungsgemäße Lizenzierung der Vortrainingsinformationen ein und fordert Transparenz darüber, wie synthetische Daten erstellt werden.
Die DPA steht vor der Herausforderung, die wichtigsten Akteure der Branche zu überzeugen, sich ihren Standards anzuschließen. Ed Newton-Rex, Leiter der gemeinnützigen Organisation Fairly Trained, betont die Notwendigkeit breiter Akzeptanz: „Es gibt aufkommende Standards, wie man Daten ethisch lizenziert, aber nicht genug KI-Unternehmen übernehmen sie.“ Dennoch zeigt die Existenz der DPA, dass die „Wilden Westen“-Tage der KI zu Ende gehen. „Alles ändert sich so schnell“, sagt Bestall.
Die Gründung der Dataset Providers Alliance markiert einen wichtigen Schritt in Richtung einer ethischeren und transparenteren Datenlizenzierung in der KI-Branche. Während die Herausforderungen erheblich sind, bietet die DPA einen vielversprechenden Rahmen, um den Umgang mit Daten in der KI-Entwicklung zu standardisieren und fairer zu gestalten. Durch die Förderung eines Opt-in-Systems und die Unterstützung von Vergütungsstrukturen könnte die DPA eine zentrale Rolle dabei spielen, die ethischen Standards in der KI-Branche zu erhöhen.