Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Die Fähigkeit von großen Sprachmodellen (LLMs), Texte zu generieren, hat in den letzten Jahren enorme Fortschritte gemacht. Doch mit dieser Entwicklung wachsen auch die Fragen bezüglich der Herkunft und der Nutzung der Trainingsdaten, insbesondere im Hinblick auf urheberrechtlich geschütztes Material. Eine aktuelle Entwicklung in diesem Bereich ist die Vorstellung des RECAP-Tools, einer Methode, die darauf abzielt, genau zu quantifizieren, wie viel urheberrechtlich geschützten Text LLMs aus ihren Trainingsdaten reproduzieren können.
Forscher der Carnegie Mellon University und des Instituto Superior Técnico haben RECAP entwickelt, um die Memorierungsfähigkeiten von KI-Modellen detailliert zu untersuchen. Der Kern von RECAP ist eine mehrstufige Feedback-Schleife, die mehrere Sprachmodelle involviert. Ziel ist es, Inhalte aus den Trainingsdaten eines LLM zu rekonstruieren, selbst wenn die Trainingsdaten selbst geheim gehalten werden.
Das Vorgehen von RECAP gliedert sich in mehrere Schritte:
Dieser Ansatz ermöglicht eine präzisere und effizientere Extraktion von Textpassagen im Vergleich zu früheren Methoden.
Die Tests mit RECAP lieferten bemerkenswerte Ergebnisse. So konnte das Tool große Teile von Büchern wie "Der Hobbit" und "Harry Potter" mit hoher Genauigkeit rekonstruieren. Beispielsweise identifizierten die Forscher mittels RECAP etwa 3.000 Passagen aus dem ersten "Harry Potter"-Buch, die von Claude 3.7 generiert wurden. Dies steht im Kontrast zu nur 75 Passagen, die mit älteren Methoden gefunden wurden. Dies deutet auf eine wesentlich höhere Reproduktionsrate hin, als bisher angenommen.
Die Studie nutzte den Benchmark "EchoTrace", der 35 vollständige Bücher umfasste: 15 gemeinfreie Klassiker, 15 urheberrechtlich geschützte Bestseller und 5 kürzlich veröffentlichte Titel, die definitiv nicht in den Trainingsdaten der Modelle enthalten waren. Zusätzlich wurden 20 Forschungsartikel von arXiv hinzugefügt. Die Modelle konnten Passagen aus fast allen Kategorien reproduzieren, außer aus den Büchern, die sie im Training nicht gesehen hatten. Dies verstärkt die Annahme, dass Modelle Materialien, denen sie ausgesetzt waren, beibehalten.
Es ist festzuhalten, dass die Erkennungswerte (ROUGE-L) für gemeinfreie Werke am höchsten waren, aber auch urheberrechtlich geschütztes Material von den Modellen detailliert wiedergegeben wurde.
Die Ergebnisse von RECAP sind für die fortlaufende Debatte um Urheberrechte im Kontext von KI von erheblicher Bedeutung. Die Transparenz darüber, welche Daten in großen KI-Modellen enthalten sind, wird zunehmend kritisch. Dies gilt insbesondere angesichts der steigenden Anzahl von Urheberrechtsklagen gegen KI-Entwickler.
Während RECAP sich auf Text konzentriert, gibt es ähnliche Berichte, dass Bildmodelle Inhalte nahezu exakt reproduzieren können, was zu Ausgaben führt, die den Originalwerken fast identisch sind. Dies verdeutlicht, dass die Problematik der Reproduktion nicht auf Textmodelle beschränkt ist.
Gerichtliche Entscheidungen in diesem Bereich sind uneinheitlich. Ein aktueller Fall in den USA, in dem ein Richter zugunsten von "Fair Use" bei Trainingsdaten entschied, setzte voraus, dass das Modell keine spezifischen Werke absichtlich memorisiert hatte. Tools wie RECAP könnten in solchen Fällen konkrete Beweise liefern. Im Gegensatz dazu hat ein deutsches Gericht entschieden, dass sowohl die Speicherung von Daten in Modellgewichten als auch die wortgetreue Textgenerierung Urheberrechte verletzen kann, wie im Fall der Reproduktion von Songtexten durch ChatGPT.
Die RECAP-Ergebnisse könnten Argumente für eine strengere Auslegung des Urheberrechts stärken, indem sie belegen, dass KI-Modelle urheberrechtlich geschütztes Material memorisieren und reproduzieren können.
Der Quellcode für RECAP ist auf GitHub verfügbar, und der "EchoTrace"-Datensatz wird auf Hugging Face gehostet, was eine weitere Untersuchung und Validierung durch die Gemeinschaft ermöglicht.
Die Geheimhaltung der Trainingsdaten durch Anbieter von LLMs ist ein zentrales Problem. Diese mangelnde Transparenz erschwert es, die genaue Zusammensetzung der Daten zu bestimmen und somit festzustellen, ob urheberrechtlich geschütztes Material ohne entsprechende Lizenzen verwendet wurde. RECAP bietet hier einen neuen Ansatz, um diese "Black Box" ein Stück weit zu öffnen und die Inhalte der Modelle zu überprüfen. Die Entwicklung und Nutzung von Tools wie RECAP könnten dazu beitragen, die Verantwortung der KI-Entwickler für die Herkunft ihrer Trainingsdaten zu erhöhen und neue Standards für die Lizenzierung und Nutzung von Daten zu schaffen.
Die Diskussionen um Urheberrecht und KI werden sich voraussichtlich intensivieren. Die Fähigkeit von LLMs, urheberrechtlich geschützte Inhalte zu reproduzieren, stellt sowohl technische als auch rechtliche Herausforderungen dar. Für Unternehmen, die LLMs einsetzen oder entwickeln, ist es entscheidend, diese Entwicklungen genau zu verfolgen und proaktive Strategien zu entwickeln, um rechtliche Risiken zu minimieren. Dies könnte die Implementierung von Mechanismen zur Erkennung und Vermeidung von Urheberrechtsverletzungen umfassen, die Nutzung von transparent lizenzierten Datensätzen wie "German Commons" oder die Anpassung von Geschäftsmodellen an neue rechtliche Rahmenbedingungen.
Die Arbeit von RECAP unterstreicht die Notwendigkeit einer kontinuierlichen Forschung und Entwicklung in diesem Bereich, um ein Gleichgewicht zwischen technologischem Fortschritt und dem Schutz geistigen Eigentums zu finden. Für die B2B-Zielgruppe von Mindverse bedeutet dies, dass ein tiefes Verständnis dieser Dynamiken unerlässlich ist, um fundierte Entscheidungen im Umgang mit KI-Technologien zu treffen und die Einhaltung rechtlicher Vorgaben sicherzustellen.
Bibliography: - Bastian, Matthias. "New RECAP tool exposes just how much copyrighted text LLM's can regurgitate." *The Decoder*, 12 Nov. 2025. - Duarte, André V., et al. "RECAP: Reproducing Copyrighted Data from LLMs Training with an Agentic Pipeline." *arXiv preprint arXiv:2510.25941*, 29 Oct. 2025. - Kemper, Jonathan. "German Commons shows that big AI datasets don't have to live in copyright limbo." *The Decoder*, 5 Nov. 2025. - Lee, Timothy B. "Meta's Llama 3.1 can recall 42 percent of the first Harry Potter book." *Understanding AI*, 12 June 2025. - Rahman, Noorjahan, and Eduardo Santacana. "Legal Risk Evaluation for Training LLMs on Copyrighted Text." *Proceedings of the 40th International Conference on Machine Learning (ICML)*, 2023. - Chen, Tong, et al. "CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation." *arXiv preprint arXiv:2407.07087*, 9 July 2024. - Cooper, A. Feder, et al. "Extracting memorized pieces of (copyrighted) books from open-weight language models." *arXiv preprint arXiv:2505.12546*, 18 May 2025. - Mueller, Felix B., et al. "LLMs and Memorization: On Quality and Specificity of Copyright Compliance." *arXiv preprint arXiv:2405.18492*, 28 May 2024. - Duarte, André Vicente, et al. "DE-COP: Detecting Copyrighted Content in Language Models Training Data." *Proceedings of the 41st International Conference on Machine Learning (ICML)*, PMLR 235:11940-11956, 2024. - "Meta prevails on fair use in AI training in Kadrey v. Meta. But Judge Chhabria cautions a better record of dilution or market harm could prevail in other cases." *Chat GPT Is Eating the World*, 25 June 2025.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen