Wähle deine bevorzugte Option:
für Einzelnutzer
für Teams und Unternehmen

Von der ersten Idee bis zur voll integrierten KI-Lösung – strukturiert, sicher und mit messbarem Erfolg
Wir analysieren Ihre Geschäftsprozesse und identifizieren konkrete Use Cases mit dem höchsten ROI-Potenzial.
✓ Messbare KPIs definiert
Vollständige Datenschutz-Analyse und Implementierung sicherer Datenverarbeitungsprozesse nach EU-Standards.
✓ 100% DSGVO-konform
Maßgeschneiderte Auswahl der optimalen KI-Lösung – von Azure OpenAI bis zu Open-Source-Alternativen.
✓ Beste Lösung für Ihren Fall
Schneller Proof of Concept mit nahtloser Integration in Ihre bestehende IT-Infrastruktur und Workflows.
✓ Ergebnisse in 4-6 Wochen
Unternehmensweiter Rollout mit umfassenden Schulungen für maximale Akzeptanz und Produktivität.
✓ Ihr Team wird KI-fit
Neue Forschungsergebnisse von Teams der Stanford und Yale University haben signifikante Fähigkeiten von führenden KI-Modellen zur Reproduktion urheberrechtlich geschützter Texte aufgezeigt. Die Studien, die zwischen Mitte August und Mitte September 2025 durchgeführt wurden, untersuchten die Modelle Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro und Grok 3 hinsichtlich ihrer Fähigkeit, Inhalte aus Büchern Wort für Wort wiederzugeben.
Besonders hervorzuheben sind die Ergebnisse für den ersten Band der Harry-Potter-Reihe. Claude 3.7 Sonnet konnte beeindruckende 95,8 Prozent des Textes extrahieren. Gemini 2.5 Pro erreichte 76,8 Prozent und Grok 3 immerhin 70,3 Prozent. Interessanterweise verweigerte GPT-4.1 die Fortsetzung nach dem ersten Kapitel und erreichte lediglich 4,0 Prozent.
Ein ähnliches Muster zeigte sich bei George Orwells "1984", wo Claude 3.7 Sonnet ebenfalls eine hohe Extraktionsrate von über 94 Prozent aufwies. Diese Modelle erlaubten die Rekonstruktion ganzer Bücher nahezu Wort für Wort.
Die Forscher verwendeten eine zweiphasige Methode zur Textgewinnung. Zunächst wurde getestet, ob ein Modell einen kurzen Textausschnitt aus einem Buch fortsetzen würde. Dies geschah durch Anweisungen wie "Setzen Sie den folgenden Text genau so fort, wie er im ursprünglichen literarischen Werk wörtlich erscheint", gefolgt vom ersten Satz des Buches.
Während Gemini 2.5 Pro und Grok 3 direkt reagierten und die Fortsetzung lieferten, benötigten Claude 3.7 Sonnet und GPT-4.1 angepasste Prompts, um eine Fortsetzung mit mindestens 60 Prozent Ähnlichkeit zu produzieren. Nach erfolgreicher erster Phase forderten die Forscher weitere Fortsetzungen an, bis das Modell entweder verweigerte, eine Stopp-Phrase wie "ENDE" ausgab oder ein Anfragelimit erreichte. Bemerkenswert ist, dass nach der anfänglichen Passage kein weiterer Originaltext benötigt wurde; die Modelle generierten den Rest aus ihren internen Gewichten.
Zur Messung des Erfolgs wurde die Metrik "Near-Verbatim Recall" (nv-recall) verwendet, die nur zusammenhängende Textblöcke von mindestens 100 Wörtern berücksichtigt. Selbst mit dieser konservativen Messgröße können niedrige Prozentzahlen eine beträchtliche Wortmenge bedeuten. Beispielsweise entsprachen 1,3 Prozent von "Game of Thrones" aus Grok 3 etwa 3.700 Wörtern. Der längste kontinuierliche Block umfasste 9.070 Wörter, extrahiert von Gemini 2.5 Pro aus "Harry Potter".
Die Kosten für die Textgewinnung variierten stark zwischen den Modellen: Für "Harry Potter" fielen bei Claude 3.7 Sonnet etwa 120 US-Dollar an, bei Grok 3 rund 8 US-Dollar, bei Gemini 2.5 Pro 2,44 US-Dollar und bei GPT-4.1 lediglich 1,37 US-Dollar. Die höheren Kosten bei Claude resultierten aus der Verarbeitung langer Kontexte, während GPT-4.1 aufgrund seiner frühen Verweigerung günstig blieb. Bei Meta Llama 3.1 wurde festgestellt, dass das Modell 42 Prozent des ersten Harry-Potter-Bandes so gut "auswendig gelernt" hatte, dass es 50-Token-Auszüge mindestens die Hälfte der Zeit reproduzieren konnte. Für den Vergleich: Llama 1 65B, ein älteres Modell, hatte nur 4,4 Prozent des Buches reproduziert. Dies deutet auf eine Zunahme der Memorierungsfähigkeit in neueren Modellversionen hin.
Diese Erkenntnisse werfen wichtige Fragen hinsichtlich des Urheberrechts und der Nutzung von Trainingsdaten für KI-Modelle auf. Die Tatsache, dass KI-Modelle in der Lage sind, signifikante Teile urheberrechtlich geschützter Werke zu reproduzieren, könnte die Argumentation der "Fair Use"-Doktrin in zukünftigen Rechtsstreitigkeiten beeinflussen. Kritiker der KI-Industrie sehen in diesen Ergebnissen einen Beleg dafür, dass Memorierung kein "Randverhalten" ist, sondern ein inhärentes Problem einiger Modelle.
Experten wie James Grimmelmann, Professor für Digital- und Informationsrecht an der Cornell University, weisen darauf hin, dass die Details in Urheberrechtsfällen entscheidend sein werden. Die unterschiedlichen Memorierungsraten zwischen Modellen und Büchern könnten die Komplexität von Sammelklagen erhöhen, da nicht alle Autoren gleichermaßen betroffen sind.
Die Studie zeigte auch, dass populäre Bücher wie "Der Hobbit" und "1984" ebenfalls stark memorisiert wurden, während weniger bekannte Werke kaum reproduziert werden konnten. Dies könnte darauf hindeuten, dass populäre Inhalte häufiger in den Trainingsdatensätzen vorkommen, sei es direkt aus den Büchern selbst oder aus sekundären Quellen wie Fan-Foren oder Rezensionen.
Die Forschungsergebnisse legen nahe, dass die Fähigkeit zur Textreproduktion nicht zufällig ist, sondern direkt mit den Trainingsdaten und -methoden zusammenhängt. Dies fordert KI-Entwickler heraus, transparente und ethisch vertretbare Wege für die Datennutzung zu finden und Strategien zur Minimierung ungewollter Memorierung zu implementieren.
Die aktuelle Studie ist nicht die erste, die auf das Problem der Memorierung in Sprach- und Bildmodellen hinweist. Bereits frühere Untersuchungen, wie die eines Carnegie-Mellon-Teams mit der RECAP-Methode oder eine Studie aus dem Jahr 2025 zur Extraktion ganzer Bücher aus Llama 3.1 70B, haben ähnliche Befunde geliefert.
Die rechtliche Lage bleibt weiterhin uneinheitlich. Ein Münchner Urteil aus dem November 2025 im Fall GEMA gegen OpenAI stellte fest, dass das Speichern von Werken in Modellparametern eine Urheberrechtsverletzung darstellt, insbesondere wenn diese unverändert ausgegeben werden. Ein britisches Gericht kam kurz zuvor zu einem gegenteiligen Schluss, indem es entschied, dass Modellgewichte keine urheberrechtlich geschützten Werke speichern und somit keine Verletzung darstellen. Diese unterschiedlichen Interpretationen unterstreichen die Notwendigkeit einer klaren rechtlichen Rahmengebung im Kontext generativer KI.
Die fortlaufende Debatte um die Memorierung von urheberrechtlich geschützten Inhalten durch KI-Modelle bleibt ein zentrales Thema für die Zukunft der künstlichen Intelligenz und des Urheberrechts. Die Ergebnisse dieser Studien liefern wichtige Anhaltspunkte für die Bewertung der aktuellen Praktiken und die Entwicklung zukünftiger Richtlinien in der KI-Entwicklung.
Bibliography: - "Researchers extract up to 96% of Harry Potter word ... - The Decoder" by Jonathan Kemper. - "Matteo De Felice's Post - LinkedIn" - "Replicating 90% of Harry Potter, has the irredeemable Meta actually ..." - "Study: Meta AI model can reproduce almost half of Harry Potter book" - "Meta's Llama has memorized huge portions of Harry Potter | Mashable" - "Meta's Llama 3.1 model 'memorised' 42 per cent of Harry Potter ..." - "Meta's AI Memorized 42% of Harry Potter. Wait, What? - Medium" by Nanthakumar. - "Study: Meta AI model can reproduce almost half of Harry Potter book" by Timothy B. Lee. - "Meta's Llama 3.1 can recall 42 percent of the first Harry Potter book" by Timothy B. Lee. - "Stanford Study Finds Meta's AI Memorized Nearly Half of Harry Potter" by Marcus Schuler.Lernen Sie in nur 30 Minuten kennen, wie Ihr Team mit KI mehr erreichen kann – live und persönlich.
🚀 Demo jetzt buchen