Bücher gelten als Kulturgut. Für KI-Unternehmen sind sie jedoch in erster Linie wertvolles Schulungsmaterial. Um ihre Sprachmodelle weiterzuentwickeln, kaufen Unternehmen wie Anthropic Millionen gedruckter Bücher. Die Werke werden anschließend nicht weiterverkauft oder archiviert. Stattdessen schneiden Dienstleister die Buchrücken ab, digitalisieren jede einzelne Seite mit Hochleistungsscannern und entsorgen die Papierstapel anschließend in Recyclinganlagen.
Gerichtsdokumente aus einem Urheberrechtsstreit gegen das US-Unternehmen Anthropic zeigen nun, wie systematisch dieses Vorgehen ist. Die Dokumente bieten einen seltenen Einblick in den Wettlauf der KI-Branche um hochwertige Trainingsdaten. Sie offenbaren, dass Anthropic in großem Umfang gebrauchte Bücher aus Europa bezieht – vor allem über Plattformen wie Better World Books und den britischen Händler World of Books. Diese Händler verfügen über riesige Lagerbestände und liefern die Werke zu günstigen Preisen in die USA. Dort werden die Bücher in spezialisierten Digitalisierungszentren verarbeitet. Der gesamte Prozess ist auf Effizienz ausgelegt: Innerhalb weniger Tage werden Hunderttausende von Büchern zu Dateien umgewandelt.
Warum Bücher für das KI-Training so wertvoll sind
Die großen Sprachmodelle von Anthropic, OpenAI, Meta oder Google lernen aus riesigen Textmengen. Je hochwertiger die Texte sind, desto besser können die Systeme Sprache verstehen und selbst formulieren. Während viele Inhalte im Internet aus kurzen Beiträgen, Foren oder Kommentaren bestehen, bieten Bücher eine sorgfältig aufbereitete Sprache, längere Argumentationsketten und komplexe Erzählstrukturen. Sie sind daher besonders attraktiv, um KI-Modellen gutes Schreiben beizubringen und nicht nur die oft unzureichende Sprache vieler Websites nachzuahmen. Gerade deshalb spielen Bücher eine besondere Rolle in der Entwicklung der nächsten Generation von KI-Assistenten.
Die internen Dokumente von Anthropic bringen es auf den Punkt: Bücher sollen KI-Modellen nicht nur Fakten liefern, sondern auch Stil, Logik und Argumentationsfähigkeit vermitteln. Dies ist besonders wichtig, weil große Sprachmodelle zunehmend in professionellen Kontexten eingesetzt werden – etwa in der Rechtsberatung, der Medizin oder der Wissenschaft. Dort sind präzise Formulierungen und korrekte Schlussfolgerungen unerlässlich.
Kaufen statt herunterladen
Anfangs griffen KI-Unternehmen offenbar häufig auf sogenannte Schattenbibliotheken wie LibGen zurück. Diese Plattformen bieten Millionen digitalisierter Bücher, die ohne Zustimmung der Rechteinhaber verbreitet werden. Doch genau diese Praxis führte zu einer Klagewelle. Autoren und Herausgeber werfen mehreren KI-Unternehmen vor, ohne Genehmigung urheberrechtlich geschützte Werke zum Trainieren ihrer Modelle zu verwenden. Die Klagen erreichten auch die Gerichte in den USA und Europa, wo sie für Aufsehen sorgten.
Anthropic entschied sich daher offenbar für einen anderen Weg: Anstatt digitale Kopien aus fragwürdigen Quellen herunterzuladen, kaufte das Unternehmen in großem Umfang gedruckte Bücher und digitalisierte sie selbst. Dies mag auf den ersten Blick legaler erscheinen, birgt jedoch eigene rechtliche Fallstricke. Denn auch der Erwerb und die Digitalisierung von Büchern ohne Lizenzvereinbarung mit den Rechteinhabern könnte gegen das Urheberrecht verstoßen. Die Frage, ob das Scannen von Büchern zu Trainingszwecken als „Fair Use“ gilt, ist in den USA umstritten und wird derzeit vor mehreren Gerichten verhandelt. In Europa sind die Regeln noch strenger, da das Urheberrecht der EU keine generelle Ausnahme für KI-Training vorsieht.
Warum die Bücher aus Europa kommen
Den Gerichtsunterlagen zufolge vertraute Anthropic beim Großeinkauf auf Better World Books und den britischen Gebrauchtbuchhändler World of Books. Solche Händler verfügen über enorme Bestände an gebrauchten Büchern und können große Mengen vergleichsweise günstig liefern. Für ein Unternehmen, das Hunderttausende oder sogar Millionen Werke digitalisieren möchte, ist dies viel einfacher, als einzelne Titel von Verlagen oder Autoren zu lizenzieren. Der vielleicht überraschendste Teil des Prozesses findet jedoch nach dem Kauf statt: die Zerstörung der Bücher.
Warum gerade europäische Bücher? Ein Grund könnte die Verfügbarkeit sein: In Europa gibt es einen großen Markt für gebrauchte Bücher, mit gut etablierten Lieferketten. Außerdem sind viele Werke in englischer Sprache verfasst, was sie für US-KI-Modelle besonders nützlich macht. Hinzu kommt, dass die Logistik innerhalb Europas günstig ist und die Digitalisierungszentren in den USA die eingehenden Container schnell verarbeiten können.
Warum die Bücher zerstört werden
Um Bücher möglichst schnell zu digitalisieren, müssen ihre Seiten einzeln durch Hochleistungsscanner geführt werden. Dazu wird zunächst der Buchrücken sauber abgeschnitten. Erst dann können die Seiten automatisch erfasst werden. Nach dem Scannen werden die Papierseiten recycelt. Die Bücher existieren dann nur noch als digitale Kopien. Dies ist die effizienteste Methode für Unternehmen, die in kurzer Zeit Millionen von Seiten erfassen möchten.
Die Zerstörung der Bücher hat jedoch symbolische und praktische Konsequenzen. Kritiker sehen darin eine Missachtung des kulturellen Werts von Büchern. Für die KI-Unternehmen zählt dagegen nur die Geschwindigkeit: Je schneller sie die Trainingsdaten erhalten, desto eher können sie ihre Modelle verbessern und im Wettbewerb bestehen. Die Recyclingquoten der Papiermenge sind hoch – aber das ändert nichts daran, dass die Bücher als physische Objekte unwiederbringlich verloren sind.
Der Fall beschäftigt inzwischen die Gerichte. Autoren und Verlage haben Klagen eingereicht, in denen sie Unterlassung und Schadensersatz fordern. Sie argumentieren, dass die Digitalisierung ohne Zustimmung eine Urheberrechtsverletzung darstellt, selbst wenn die Bücher legal erworben wurden. Die KI-Unternehmen hingegen berufen sich auf das Prinzip des „Fair Use“ in den USA, wonach die Nutzung urheberrechtlich geschützter Materialien zu Forschungs- und Bildungszwecken erlaubt sein kann. Die Entscheidungen in diesen Verfahren könnten weitreichende Folgen für die gesamte KI-Branche haben.
Bemerkenswert ist, dass Anthropic nicht das einzige Unternehmen ist, das diesen Weg geht. Auch andere Firmen wie OpenAI, Meta und Google bauen ihre eigenen riesigen Bibliotheken digitalisierter Bücher auf. Die Geheimhaltung ist groß, denn es geht um Milliarden von Investitionen in die nächste KI-Generation. Die Gerichtsdokumente in Sachen Anthropic geben nun erstmals einen detaillierten Einblick in die Praktiken der Branche – und zeigen, wie weit Unternehmen gehen, um an die begehrten Trainingsdaten zu kommen.
Der Streit um die Bücher wird voraussichtlich noch Jahre dauern. In der Zwischenzeit werden die KI-Unternehmen weiter Bücher kaufen, scannen und vernichten. Das Kulturgut Buch wird dabei zur reinen Datenquelle degradiert – ein Vorgang, der viele Autoren und Leser schockiert. Die europäischen Gebrauchtbuchhändler hingegen freuen sich über den unerwarteten Boom, denn die KI-Konzerne zahlen gute Preise für Massenware. Ob dieser Trend nachhaltig ist, bleibt abzuwarten. Fest steht jedoch, dass die Kontroverse um die Vernichtung von Büchern ein neues Kapitel in der Debatte um Urheberrecht und künstliche Intelligenz aufgeschlagen hat.
Source: Die heutigen Nachrichten News