Największa kradzież dzieł w historii ludzkości, czyli jak Meta szkoliła swoją sztuczną inteligencję na pirackich książkach. Legalne opcje uznano za "nieracjonalnie drogie" i za "niezwykle powolny" proces.


O sztucznej inteligencji głośno jest od lat. Choć dopiero dziś coraz częściej mamy okazję z nią obcować. Dużym problemem dla wyszkolenia sztucznej inteligencji okazała się jednak potrzeba olbrzymich ilości tekstów wysokiej jakości.
Co ważne, książki są jednym z najłatwiej dostępnych źródeł tekstu. W przeciwieństwie do stron zawierających treści optymalizowane pod wyszukiwarki (SEO), są źródłem wysokiej jakości. To o tyle istotne, ponieważ AI karmiące się AI obniża własną jakość, a przecież w sieci mnóstwo treści już zostało wygenerowanych przez sztuczną inteligencję. Dlatego też książki sprzed 2020 roku dają gwarancję, że nie zawierają treści powstałych przy jej użyciu.
Jak ujawnił "The Atlantic", Mark Zuckerberg, dyrektor generalny Mety, zatwierdził korzystanie z LibGen (skrót od "Library Genesis"), czyli nielegalnego repozytorium plików, które było źródłem treści wykorzystywanych do trenowania modelu AI Mety. LibGen powstał ok. 2008 roku w Rosji, to system, w którym znajduje się ponad 7,5 mln plików z książkami i 81 mln plików z pracami badawczych. To jedna z największych internetowych pirackich bibliotek na świecie, jednak przydatna dla wielu studentów (i jak się okazuje nie tylko ich).
Zdaniem "The Atlantic" pracownicy Mety rozmawiali z wieloma firmami o zakupie licencji do książek w celu wykorzystania ich w pracach nad AI, jednak efekty były niezadowalające. "Wydaje mi się to nieracjonalnie drogie" — napisał jeden z pracowników na wewnętrznym czacie firmy. Starszy menedżer z zespołu pracującego nad Llama 3 dodał, że byłby to również "niezwykle powolny" proces.
Po tym jak sprawa wyszła na jaw, środowiska autorskie z całego świata chcą pozwać Metę. Francuscy wydawcy i autorzy już w marcu 2025 r. ogłosili taki plan. Vincent Montagne, prezes Krajowego Związku Wydawców, podczas konferencji prasowej oskarżył Metę o "nieprzestrzeganie praw autorskich i pasożytnictwo". W Polsce Unia Literacka (stowarzyszenie broniące praw autorów)
także zachęca autorów do sprawdzenia bazy danych "The Atlantic".
- Mamy do czynienia z największą kradzieżą dzieł w historii ludzkości. Kradzieżą, na którą pozwalają rządy. Nawet Unia Europejska, mimo wysiłków ze strony organizacji zrzeszających twórców, takich jak European Writers Council, reaguje poniżej oczekiwań. Siła tzw. big techów, póki co jest obezwładniająca. A przecież piractwo jest kradzieżą, za które należy karać - mówi cytowana przez "Gazetę Wyborczą" Grażyna Plebanek, pisarka zaangażowana w działania Unii Literackiej.
Oprac. JM