Meta schept vaak op over hoe zijn AI-model, Llama, Open Source is. Wat het niet zegt, is op welke dataset het is getraind. Een recent juridisch proces heeft geleid tot de onthulling van documenten die enkele details over precies dat trainingsproces onthullen. En ze zijn verontrustend.
Gepirateerde boeken om het model te trainen. In de zaak Kadrey tegen Meta, waarin ook bestsellers als Sarah Silverman en Ta-Nehisi Coates betrokken zijn, wordt Meta ervan beschuldigd auteursrechtelijk beschermde werken te gebruiken om zijn kunstmatige intelligentiemodellen te trainen. Uit documenten die zijn vrijgegeven in de rechtszaak blijkt dat de aanklagers gelijk lijken te hebben.
Zuckerberg heeft ja gezegd tegen het gebruik van illegale boeken. Volgens getuigenverklaringen in de zaak heeft Zuckerberg Meta’s gebruik van een dataset genaamd LibGen goedgekeurd om de Llama-modellen te trainen. Hij deed dit ondanks het feit dat mensen in zijn team en sommige werknemers dergelijke maatregelen afkeurden. Volgens de documenten in de rechtszaak waarschuwden sommige Meta-werknemers dat het gebruik van LibGen “de onderhandelingspositie van Meta bij de toezichthouders zou kunnen ondermijnen”.
Wat is LibGen. LibGen (Library Genesis) omschrijft zichzelf als een “link aggregator”, maar in werkelijkheid was het een gigantische virtuele bibliotheek die toegang verschafte tot auteursrechtelijk beschermde werken van uitgeversgroepen zoals McGraw Hill of Pearson Education. Het bedrijf is meerdere keren aangeklaagd en heeft ook tientallen miljoenen dollars boetes gekregen voor het schenden van auteursrechten. In september 2024 kregen ze een boete van 30 miljoen dollar, maar het is niet bekend wie de leiding heeft over deze “spookbibliotheek”, waardoor het voor uitgeversgroepen erg moeilijk is om deze fondsen te ontvangen.
Wulpsheid zonder grenzen. In april 2024 sprak The New York Times over hoe techbedrijven omgingen met deze vraatzuchtige honger naar gegevens om hun modellen te trainen. Op een gegeven moment ging Meta zelfs zo ver dat ze mensen in Afrika inhuurden om samenvattingen van boeken met auteursrechtelijk beschermde inhoud op te graven “omdat het niet mogelijk is om die gegevens niet te verzamelen”. In dat onderzoek beschuldigde Meta OpenAI van het gebruiken van auteursrechtelijk beschermd materiaal zonder toestemming, en het management merkte op hoe “het te lang zou duren om te onderhandelen over licenties met uitgevers, artiesten, muzikanten en de media-industrie”. De praktijken waar bedrijven zich mee inlaten zijn bijvoorbeeld het gebruik van foto’s van kinderen om deze modellen te trainen.
Het niet laten lijken alsof ze auteursrechtelijk beschermd zijn. Volgens de advocaat van de aanklagers schreef een Meta-ingenieur genaamd Nikolay Bashlykov een programma om copyright-informatie te verwijderen uit de e-books die ze van LibGen verzamelden om het model te trainen. Ze verwijderden ook die labels van de wetenschappelijke tijdschriftartikelen die ze gebruikten in dat Llama-trainingsproces.
En ze hielpen ook bij de distributie van die werken. In Meta gebruikten ze deze werken blijkbaar niet alleen om LibGen te trainen, maar werden ze ook een zaadje of knooppunt in het torrentnetwerk waardoor LibGen werken werden verspreid en zo hielpen ze LibGen te verspreiden. Dit versterkt nog de inbreuk op het auteursrecht, die niet beperkt was tot het gebruik van de werken voor Llamatraining, maar tot het dienen als verspreidingsmechanisme.
Een moeilijke zaak. Voorlopig is er nog geen duidelijke uitspraak over wat er gebeurd is, en al deze beschuldigingen richten zich op de eerdere versies van Meta. In 2023 verwierp een rechtbank de aanklachten tegen Meta al op een identieke grond. Het bedrijf van Mark Zuckerberg beweerde toen dat het eerlijk gebruik had gemaakt van de gegevens, maar dat argument gaat deze keer misschien niet op. Rechter Vince Chhabria weigerde namelijk om gegevens achter te houden die Meta liever weggelaten zag uit de documentatie van de zaak.
Meta is (waarschijnlijk) niet de enige. Hoewel de rechtszaak in dit geval tegen Meta is, zijn er vele andere van kracht die bijvoorbeeld The New York Times tegen Microsoft en OpenAI opzetten. De laatste werd in feite beschuldigd van hetzelfde als Meta door acht publicaties van de Alden Global uitgeversgroep in april 2024, hoewel het waar is dat het in de afgelopen maanden overeenkomsten heeft gesloten met uitgeversgroepen zoals Associated Press, Axel Springer, Prisa en Le Monde om hun inhoud in licentie te geven en zo hun AI-modellen op een legitieme manier te kunnen trainen met deze gegevens. Ondertussen is Google er duidelijk over dat het zijn modellen zal trainen op alles wat we publiceren op het internet en Perplexity is niet gestopt met iets soortgelijks te doen en het web te plunderen om zijn modellen te trainen. Het is niet duidelijk of dit ook auteursrechtelijk beschermde werken omvat, maar het lijkt moeilijk dat er geen gevallen zijn waarin dergelijke schendingen van het auteursrecht hebben plaatsgevonden.