Skip to content
INZIU INZIU.cc

Ai-trainingsdata raakt op in 2026

Epoch AI waarschuwt met 80% zekerheid: hoogwaardige trainingsdata raakt op tussen 2026-2028. Analyse van de limiet van 300 biljoen tokens, de economie van overtraining en model collapse, onderbouwd door Nature (2024).

Door AI Twerp • Geschatte leestijd 14 min
AI Business AI Personal AI Technology AI Premise AI Signals

Epoch AI data-uitputting 2026 en het moment dat menselijke tekst opraakt

Stel je voor: een machine bouwen die alles kan lezen wat de mensheid ooit heeft geschreven. Stel je dan voor dat die machine hongeriger wordt dan je ooit had verwacht. Hongeriger dan alle boeken, artikelen, forumberichten en chatberichten die ooit zijn opgeslagen kunnen voeden. Dat is precies waar de AI-industrie nu staat, op de rand van een crisis die maar weinigen zien aankomen, maar die de hele race naar kunstmatige intelligentie kan herschrijven—een kwestie van strategie net zo goed als van schaal. Dit is een diepere duik in de databeperking achter het kernsignaal: Waarom AGI niet vóór 2037 komt: de harde grenzen van data en energie.

Tussen 2026 en 2032 raakt de wereldwijde voorraad bruikbare, door mensen geschreven tekst op. Dat is geen speculatie, maar de conclusie van Epoch AI, een onderzoeksinstituut dat met 80 procent zekerheid voorspelt dat we de bodem van de databron zullen bereiken [1]. Ongeveer 300 biljoen tokens aan hoogwaardige publieke tekst vormen de totale voorraad. Bij de huidige opschalings- en overtrainingspercentages kan die limiet al in 2026 worden bereikt [2]. Daarna begint een nieuw tijdperk waarin kunstmatige intelligentie niet langer wordt gevoed door menselijke woorden, maar door zijn eigen uitdovende echo’s.

The Core of the Signal

De volgende golf van AI-vooruitgang wordt minder bepaald door grotere modellen en meer door wie de controle heeft over schone menselijke data. Dit is geen ver weg academisch debat, maar een nabije beperking die budgetten, licentiedeals en productkwaliteit vormgeeft. Als het open web opdroogt, waar komt de volgende trainingsset dan vandaan, en wat valt er stilletjes buiten de boot? Het antwoord bepaalt of AI gegrond blijft of afdrijft naar zelfgetrainde eenvormigheid.

  • Geef databeleid nu prioriteit: kaart in kaart welke menselijke bronnen je legaal kunt benaderen en vernieuwen.
  • Onderhandel vroeg over licenties: leg betrouwbare pijplijnen vast voordat concurrenten prijzen en restricties opdrijven.
  • Audit synthetische feedbackloops: meet het besmettingsrisico en bescherm signalen uit de lange staart en van minderheden.

De ironie is wrang. Net wanneer AI-systemen iets beginnen te vertonen dat op denken lijkt, dreigt de brandstof waarop ze draaien op te raken.

De wiskunde achter de schaarste

De schatting van Epoch AI rust op solide grond. Het onderzoeksinstituut presenteerde zijn bevindingen op de International Conference on Machine Learning 2024 in Wenen, na grondige peer review. De effectieve voorraad door mensen gegenereerde publieke tekst bedraagt volgens hun berekeningen ongeveer 300 biljoen tokens, met een betrouwbaarheidsinterval van 90 procent tussen 100 en 1.000 biljoen tokens. Als “300 biljoen” als een verzonnen getal klinkt, helpt het om te zien wat een token eigenlijk is en waarom het de meter wordt die in stilte de schaal beperkt: AI-tokens, De Verborgen Economie.

CommonCrawl, de grootste verzameling publiek beschikbare internettekst, levert ongeveer 130 biljoen tokens op. Het volledig geïndexeerde web brengt dat naar 510 biljoen tokens. Het complete web, inclusief content achter inlogschermen en privénetwerken, komt op ongeveer 3.100 biljoen tokens. Maar de praktijk blijkt weerbarstiger dan de theorie. Niet alle data is bruikbaar. Kwaliteitsfilters, deduplicatie van herhaalde content en training over meerdere epochs beperken wat daadwerkelijk beschikbaar is tot een fractie van het totaal.

Pablo Villalobos, hoofdauteur van de Epoch AI-studie, bevestigde dat de tijdlijn weliswaar enigszins is opgeschoven door nieuwe technieken, maar dat de fundamentele schaarste reëel blijft. Bij compute-optimale training is er voldoende data voor een model met vijf keer tien tot de macht 28 floating point operations, een niveau dat naar verwachting in 2028 wordt bereikt. Maar bij overtraining—een praktijk waarbij modellen intensief worden gevoed met dezelfde data om ze efficiënter te maken in gebruik—raakt de voorraad eerder op. Meta’s Llama 3 werd overgetraind met een factor tien. Als andere labs overstappen op overtrainingsfactoren van honderd, kan de data al in 2025 opraken.

De miljardendeals om tijd te kopen

De grote AI-bedrijven zien de crisis aankomen en reageren met een ongekende golf van contentlicenties [4]. News Corp sloot een deal met OpenAI ter waarde van meer dan 250 miljoen dollar voor vijf jaar toegang. Reddit onderhandelt met Google en OpenAI over 203 miljoen dollar per jaar. Associated Press, Financial Times, Condé Nast en tientallen andere uitgevers sluiten allemaal deals die in totaal miljarden dollars waard zijn, waardoor trainingsdata net zo goed een toets van governance wordt als van kapitaal.

Reddit is de meest geciteerde bron in AI-modellen geworden, drie keer vaker dan Wikipedia, volgens analyse van Profound AI. Het platform onderhandelt over dynamische prijsstelling, waarbij de waarde van specifieke datasets wordt gemeten aan hun bijdrage aan benchmarkscores. De boodschap is duidelijk. Authentieke menselijke data wordt schaars en daardoor waardevol. Wat ooit gratis was via webscraping, wordt nu verkocht aan de hoogste bieder.

Maar deze deals lossen het fundamentele probleem niet op. Ze kopen tijd, geen onbeperkte voorraad. De hoeveelheid nieuwe content die dagelijks wordt gepubliceerd, kan simpelweg niet de tred bijhouden met de honger van exponentieel groeiende modellen.

Het synthetische alternatief en zijn vloek

Wanneer menselijke data opraakt, lijkt synthetische data een logische stap. AI-modellen kunnen immers zelf tekst genereren. Waarom die output niet gebruiken om de volgende generatie te trainen? Sam Altman van OpenAI experimenteert hiermee. Ilya Sutskever, medeoprichter van OpenAI, signaleerde een paradigmaverschuiving toen hij zei dat de jaren 2010 het tijdperk van opschaling waren, maar dat we nu terug zijn in het tijdperk van verwondering en ontdekking.

Wat hierna komt, blijkt een valkuil. In juli 2024 publiceerde Nature een baanbrekend onderzoek van de Oxford-wetenschappers Ilia Shumailov en Zakhar Shumaylov, dat aantoonde dat AI-modellen die worden getraind op output van andere AI-modellen geleidelijk afglijden tot ze instorten [3]. Het mechanisme is subtiel maar genadeloos. Model collapse verloopt in twee fasen. De vroege instorting begint vrijwel onmerkbaar wanneer het model informatie verliest over de uitschieters van de verdeling, vooral minderheidsdata en zeldzame gebeurtenissen. Dit is moeilijk te detecteren omdat de algehele prestatie stabiel kan blijven of zelfs kan verbeteren.

De late instorting laat geen twijfel meer over. Het model convergeert naar een verdeling met drastisch verminderde variantie. De output vertoont nauwelijks nog gelijkenis met de originele data. Concepten raken verward en het model wordt effectief waardeloos. Een concreet voorbeeld uit de studie toont een taalmodel dat na vier generaties training op zijn eigen output volledig irrelevante tekst over springhazen produceerde toen het werd gevraagd naar middeleeuwse architectuur.

De onderzoekers beschrijven het fenomeen als Model Autophagy Disorder. Wanneer generatieve modellen iteratief worden getraind op hun eigen output of die van andere modellen, verliezen volgende generaties onvermijdelijk aan kwaliteit of diversiteit, tenzij elke ronde voldoende verse, echte data bevat. Margaret Mitchell, Chief Ethics Scientist bij Hugging Face, merkte op dat de oplossing niet is om synthetische data af te wijzen, maar om het gebruik ervan te reguleren met slimme sampling, menselijk toezicht en herkomsttracering.

Terwijl AI-gegenereerde content het internet overspoelt, wordt het probleem zelfversterkend, in een soort digitale ouroboros. Datasets die van het web worden geschraapt, bevatten onvermijdelijk steeds meer AI-gegenereerde content, wat feedbackloops creëert die onmogelijk te ontwarren zijn zonder radicale transparantie over de oorsprong van elke zin.

Tekenen van vertraging en de datamuur

Illustratie van de trainingsdatacrisis
Wanneer het web door verse menselijke tekst heen raakt

De eerste tekenen dat de AI-industrie tegen een muur aanloopt, zijn al zichtbaar [5]. Het komende vlaggenschipmodel van OpenAI, intern Orion genoemd, zou volgens bronnen binnen het bedrijf aanzienlijk minder prestatieverbetering laten zien ten opzichte van eerdere modellen dan de sprong die GPT-4 maakte ten opzichte van GPT-3. Ook Google heeft moeite om vergelijkbare prestatiesprongen te realiseren voor Gemini. De verbetering is er, maar blijft achter bij de verwachtingen.

Dario Amodei, CEO van Anthropic, schatte in 2023 een kans van tien procent dat het opschalen van AI-systemen zou kunnen stagneren door een tekort aan data. Hij merkte tegelijk op dat trainingskosten explosief stijgen. Huidige modellen kosten ongeveer 100 miljoen dollar, modellen die nu in training zijn kosten ongeveer 1 miljard dollar, en verwachte modellen tussen 2025 en 2027 zouden 10 tot 100 miljard dollar kunnen kosten. Die kosten stijgen niet omdat rekenkracht duurder wordt, maar omdat modellen steeds meer data nodig hebben om nog incrementele verbeteringen te behalen, terwijl die data steeds schaarser wordt.

Nicolas Papernot, assistent-professor aan de University of Toronto, merkte op dat we niet noodzakelijk steeds grotere modellen moeten trainen. Krachtigere AI-systemen bouwen kan ook voortkomen uit het trainen van modellen die meer gespecialiseerd zijn voor specifieke taken. Dat is een fundamentele verschuiving van groter is beter naar betere data is beter, een erkenning dat de opschalingsstrategie haar grenzen heeft bereikt en dat innovatie nu moet komen van efficiëntie in plaats van uitbreiding.

Mogelijke uitwegen en alternatieve paden

Ondanks de grimmige vooruitzichten bestaan er mogelijke oplossingen. Epoch AI’s eigen analyse suggereert dat AI-ontwikkelaars, ondanks de uitputting van publieke tekstdata, waarschijnlijk niet volledig droog komen te zitten. Twee bronnen bieden een uitweg: synthetische data, vooral voor redeneertraining, en multimodale data zoals afbeeldingen, video en audio.

Multimodaal leren zou de beschikbare trainingsdata mogelijk kunnen verdrievoudigen. Na correctie voor onzekerheden rond datakwaliteit schat Epoch AI dat er tegen 2030 het equivalent van 400 biljoen tot twintig triljoen tokens beschikbaar is voor training. Video en audio bevatten enorme, vrijwel onaangeroerde databronnen. Jensen Huang van Nvidia merkte op dat elke bedrijfsdatabase een goudmijn is en dat elk bedrijf op zo’n goudmijn zit, verwijzend naar privédata die bedrijven in eigen beheer hebben.

Trainingstechnieken en algoritmes voor grote taalmodellen verbeteren met ongeveer 0,4 ordes van grootte per jaar, volgens onderzoek van Ho et al uit 2024. Dat betekent dat modellen meer leren van minder data, wat de druk op de voorraad verlicht. Onderzoek van het Center for Data Science van NYU suggereert dat het probleem van model collapse kan worden beperkt door reinforcement-technieken te gebruiken om hoogwaardige synthetische data te selecteren—een vorm van innovatie die meer telt dan nog een extra parameter.

Andere strategieën zijn dataccumulatie, waarbij nieuwe synthetische data wordt toegevoegd aan bestaande echte data in plaats van die te vervangen, watermerken van AI-content om te voorkomen dat het terugvloeit in trainingssets, en negatieve sturing tijdens training. Deze tonen veelbelovende resultaten, maar geen ervan is getest op de schaal die nodig is om de hele industrie te redden van datahonger.

De waarheid is zeldzaam, maar het aanbod overtreft nog altijd de vraag.

– Josh Billings

Juridische complicaties en retroactieve verboden

Een groeiend aantal auteursrechtzaken dreigt grote delen van waardevolle trainingsdata retroactief ontoegankelijk te maken. The New York Times daagde OpenAI en Microsoft voor de rechter, gevolgd door Raw Story, The Intercept en groepen kranten. Als rechters of wetgevers vaststellen dat toestemming nodig was voor het gebruik van auteursrechtelijk beschermde teksten in trainingsdata, zou een groot deel van wat Elon Musk ooit “de cumulatieve som van menselijke kennis” noemde, retroactief verboden kunnen worden.

Het moment waarop bruikbare data opraakt, zou dan plotseling al achter ons kunnen liggen in plaats van voor ons. Dit juridische risico vergroot de urgentie van de datacrisis en verschuift de discussie van een technisch probleem naar een vraag over governance en intellectuele-eigendomsrechten in het tijdperk van machine learning. De uitkomst van deze rechtszaken bepaalt of AI-bedrijven toegang behouden tot decennia aan gearchiveerde menselijke kennis, of gedwongen worden terug te vallen op gelicentieerde en synthetische bronnen die kwalitatief en kwantitatief inferieur zijn.

Het keerpunt en de transitie die voor ons ligt

De AI-industrie nadert een keerpunt waarop exponentiële groei, gedreven door simpelweg meer data en meer rekenkracht, niet eindeloos kan doorgaan. De vergelijking met een letterlijke goldrush die eindige natuurlijke hulpbronnen uitput, dringt zich op. Net als bij fossiele brandstoffen vereist de situatie een transitie naar duurzamere bronnen, of in dit geval, naar slimmere manieren om data te gebruiken.

De vraag is niet of beperkingen er komen, maar hoe de industrie erop reageert. Zullen bedrijven overstappen op kleinere, gespecialiseerde modellen die minder data nodig hebben? Zullen ze investeren in het op grote schaal genereren van menselijke data, mogelijk door miljoenen mensen te betalen voor hoogwaardige content? Zullen ze doorbreken naar multimodale intelligentie die leert van video en sensorische input in plaats van enkel tekst? Of lopen ze vast in model collapse terwijl ze wanhopig synthetische data blijven recyclen totdat niets authentieks meer overblijft?

De komende jaren zullen antwoorden geven die verder reiken dan technologie alleen, omdat ze raken aan fundamentele vragen over wat impact betekent wanneer machines leren van machines in plaats van van mensen, en of intelligentie kan blijven groeien wanneer de bron van waarheid opdroogt.

Gerelateerde signalen

Referenties

[1] Villalobos P, Ho A, Sevilla J, Besiroglu T, Heim L, Hobbhahn M. Will we run out of data? Limits of LLM scaling based on human-generated data. Epoch AI. 2024. Available from: https://epoch.ai/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

[2] PBS News. AI ‘gold rush’ for chatbot training data could run out of human-written text as early as 2026. 2024. Available from: https://www.pbs.org/newshour/economy/ai-gold-rush-for-chatbot-training-data-could-run-out-of-human-written-text-as-early-as-2026

[3] Shumailov I, Shumaylov Z, Zhao Y, Papernot N, Anderson R, Gal Y. AI models collapse when trained on recursively generated data. Nature. 2024;631:755-759. Available from: https://www.nature.com/articles/s41586-024-07566-y

[4] Digiday. A timeline of the major deals between publishers and AI tech companies in 2025. 2025. Available from: https://digiday.com/media/a-timeline-of-the-major-deals-between-publishers-and-ai-tech-companies-in-2025/

[5] SuperAnnotate. AI data wall: Why experts predict AI slowdown and how to break through the plateau. 2024. Available from: https://www.superannotate.com/blog/ai-data-wall