World models winnen terrein als volgende fase in AI-ontwikkeling

dinsdag, 31 maart 2026 (08:21) - Techniek & Wetenschap

In dit artikel:

Sinds de AI-hype rond grote taalmodellen (LLM’s) die sinds 2022 domineert, richt de aandacht zich nu steeds meer op zogenaamde world models — systemen die niet alleen met tekst werken maar een interne representatie van de fysieke wereld opbouwen. Dat idee, toegelicht door dr. Cees Snoek (Universiteit van Amsterdam) en dr. Pim Haselager (Radboud Universiteit), zou de volgende stap in AI kunnen worden: in plaats van het voorspellen van woorden proberen deze modellen het volgende beeld in een videosequentie te voorspellen en zo bewegingen, objectgedrag en fysische effecten te modelleren.

Het concept is niet nieuw: al in de jaren zestig bestond SHRDLU, een AI die kon redeneren over blokken in een eenvoudige blokkenwereld. Latere pogingen stokten vooral door gebrek aan rekenkracht en data. De recente opleving komt door een combinatie van veel meer rekenkracht, enorme hoeveelheden beeld- en videodata (zoals uit videogames en YouTube) en de architecturale vooruitgang die LLM’s mogelijk maakten. Daardoor denken veel onderzoekers en bedrijven dat dezelfde basisprincipes toegepast op beeld- en videosignalen nieuwe mogelijkheden openen.

World models kunnen meerdere problemen aanpakken waar LLM’s aan tegen grenzen lopen. In plaats van louter tekstuele correlaties te leren, proberen ze patronen van gebeurtenissen en fysische regels te internaliseren — bijvoorbeeld zwaartekracht en stuitergedrag — wat AI robuuster en efficiënter kan maken. Ook zouden zulke modellen ruis verminderen doordat ze explicieter verwachten welke patronen relevant zijn, vergelijkbaar met hoe mensen veel irrelevante visuele informatie negeren terwijl ze zich op een taak concentreren.

Grote technologiebedrijven en startups investeren volop: Google DeepMind ontwikkelt Genie, Meta werkt aan Habitat 3, Elon Musks xAI richt zich er ook op, en initiatieven van onderzoekers zoals Fei-Fei Li (World Labs) zijn actief. Toepassingen liggen voor de hand in autonome voertuigen, interactieve robotica, defensiedrones en in de game-industrie, waar gegenereerde, fysiek plausibele werelden en personages commerciële kansen bieden — de Nederlandse game-industrie alleen al genereerde in 2024 circa 1,8 miljard euro omzet.

Tegelijk waarschuwen experts voor hoge verwachtingen en technische hobbels. Video en beeld zijn complexere, continue signalen dan discrete tekst; daardoor vergen ze veel meer data en rekenkracht. Snoek wijst erop dat huidige transformer-architecturen fundamenteel ongeschikt lijken voor video en dat de nu gegenereerde video’s vaak niet voldoen aan natuurkundige wetten. Haselager benadrukt dat, ook al brengen world models meer samenhang in correlaties, dat niet per se betekent dat AI “begrijpt” zoals mensen dat doen — het blijft patroonherkenning, geen werkelijk begrip. De combinatie van hype, benodigde doorbraken en kosten maakt dat het werk aan world models mogelijk nog jaren tot anderhalf decennium vraagt om commercieel en wetenschappelijk volwassen te worden.

Kort samengevat: world models bieden een veelbelovende weg om AI dichter bij een beeld- en gedragsbegrip van de echte wereld te brengen, met concrete toepassingen in robotica en games. Maar enorme technische uitdagingen, benodigde infrastructuur en de neiging tot overdreven verwachtingen maken de tijdshorizon onzeker. Veel inspanning en geld worden er nu op gezet — of en wanneer dat leidt tot de volgende grote sprong in AI blijft nog afwachten.

Lees het volledige artikel