Stel je voor: je zit in de klas en krijgt een moeilijk raadsel. Voordat jij je potlood nog maar oppakt, roept een computer al het antwoord. Supersnel en altijd correct. Maar waar eindigt hun kennis? Wetenschappers leggen daarom supercomputers de ‘ultieme test’ voor.
Afbeelding door GPT-4o. In december vorig jaar heeft GPT o3 een bekende puzzle (ARC-AGI) die sinds 2019 bestaat “verslagen”.
Wat is AI?
AI betekent ‘artificiële intelligentie’. Dat zijn computers of robots die speciaal ontworpen zijn om te kunnen leren en het lijkt net alsof ze nadenken, een beetje zoals mensen. Denk aan Siri of de Google Assistent, die je vragen kunnen beantwoorden. Maar sommige AI-systemen kunnen nog veel meer: ze kunnen zelfs Pokémon spelen!
Claude is een AI die volledig zelfstandig het Game Boy-spel Pokémon Red speelt. Traditionele gamebots krijgen vooraf bepaalde regels die Claude niet krijgt. Die kan zien wat er gebeurt, de status van het spel begrijpen en beslissingen nemen, net zoals een menselijke speler dat zou doen. Volg ClaudePlaysPokemon op Twitch hier:
Wetenschappers vragen zich nu af: hoe slim kan AI worden? En wat als AI op een dag slimmere beslissingen maakt dan dokters, rechters of zelfs leraren? Dat klinkt cool, maar het kan ook gevaarlijk zijn als het systeem verkeerde keuzes maakt. Daarom moeten wetenschappers goed nadenken over hoe we AI slim én veilig houden.
De ultieme beproeving: Humanity’s Last Exam
Om te testen hoe slim AI echt is, maken wetenschappers van over de hele wereld een ontzettend moeilijke test. Ze maken een lijst met vragen en opdrachten die zó moeilijk zijn, dat alleen de allerslimste experts ze kunnen oplossen. Als AI deze test helemaal goed maakt, betekent dat dat ze net zo slim, of misschien zelfs slimmer kan antwoorden dan de mens op deze vragen.
Maar hier komt het lastige: hoe maken we een test waar AI niet zomaar een 10/10 kan halen? Vragen om hoofdsteden op te noemen of werkwoorden te vervoegen is bijvoorbeeld te makkelijk. Vragen die je oudere broer of zus moet oplossen in het middelbaar zijn te makkelijk. Wetenschappers geven AI vragen die op een examen op de universiteit zouden voorkomen. Ze bedenken vragen waar creativiteit, logisch nadenken en echte mensenkennis voor nodig is. Die test helpt om te ontdekken waar AI nog niet zo goed in is en hoe we haar kunnen verbeteren. Zo willen wetenschappers nadenken over hoe we AI slim én veilig houden. De test heet Humanity's Last Exam: een soort 'ultieme test' voor artificiële intelligentie.
Wat als zelfs wij het antwoord niet weten?
Soms bedenken wetenschappers vragen die zo moeilijk zijn, dat zelfs experts niet weten wat het juiste antwoord is. Maar hoe controleren we dan of AI het wel goed doet? Dit is een vraag die wetenschappers nu volop proberen op te lossen. Eén van de manieren is om AI de oplossing te laten uitleggen door de tussenstappen die het neemt aan te geven, zoals wij dat doen bij hele moeilijke wiskunde oefeningen.

Kunnen we AI altijd vertrouwen?
Zelfs als Chat-GPT met volle antwoord geeft, kan het toch nog fouten maken. Let dus goed op: niet alles wat AI zegt is echt waar. Want als een computer heel zelfverzekerd een fout antwoord geeft, kan dat best gevaarlijk zijn. Zeker als het om een belangrijke beslissing gaat.
Een slimme computer versus een slim mens
AI is razendsnel en kan miljoenen dingen tegelijk onthouden, maar jij hebt iets wat computers niet hebben: gevoel. Jij weet wat eerlijk is, je kunt dromen en je maakt keuzes met je hart. Een robot kan misschien een spannend verhaal schrijven, maar een mens weet hoe het voelt om verliefd te zijn of een grapje te maken. AI kan ons helpen met moeilijke opdrachten, maar Humanity’s Last Exam is ook een ‘laatste examen’ voor ons. Hoe gaan we in de toekomst omgaan met artificiële intelligentie en wat staat ons nog allemaal te wachten?
AI wordt steeds slimmer, maar mensen blijven uniek. We kunnen samenwerken met elkaar en met deze systemen gebruiken om problemen op te lossen en de wereld beter te maken. Wat denk jij? Zal AI ooit net zo slim worden als mensen? Of blijven wij de echte denkers?