Column

De toekomst van AI wordt niet enkel gedreven door brute rekenkracht

De successen van wiskundigen uit het verleden zijn cruciaal voor een betrouwbare toepassing van AI. Wiskundige Ann Dooms geeft een overzicht, van Hilbert tot hallucinaties.

Beeld: wiskundige David Hilbert.

Begin van de twintigste eeuw vroeg de Duitse wiskundige David Hilbert zich af: kunnen we met logische afleidingen uit axioma’s werkelijk alles wat waar is in de wiskunde bewijzen? De Oostenrijks-Amerikaans wiskundige Kurt Gödel sloeg Hilberts droom aan diggelen. In zijn onvolledigheidsstelling bewees hij dat er altijd uitspraken bestaan die niet bewezen of weerlegd kunnen worden.  

Hilbert vroeg zich vervolgens af of je dan toch tenminste een algoritme kan ontwerpen dat kan beslissen of iets bewijsbaar is. Alan Turing bewees in 1936 dat ook dat niet lukt. Om dat te doen vond hij een conceptuele machine uit die alle algoritmes kan uitvoeren die eindige tijd in beslag nemen, wat hij berekenbare problemen noemt. Dit leidde tot de geboorte van de computer. 

Turings concept zette neurowetenschappers aan om het brein van de mens te modelleren als een machine die op logica werkt. Zo ontstond het idee van neurale netwerken al in de jaren 1950 en 1960, mede dankzij pioniers zoals McCulloch en Pitts. Hun model uit 1943 beperkte zich tot simpele ja-neevragen, waarbij het aantal ja’s wordt vergeleken met een drempelwaarde om dan automatisch een ja-neebesluit te trekken. Uit dit idee groeide vijftien jaar later het beroemde perceptron van Frank Rosenblatt. Dit model kan het belang van verschillende inputs wegen en belangrijker, het kan de geschikte gewichten voor een probleem leren uit voorbeelden waardoor het dus zelf patronen kan leren herkennen.

Helaas ontdekten Marvin Minsky en Seymour Papert eind jaren 1960 dat perceptrons niet alle problemen konden modelleren. Zo lukt het niet om de XOR-functie, een van de bouwblokken van de computer, te imiteren met een perceptron. De ontgoocheling was groot waardoor we in een AI-winter belandden. Tot men ontdekte dat je nog steeds uit voorbeelden kan leren wanneer je zulke neuronen niet alleen onder elkaar, maar ook achter elkaar plaatst en de gewogen input niet meer vergelijkt met een drempelwaarde, maar evalueert met een zogenaamde niet-lineaire activatiefunctie. En zo kan men de XOR wél imiteren. Deze constructie, met heel veel lagen achter elkaar, kennen we nu als deep learning.

Eén ‘verborgen’ laag

In de jaren 1980 en 1990 ontdekten onderzoekers dat een netwerk met slechts twee lagen ofwel één ‘verborgen’ laag, theoretisch in staat is om elk continu probleem stabiel te benaderen, wat bekend staat als de Universal Approximation Theorem, een grensverleggende stelling in de AI-wereld. Ze vertelt ons echter wat theoretisch mogelijk is en niet hoe je het netwerk praktisch moet construeren. Men ging ervan uit dat, hoewel je a priori niet weet hoeveel neuronen er in de verborgen laag nodig zijn, je de parameters van het netwerk in elk geval kan leren uit voorbeelden. Door de toename in rekenkracht probeert men tegenwoordig dus een netwerk te trainen door het een massa aan data te voeden zodat de parameters van een heel groot aantal neuronen geleerd kunnen worden. 

Toch zien we problemen opduiken die zich mooi continu gedragen, maar waar meer data inpompen maar niet lijkt te werken om het netwerk beter te maken. We zien dat bij MRI-scans die dienen om afwijkingen in het weefsel te herkennen. Men hoopte de beeldreconstructie te verbeteren door het probleem met deep learning aan te pakken. Er bleek bij het testen echter dat er in sommige beelden plots zaken opduiken die er in werkelijkheid niet zijn. Zowel het ontbreken als het hallucineren van zones in het weefsel kan uiteraard dramatische gevolgen hebben.

Gelukkig ontdekten wiskundigen dat de benadering van het MRI-reconstructieprobleem die uit de Universal Approximation Theorem volgt niet berekenbaar is in de zin van Turing. Je kan ze dus nooit berekenen op een computer met een algoritme, wat ook het instabiele gedrag verklaart. Zo zijn heel wat foute diagnoses voorkomen.

Meer data en rekenkracht zijn dus niet altijd de sleutel tot succes. De toekomst van AI zal dus niet enkel gedreven worden door brute rekenkracht op alsmaar meer data, maar door de successen van wiskundigen die trachten te bewijzen hoe en waar we AI op betrouwbare wijze kunnen toepassen. Laten we hopen dat Gödels werk hier geen roet in het eten komt gooien.