Taal is sleutel tot artificiële intelligentie

Wat hebben drie germanisten van UAntwerpen te maken met de enorme rekenkracht van spelconsoles? Kort en krachtig: ze leren computers aan hoe menselijk gedrag werkt. “Taal weerspiegelt het wezen van wie we als mensen zijn.”

Hoe kan de beheerder van een online chatforum weten of er in een van de talloze gesprekken die hij moet overzien een chatter over de schreef gaat en de anderen de huid vol scheldt? Of hoe kunnen ouders merken dat hun tiener zwaar gepest wordt op sociale media, die zoon- of dochterlief net zorgvuldig afschermt voor hen? En in navolging van dat laatste: hoe weten deze ouders dat cyberpestgedrag niet escaleert, in die mate dat hun kind met zelfmoordgedachten kampt, en dat online ook laat merken?

Dergelijke situaties komen steeds vaker voor, en telkens vallen ouders en leerkrachten uit de lucht over de ernst van de situatie. Terwijl het antwoord op de drie vragen eenvoudig is: vraag het aan de computer.Althans, dat vinden toch de vorsers van onderzoekscentrum CLiPS. Die naam staat voor Computational Linguistics and Psycholinguistics, een groep opgericht in 2003. Zij ontwikkelen vandaag een tool die cyberbullying herkent, en zelfs uit iemands online posts kan opmaken of die persoon depressief gedrag vertoont. Eens operationeel kan de tool fungeren als een filter voor chatboxen of sociale media, bijvoorbeeld als deel van een antivirusprogramma, en bij problemen een waarschuwing sturen naar moderatoren, ouders of leerkrachten.

Bitch = stom wijf

Het onderzoek maakt deel uit van het AMiCA-project, dat samen met UGent en de KULeuven ontwikkeld wordt, en waarmee ook seksueel overschrijdend gedrag op sociale media kan worden herkend en gemeld. Niet doordat de tool elke keer als het over seks gaat een waarschuwing stuurt naar de ouders. Maar door te controleren of iemand die bijvoorbeeld in haar profiel zegt een 15-jarig meisje te zijn, niet in werkelijkheid een 50-jarige pedofiel is. Hoe? Door te analyseren wat die persoon schrijft en hoe die zijn of haar taal gebruikt.

Dat laatste geeft aan hoe complex de wetenschap achter deze toepassingen wel is. En wat taal in hemelsnaam met computers en dataonderzoek te maken heeft, zoals de computational linguistics in CLiPS aangeven. Dit gaat over artificiële intelligentie. Over een computer die uit taalgebruik begrijpt dat iemand een man is, van middelbare leeftijd, of een depressieve tiener.

“Het begint met een hele reeks woorden en teksten die, in ons project, als pestgedrag kunnen worden omschreven, en waarmee we de computer als het ware voeden”, begint Walter Daelemans, hoofd van CLiPS. “Dat was een hele opdracht”, gaat collega Guy De Pauw verder. “We zijn zelf een tiental scholen afgegaan, waarbij we jongeren een rollenspel rond pesten hebben laten spelen, om de juiste scheldwoorden te leren kennen.” Met die data kan een computer perfect reageren wanneer een van de ingevoerde woorden en uitdrukkingen gebruikt wordt. Maar dan wordt het pas interessant.

Herken de kat

“Iemand een klootzak noemen kan ook plagerig bedoeld zijn”, merkt Daelemans op. “Kortom, de computer moet de context van een bepaald gesprek vatten, om uit te maken of het om een belediging of een plaagstoot ging.” “En meer nog”, valt Mike Kestemont bij. “De computer moet ook weten dat als ‘bitch een scheldwoord is, wat we hem hebben geleerd, ‘stom wijf’ vaak in dezelfde context gebruikt wordt en dus ook een belediging is.”

Een computer die leert, en die een context interpreteert? Bestaat dat dan? Absoluut”, knikt een merkelijk enthousiaste Kestemont. “Een aantal jaar geleden verscheen een paper over een onderzoek waarbij een computer een week lang YouTube-filmpjes heeft gekeken. Nadien genereerde hij zelf een beeld van onder meer een kattenkop. Een wezen dat hij niet kende, maar dat hij door de talloze kattenfilmpjes op YouTube wel was gaan herkennen als iets wat hetzelfde was. Een later onderzoek deed iets soortgelijks met Google News. Een computer die geen taal kende, kon na een periode van het scannen van al die berichten woordenwolken maken die uiteenvielen in onder meer de maanden van het jaar, landen, steden, voorzetsels, … Hij wist nog steeds niet wat die woorden betekenden, maar door de context waarin ze gebruikt werden, kon hij wel opmaken dat ze wat met elkaar te maken hadden.”

Spelconsoles

“Computers kunnen dat slechts door een grote sprong in rekenkracht”, legt De Pauw uit. “En dat gebeurde opvallend genoeg met de grafische processors die ook in spelconsoles gebruikt worden. Die berekenen in enkele milliseconden enorm ingewikkelde matrixen vol data, op een manier die vergelijkbaar is met de werking van ons brein. We weten al tientallen jaren dat dergelijke zogenaamde neurale netwerken theoretisch zouden kunnen, maar het is maar door de huidige rekenkracht dat we ze ook kunnen toepassen. Op die manier kan de computer triljoenen connecties maken, meer dan onze hersenen.”

Spelconsoles berekenen in milliseconden ingewikkelde matrixen vol data, net zoals ons brein. Guy De Pauw

Het grote woord is gevallen: een computer die werkt zoals onze hersenen, en situaties kan inschatten, vertoont die menselijke eigenschappen? “We modelleren het brein, en daarmee de mens”, bevestigt Daelemans. “Al blijft dat beperkt. De elektrische impulsen in een brein kunnen we nabootsen – in de mate dat we ze al kennen – maar de chemische reacties natuurlijk niet. Toch kunnen we bij een computer al spreken van een vorm van intuïtie, van gezond verstand. Een grote doorbraak op dat vlak zagen we onlangs: voor de eerste keer won een computer van een topspeler in het Aziatische bordspelletje Go. Schaakcomputers zijn al een tijdje beter dan mensen, maar Go is een spel dat veel meer intuïtie vereist dan schaak. Door rekenkracht kunnen computers steeds vaker situaties en gesprekspartners inschatten. We werken hier bijvoorbeeld met robots, waarvan we weten dat autistische kinderen er goed op reageren. Maar dan moet die computer wel weten wie hij voor zich heeft natuurlijk. Zo’n kind heeft niets aan een jolige robot.”

Lernout & Hauspie

"Volgens alle grote spelers is tekst wel degelijk de toekomst", menen Kestemont, Daelemans en De Pauw (van linksaf).

Het is ironisch dat het een computer vergt om het belang van taal voor ons mens-zijn aan te tonen. Alleen op het eerste zicht is de combinatie van taal- en letterkunde en computers opvallend. “Taal is wat ons onderscheidt”, glimlacht Daelemans. “Al onze emoties worden erin weerspiegeld. Al zijn er meer taalkundigen die dat doorhebben en in deze sector werken, dan informatici.”

“Het was dan ook stevig studeren nog”, herinnert Kestemont zich. “Maar volgens alle grote spelers is tekst wel degelijk de toekomst. Bedrijven als Google pompen miljarden in het onderzoek rond computerlinguïstiek. Opvallend toch: twintig jaar na Lernout & Hauspie zijn taal en spraak opnieuw dé uitdaging.”