Hoe taalalgoritmes een middeleeuwse liefdesaffaire bekoelden

De liefdesbrieven tussen Héloïse en Abélard zijn een van de best bewaarde geheimen van onze geschiedenis. Al decennialang breken specialisten het hoofd over wie ze schreef. Gewapend met taalalgoritmes kon ik de ware auteur van de fascinerende correspondentie ontmaskeren.

Foto: Héloïse en Abélard betrapt door oom Fulbert (Jean Vignaud, 1819).

Het is de literaire parel van de middeleeuwen. Een briefwisseling in het Latijn, geschreven in het twaalfde-eeuwse Parijs tussen een man en een vrouw die elkaar de liefde verklaren. Hartstochtelijk, erotisch, onomwonden, en daarom uniek voor haar tijd. Zijn naam is Abélard, en zij heet Héloïse. Abélard is een populaire schoolmeester. Héloïse gaat bij hem in de leer. De twee beginnen een affaire, maar wanneer de oom van Héloïse daar achter komt, laat hij Abélard in het holst van de nacht castreren. Getraumatiseerd zoeken beide geliefden hun toevlucht in het klooster. In afzondering van mekaar beginnen zij liefdesbrieven uit te wisselen die hun tragische romance navertellen.

Het mysterie van het auteurschap

Het is ook een verhaal dat te mooi is om waar te zijn. Of toch gedeeltelijk. Deze enigmatische geliefden, die het literaire hoogtepunt van de Latijnse middeleeuwen afleverden, zetten hun lezers al eeuwenlang op een dwaalspoor. Specialisten betwisten bitsig de authenticiteit en het auteurschap van de briefwisseling. Wie de brieven namelijk nauwkeurig leest merkt snel op dat dit geen ordinaire sexting is, maar literair overtuigende meesterwerken die een sterk geheel vormen en een lijn vertonen. Het voelt gewoon te af. Het is te geregisseerd en te berekend om door te gaan als een privécorrespondentie die 900 jaren later toevallig in onze handen is gevallen.

Het voelt gewoon te af voor een privécorrespondentie die 900 jaren later toevallig in onze handen is gevallen

Tot overmaat van ramp bestaat er ook geen eigentijds handschrift van de tekst. Een minderheid durft daarom zelfs te beweren dat literatuurcritici met open ogen een literaire farce aan het bejubelen zijn en dat niet Héloïse en Abélard maar een vervalser de collectie heeft aangelegd. En als de zaal dan nog niet genoeg in haar eer gekrenkt is, kan je ze nog roder doen aanlopen door zonder enig bewijs te durven beweren dat Héloïse, de bekendste vrouwelijke stem van de middeleeuwen, misschien wel helemaal niets te maken heeft met de collectie, en dat een mannelijke fantasie ten grondslag lag aan het pronkstuk van de Westerse middeleeuwen.

Auteursherkenning met taalalgoritmes

Om een nieuw licht te werpen op het auteurschap van deze raadselachtige briefwisseling bewapende ik me met taalalgoritmes voor auteursherkenning. Die leverden onlangs nog spraakmakende ontmaskeringen van klinkende namen op. Zo betrapten ze Julius Caesar erop zijn veldslagverslagen niet alleen te hebben geschreven. En ze legden het onweerlegbare bewijs voor dat J. K. Rowling er in 2013 toe dwong toe te geven dat niet ene Robert Gailbraith — haar pseudoniem — maar wel zij zelf The Cuckoo’s Calling had geschreven.

De revolutionaire idee achter taalalgoritmes is dat auteurs buiten hun bewustzijn om een soort stilistisch DNA achterlaten in hun tekst

De revolutionaire idee achter deze nieuwe methodes is dat schrijvers buiten hun bewustzijn om een soort stilistisch DNA achterlaten in hun tekst. Misschien ietwat tegen de intuïtie in gaat dit DNA niet zozeer schuil in de grote stijlfiguren. Die laatste zijn trouwens gemakkelijk te imiteren. Schrijfstijl, zo leren deze algoritmes ons, verraadt zich in onze voorkeur voor kleine woordjes waar we vaak op terugvallen. Niet de inhoudswoorden maar de vullertjes waarmee we onze teksten inkleuren zoals bijwoorden, voegwoorden, voorzetsels, voornaamwoorden en lidwoorden laten stilistische vingerafdrukken achter die ontegensprekelijk jou of mij toebehoren. Zo gebruikt de een misschien heel graag ‘echter,’ terwijl de ander ‘hoewel’ verkiest. 

Figuur 1. Theoretisch, intuïtief voorbeeld van een clusterplot waarin de teksten van twee auteurs (rood en groen) vergeleken worden. De frequenties van drie woorden worden op de x-, y- en z-as geprojecteerd. In een uitgebreider onderzoek (zoals bij de figuren hieronder) wordt de rijke informatie van soms wel 200 of meer woorden samengevat op 3 assen die de voornaamste trends weergeven. De bolletjes zijn de tekstfragmenten. Zonder enige voorkennis zal het algoritme teksten verdelen in de ruimte waardoor clusters ontstaan van teksten met een gelijkaardige stijl. 

Een voordeel van deze woordjes is dat ze zo talrijk in ons taalgebruik voorkomen dat ze gemakkelijk te kwantificeren zijn. Bij auteursherkenning worden de frequenties van soms wel 200 of meer van dit soort woordjes in rekening genomen. Echt interessant wordt het wanneer men via woordfrequenties vervolgens de teksten gaat projecteren als coördinaten op x-, y- en z-assen. In dergelijke figuren, zoals hier te zien, zullen teksten geschreven in dezelfde stijl gelijkaardige woordfrequenties vertonen en zich bijgevolg dicht bij elkaar positioneren in de ruimte.

Wie schreef de brieven?

Met deze taalalgoritmes in de aanslag rekende ik erop de ware auteur van de liefdesbrieven te ontmaskeren. En de ontknoping verraste me. Het liefdesverhaal kan echt zijn geweest, en dat Heloïse een briljant auteur was staat buiten kijf—dat leren immers eigentijdse getuigenissen ons—, maar ik kon haar stilistisch spoor nergens in de brieven bespeuren. Zoals de figuren aantonen, heeft de brievencollectie een sterke stilistische eenheid die vrijwel over de gehele lijn gelijkenissen vertoont met één auteur: Abélard.

Figuur 2. De brieven van Abélard en Héloïse. Een enkele cluster verschijnt, die met hoge waarschijnlijkheid aangeeft dat slechts één auteur aan het werk was.

Figuur 3. De briefwisseling vertoont bovendien een sterke stilistische gelijkenis met Abélards overige werken.

Is het niet vergezocht een middeleeuwer ervan te verdenken zijn zielsverwante te vertolken, in plaats van aan te nemen dat Héloïse haar brieven gewoon zelf schreef? Niet echt. Hedendaagse auteurs doen wat Abélard al deed, en wanneer ze dat doen noemen wij het fictie. 

Hedendaagse auteurs doen wat Abélard al deed, en wanneer ze dat doen noemen wij het fictie

Wat taalalgoritmes duidelijk maken is dat Abélard een verteller is die de kracht van de liefde begreep en die dankbaar aanwendde om zijn lezers te boeien. In dat laatste is hij geslaagd. Eeuwenlang vond zijn lezerspubliek de brieven immers zo mooi en meeslepend dat het de hoop bleef koesteren dat het om middeleeuwse privébrieven ging.

Dat algoritmes minder onder de indruk zijn van Abélards acteerprestatie en onze visie op een tekst nuchter kunnen bijstellen, is hun grootste kracht. Hoe fijngevoeliger ze worden in het modelleren van onze taal en onze literatuur, hoe meer zij ons uitdagen om onze persoonlijke vooroordelen in vraag te stellen, en hoe meer zij ons toelaten meer te leren over onszelf als mens en over onze geschiedenis. 

Jeroen De Gussem is genomineerd voor de Vlaamse PhD Cup. Ontdek meer over zijn onderzoek op www.phdcup.be.