De Rousseeuw Prize for Statistics bekroont The R Project, een open source statistiekprogramma waar een internationaal team van vrijwilligers sinds de jaren 1990 aan bouwt. Eos interviewde een van de trekkers van het eerste uur: de Oostenrijkse technisch wiskundige Kurt Hornik.
De prijs bedraagt een miljoen dollar en werd in het leven geroepen om om uitmuntende statistiek wereldwijd in de schijnwerpers te zetten. Hij wordt uitgereikt door de Koning Boudewijnstichting en is gefinancierd door de gerenommeerde Belgische statisticus Peter Rousseeuw, emeritus hoogleraar aan de KU Leuven. De onderscheiding gaat naar de vijf leden van het R Core Team die volgens de jury de langste en meest aanhoudende bijdrage hebben geleverd: professor Brian Ripley (University of Oxford), professor Martin Maechler (ETH Zürich), professor Kurt Hornik (Wirtschaftsuniversität Wien), professor Peter Dalgaard (Copenhagen Business School) en professor Luke Tierney (University of Iowa). De helft van het prijzengeld gaat naar deze vijf, de andere helft, 500.000 dollar, naar de overige leden van het R Core Team. Tot die groep behoren ook Robert Gentleman en Ross Ihaka, die R – de eerste letter van beider voornamen – begin jaren negentig op gang trokken, en John Chambers, grondlegger van de programmeertaal S waarop R voortbouwt. Zij worden bij de uitreiking uitdrukkelijk geëerd voor die cruciale aanzet.
R is een van de meest gebruikte programmeertalen ter wereld, en het is gratis en open source. Daardoor haalde het financiële drempels weg: onderzoekers, studenten, ziekenhuizen, overheidsdiensten en universiteiten gebruiken wereldwijd dezelfde geavanceerde methodes, los van hun budget. Wie een nieuwe statistische methode ontwikkelt, deelt die als een R-pakket, samen met code en documentatie, waardoor nieuwe methodes meteen overal beschikbaar zijn.
Wat buiten de wetenschaps- en economische community niet veel mensen weten: R is doorgedrongen tot het dagelijkse leven. Het vormt de basis van Bioconductor, de software waarmee labo's wereldwijd DNA- en kankeronderzoek analyseren. Tijdens de coronapandemie droeg R het wereldwijd gevolgde covid-19-dashboard van Johns Hopkins University en de modellen van Imperial College London die het overheidsbeleid voedden. In de journalistiek bouwt het datateam van de BBC zijn grafieken in R, net als de datajournalisten van de New York Times en de Financial Times.
Eos treft hoogleraar statistiek Kurt Hornik tussen twee lessen door online vanuit zijn kantoor.
Allereerst wil ik u en uw collega’s van harte gelukwensen met deze bekroning van uw werk. Kan u iets vertellen over uw geschiedenis met R? Was u er vanaf het begin bij?
‘Ik ben opgeleid als toegepast wiskundige. Ik heb technische wiskunde gestudeerd aan de Technische Universiteit van Wenen en heb me enerzijds gespecialiseerd in statistiek en kansrekening en anderzijds in informatica en numerieke wiskunde. Ik had altijd al het gevoel dat ik iets met data wilde doen, maar toen ik jong was, was vrijwel alle software die redelijk goed was waanzinnig duur.
SAS (een softwaresysteem dat grote bedrijven gebruiken om procesmetingen te doen, red.) was altijd zo duur dat alleen de medische universiteiten het zich konden veroorloven. De kosten van een pc-licentie voor één gebruiker voor S+ bedroegen destijds meer dan het softwarebudget van mijn hele afdeling. SPSS (een ander veelgebruikt softwareprogramma voor data-analyse en statistiek, red.) was niet goed genoeg. Mijn voormalige groepsleider Fritz Leish – die helaas twee jaar geleden is overleden – had een interessante samenwerking met artsen en psychiaters aan de Medische Universiteit van Wenen. Zij hadden altijd gegevens voor ons en wij moesten die analyseren, maar we hadden eigenlijk niets waar we mee aan de slag konden.
‘We hebben het pakketsysteem voor R uitgevonden’
Toen vertrok Fritz naar Australië, waar hij ‘dat R-ding’ ontdekte. ‘Misschien moeten we dat eens proberen en kijken of het werkt.’ Het zou niet eerlijk zijn om te zeggen dat er niets werkte, maar R was toen nog maar een basissysteem. ‘Dus toen we het begonnen te gebruiken, liepen we tegen problemen aan. We stuurden heel beleefde e-mails naar Ross en Robert van de Universiteit van Auckland (Nieuw-Zeeland) met de boodschap: ‘Dit werkt niet en misschien willen jullie het op die manier aanpassen.’ Of: ‘We hebben nu code hiervoor en misschien willen jullie die toevoegen.’
En in 1995, na een paar van die beleefde e-mailwisselingen heen en weer, antwoordde Robert: ‘Dit klinkt allemaal alsof jullie echt weten wat jullie doen, maar we hebben geen tijd om ons daarmee bezig te houden. Dus waarom lossen jullie deze problemen niet zelf op in de toekomst?’ We kregen toegang tot de broncode van de repository (een digitale opslagplaats voor data, software en documenten, red.), samen met een paar andere mensen. En in 1997 hebben we officieel het R-kernteam opgericht, dat nu de Rousseeuw-prijs heeft gewonnen.
Mijn persoonlijke verhaal gaat als volgt: Brian Ripley had al met S+ gewerkt in Oxford, en hij en een paar anderen hadden uitbreidingen – tegenwoordig zouden we dat ‘pakketten’ noemen – voor het systeem geschreven. Fritz en ik begonnen om die naar R om te zetten. Kortom, we hebben het pakketsysteem voor R uitgevonden. En we hebben een repository opgezet, het Comprehensive R Archive Network (CRAN), voor de verspreiding van pakketten.
We hebben nu ongeveer 24.000 pakketten en de repository wordt zeer actief beheerd. We houden de wijzigingen nauwlettend bij, controleren de status en zorgen ervoor dat er snel oplossingen worden geboden zodra er zich een probleem voordoet.
‘Iedereen die zich met statistiek bezighoudt, gebruikt R. Het is de lingua franca van de statistiek geworden’
Hoe is R in die jaren daarna zo groot geworden?
‘Twintig jaar geleden zeiden mensen nog: ‘Oké, maar jullie zijn toch die sektarische types.’ Maar in de loop der jaren is het feit dat het zo goed werkt echt ingeslagen. Eerst binnen de statistiekgemeenschap, en daarna ook bij een bredere groep mensen die R graag gebruiken voor data-analyse. De reproduceerbaarheid die de natuurwetenschappen, maar ook de levenswetenschappen drastisch heeft veranderd – waarbij je idealiter de gegevens en de code voor de gegevensanalyse deelt – heeft R een enorme impuls gegeven vanwege de manier waarop R werkt.’
Zou dat de reden zijn waarom u deze prijs hebt gekregen? Omdat R door iedereen kan worden gebruikt en een belangrijke factor in de wetenschap is geworden?
‘Er zijn verschillende aspecten. Voor zover ik heb begrepen, waren de belangrijkste argumenten van de jury dat R de lingua franca van de statistiek is geworden Iedereen die zich met statistiek bezighoudt, gebruikt R. En nieuwe ideeën over hoe dingen beter kunnen worden gedaan, worden doorgaans onmiddellijk omgezet in software. Dus in zekere zin heeft de beschikbaarheid van R en CRAN de manier veranderd waarop statistiek als academische discipline functioneert. Vroeger schreef je artikelen en bewees je stellingen, maar dat had geen impact. Als iemand tegenwoordig een nieuw idee heeft over de analyse van big data of een nieuw, geavanceerd statistisch model toepast, schrijft die weliswaar theoretische artikelen, maar levert die onvermijdelijk ook R-code mee.
Voor mij is dit aspect – gratis toegang krijgen tot geavanceerde software – de belangrijkste drijfveer geweest voor mijn persoonlijke betrokkenheid. Omdat je gegevensanalyses kunt uitvoeren op elke redelijke computer – dertig jaar geleden al. In die tijd moest statistisch werk met andere software nog op een mainframe worden uitgevoerd. En de hoop was dat iedereen toegang zou hebben tot zulke hardware. R is bovendien beschikbaar op Windows, op Mac en op alle Linux-versies. Dus je krijgt onmiddellijk toegang tot de allerbeste software voor gegevensanalyse die je je maar kan voorstellen.’
Het is wel grappig dat iedereen in de natuurwetenschappen, geneeskunde of economie die met gegevens werkt, R kent. Maar buiten die gemeenschap lijkt niemand er ooit van gehoord te hebben.
‘Dingen verspreiden zich het snelst waar een niche te vullen is.’
Zijn er veel mensen nodig om CRAN actief te houden?
‘Maar drie! Maar het succes van R en CRAN is grotendeels toe te schrijven aan de gemeenschap van mensen die de pakketten onderhouden. En dat gaat terug naar het idee van delen, dat in de statistiekgemeenschap altijd al heeft bestaan. In technische zin is R dus een groot succesverhaal als het gaat om vrije software, maar er bestond al een gemeenschap die bereid was om code te schrijven en die met anderen te delen.
‘De overgrote meerderheid van de studenten geniet duidelijk niet van statistiek’
Onze kerngroep bestaat uit ongeveer twintig leden met verschillende niveaus van activiteit. Als je kijkt naar de expliciet genoemde winnaars van de Rousseeuwprijs, zul je zien dat ik de jongste van de groep ben. En ik word dit jaar 63, dus er is wel sprake van een vergrijzingsprobleem. We proberen ons nu te vernieuwen en meer jongeren aan te trekken. Dat is niet zo eenvoudig, omdat de wereld sterk is veranderd. Dertig jaar geleden, toen er een tekort was aan middelen voor data-analyse, was de motivatie om tijd te investeren in het veranderen van zaken veel groter dan tegenwoordig, nu we in een wereld van overvloed leven en mensen dingen eerder als vanzelfsprekend beschouwen.’
Hoe zit het met AI en R?
‘Persoonlijk programmeer ik nog steeds veel, zowel voor R zelf als met R. In beide gevallen ben ik uiterst efficiënt. Ik zou mezelf misschien ook kunnen leren om AI voor mij te laten programmeren. Eerlijk gezegd heb ik dit zelf nooit geprobeerd, omdat ik waarschijnlijk niet al te veel baat zou hebben bij het gebruik van AI. Maar ik denk dat het tegenwoordig heel goed mogelijk is om prompts te geven: geef me alsjeblieft R-code om dit of dat uit te voeren. Voor die gestandaardiseerde taken vind ik dat prima. Het betekent gewoon dat je, in plaats van duizenden commando’s in je hoofd te hebben, iemand anders voor je laat werken op een efficiëntere manier.
De uitdaging waar we nu allemaal mee te maken hebben – ook aan de universiteit: Je krijgt altijd wel code. Of die ook doet wat ze moet doen, kun je op de makkelijke of op de moeilijke manier ontdekken. De moeilijke manier is de code uitvoeren en kijken of ze doet wat ze zou moeten doen. De makkelijke manier is om te leren programmeren en vervolgens te kijken of de code voor jou logisch is. Wij docenten vinden het nogal een uitdaging om onze studenten te overtuigen om te leren programmeren. Zelfs als ze de rest van hun leven AI zullen gebruiken voor hun programmeerwerk, moeten ze leren kritisch na te denken, anders zullen ze die tools niet goed kunnen gebruiken.’
En statistiek: houden studenten over het algemeen al van statistiek?
‘Ik ben hoogleraar aan de grootste businessuniversiteit van Europa. We hebben een bacheloropleiding economie die waarschijnlijk tussen de vier- en vijfduizend nieuwe studenten per jaar trekt. Ze moeten allemaal verplichte wiskunde- en statistiekvakken volgen en ik zou zeggen dat dat de overgrote meerderheid daar duidelijk niet van geniet. We laten ze zelfs zien hoe ze dingen met R kunnen doen. Maar ja, ze zijn niet naar een businessuniversiteit gekomen om te leren programmeren of de computer te gebruiken voor andere taken dan sociale media.
Aan de andere kant zijn studenten tegenwoordig zo gewend om naar kant-en-klare oplossingen te vragen en die gewoon toe te passen: ze vragen een AI om hulp en de AI zegt: ‘Start gewoon R op en kopieer dit dan.’ Ze hebben daar geen moeite mee. Dan beseffen ze meestal dat dit eigenlijk superhandig is. En als ze de tijd nemen om de code te bekijken, zullen ze merken dat het niet zo moeilijk is om te begrijpen wat er gebeurt, omdat R als taal vrij vanzelfsprekend is. Het is als wiskunde, maar dan in het Engels, en je kunt direct lezen wat er gebeurt. Ik vind dat prima.’
Peter Rousseeuw besloot deze prijs in het leven te roepen omdat hij vond dat statistiek een ondergewaardeerde wetenschap was.
‘Ik vind dat Peter Rousseeuw iets heel slims heeft gedaan. De prijs wordt soms vergeleken met de Nobelprijs. Het is een andere bekroning. Hij wordt niet elk jaar uitgereikt, maar om de twee jaar. Maar ook hier gaat veel geld naar de inspanningen van mensen in een zeer belangrijk vakgebied.
Ik denk dat het heel belangrijk is dat de wereld zich realiseert dat een groot deel van hun toekomstige gezondheid afhangt van statistische gegevensanalyse. Dat zal onvermijdelijk gekoppeld zijn aan R, omdat dit de manier is waarop alle grote farmaceutische bedrijven hun klinische proeven uitvoeren.
Peter Rousseeuw heeft de geweldige keuze gemaakt om een deel van het extra geld dat hij uit Renaissance Technologies heeft gehaald, te investeren in het opzetten van dit fonds, en ik hoop dat dit de erkenning van statistiek als discipline echt een impuls zal geven. Zeker in tijden waarin iedereen denkt dat statistiek hetzelfde is als datawetenschap en dat men deze ‘oude’ dingen niet meer hoeft te leren omdat een of ander language model wel het juiste antwoord zal geven.’