Wanneer bestandsformaten verdwijnen (en data verloren gaat)

Microsoft Word kon in 2017 zijn eigen documenten van omstreeks 1989 niet openen. Wordt hier geen fundamentele wet geschonden?

Ik ben niet de eerste die over technologie schrijft en die aan de alarmbel trekt vanwege verdwenen data. Het probleem kan worden omschreven als ‘de neiging van computerbestanden onbereikbaar te worden doordat de media waarin ze zijn opgeslagen niet langer bruikbaar of beschikbaar zijn.’ Jarenlang vertrouwden we onze teksten, zakelijke documenten, muziek en kunst toe aan nu niet langer gebruikte dragers als ponskaarten, magneetbanden, floppy’s en zipdisks. En als je denkt dat we nog lang cd- en dvd-roms zullen gebruiken, dan ben je niet goed wijs.

Het is alsof we plots ontdekken dat al onze schroevendraaiers niet langer passen op de biljoenen schroeven die onze structuren bij mekaar houden

Ik kom vandaag met iets wat nog veel sinisterder is en dat me ’s nachts kan wakkerhouden: het verdwijnen van bestandsformaten. Het gaat hier niet om zorgen over de dragers waarop we onze data wegschrijven, maar om het formaat van die data zelf.

Het probleem raakte me als een voorhamer toen ik eerder dit jaar enkele oude, in Microsoft Word opgeslagen documenten probeerde te openen. Het lukte niet! Microsoft Word kon in 2017 zijn eigen documenten van omstreeks 1989 niet openen. Wordt hier geen fundamentele wet geschonden? Een vorm van impliciete garantie vergeten? Het is alsof we ’s ochtends wakker worden en ontdekken dat al onze schroevendraaiers niet langer passen op de biljoenen schroeven die onze structuren bij mekaar houden.

De eerste tien jaar van mijn carrière, net nadat ik de universiteit had verlaten, werkte ik in New York City op Broadway als arrangeur en dirigent voor musicals. Jaren van mijn leven spendeerde ik aan het schrijven van partituren met software als Professional Composer, Deluxe Music Construction Set en HB Engraver. Elke partituur kostte me uren en uren en uren. Vandaag kan ik ze niet meer openen. Met uitzondering van degene die ik heb geprint, zal ik ze nooit meer kunnen bekijken. De software waarmee ze zijn geschreven is al lang verdwenen – en daarmee ook alle noten en akkoorden die nu voor altijd in hun documenten opgesloten zitten.

Hoe kunnen we dan verwachten dat toekomstige generaties onze toneelstukken, novelles, foto’s, video’s en andere producten van onze creativiteit zullen kunnen openen?

Weet je wie veel tijd besteedt aan het beantwoorden van deze vraag? De Library of Congress, de nationale bibliotheek van de Verenigde Staten. Die werkt nu aan een vele miljoenen dollars kostend proces voor het digitaliseren van 70 miljoen manuscripten, 14 miljoen foto’s en 800.000 zeldzame boeken. Het idee is om ze te conserveren en ze op het internet bereikbaar te maken voor het publiek.

Een paar jaar geleden had ik het geluk Helena Zinkham te mogen interviewen. Zij is voor de bibliotheek hoofd van de afdeling prints en foto’s. Ze wees erop dat papier niet alleen een van de beste documentformaten is, maar dat ouder papier nog het beste van allemaal is. ‘Papier was in de jaren 1400, 1500, 1600 veel solider doordat het gemaakt was van stoffen, oude vodden, linnen of katoen’, vertelde ze me. ‘Maar in de 19de eeuw begon men, om de massaproductie van papier mogelijk te maken, chemicaliën te gebruiken in het productieproces.’ Die chemische stoffen leidden tot een snellere aftakeling.

De Library of Congress digitaliseert historische foto’s, boeken en documenten.

Als je dus de Library of Congress bent en je bent je goed bewust van het verdwijnen van bestandsformaten, en je hoopt je collectie voor volgende generaties te bewaren, hoe moet je scanplan er dan uitzien? Van welk bestandsformaat mogen we verwachten dat het binnen tweehonderd jaar nog niet verdwenen zal zijn?

Wel, in de eerste plaats moet je voor een open formaat kiezen, een formaat dat geen bezit is van een softwarebedrijf en er ook niet mee verbonden is. De Library of Congress koos voor het digitaliseren van foto’s, boeken en documenten het TIFF-formaat. Zinkham: ‘Dat geeft ons de beste hoop deze bestanden vele jaren te kunnen bewaren.’

En dat, zo blijkt, is de sleutel: reconversie zit in de plannen van de bibliotheek ingebakken. Toen de bib in het midden van de jaren 1990 met het scanprogramma begon, was de resolutie nog erg laag – 420 bij 560 pixels voor een hele foto. Vandaag is elke scan vele duizenden pixels hoog en breed.

Dit betekent uiteraard dat de job van het converteren van bestandsformaten eigenlijk nooit eindigt. Nu al is de Library of Congress de belangrijkste documenten en beelden aan het herscannen om zo voordeel te halen uit de vooruitgang in bitdiepte en resolutie – en ze is van plan dit, om de zoveel tijd, te blijven doen.

Dat zou ook onze strategie moeten zijn. Had ik die Word 1.0-documenten geopend en om de paar jaar weer opgeslagen met de opeenvolgende versies van Word, dan zou ik ze nu nog hebben. Ik was niet ijverig genoeg om mijn bestanden te converteren, gewoon omdat ik het probleem niet zag. Nu heb je dat excuus niet meer.

 

Aanvulling: oude .doc documenten die door latere Word-versies niet meer te lezen zijn, zouden meestal wel nog te openen zijn met Open Source (Linux) editors.