Column

Zo werkt de strijd tegen ongrijpbare AI-content

Met SynthID wil Google DeepMind graag transparantie geven over AI-gegenereerde content. De technologie zorgt voor een onzichtbaar watermerk op afbeeldingen, video, audio en tekst. Toch blijft die strijd een kat-en-muisspel.

Je zag ze allicht al voorbijkomen: video’s van bewakingscamera’s met trampolinespringende konijnen en wasberen. Helaas te mooi – of te schattig – om waar te zijn, want deze beelden zijn niet echt, maar het resultaat van generatieve AI. Hoe weten we tegenwoordig of de foto’s en video’s die we zien, audio die we beluisteren of de teksten die we lezen, enkel en alleen door een machine werden gemaakt? Met SynthID wil Google DeepMind graag transparantie geven aan de gebruikers van hun gegenereerde content. De technologie zorgt voor een onzichtbaar watermerk in de op hun platformen AI-gegenereerde inhoud, zoals afbeeldingen, video, audio en tekst.

@selfmade10100 Guess why i was awake in the middle of the night… #racoons #ring #trampoline ♬ Monkeyshine-JP - Lt FitzGibbons Men

Bij afbeeldingen en video’s, zoals die gegenereerd door Google’s tekst-naar-beeld Imagen-model, wordt het watermerk direct in de pixels ingebed. Een afbeelding is in feite een grote tabel met getallen die de kleur en helderheid van de pixels beschrijven. SynthID past met een algoritme op subtiele manier deze pixelwaarden aan waardoor er een onzichtbaar maar detecteerbaar patroon ontstaat. Het wordt zodanig ontworpen dat het robuust is tegen lichte bewerkingen, zoals bijsnijden of comprimeren.

Bij audio, zoals in Google’s Lyria-model, werkt SynthID analoog door onhoorbare wijzigingen in de tonen aan te brengen, zodat een detecteerbaar patroon ontstaat.

Bij tekst, zoals output van hun LLM Gemini, gaat SynthID op een andere manier te werk. Een LLM genereert tekst door, gegeven het vorige woord, het volgende te kiezen op basis van een waarschijnlijkheidsscore. Het maakt hierbij gebruik van wat het leerde tijdens het trainen over welke woorden vaak samen voorkomen. Hiermee zou zo’n model bij de zin ‘Het tijdschrift Eos is __’ voor het volgende woord eerder kiezen voor ‘gericht op’ dan ‘oud’. SynthID past deze waarschijnlijkheidsscores subtiel aan, waardoor de tekst er natuurlijk blijft uitzien, maar toch een detecteerbaar patroon bevat.

De subtiele vertekeningen die al deze patronen of digitale watermerken introduceren, hangen af van een geheime code of sleutel, net zoals bij het encrypteren van boodschappen. Dit maakt dat personen met malafide intenties – die bijvoorbeeld fake news willen verspreiden – deze patronen niet makkelijk kunnen verwijderen en dat enkel wie de sleutel heeft ze kan uitlezen.

Watermerkmethoden

Toch bieden de watermerken van SynthID geen waterdichte oplossing. Extreme bewerkingen, zoals de compressie van afbeeldingen, het knippen van video’s of het deels herschrijven van tekst (bijvoorbeeld met een ander LLM), kunnen het watermerk beschadigen, waardoor het niet meer met honderd procent zekerheid kan worden gedetecteerd. Daarnaast werkt SynthID alleen wanneer de content werd gegenereerd door Google en het watermerk er is ingebed. Gegenereerde content van andere AI-systemen wordt hiermee niet opgemerkt. Google maakte zijn systeem wel beschikbaar voor andere ontwikkelaars, maar dan moeten deze ook zelf instaan voor de detectie. Een onafhankelijk gedeeld systeem dat toegang zou hebben tot alle sleutels van verschillende providers, is praktisch moeilijk te realiseren en opent mogelijk de deur naar misbruik.

Ondertussen experimenteren ook andere AI-bedrijven, zoals OpenAI (met DALL·E en ChatGPT) en Meta AI, met eigen watermerkmethoden, hoewel deze vaak minder transparant zijn dan SynthID. Daarnaast werkt de Coalition for Content Provenance and Authenticity (C2PA), gesteund door bedrijven zoals Adobe, Microsoft en Intel, aan een open standaard voor herkomstinformatie (of provenance) en bewerkingen van digitale content.

Er bestaan ook andere methodes om AI-gegenereerde content te detecteren. Deze proberen patronen in AI-outputs van specifieke modellen te ontdekken, zodat men een gegeven content zou kunnen linken met de mogelijke generator, maar deze methodes zijn niet betrouwbaar en al zeker niet robuust tegen bewerkingen.

In elk geval maakt de opkomst, performantie en beschikbaarheid van generatieve AI het detecteren van machinegemaakte content steeds crucialer, zeker in een tijd waarin deepfakes en desinformatie een groeiende bedreiging vormen. Regelgeving, zoals de EU AI Act, probeert transparantie af te dwingen en technologieën zoals
SynthID spelen hierop in. Toch blijft de strijd tegen ongrijpbare AI-content een kat-en-muisspel, waarbij technologie en misbruik elkaar voortdurend proberen te overtroeven. Alleen door samenwerking tussen techbedrijven, overheden en standaarden zoals C2PA kunnen we dichter bij een betrouwbare digitale wereld komen.