Het Centraal Bureau voor de Statistiek (CBS), ook wel ‘de grootste anonimiseerfabriek van Nederland’ genoemd, beheert een schatkamer aan gegevens. Omdat deze data onder andere gedetailleerde persoonsgegevens zijn, is het zorgvuldig waarborgen van privacy belangrijk. “Bij het CBS werken we met privacygevoelige data zoals gezondheidsgegevens en inkomensgegevens”, aldus Wim Schaasberg (hoofd Micro Data Service, CBS). Maak kennis met hoe het CBS de privacy van burgers beschermt.
Halverwege de jaren negentig is men begonnen met het stelsel van sociaal statistische bestanden (SSB), voortgekomen uit het feit dat elke tien jaar een volkstelling gehouden werd. “Dat is vrij kostbaar en daarom ontstond het idee van een ‘virtuele volkstelling’.” Door allerlei andere gegevens aan de basisregistratie personen (BRP) te hangen, kon je alle fenomenen in zo’n volkstelling beschrijven. “Het is zo’n rijkdom, zo’n schatkamer, zonde als je dat niet benut.”
Het stelsel van sociaal statistische bestanden is hiervoor bedoeld: door verschillende datasets aan elkaar te koppelen, kan je als CBS elke statistiek maken zonder dat daar een uitvraag voor hoeft te doen. “Stel, je wilt weten hoeveel mensen er van een uitkering naar een baan zijn doorgestroomd. Dan zou je een steekproef moeten trekken uit alle uitkeringsgerechtigden en aan al die mensen vervolgens vragen of ze werk hebben. Nu hoeft dat niet meer. En dat kan omdat wij met pseudoniemen werken.”
Hoe werkt het?
Om de privacy van burgers te beschermen werken de statistici met gepseudonimiseerde data. Identificerende persoonsgegevens worden vervangen door een eigen CBS-nummer die alleen in het CBS wordt gebruikt. “De routing is als volgt: de statistische afdeling krijgt data met daarin persoonsgegevens. Die leveren ze aan ons, wij vervangen de persoonsgegevens en zetten het in een aparte netwerkconfiguratie zodat de gepseudonimiseerde data gescheiden blijft van de oorspronkelijke data. Medewerkers kunnen dat niet uitwisselen.”
Er is dus een verschil tussen pseudoniem en anoniem: “Met een pseudoniem kan je terug naar de oorspronkelijke persoon en weet je ook dat pseudoniem A die in twee datasets voorkomt dezelfde persoon is”. Met anonieme data weet je niet wie erachter zit en kan je dus ook niet twee datasets aan elkaar relateren. Zo weten de statistici wél dat dezelfde persoon in twee datasets voorkomt, maar niet om welke persoon het gaat.
Privacyrisico’s
Hoewel het CBS elke statistiek kan maken, doen ze dat niet zomaar. “Voordat een CBS medewerker datasets kan koppelen, moet hij een analyseplan indienen. Er wordt een afweging gemaakt: is het haalbaar? En hoe zit het met de privacy aspecten?” Hoewel direct identificerende gegevens uit de datasets gehaald zijn, zijn er ook indirecte persoonsgegevens die naar de persoon herleidbaar zijn. Als je teveel datasets met elkaar combineert, dan ontstaat een onthullingsrisico. “Een simpel voorbeeld: woonplaats en beroep. Als je van alle Nederlanders hun beroep weet, dan weet je dat circa 400 mensen burgemeester zijn. Door het combineren van die dataset met hun woonplaats, dan krijg je voor bepaalde mensen onthullingsrisico”.
Privacyrisico’s treden niet alleen op als er te veel datasets worden gecombineerd, maar ook als hetzelfde pseudoniem voor een lange tijd wordt aangehouden. “De kracht van een pseudoniem verzwakt naarmate je deze langer gebruikt”. Door een bepaalde persoon voor een langere tijd te volgen is het mogelijk iemand toch nog te identificeren. Zeker voor publieke figuren is dit een risico. Het CBS is daarom het ‘dubbel’ pseudonimiseren aan het introduceren: “Wij willen voor elk onderzoek het pseudoniem nogmaals pseudonimiseren, zodat men een pseudoniem van een pseudoniem krijgt.” Zo zijn de data van verschillende onderzoeken niet te combineren. “Nu is de techniek zover dat dat kan, in de jaren negentig duurde dat te lang”.
Waarborgen
Naast het indienen van een analyseplan en het dubbel pseudonimiseren zijn er andere waarborgen: “we hebben de eis dat wat we publiceren anoniem is. Daar bestaan allemaal regels en voorschriften over.” Denk hierbij aan het publiceren op leeftijdsklasse (bijvoorbeeld 18-25 jaar) in plaats van de exacte leeftijd, of het publiceren op wijk- en buurtcodes in plaats van op straatniveau. “Je maakt grotere groepen die wél een beeld schetsen van het fenomeen dat je onderzoekt, maar die zo groot zijn dat je het individu niet kan onderscheiden.”
Door de combinatie van gedetailleerde gegevens op persoonsniveau en het anoniem publiceren van statistieken zijn er haast geen grenzen aan de mogelijke inzichten die je kunt opdoen. “Elk fenomeen kan je beschrijven, de beperkingen zitten op het detailniveau. Als de standaard afwijking te groot wordt om iets zinnigs te zeggen, moet je naar een groter aggregaat, een grotere groep.” Een onderzoeker wil een fenomeen beschrijven, is op zoek naar inzichten. “Je hoeft niet te weten wie aan bepaalde kenmerken voldoet, alleen dat er een persoon is die aan die kenmerken voldoet.”
Terugkijken
Webinar: het CBS over datagedreven werken (RADIO)