Jannie Busschers, informatiemanager en verantwoordelijk voor het data-innovatieteam bij de Raad voor de Kinderbescherming
Seksueel misbruik van kinderen is doorgaans moeilijk op te merken. Ook voor de Raad voor de Kinderbescherming die opkomt voor de belangen van het kind. Binnen de organisatie bestaat een duidelijke behoefte om dit probleem aan te pakken, om het misbruik beter en vaker op te merken. Het idee ontstond om te experimenteren met algoritmen. Jannie Busschers, informatiemanager en verantwoordelijk voor het data-innovatieteam bij de Raad voor de Kinderbescherming, vertelt hierover.
Aan de slag binnen de veilige kaders van het Big Data LivingLab en Competence Network (LivingLab)
Het ministerie van Justitie en Veiligheid (JenV) heeft eind 2016 het LivingLab opgezet om de schaarse expertise op het terrein van big data en data-analyse te bundelen en te versterken. Het LivingLab voert experimenten uit om de mogelijkheden van een meer informatiegestuurde werkwijze te onderzoeken, en meerwaarde uit de huidige databronnen en gegevens te creëren. De Raad voor de Kinderbescherming was een van de eerste organisaties die meedeed aan het LivingLab. Jannie: “Er bleek een discrepantie tussen de schattingen uit wetenschappelijk onderzoek en de aantallen die wij registreerden. We misten toch nog kinderen die ermee te maken hebben. Dit gegeven was voor ons een belangrijke motivatie om te onderzoeken of een algoritme een bijdrage kon leveren aan het opsporen van seksueel misbruik van kinderen.”
Een samenwerking met het LivingLab bood uitkomst. Deelname had voor de Raad voor de Kinderbescherming meerdere doelen. Jannie: “Allereerst hoopten we aanwijzingen te vinden voor seksueel misbruik die tot dan toe onopgemerkt bleven, puur door anders naar de data te kijken. Daarnaast hadden we het vermoeden dat data-analyses veel voor de Raad voor de Kinderbescherming konden betekenen. Bovendien boden de veilige kaders van het LivingLab – die de knowhow in huis heeft – de zekerheid dat we vragen op het gebied van privacy, ethiek en juridische kaders ook zouden kunnen beantwoorden.”
KINDgedreven in plaats van datagericht werken
Datagericht werken is een uitdrukking die je veel hoort, maar die Jannie niet bij de Raad voor de Kinderbescherming vindt passen. Jannie: “Wij hebben daarom een denkmodel ontwikkeld dat uitgaat van KINDgedreven werken, waarbij KIND staat voor Kennis, Informatie en Data. We hebben voor elk kind telkens maar één kans en dan moeten we precies weten wat het beste is om te doen. We realiseren ons dat de kennis van onze professionals essentieel is voor onze maatschappelijke opdracht. Informatie is een belangrijke grondstof voor die kennis en de besluitvorming van onze professionals en data kan informatie worden.”
Jannie legt aan de hand van de stappenteller uit waarom zij ‘datagericht werken’ geen passende term vindt. “Een stappenteller is van zichzelf een neutraal instrument dat data oplevert. Het geeft slechts weer hoeveel stappen je hebt gezet. Meer niet. Maar een gebruiker heeft er een intentie mee. Vaak is dat meer bewegen, gezonder leven of afvallen. Ik ontdekte dat de effectiviteit van de stappenteller tegenviel, want mensen belonen zichzelf met eten als ze genoeg stappen hebben gezet of ze troosten zichzelf met eten als ze hun doel niet hebben gehaald. De intentie van het instrument wordt daardoor niet behaald. Dat zette me aan het denken over de wisselwerking tussen data en besluitvorming. Data beschikbaar stellen alleen is niet voldoende. Het is ook belangrijk na te denken over de wijze waarop de data kan helpen om de intentie te realiseren.”
Jannie legt de consequenties van het denkmodel uit voor het resultaat van het project: “Aangenomen werd dat we een vlaggetjessysteem of dashboard zouden maken. Maar we hebben ervoor gekozen om die keuze uit te stellen en de focus eerst te leggen op de inhoud en het leren analyseren. Daarna onderzoeken we wat het beste past om onze professionals te helpen bij hun werk. Zo creëren we de meeste waarde.
De ontwikkeling van het algoritme
De Raad voor de Kinderbescherming komt in beeld als het ouders samen met hulpverlening niet meer lukt om kinderen veilig te laten opgroeien en als ingrijpen van overheidswege wordt overwogen. De Raad voor de Kinderbescherming onderzoekt of ingrijpen inderdaad noodzakelijk is en maakt de gang naar de rechter. Tijdens zo’n onderzoek wordt systematisch in kaart gebracht wat er speelt op alle leefgebieden van een kind, zoals de gezinsrelaties, geestelijke gezondheid, huisvesting en inkomen. Daarvoor wordt informatie verzameld bij de ouders en iedereen die bij het kind betrokken is, zoals de huisarts, leerkrachten, hulpverleners en politie.
De Raad voor de Kinderbescherming beschikt dus over veel waardevolle informatie. Jannie: “We werken met een informatiesysteem en vragen aan onze professionals om daarin alles te registreren. Met deze informatie zijn we aan de slag gegaan, samen met data scientists van het Nederlands Forensisch Instituut (NFI). Daar was via het LivingLab de capaciteit geregeld om de analyses uit te voeren. We hebben bewust besloten geen deskresearch te doen naar factoren die volgens de wetenschap een rol spelen bij seksueel misbruik. We wilden namelijk leren van data-analyses an sich en ontdekken wat er gebeurt als je met een onbevangen blik kijkt. We hebben daarom alle informatie in de analyses betrokken.”
Controle versus acceptatie
Het NFI testte de kwaliteit van het uiteindelijke algoritme. Het resultaat is boven verwachting goed: een Excel-lijst met dossiers die op volgorde zijn gezet met een waarschijnlijkheidsscore én een dataset met tweeduizend woorden die het algoritme relevant acht. Nu komen er weer nieuwe vragen op om over door te praten met de uitvoering. Jannie: “Wat hebben we nu in handen? Hoe kunnen we dit verder brengen en hoe gaat dit helpen? We hebben al gemerkt dat valideren ingewikkeld is. We krijgen de vraag waarom het algoritme sommige dossiers boven andere plaatst. Dat is niet altijd makkelijk uit te leggen. Het gaat hier ook om vertrouwen. Precies controleren versus acceptatie. Maar ik vind de discussie terecht, want data is niet feilloos.”
Samen grote maatschappelijke problemen aanpakken
Het project heeft ook nog een ander inzicht opgeleverd. Jannie: “Ik heb het ontzettend leuk en waardevol gevonden om samen te werken met het LivingLab en het NFI. Ik denk dat het goed is voor de overheid om steeds meer over organisaties heen samen te werken. We hebben te maken met grote maatschappelijke problemen die al lang bestaan. Zulke problemen alleen oplossen gaat waarschijnlijk niet werken. Zo breed en nieuwsgierig mogelijk kijken heeft naar mijn overtuiging meer kans van slagen.”
Voor de datanerds
Het NFI heeft Natural Language Processing toegepast op de dossiers van de Raad voor de Kinderscherming. Allereerst is een subset gemaakt van alle dossiers die in de analyse als non-target (geen sprake van seksueel misbruik) zijn aangemerkt om een scheve verdeling tussen targets en non-targets te voorkomen.
Veel voorkomende woorden en voornamen zijn uit de dossiers verwijderd. Er zijn twee modellen getest: een model met zaakwoorden (zoals seksueel, misbruik en grensoverschrijdend) en een model zonder zaakwoorden.
Unigrammen, bigrammen en trigrammen zijn gebruikt als features. Features die in meer dan 80% van de dossiers voorkomen, zijn verwijderd. Vervolgens is term frequency-inverse document frequency (tf-idf) toegepast om te corrigeren voor de lengte van de dossiers. Het maximumaantal features is gesteld op tweeduizend.
Er is een logistische regressieanalyse toegepast. Het model zonder zaakwoorden behaalde een AUC van 0.87, het model met zaakwoorden behaalde een AUC van 0.95. Het NFI ziet nog verschillende mogelijkheden om de analyse te verbeteren.
Tips van Jannie:
- Maak voelbaar wat je project voor de organisatie kan betekenen. Zorg voor een goed inhoudelijk verhaal dat mensen raakt.
- Het begint en eindigt met samenwerking met de business. Zorg dat je doel steeds ten gunste is van de uitvoering.
- Doe geen aannames. Stel bij alles wat je ziet continu de volgende vragen: is dat zo? Moet ik dat inderdaad doen? Is dat inderdaad de juiste stap om te nemen? Hebben we inderdaad voldoende checks gedaan? Hebben we het vraagstuk echt van alle kanten bekeken?
- We moeten als data scientists meer met ethiek. We hebben op dit terrein meer inzichten nodig om de vragen die op ons afkomen te beantwoorden.
Over de Raad voor de Kinderbescherming
Fotografie: Studio Oostrum