Algoritmes en analyses door computers worden vaak als objectief gezien. Maar wanneer je vragen stelt aan een systeem, kunnen die vragen (onbewust) leiden tot bevooroordeling. Ook de kwaliteit van data kan veel impact hebben op besluitvorming. Dat is voor een machine niet anders dan voor een mens. Kortom, in een besluitvormingsproces moeten gegevens, beslisregels en analysemethoden allemaal van voldoende kwaliteit zijn. Nu er steeds meer wordt geëxperimenteerd met (deels) zelflerende systemen, wordt dit alleen nog maar belangrijker.
- Zorg voor goede data.
- Stel de juiste vragen.
- Bepaal het gewenste type output.
- Kies de juiste methode van analyseren.
1. Zorg voor goede data
Data moeten juist, volledig, consistent en actueel zijn. Wanneer data niet aan die voorwaarden voldoen, zullen ze geen optimale resultaten opleveren. Sterker nog, de uitkomst van een geautomatiseerd besluit kan zelfs discriminerend zijn. Er worden bijvoorbeeld schoonheidswedstrijden georganiseerd op basis van algoritmes. Wanneer de ingevoerde data niet voldoende divers zijn, kan het gevolg zijn dat mensen met een donkere huidskleur structureel als minder mooi worden beoordeeld. Dit laat zien hoe belangrijk het is om met een representatieve dataset te werken.
Tools om datakwaliteit te bepalen
De kwaliteit van data kan op verschillende manieren worden gedefinieerd. De benodigde kwaliteit is bovendien afhankelijk van de toepassing van de data en van de context. Omdat kwaliteit zelf geen meetbare grootheid is, is het belangrijk om andere (wel meetbare) indicatoren voor kwaliteit vast te stellen.
Datakwaliteit
2. Stel de juiste vragen
Een van de moeilijkste onderdelen van het ontwerpen van een algoritme is het (laten) stellen van de juiste vragen. De kwaliteit van docenten kun je bijvoorbeeld meten aan de testresultaten van hun leerlingen. Maar daarin zit al de aanname dat testresultaten een goede graadmeter zijn voor de kwaliteit van een docent. Ook self-fulfilling prophecies liggen op de loer. Bijvoorbeeld wanneer je in bepaalde wijken naar bijstandsfraudeurs zoekt. Door daar steeds meer data over en inzicht in te krijgen, zullen in vergelijkbare wijken ook meer fraudeurs worden gevonden.
Methoden om de juiste vragen te stellen
Inhoudelijke domeinexperts kennen vaak al belangrijke oorzaken en gevolgen van een problematiek. Daarmee kunnen zij helpen de juiste vragen te formuleren.
De juiste vragen stellen
3. Bepaal het gewenste type output
Analyses van data kunnen verschillende soorten output hebben. Welke vorm de output heeft, kan grote gevolgen hebben voor verdere interpretatie door mens of machine. De uitkomst van een analyse naar fraude kan bijvoorbeeld zijn ‘mogelijke fraudeur’, maar ook een numerieke waarde, zoals regressie. In dat tweede geval is de indeling minder ‘hard’. Je werkt dan nog steeds met grenswaarden, maar ziet ook nog in hoeverre deze persoon over de waarden heen zit. Een inspecteur die de output moet beoordelen, kan dan nog een eigen afweging maken.
Verschillende typen output
Er zijn verschillende categorieën output: naast een harde indeling in klassen of numerieke waarden, kan de output ook zijn dat items vergelijking vertonen. Dit kun je bijvoorbeeld gebruiken om gerelateerde producten of diensten aan te raden.
4. Kies de juiste methode van analyseren
De keuze voor een analysemethode is van fundamentele invloed op de impact die een algoritme heeft. Bij supervised learning probeer je een algoritme bijvoorbeeld een algemene regel te leren die input vertaalt naar gewenste output. Bij unsupervised learning moet het algoritme zelf structuren in de data herkennen. Beide methoden kunnen met eenzelfde dataset een heel ander beeld geven. Het is daarom belangrijk dat de analysestappen en het proces goed te auditeren zijn. Bovendien moet een algoritme zo nodig kunnen worden herijkt op basis van resultaten en voortschrijdend inzicht.