Jan Willem Noteboom, R&D-adviseur
Raymond Sluiter, onderzoeker
Het Early Warning Centre van het Koninklijk Nederlands Meteorologisch Instituut (KNMI) zorgt voor een wezenlijke verschuiving in het denken over weersverwachtingen. Van ‘what the weather will be’ naar ‘what the weather will do’. Dat gebeurt onder andere door de inzet van big data en het gebruik van nieuwe databronnen waaronder Internet of Things (IoT). Experimenten moeten de toegevoegde waarde van het gebruik van big data aantonen, bijvoorbeeld voor het voorspellen van mist, gladheid of storm. Wat is hiervoor nodig? Volgens Jan Willem Noteboom en Raymond Sluiter in ieder geval: complete data en een hoop geduld.
KNMI datalab: publiek eerder waarschuwen
Toen R&D-adviseur Jan Willem Noteboom begin 2016 de vraag kreeg om met data science aan de slag te gaan binnen het KNMI, kwam hij met zijn collega’s al snel uit op een KNMI datalab. Met de resultaten wil het meteorologisch instituut het publiek eerder en beter kunnen waarschuwen conform een Early Warning Centre. “We willen duidelijker maken welke impact zoiets als een storm kan hebben”, zegt Jan Willem. “Dus niet ‘windsnelheden van 100 kilometer per uur’, maar ‘in de ochtendspits kunnen veel bomen omwaaien’, of ‘je kunt nu beter niet met een lege vrachtwagen over een brug rijden’.” Feitelijk wordt weerinformatie zo gekoppeld aan een concreet handelingsperspectief.
Hoge resolutie en rijdende sensoren
Voor dit soort waarschuwingen zijn meer gegevens nodig dan alleen uit weermodellen is op te maken en dat betekent allereerst samenwerking met een grote verscheidenheid aan organisaties. “Het Early Warning Centre maakt meteen een paar trends duidelijk”, zegt onderzoeker Raymond Sluiter, tijdens het interview nog werkzaam voor het KNMI, inmiddels overgestapt naar het Netherlands Space Office (NSO). “Bij big data gaat het vaak over het bij elkaar brengen van gegevens uit verschillende domeinen. Daarnaast is er behoefte aan locatiespecifieke informatie die meer zegt dan ‘het wordt 20 graden in De Bilt.’”
In deze hoge-resolutie gegevens spelen tijd en ruimte een belangrijke rol: hoe laat en waar gaat het precies waaien of regenen? Die data blijken lastiger te bemachtigen dan je denkt. Raymond: “We hebben weliswaar 35 waarneemstations in Nederland, maar die staan voornamelijk in landelijk gebied. Interpolaties voor de steden zitten dan bezijden de waarheid. Om tot hogere dichtheid te komen, hebben we heel veel verschillende aanvullende databronnen nodig. Bijvoorbeeld via apparatuur met sensoren en door crowdsourcing.”
Een interessante ontwikkeling hierin is de rijdende sensor: sensoren in auto’s kunnen zorgen voor een enorme boost aan gegevens. Zien we bijvoorbeeld dat ergens in Nederland veel auto’s hun ruitenwissers gebruiken? Grote kans dat het daar regent. Blijkt uit sensoren op autobumpers een lage temperatuur net boven het wegdek op de N237? Dan is een waarschuwing voor gladde wegen misschien een goed idee.
Alles begint met goede data
‘What the weather wil do’ vraagt dus om twee belangrijke zaken. Aan de ene kant de combinatie met andere databronnen die het KNMI voorheen niet gebruikte. Aan de andere kant een hogere resolutie van de data, om bijvoorbeeld exacter te kunnen voorspellen dat er om 17.15 uur op de A4 bij Leiden ijzel wordt voorspeld. “Alles begint bij goede data”, zegt Jan Willem, “maar welke databronnen zijn nou echt interessant voor onze vraagstukken?”
Extra weerstations bouwen is in ieder geval niet de oplossing. Dat is een te dure aangelegenheid. In aanvulling op de data van de onmisbare weerstations is bijvoorbeeld het Actueel Hoogtebestand Nederland (AHN) een belangrijke dataset voor het KNMI. Hiermee kun je de Sky View Factor (SVF) bepalen. Een gebied met een hoge SVF (je ziet veel blauwe lucht) is open en zal in de winter meer afkoelen. Steden hebben een lage SVF en houden meer warmte vast. Raymond: “Dat AHN is echt een enorm bestand. Op iedere vierkante meter heb je iets van acht waarnemingen en dus ruim 320 miljard punten voor heel Nederland. De hieruit berekende SVF gebruiken we voor onze meteorologische modellen.”
Voorspellen van mist: neuraal netwerk
Complete data voor de weersgesteldheid in tijd en plaats: hoe krijgen we die in de KNMI-praktijk nu beter in beeld? Mist is hiervoor een goed voorbeeld. Mist treedt plotseling op, is heel lokaal en lastig te detecteren. De huidige beschikbare zichtmeters zijn niet in staat om alle mist te vangen en satellietwaarnemingen bieden ook niet de gewenste gegevens. Hoe zorg je er nou voor dat je in de ochtendspits tussen 05.00 en 08.00 uur het publiek correct en snel kunt informeren over mist? “Met bestaande camera’s van Rijkswaterstaat”, vertelt Jan Willem. “Daarvan staan er heel veel langs de weg. Dankzij een privacy filter mogen we beelden gebruiken. Het kostte veel tijd, maar het is ons gelukt een model te maken waarbij we op basis van de camerabeelden kunnen vaststellen waar en wanneer het mist.”
Voor de datanerds
Mist detecteren op camerabeelden is minder eenvoudig dan het misschien lijkt. Complicerende factoren zijn verschillen in camera’s die worden gebruikt, verschillen in achtergrond en variaties in panning, tilting en zooming van camera’s.
De gebruikte dataset bestond uit camerabeelden gemaakt met camera’s van KNMI, Rijkswaterstaat en een aantal luchthavens. Labelen vond plaats door gebruik te maken van informatie van het dichtstbijzijnde weerstation (waarbij camera’s maximaal 2,5 km – voor model 1 – of maximaal 7,5 km – voor model 2 – verwijderd mochten zijn van een weerstation). De beelden werden teruggebracht tot een resolutie van 28×28 pixels.
Er is een neuraal netwerk met 5 hidden layers getraind voor beide modellen. F1-score op de trainingset bedroeg 0.986 voor de 2,5 km data en 0.981 voor de 7,5 km data. F1-score op de testset bedroeg 0.65 voor 2,5 km data en 0.51 voor de 7,5 km data. De modellen voorspellen in de meeste gevallen wel correct dat het zicht is verminderd, maar benaderen niet helemaal de hier gekozen grenswaarde (namelijk minder dan 250 meter zicht).
Er worden verschillende opties overwogen om het model nog verder te verbeteren, zoals het gebruik van meer data, toepassing van een convolutioneel neuraal netwerk en verfijning van het labelen.
Dankzij dit project kwam het KNMI meer in contact met de medewerkers in de verkeerscentrale. Waar zouden zij de nieuwe informatie nou voor kunnen gebruiken? “Dat was erg verhelderend”, zegt Jan Willem. “Een vraagstuk is bijvoorbeeld het open of dicht houden van plus- en spitsstroken. Het liefst weet de Verkeerscentrale een uur van tevoren of en waar er mist komt, maar deze informatie is nu nog niet beschikbaar. Zodra mistdetectie met camera’s goed werkt, is het een logische volgende stap om het weermodel te downscalen naar lokale omstandigheden. Dat kan met verschillende bronnen, zoals de SVF. We gaan de verkeerscentrale ook zeker om feedback vragen na de eerste opzet.”
Nieuwe denkwijze
Ook al werken meteorologen altijd met data, voor de KNMI-organisatie is datagedreven werken een nieuwe denkwijze. Jan Willem: “Weer- en klimaatmodellen zijn fysische modellen. Met parameters waar jaren onderzoek in zit en die je niet even opzij kunt zetten. Maar datagedreven modellen vormen een heel andere wereld. Het één vervangt ook niet het ander. Je blijft je conventionele modellen gebruiken en de waarnemingen van weerstations blijven essentieel.”
Reden genoeg om de rest van de organisatie meer te betrekken bij nieuwe technieken rond data science die vooral bruikbaar zijn voor het Early Warning Centre. Jan Willem: “We moeten onze collega’s duidelijk maken dat er momenten zijn in hun analysewerk waarin ze deze nieuwe technieken kunnen toepassen. Dat het niet iets blijft van: oh ja, dat is voor dat datalabje. Nee, het moet een integraal onderdeel worden van de onderzoekspraktijk.”
Tips van Jan Willem en Raymond:
- Leg je niet vast met een bepaald softwarepakket, maar maak gebruik van verschillende open source bouwstenen. Dat geeft je meer flexibiliteit.
- Heb geduld. Denk niet dat je data science eventjes binnen een jaar in je bedrijf integreert. Elke nieuwe technologie heeft tijd nodig. Big data is geen wondermiddel.
- Zet de kwaliteit van data bovenaan. Dat is gewoon superbelangrijk.
Over het KNMI
Fotografie: Studio Oostrum