Foto van twee Ordina medewerkers

Data Science maakt organisaties intelligent datagedreven

Op 1 juli 2017 nam de Rijksdienst voor Identiteitsgegevens de Permanente Monitor Dubbelinschrijvingen in gebruik. Tegelijkertijd is ook de continue doorontwikkeling begonnen. In deze blog beschrijf ik waarom deze aanpak succesvol is en waarom het inzetten van Data Science organisaties meer betrokken, flexibeler en wendbaarder maakt.

Over het project Permanente Monitor Dubbelinschrijvingen

De overheid registreert persoonsgegevens in de Basisregistratie Personen (BRP). Alle overheidspartijen, zoals de Belastingdienst, zijn verplicht deze gegevens te gebruiken. Naar aanleiding van Kamervragen eind 2014 over legale naamwisselingen in het buitenland heeft de minister van Binnenlandse Zaken en Koninkrijksrelaties toegezegd een Permanente Monitor Dubbelinschrijvingen op te stellen, om te zoeken naar mogelijke dubbelinschrijvingen.

Data Scientists helpen organisaties intelligent datagedreven te werken

Intelligente datagedreven organisaties vinden twee aspecten belangrijk, namelijk datagedreven en intelligent. Met datagedreven werken bedoelen we twee dingen:

  1. de manier waarop je data gebruikt;
  2. de cultuur die stimuleert dat overbodige handmatige handelingen geautomatiseerd worden.

De intelligentie zit hem in de mogelijkheid om de kennis van gebruikers in te zetten om het proces continu te verbeteren en het gebruiken van de nieuwste en beste Data Science-technieken die het zoeken naar dubbelinschrijvingen slimmer maakt.

weergave van Data Science workflow

Versimpelde weergave van de Data Science workflow

Het uitgangspunt van de Permanente Monitor Dubbelinschrijvingen was dat wekelijks automatisch gezocht werd naar mogelijke dubbelinschrijvingen. Zo kunnen experts hun tijd besteden aan het beoordelen of deze mogelijke dubbelinschrijvingen daadwerkelijk dubbel zijn. Daarom is het belangrijk om de software zo te schrijven dat deze automatisch uitgevoerd kan worden. De software moet bijhouden welke mogelijke dubbelinschrijvingen al bekeken zijn, zodat de experts geen dubbel werk doen. Ook als de inhoudelijke zoektocht elke week verandert, moet de software zich aanpassen en gewoon blijven werken.

Intelligentie

Intelligentie komt in vele vormen. Met Data Science-technieken als tekstanalyse en data mining kunnen we inzichten uit data halen die wij mensen heel logisch vinden. De software vertaalt vrije tekstvelden om tekstanalyse mogelijk te maken. Denk hierbij aan verschillen in schrijfwijzen die ontstaan door hoofdlettergebruik (Amsterdam of amsterdam), interpunctie (s hertogenbosch of ’s-hertogenbosch) of diakrietgebruik (belgie of belgië). Vervolgens zoekt de software naar overeenkomsten en verschillen om mogelijke dubbelinschrijvingen te vinden. Tot slot gebruiken we tekstanalyse om typfouten (amtserdam of amsterdam) of verschillende schrijfwijzen (den bosch of ‘s-hertogenbosch) eruit te halen. Hierdoor vind je resultaten die op het oog vergelijkbaar lijken, maar bij goede inspectie toch net anders geschreven zijn.

De kennis van experts wordt in verschillende zoekprofielen vastgelegd, maar die kunnen door de tijd heen wijzigen. Daarom is het belangrijk dat de keuzes van experts in de applicatie eenvoudig aangepast kunnen worden, die vervolgens wekelijks automatisch vertaald worden in software die zoekt naar dubbelen. Zo moet ook het maken van rapportages en het inzicht geven in resultaten in dashboards automatisch gebeuren. Als je de applicatie opent, zie je meest actuele stand van zaken en kun je eenvoudig het verleden analyseren. Bovendien worden maandelijkse rapportages automatisch klaargezet voor experts. Experts laten zich dus informeren door de data via de applicatie en kunnen vervolgens overgaan tot het nemen van beslissingen. Dit is intelligent datagedreven werken.

Resultaten van de Permanente Monitor Dubbelinschrijvingen

Samengevat heeft het project Permanente Monitoring Dubbelinschrijvingen opgeleverd:

  • Een wekelijkse monitor zoekt naar mogelijke dubbelinschrijvingen.
  • Dubbelinschrijvingen worden sneller gesignaleerd door de Rijksdienst voor Identiteitsgegevens en hierdoor kunnen gemeenten geïnformeerd worden om de mogelijke dubbelinschrijvingen te onderzoeken en te herstellen indien nodig.

Interessant? Lees ook de blog ‘De agile aanpak van een data Scientist’.