ORDINA BLOGT

Datamigratie en het belang van datakwaliteit

  • Henk Zwaan
  • 5 juni 2018

Het doel van een datamigratie is ervoor zorgen dat in de nieuwe omgeving met correcte data kan worden gewerkt. In de intelligente datagedreven organisatie is data een asset en heeft deze veel waarde. Als data incorrect is, leidt dit tot verkeerde beslissingen, fouten in procesuitvoering en fouten in communicatie. De gevolgen kunnen groot zijn. Voor het imago van de organisatie of simpelweg kostbaar door herstelacties of inkomstenderving.

Bij een datamigratie is de datakwaliteit kritiek. Werkt het nieuwe systeem wel als er fouten in de data zitten? Wat als de data in het huidige systeem, de bron voor de migratie, al vervuild is? Vaak is het bronsysteem gedateerd en is de data door de jaren heen vervuild geraakt. Waar gebruikers nu weten hoe ze met onvolkomenheden moeten omgaan, is dat straks na migratie niet meer vanzelfsprekend.

Schonen van data vergt veel inspanning. Dit kan de migratie in de weg zitten. In dit artikel laten we zien hoe we de datakwaliteit aanpakken, data schonen en verrijken, zodanig dat we na migratie over correcte en actuele data beschikken.

Meten
Om de datakwaliteit aan te pakken, moeten we fouten of mogelijke fouten in de data signaleren. We onderkennen vier typen van controles.

  • Bij de syntax- of ingangscontrole bepalen we of de inhoud van een veld een acceptabele waarde bevat: bijvoorbeeld een datum binnen een bepaalde range.
  • Bij business rules gaat het vooral om de combinaties van velden: als een polis de status ‘opgezegd’ heeft, moet de einddatum ingevuld zijn.
  • Referentiële controle gaat over verwijzingen: bij een lening hoort een onderpand.
  • Patroonvalidatie gaat over de logische volgorde van gebeurtenissen, vaak gaat het om tijdstippen: kinderen zijn niet ouder dan hun ouders, een aanvraag kan niet afgehandeld zijn voordat deze is ingediend.

Naast incorrecte of ontbrekende data is dubbele invoer een veelvoorkomende fout. Iedereen herkent wel de dubbel ingevoerde relaties in een CRM-systeem. Er zijn methoden om dit op te sporen, bijvoorbeeld met fuzzy logic. Tijdens de data-analyse zoeken we naar mogelijke fouten in de data. Daarna kan een schoningsplan worden gemaakt.

Schonen
Om data te kunnen schonen, moeten we natuurlijk wel over de correcte data beschikken. Soms is deze intern binnen de organisatie aanwezig, bijvoorbeeld in dossiers of in andere administraties. Soms moeten de correcte gegevens extern worden gezocht, bijvoorbeeld in onafhankelijke referentiebestanden. Een bekend voorbeeld hiervan is de postcodetabel.

Schonen kan handmatig gebeuren of geautomatiseerd. We onderkennen dus vier varianten:

  • Opzoeken: de juiste gegevens zijn intern aanwezig, maar moeten handmatig worden opgezocht waarna de juiste waarden kunnen worden ingevoerd.
  • Uitzoeken: de juiste gegevens zijn niet intern aanwezig en het vergt uitzoekwerk, bijvoorbeeld de klant opbellen.
  • Verwerken: de juiste waarden zijn intern aanwezig en kunnen geautomatiseerd in het systeem worden verwerkt.
  • Verrijken: dit is de variant waarbij externe databronnen worden gehanteerd en de correcte data geautomatiseerd in het systeem wordt overgenomen.

Het geautomatiseerd verwerken of verrijken van data doen we tijdens de migratie. De correcte data wordt dan via zogenaamde bijleeslijsten als extra bron aan de migratie toegevoegd. Op deze wijze blijft de audittrail intact.

Testdata
We migreren alleen data die correct is. Als data incorrect is, filteren we het betreffende gegevensobject eruit en indien nodig ook de gerelateerde objecten. De gemigreerde data is dan altijd correct en consistent. Onze ervaring is dat datavervuiling altijd groter is dan gedacht en schonen kost tijd. Bij aanvang van het migratieproject komt vaak maar weinig data door de filters. Voor testdoeleinden is het echter wenselijk om al in een vroegtijdig stadium over voldoende geconverteerde data te beschikken. Om deze reden kiezen we ervoor om in het begin incorrecte data wel te signaleren, maar niet te filteren. Eventueel wordt incorrecte data tijdelijk door dummy data vervangen. We beschikken dan snel over testdata voor het doelsysteem.

Het migratieproject en de realisatie of inrichting van het doelsysteem zijn vaak parallelle projecten. Het migratieproject richt zich op een bewegend doel. We zorgen voor continuous integration van bron tot en met een testomgeving van het doel. We monitoren continu de voortgang in de schoning en de werking van het doelsysteem met gemigreerde data.

Continu verbeteren
Bij iedere datamigratie is datakwaliteit een issue. Het heeft op dat moment aandacht nodig om de datamigratie te laten slagen. Maar voor veel organisaties is datakwaliteit altijd een issue. Het wordt misschien niet als urgent ervaren, de kosten blijven immers veelal verborgen. Het leidt echter wel tot frustraties bij medewerkers, ontevredenheid bij klanten, onnodige risico’s en gemiste kansen. Datakwaliteit moet meer aandacht krijgen met een continue focus op het monitoren en verbeteren van data.

De wijze waarop we de datakwaliteit aanpakken tijdens een datamigratie kan altijd worden toegepast. Met behulp van de signaleringen meten we periodiek of continu of de data aan alle criteria voldoet. We volgen de trend. Lukt het om te verbeteren? Op welke momenten gaat datakwaliteit achteruit? Wat is hier de oorzaak van? Een dergelijke analyse helpt om tot procesverbeteringen of eventuele systeemaanpassingen te komen waarmee fouten worden voorkomen.

Het verbeteren van de datakwaliteit is nodig om een datamigratie te laten slagen, maar zorgt ook voor de acceptatie van het nieuwe systeem en helpt bij het correct uitvoeren van het bedrijfsproces. Alle inzet die nodig is om de datakwaliteit te verbeteren verdient zich snel terug.

Dit artikel is de vierde in een serie artikelen over datamigraties. Eerder zijn we ingegaan op de principes van datamigratiede migratiestrategie en de dataflow-aanpak. Voor meer informatie over de Ordina-aanpak van datamigraties neem vrijblijvend contact op met Henk Zwaan, management consultant bij Ordina Data & Finance Solutions.

Ordina Data & Finance Solutions biedt oplossingen voor onder meer datamigraties en datakwaliteit, voor het GDPR-compliant maken van datasets en voor historisch databeheer. Henk Zwaan is bereikbaar via henk.zwaan@ordina.nl.