Datavalidatie: nut en noodzaak

Wanneer het aankomt op het creëren van inzichten uit data, is een gevleugeld gezegde: “garbage in, garbage out”. Terecht, want de gevolgen van slechte datakwaliteit zijn groot:

* management neemt verkeerde besluiten door “vervuilde” KPI’s op het getoonde Power BI dashboard

* aandeelhouders verliezen vertrouwen in de onderneming door geflatteerde winstcijfers

* klanten dienen een claim in omdat ze meer betalen (of minder krijgen) dan eerdere verzonden communicatie had voorgespiegeld

Regelmatige zien we dat dit soort fouten pas een het eind van het proces (jargon:

”downstream”) aan het licht komen. Op dat moment is het kwaad al geschied: het besluit is al genomen, het vertrouwen is al geschaad en/of de claim is al ingediend. Fouten in de data moeten dus zo veel mogelijk aan het begin van het proces (jargon: “upstream”) worden afgevangen.

Datavalidatie houdt in dat elk dataveld wordt getoetst aan een aantal criteria. In theorie is het mogelijk om dit behoorlijk complex te maken door de plausibiliteit van diverse afhankelijkheden tussen de data onderling te controleren. We zien dat hiervoor veel tools op de markt zijn, vaak uitgerust met kunstmatige intelligentie. Deze tools kunnen zeker waarde toevoegen. In de praktijk blijkt echter dat al een zeer groot deel van de fouten al kan worden afgevangen door op elke datakolom drie eenvoudige testen uit te voeren:

  1. is het dataveld gevuld?
  2. is het dataveld van het juiste datatype
  3. valt het het dataveld binnen de verwachte bandbreedte?

Neem als voorbeeld de geboortedatum van een klant. Voor het berekenen van een premie moet dit veld altijd gevuld zijn. Daarnaast moet het veld altijd van het type “datum” zijn in een consistent formaat, bijvoorbeeld het ISO formaat jaar, maand, dag. Tenslotte willen we dat er een foutmelding wordt gegeven wanneer de geboortedatum in de toekomst ligt of juist meer dan 120 jaar in het verleden.

Een validator die op consistente wijze voor elke dataveld deze drie testen uitvoert, blijkt relatief eenvoudig te implementeren terwijl de opbrengst verrassend groot is doordat er al veel rework, frustratie en financiële risico’s mee worden afgevangen.

Deel dit artikel op: