Wat is datahygiëne?

Datahygiëne is de praktijk waarbij ervoor wordt gezorgd dat alle gestructureerde of ongestructureerde data in databases of fileshares "schoon" zijn, wat betekent dat ze nauwkeurig, up-to-date en foutloos zijn. Datahygiëne wordt ook wel "zuiverheid van data" en "datakwaliteit" genoemd.

In het algemeen komt slechte datakwaliteit voort uit:

Dataduplicatie (ook bekend als dataredundantie): Wanneer records in databases worden herhaald.
Data-onvolledigheid: Wanneer niet alle vereiste data voor een record aanwezig zijn.
Data-inconsistentie: Wanneer dezelfde data in verschillende formaten bestaan in meerdere tabellen, wat leidt tot verschillende bestanden met verschillende informatie over hetzelfde object of dezelfde persoon.
Data-onnauwkeurigheid: Wanneer de opgeslagen datawaarden voor een bepaald object onjuist zijn

Waarom is datahygiëne belangrijk?

Datahygiëne bevordert de veiligheid, de productiviteit, de naleving van wet- en regelgeving en de efficiëntie. Het doet dit door ervoor te zorgen dat uw toepassingen en bedrijfsprocessen alleen data gebruiken die schoon, correct en relevant zijn, en dat omvat ook het verwijderen van gevoelige persoonsgegevens die niet langer nodig zijn. Zonder goede datapraktijken volgt u aanwijzingen en broodkruimels naar doodlopende wegen en slechte beslissingen.

Hier volgen enkele voorbeelden van problemen die data van slechte kwaliteit in organisaties kunnen veroorzaken.

Sales en marketing

Uit een studie van DiscoverOrg blijkt dat verkoop- en marketingafdelingen ongeveer 550 uur en maar liefst 32.000 dollar per verkoper verliezen door het gebruik van slechte data.

In marketing kunnen slechte data leiden tot te hoge uitgaven. Het kan prospects ook irriteren of zelfs wegjagen als ze dezelfde inhoud meer dan eens ontvangen als gevolg van duplicatie van data (d.w.z. dubbele records met dezelfde naam die in dezelfde database een beetje anders gespeld is).

In de online verkoop kan een slechte datahygiëne ertoe leiden dat u het verkeerde product aan de verkeerde klant probeert te verkopen als u geen data hebt over uw producten en doelgroepen.

Finance

In de financiële verslaglegging kunnen slechte data door inconsistentie van de data verschillende antwoorden geven op dezelfde vraag, wat leidt tot onnauwkeurige en misleidende financiële verslagen. Deze verslagen kunnen u ofwel een vals gevoel van financiële zekerheid geven, ofwel een alarmerend gevoel van financiële onzekerheid.

Toeleveringsketen

Slechte data kunnen ook een ravage aanrichten in toeleveringsketens omdat het erg moeilijk wordt processen te automatiseren als die procesbeslissingen gebaseerd zijn op onbetrouwbare locatie-informatie.

Algemene bedrijfsdoelstellingen

Op bedrijfsniveau kunnen problemen met de datakwaliteit een aanzienlijke invloed hebben op uw vermogen om uw langetermijndoelstellingen te verwezenlijken. Ze kunnen het volgende veroorzaken:

Een negatieve invloed op uw vermogen om te pivoteren en snel te reageren op nieuwe markttrends en -omstandigheden.
Meer moeite om te voldoen aan de compliance-eisen van belangrijke regelgeving op het gebied van privacy en dataprotectie, zoals AVG, HIPAA en CCPA.
Moeilijkheden bij het gebruik van voorspellende analyses op bedrijfsdata, met als gevolg beslissingen met een hoger risico voor zowel korte- als langetermijndoelstellingen.

De uitdagingen van het handhaven van een goede datahygiëne

Hoe belangrijk een goede datahygiëne ook is, veel bedrijven hebben moeite om de kwaliteit van hun data op peil te houden. Volgens een studie gepubliceerd door de Harvard Business Review vertonen gemiddeld 47% van de nieuw gecreëerde datarecords minstens één kritieke (bv. werkbeïnvloedende) fout en werd slechts 3% van de datakwaliteitsscores als "aanvaardbaar" beoordeeld, waarbij de laagst mogelijke norm werd gehanteerd.

Verschillende factoren kunnen het een uitdaging maken om uw datahygiëne te optimaliseren. Deze bevatten:

Toenemende verscheidenheid van databronnen: Bedrijven maakten vroeger alleen gebruik van data uit hun eigen bedrijfssystemen, zoals verkoop- of voorraaddata. Nu lopen de databronnen sterk uiteen en kunnen zij datareeksen omvatten van het internet, IoT-apparaten, wetenschappelijke en experimentele data, en nog veel meer. Hoe meer databronnen u hebt, hoe moeilijker het is om te garanderen dat de data niet zijn gewijzigd of dat er niet op een of andere manier mee is geknoeid. Telkens wanneer u een ander systeem toevoegt aan uw dataverwerkingssysteem, vergroot u de kans dat die data aan waarde inboeten doordat ze besmet raken of verloren gaan omdat verschillende databronnen verschillende soorten data produceren. Ongestructureerde data - d.w.z. informatie die niet is geordend volgens een vooraf vastgesteld datamodel of -schema - maken nu naar schatting 80% uit van alle data wereldwijd.
Toenemende hoeveelheden data: Het tijdperk van big data is ontegenzeggelijk aangebroken en big data zijn alleen maar grotere data geworden. Sinds 1970 is de hoeveelheid data om de drie jaar verdubbeld. Hoe meer data er zijn, hoe moeilijker het is om binnen een bepaald tijdsbestek data te verzamelen, op te schonen, te integreren en een redelijk hoge kwaliteit te bereiken. Als het grootste deel van deze data ongestructureerd is, zal de verwerkingstijd nog toenemen omdat deze ongestructureerde data moeten worden omgezet in gestructureerde of semi-gestructureerde data, waardoor de kwaliteit van de dataverwerking nog verder achteruit gaat.
IToenemende snelheid van data: "Realtime" data zijn de afgelopen vijf jaar een groot modewoord geworden. Want hoe meer data er worden gegenereerd, hoe sneller u ze moet verwerken, anders loopt u het risico dat er een back-up van uw systemen wordt gemaakt. In die zin zijn data als een vloeistof die in een pijp stroomt - hoe sneller het komt, hoe groter het gevaar dat de pijp breekt, en de enige manier om het toenemende volume op te vangen is de pijp groter te maken. Voor data betekent de pijp groter maken dat ze sneller worden verwerkt om te voldoen aan de snelheid waarmee ze binnenkomen. Maar feitelijke verwerking in realtime is nog een betrekkelijk nieuw gebied en een betrekkelijk nieuwe mogelijkheid, hetgeen betekent dat er nog veel "ruis" is in de vorm van ongebruikte of irrelevante data die worden gebruikt. Als gevolg daarvan zullen de op basis van die data genomen beslissingen in het beste geval suboptimaal en in het slechtste geval foutief zijn.
Gebrek aan duidelijke normen voor datakwaliteit: Normen voor productkwaliteit bestaan al sinds 1987, toen de International Organization for Standardization (ISO) ISO 9000 publiceerde. Officiële normen voor datakwaliteit bestaan daarentegen pas sinds 2011 (van ISO 8000), wat betekent dat ze nog in de kinderschoenen staan en nog relatief nieuw zijn. Volgens een studie uit 2015, gepubliceerd in het Data Science Journal, "ontbreekt het momenteel aan uitgebreide analyse en onderzoek van kwaliteitsnormen en kwaliteitsbeoordelingsmethoden voor big data."

Best practices inzake datahygiëne

Hoewel de normen voor datakwaliteit nog in ontwikkeling zijn, kunt u nu al bepaalde best practices voor datahygiëne toepassen om ervoor te zorgen dat de kwaliteit van uw data hoog is en blijft.

Best practices zijn:

Auditing

Data-audits zijn essentieel voor het handhaven van een goede datahygiëne en vormen doorgaans de eerste stap in elk proces van data-opschoning. Voordat u actie onderneemt, moet u de kwaliteit van uw data beoordelen en een realistische basislijn vaststellen voor de datahygiëne van uw bedrijf. Een typische data-audit houdt in dat uw IT-infrastructuur en -processen onder de loep worden genomen om na te gaan waar uw data zich bevinden, hoe ze worden gebruikt en hoe vaak ze worden bijgewerkt.

Compliance

Het is van cruciaal belang beleid vast te stellen met betrekking tot welke data worden verzameld en waarom, vooral als de data afkomstig zijn van consumenten. Dit houdt ook in dat het beleid inzake het bewaren en verwijderen van data moet worden aangescherpt. Retentieschema's bepalen hoe lang data op een systeem worden bewaard voordat ze worden gewist. Hygiëne betekent weten welke data u opslaat, waarom, waar en wanneer ze moeten worden gewist. Kom meer te weten over best practices inzake datacompliance.

Governance

Datagovernance is de verzameling van processen, rollen, beleidslijnen, normen en maatstaven die ervoor zorgen dat informatie effectief en efficiënt wordt gebruikt om een organisatie in staat te stellen haar doelstellingen te bereiken. Datagovernance bepaalt wie welke actie mag ondernemen, op basis van welke data, in welke situaties en met welke methoden. Goede datagovernance is essentieel om een hoge datakwaliteit in een organisatie te waarborgen.

Automatisering

Tot slot komt een goede datahygiëne voort uit het automatiseren van uw datakwaliteitgerelateerde processen. Dit betekent in de eerste plaats dat uw data zo vaak mogelijk automatisch moeten worden bijgewerkt, zodat ze altijd actueel en correct zijn. Systemen voor het opschonen van data kunnen massa's data doorzoeken en algoritmen gebruiken om anomalieën op te sporen en uitschieters als gevolg van menselijke fouten te identificeren. Zij kunnen ook uw databases schrobben op dubbele records.

Wat maakt data van hoge kwaliteit?

De kwaliteit van de data wordt bepaald door verschillende attributen. Data van hoge kwaliteit zijn:

Tijdig: Ze worden gecreëerd, onderhouden en zijn onmiddellijk en naar behoefte beschikbaar.
Precies: Ze bevatten geen vreemde informatie.
Consistent: Er zijn geen conflicten in de informatie binnen of tussen de systemen.
Accuraat: Ze zijn correct, precies, en up-to-date.
Volledig: Alle mogelijke data die nodig zijn, zijn aanwezig.
Conform: Ze worden opgeslagen in een geschikt en gestandaardiseerd formaat.
Geldig: Ze zijn authentiek en van bekende, gezaghebbende bronnen.

Als uw data aan al deze criteria voldoen, werken u, uw systemen en uw toepassingen met de best mogelijke informatie voor een betere klantenservice, een betere klantervaring en betere bedrijfsresultaten.

Profiteer van datareductie en -duplicatie van topklasse met Pure Storage®

Dataduplicatie, dat ook wel dedupe wordt genoemd, houdt in dat dubbele kopieën van data binnen een opslagvolume of over het gehele opslagsysteem worden geëlimineerd (cross-volume dedupe). Het maakt gebruik van patroonherkenning om overtollige data te identificeren en deze te vervangen door verwijzingen naar een enkele opgeslagen kopie. Met Purity Reduce maakt Pure Storage gebruik van vijf verschillende datareductietechnologieën om ruimte te besparen in all-flash-arrays: Lees hier meer.