Knowledge base di Pure
What Is Data Hygiene?

Che cos'è l'igiene dei dati?

Con igiene dei dati si intende il processo per garantire che tutti i dati, strutturati e non, all'interno di database o file condivisi siano puliti, ovvero precisi, aggiornati e privi di errori. Questo processo è detto anche "pulizia dei dati" e "qualità dei dati".

In linea generale, una scarsa qualità dei dati è dovuta a:

Duplicazione o ridondanza dei dati: quando i record all'interno dei database sono ripetuti.
Incompletezza dei dati: quando un record non contiene tutti i dati richiesti.
Incoerenza dei dati: quando gli stessi dati esistono in vari formati in più tabelle, producendo tanti file con informazioni diverse sullo stesso oggetto o sulla stessa persona.
Imprecisione dei dati: quando i valori archiviati per un determinato oggetto sono errati.

Perché l'igiene dei dati è importante?

L'igiene dei dati migliora la sicurezza, la produttività, il rispetto delle normative e dei requisiti di conformità, nonché l'efficienza. A tale scopo, garantisce che le applicazioni e i processi aziendali utilizzino soltanto dati puliti, corretti e pertinenti, e che i dati sensibili vengano rimossi quando non sono più necessari. Senza una gestione ottimale dei dati, le informazioni disponibili saranno sommarie e incomplete con ricadute sulle attività aziendali e sul processo decisionale.

Ecco alcuni esempi di problemi, derivati da una scarsa qualità dei dati, che le organizzazioni possono trovarsi ad affrontare.

Vendite e Marketing

Secondo uno studio di DiscoverOrg, i reparti Vendite e Marketing hanno perso circa 550 ore e $ 32.000 per agente a causa dell'uso di dati errati.

Per i reparti di marketing, questi dati errati possono portare a un eccesso di spesa. Oppure, possono infastidire e allontanare i potenziali clienti. Questo può succedere quando si inviano le stesse comunicazioni commerciali più volte a causa di dati duplicati (es. record duplicati con lo stesso nome ma con qualche variante all'interno dello stesso database).

Nelle vendite online, una scarsa igiene dei dati può portare a proporre il prodotto sbagliato alla persona sbagliata, specialmente quando non sono disponibili dati sui prodotti e sul target di riferimento.

Finanza

Nei report finanziari, i dati di cattiva qualità e incoerenti possono restituire risposte diverse alle stesse domande. Di conseguenza, i report risultano imprecisi e fuorvianti e potrebbero dare un falsa impressione di sicurezza o incertezza finanziaria.

Supply chain

I dati di cattiva qualità possono interrompere le supply chain, perché diventa molto difficile automatizzare i processi se le decisioni si basano su informazioni inaffidabili.

Obiettivi aziendali globali

A livello aziendale, i problemi di qualità dei dati possono incidere enormemente sulla capacità di raggiungere gli obiettivi a lungo termine. In particolare possono causare:

Un impatto negativo sulla capacità di adattarsi e reagire rapidamente ai nuovi trend e condizioni di mercato.
Una maggiore difficoltà nel soddisfare i requisiti di conformità dei principali regolamenti in materia di privacy e data protection, tra cui il GDPR, l'HIPAA e il CCPA.
Difficoltà a sfruttare i predictive analytics sui dati aziendali, dando adito a decisioni più rischiose per gli obiettivi a breve e lungo termine.

Le sfide di una buona igiene dei dati

Per quanto sia importante, le aziende fanno fatica a curare una buona igiene dei dati. Secondo uno studio pubblicato dalla Harvard Business Review, in media, il 47% dei nuovi record di dati presenta almeno un errore critico (es. che influisce sul lavoro) e soltanto il 3% dei punteggi sulla qualità dei dati è "accettabile" in base a standard molto blandi.

L'igiene dei dati può essere difficoltosa per vari fattori, tra cui:

Continuo aumento della varietà delle origini dati: le aziende un tempo utilizzavano solo i dati generati dai propri sistemi, come i dati delle vendite o di inventario. Oggi le origini dati si sono moltiplicate, spaziando dai dataset online ai dispositivi IoT fino ai dati sperimentali e così via. Più sono le origini dati disponibili, più difficile è garantire che i dati non vengano modificati o manomessi in qualche modo. Ogni volta che si aggiunge un altro sistema al motore di elaborazione dati, si aggiunge una nuova possibilità che i dati perdano valore perché vengono contaminati o vanno persi, in quanto diverse origini dati producono diversi tipi di dati. I dati non strutturati o le informazioni non organizzate secondo un modello o uno schema preimpostato oggi costituiscono l'80% di tutti i dati a livello mondiale.
Continuo aumento dei volumi di dati: siamo nell'era dei Big Data, e questi non fanno che aumentare. Dal 1970, i volumi dei dati sono raddoppiati ogni 3 anni. Più dati abbiamo a disposizione, più è difficile raccoglierli, pulirli, integrarli e raggiungere una qualità ottimale entro un determinato arco di tempo. Se la maggior parte è costituita da dati non strutturati, i tempi di elaborazione saranno ancora più lunghi perché questi dati devono essere trasformati in un formato strutturato o semi-strutturato, incidendo ulteriormente sulla qualità.
Continuo aumento della velocità dei dati: "dati in tempo reale" è stato il mantra degli ultimi 5 anni. Più dati vengono generati, più velocemente devono essere elaborati per evitare che i sistemi diventino obsoleti. In questo senso, i dati sono come un liquido che scorre in un tubo: più veloce è il flusso, maggiore è il rischio che il tubo si rompa, per cui l'unico modo per sostenerlo è usare un tubo più grande. Per i dati, significa elaborarli più rapidamente per sostenere la velocità con cui vengono acquisiti. Tuttavia, l'elaborazione in tempo reale è un campo di applicazione piuttosto recente che presenta ancora tanto rumore causato da dati inutilizzati o dall'uso di dati non pertinenti. Di conseguenza, le decisioni prese in base a questi dati saranno subottimali nel migliore dei casi e sbagliate nel peggiore.
Mancanza di standard chiari sulla qualità dei dati: gli standard sulla qualità dei prodotti esistono fin dal 1987 quando l'International Organization for Standardization (ISO) ha pubblicato la norma ISO 9000. Gli standard ufficiali sulla qualità dei dati, invece, sono apparsi solo nel 2011 (con la norma ISO 8000), per cui sono relativamente giovani e in via di maturazione. Secondo uno studio del 2015 pubblicato sul Data Science Journal, "al momento mancano un'analisi e una ricerca esaustive sugli standard di qualità e sui metodi di valutazione della qualità per i Big Data".

Best practices di igiene dei dati

Sebbene gli standard sulla qualità dei dati non siano ancora definitivi, è possibile seguire determinate best practices di igiene per garantire una qualità ottimale dei dati, ora e in futuro.

Queste includono:

Audit

L'audit dei dati è essenziale per mantenere una buona igiene e di solito è il primo passo in ogni processo di pulizia dei dati. Prima di intraprendere qualunque azione, è necessario valutare la qualità dei dati e fissare una base di partenza realistica per l'igiene dei dati aziendali. Un tipico processo di audit implica un attento esame dell'infrastruttura e dei processi IT per capire dove si trovano i dati, come vengono utilizzati e con quale frequenza vengono aggiornati.

Conformità

È importante definire dei criteri sui tipi di dati raccolti e sui motivi, specialmente se sono dati personali dei consumatori, nonché consolidare le procedure di conservazione e rimozione dei dati. I periodi di conservazione indicano per quanto tempo i dati restano memorizzati in un sistema prima di essere eliminati definitivamente. Con una buona igiene è possibile sapere quali dati sono memorizzati, perché, dove e quando devono essere rimossi. Scopri di più sulle best practices di conformità dei dati.

Governance

Con governance dei dati si intende un insieme di processi, ruoli, criteri, standard e metriche per garantire un uso efficiente ed efficace dei dati in modo che un'organizzazione possa raggiungere i propri obiettivi. La governance dei dati stabilisce chi può agire, quali azioni può svolgere, su quali dati, in quali situazioni e con quali metodi. Una buona governance è essenziale per garantire una qualità ottimale dei dati in tutta l'organizzazione.

Automazione

Infine, anche l'automazione dei processi correlati alla qualità dei dati può contribuire a una buona igiene. Aggiornare automaticamente i dati il più spesso possibile è un modo per garantire che siano sempre attuali e corretti. Un altro modo consiste nell'uso di sistemi di pulizia dei dati che possono vagliare grandi moli di dati e utilizzare algoritmi per rilevare le anomalie e identificare i valori erratici dovuti a errore umano. Questi sistemi possono anche cercare nei database se sono presenti record duplicati.

Come sono i dati di alta qualità?

Si possono usare diversi aggettivi per descrivere la qualità dei dati. I dati di alta qualità sono:

Immediati: vengono creati, gestiti e resi disponibili immediatamente e su richiesta.
Concisi: contengono solo informazioni pertinenti.
Coerenti: non contengono informazioni discordanti all'interno di uno stesso sistema o tra sistemi diversi.
Precisi: sono corretti, precisi e aggiornati.
Completi: contengono tutti i dati possibili richiesti.
Conformi: sono memorizzati in un formato appropriato e standardizzato.
Validi: sono autentici e derivano da fonti note e autorevoli.

Se i dati rispettano tutti questi attributi, un'azienda, i suoi sistemi e le sue applicazioni potranno basarsi sulle migliori informazioni possibili per offrire un'assistenza, un'esperienza del cliente e risultati mirati.

Sfrutta il meglio della data reduction e della deduplica con Pure Storage®

La deduplica dei dati, o semplicemente deduplica, è il processo che consente di eliminare le copie duplicate dei dati da un volume di storage o dall'intero sistema di storage (deduplica tra più volumi). Questo processo utilizza il riconoscimento dei pattern per identificare i dati ridondanti e sostituirli con riferimenti di una singola copia salvata. Purity Reduce di Pure Storage utilizza cinque tecnologie diverse di data reduction per una gestione ottimale dello spazio negli array all-flash. Leggi qui per maggiori informazioni.

Scopri Pure

Centro eventi

Scopri i prossimi eventi e webinar e cerca nel nostro catalogo i contenuti on demand.

Blog

Resta aggiornato sugli annunci, gli aggiornamenti dei prodotti, i dettagli delle soluzioni e le indicazioni tecniche di Pure.

Centro risorse

Consulta la nostra raccolta completa di report degli analisti, white paper, eBook e molto altro.

CONTATTACI

Domande?

Hai domande o commenti sui prodotti o sulle certificazioni di Pure? Siamo qui per aiutarti.

Contattaci Chat live

Prenota una demo

Prenota una demo per vedere come puoi trasformare i tuoi dati in risultati concreti con Pure.

Richiedi una demo

Telefono: +39 02 9475 9422

Media: pr@purestorage.com

Pure Storage Italia

Spaces c/o Bastioni di Porta Nuova, 21

Milano, 20121

+39 02 9475 9422

italia@purestorage.com

CHIUDI

Il browser che stai usando non è più supportato.

I browser non aggiornati spesso comportano rischi per la sicurezza. Per offrirti la migliore esperienza possibile sul nostro sito, ti invitiamo ad aggiornare il browser alla versione più recente.