Skip to Content
Dismiss
Innovazione
Una piattaforma creata per l'AI

Unificata, automatizzata e pronta a trasformare i dati in intelligence.

Scopri come
Dismiss
16-18 giugno, Las Vegas
Pure//Accelerate® 2026

Scopri come trarre il massimo dai tuoi dati. 

Registrati ora

Che cos'è l'igiene dei dati?

Con igiene dei dati si intende il processo per garantire che tutti i dati, strutturati e non, all'interno di database o file condivisi siano puliti, ovvero precisi, aggiornati e privi di errori. Questo processo è detto anche "pulizia dei dati" e "qualità dei dati". 

In linea generale, una scarsa qualità dei dati è dovuta a:

  • Duplicazione o ridondanza dei dati: quando i record all'interno dei database sono ripetuti. 
  • Incompletezza dei dati: quando un record non contiene tutti i dati richiesti. 
  • Incoerenza dei dati: quando gli stessi dati esistono in vari formati in più tabelle, producendo tanti file con informazioni diverse sullo stesso oggetto o sulla stessa persona.
  • Imprecisione dei dati: quando i valori archiviati per un determinato oggetto sono errati.

Perché l'igiene dei dati è importante?

L'igiene dei dati migliora la sicurezza, la produttività, il rispetto delle normative e dei requisiti di conformità, nonché l'efficienza. A tale scopo, garantisce che le applicazioni e i processi aziendali utilizzino soltanto dati puliti, corretti e pertinenti, e che i dati sensibili vengano rimossi quando non sono più necessari. Senza una gestione ottimale dei dati, le informazioni disponibili saranno sommarie e incomplete con ricadute sulle attività aziendali e sul processo decisionale. 

Ecco alcuni esempi di problemi, derivati da una scarsa qualità dei dati, che le organizzazioni possono trovarsi ad affrontare.

Vendite e Marketing

Secondo uno studio di DiscoverOrg, i reparti Vendite e Marketing hanno perso circa 550 ore e $ 32.000 per agente a causa dell'uso di dati errati. 

Per i reparti di marketing, questi dati errati possono portare a un eccesso di spesa. Oppure, possono infastidire e allontanare i potenziali clienti. Questo può succedere quando si inviano le stesse comunicazioni commerciali più volte a causa di dati duplicati (es. record duplicati con lo stesso nome ma con qualche variante all'interno dello stesso database).

Nelle vendite online, una scarsa igiene dei dati può portare a proporre il prodotto sbagliato alla persona sbagliata, specialmente quando non sono disponibili dati sui prodotti e sul target di riferimento. 

Finanza

Nei report finanziari, i dati di cattiva qualità e incoerenti possono restituire risposte diverse alle stesse domande. Di conseguenza, i report risultano imprecisi e fuorvianti e potrebbero dare un falsa impressione di sicurezza o incertezza finanziaria.

Supply chain

I dati di cattiva qualità possono interrompere le supply chain, perché diventa molto difficile automatizzare i processi se le decisioni si basano su informazioni inaffidabili.

Obiettivi aziendali globali

A livello aziendale, i problemi di qualità dei dati possono incidere enormemente sulla capacità di raggiungere gli obiettivi a lungo termine. In particolare possono causare:

  • Un impatto negativo sulla capacità di adattarsi e reagire rapidamente ai nuovi trend e condizioni di mercato.
  • Una maggiore difficoltà nel soddisfare i requisiti di conformità dei principali regolamenti in materia di privacy e data protection, tra cui il GDPR, l'HIPAA e il CCPA.
  • Difficoltà a sfruttare i predictive analytics sui dati aziendali, dando adito a decisioni più rischiose per gli obiettivi a breve e lungo termine.

Le sfide di una buona igiene dei dati

Per quanto sia importante, le aziende fanno fatica a curare una buona igiene dei dati. Secondo uno studio pubblicato dalla Harvard Business Review, in media, il 47% dei nuovi record di dati presenta almeno un errore critico (es. che influisce sul lavoro) e soltanto il 3% dei punteggi sulla qualità dei dati è "accettabile" in base a standard molto blandi. 

L'igiene dei dati può essere difficoltosa per vari fattori, tra cui:

  • Continuo aumento della varietà delle origini dati: le aziende un tempo utilizzavano solo i dati generati dai propri sistemi, come i dati delle vendite o di inventario. Oggi le origini dati si sono moltiplicate, spaziando dai dataset online ai dispositivi IoT fino ai dati sperimentali e così via. Più sono le origini dati disponibili, più difficile è garantire che i dati non vengano modificati o manomessi in qualche modo. Ogni volta che si aggiunge un altro sistema al motore di elaborazione dati, si aggiunge una nuova possibilità che i dati perdano valore perché vengono contaminati o vanno persi, in quanto diverse origini dati producono diversi tipi di dati. I dati non strutturati o le informazioni non organizzate secondo un modello o uno schema preimpostato oggi costituiscono l'80% di tutti i dati a livello mondiale.
  • Continuo aumento dei volumi di dati: siamo nell'era dei Big Data, e questi non fanno che aumentare. Dal 1970, i volumi dei dati sono raddoppiati ogni 3 anni. Più dati abbiamo a disposizione, più è difficile raccoglierli, pulirli, integrarli e raggiungere una qualità ottimale entro un determinato arco di tempo. Se la maggior parte è costituita da dati non strutturati, i tempi di elaborazione saranno ancora più lunghi perché questi dati devono essere trasformati in un formato strutturato o semi-strutturato, incidendo ulteriormente sulla qualità.
  • Continuo aumento della velocità dei dati: "dati in tempo reale" è stato il mantra degli ultimi 5 anni. Più dati vengono generati, più velocemente devono essere elaborati per evitare che i sistemi diventino obsoleti. In questo senso, i dati sono come un liquido che scorre in un tubo: più veloce è il flusso, maggiore è il rischio che il tubo si rompa, per cui l'unico modo per sostenerlo è usare un tubo più grande. Per i dati, significa elaborarli più rapidamente per sostenere la velocità con cui vengono acquisiti. Tuttavia, l'elaborazione in tempo reale è un campo di applicazione piuttosto recente che presenta ancora tanto rumore causato da dati inutilizzati o dall'uso di dati non pertinenti. Di conseguenza, le decisioni prese in base a questi dati saranno subottimali nel migliore dei casi e sbagliate nel peggiore.
  • Mancanza di standard chiari sulla qualità dei dati: gli standard sulla qualità dei prodotti esistono fin dal 1987 quando l'International Organization for Standardization (ISO) ha pubblicato la norma ISO 9000. Gli standard ufficiali sulla qualità dei dati, invece, sono apparsi solo nel 2011 (con la norma ISO 8000), per cui sono relativamente giovani e in via di maturazione. Secondo uno studio del 2015 pubblicato sul Data Science Journal, "al momento mancano un'analisi e una ricerca esaustive sugli standard di qualità e sui metodi di valutazione della qualità per i Big Data".

Best practices di igiene dei dati

Sebbene gli standard sulla qualità dei dati non siano ancora definitivi, è possibile seguire determinate best practices di igiene per garantire una qualità ottimale dei dati, ora e in futuro.

Queste includono:

Audit 

L'audit dei dati è essenziale per mantenere una buona igiene e di solito è il primo passo in ogni processo di pulizia dei dati. Prima di intraprendere qualunque azione, è necessario valutare la qualità dei dati e fissare una base di partenza realistica per l'igiene dei dati aziendali. Un tipico processo di audit implica un attento esame dell'infrastruttura e dei processi IT per capire dove si trovano i dati, come vengono utilizzati e con quale frequenza vengono aggiornati. 

Conformità

È importante definire dei criteri sui tipi di dati raccolti e sui motivi, specialmente se sono dati personali dei consumatori, nonché consolidare le procedure di conservazione e rimozione dei dati. I periodi di conservazione indicano per quanto tempo i dati restano memorizzati in un sistema prima di essere eliminati definitivamente. Con una buona igiene è possibile sapere quali dati sono memorizzati, perché, dove e quando devono essere rimossi. Scopri di più sulle best practices di conformità dei dati.

Governance

Con governance dei dati si intende un insieme di processi, ruoli, criteri, standard e metriche per garantire un uso efficiente ed efficace dei dati in modo che un'organizzazione possa raggiungere i propri obiettivi. La governance dei dati stabilisce chi può agire, quali azioni può svolgere, su quali dati, in quali situazioni e con quali metodi. Una buona governance è essenziale per garantire una qualità ottimale dei dati in tutta l'organizzazione. 

Automazione

Infine, anche l'automazione dei processi correlati alla qualità dei dati può contribuire a una buona igiene. Aggiornare automaticamente i dati il più spesso possibile è un modo per garantire che siano sempre attuali e corretti. Un altro modo consiste nell'uso di sistemi di pulizia dei dati che possono vagliare grandi moli di dati e utilizzare algoritmi per rilevare le anomalie e identificare i valori erratici dovuti a errore umano. Questi sistemi possono anche cercare nei database se sono presenti record duplicati. 

Come sono i dati di alta qualità?

Si possono usare diversi aggettivi per descrivere la qualità dei dati. I dati di alta qualità sono:

  • Immediati: vengono creati, gestiti e resi disponibili immediatamente e su richiesta.
  • Concisi: contengono solo informazioni pertinenti.
  • Coerenti: non contengono informazioni discordanti all'interno di uno stesso sistema o tra sistemi diversi.
  • Precisi: sono corretti, precisi e aggiornati.
  • Completi: contengono tutti i dati possibili richiesti.
  • Conformi: sono memorizzati in un formato appropriato e standardizzato.
  • Validi: sono autentici e derivano da fonti note e autorevoli.

Se i dati rispettano tutti questi attributi, un'azienda, i suoi sistemi e le sue applicazioni potranno basarsi sulle migliori informazioni possibili per offrire un'assistenza, un'esperienza del cliente e risultati mirati.

Sfrutta il meglio della data reduction e della deduplica con Pure Storage®

La deduplica dei dati, o semplicemente deduplica, è il processo che consente di eliminare le copie duplicate dei dati da un volume di storage o dall'intero sistema di storage (deduplica tra più volumi). Questo processo utilizza il riconoscimento dei pattern per identificare i dati ridondanti e sostituirli con riferimenti di una singola copia salvata. Purity Reduce di Pure Storage utilizza cinque tecnologie diverse di data reduction per una gestione ottimale dello spazio negli array all-flash. Leggi qui per maggiori informazioni.

Potrebbe interessarti anche...

03/2026
Azure VMware Storage - Cut AVS Costs by 40% | Everpure
Reduce Azure VMware Solution costs by 40% with independently scalable storage. Enterprise-grade block storage managed directly from Azure portal.
Solution brief
5 pages

Esplora risorse ed eventi principali

TRADESHOW
Pure//Accelerate® 2026
June 16-18, 2026 | Resorts World Las Vegas

Preparati all'evento più importante a cui parteciperai quest'anno.

Registrati ora
DEMO DI PURE360
Esplora, scopri e prova Pure Storage.

Accedi a video e demo on demand per scoprire i vantaggi che Pure Storage ti offre.

Guarda le demo
VIDEO
Guarda: Il valore di un Enterprise Data Cloud (EDC).

Charlie Giancarlo spiega perché il futuro è nella gestione dei dati, non dello storage. Scopri in che modo un approccio unificato trasforma le operazioni IT aziendali.

Guarda
RISORSA
Lo storage legacy non può alimentare il futuro.

I workload moderni richiedono velocità, sicurezza e scalabilità AI-ready. Il tuo stack è pronto?

Effettua la valutazione
Il browser che stai usando non è più supportato.

I browser non aggiornati spesso comportano rischi per la sicurezza. Per offrirti la migliore esperienza possibile sul nostro sito, ti invitiamo ad aggiornare il browser alla versione più recente.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
Strategie di virtualizzazione pronte per affrontare il futuro

Soluzioni di storage per tutte le tue esigenze

Consenti progetti di AI di qualunque dimensione

Storage a performance elevate per pipeline dei dati, formazione e inferenza

Proteggiti dalla perdita dei dati

Soluzioni di resilienza informatica che proteggono i tuoi dati

Riduci i costi delle operazioni su cloud

Storage efficiente dal punto di vista dei costi per Azure, AWS e private cloud

Accelera le performance di applicazioni e database

Storage a bassa latenza per le performance delle applicazioni

Riduci il consumo di energia e di ingombro del data center

Storage efficiente delle risorse per ottimizzare l'utilizzo dei data center

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.