Skip to Content
Dismiss
Innovazione
Una piattaforma creata per l'AI

Unificata, automatizzata e pronta a trasformare i dati in intelligence.

Scopri come
Dismiss
16-18 giugno, Las Vegas
Pure//Accelerate® 2026

Scopri come trarre il massimo dai tuoi dati. 

Registrati ora

Che cos'è il data lineage?

Quando hai più pipeline di dati, devi sapere da dove provengono i dati, quali misure sono state adottate per trasformarli e dove sono archiviati. Disporre di una soluzione di monitoraggio del lignaggio dei dati offre una migliore protezione dei dati e aiuta le aziende a tenere traccia delle modifiche ai dati sensibili. La maggior parte delle aziende utilizza la documentazione per descrivere in dettaglio le pipeline dei dati e il loro lignaggio, ma gli strumenti software facilitano il monitoraggio e la documentazione delle modifiche ai dati.

Che cos'è il data lineage?

Il data lineage è solitamente sotto forma di documentazione utilizzata per gestire meglio i dati e modificarli. Il luogo in cui vengono archiviati i dati viene documentato in modo che le aziende sappiano che i dati vengono archiviati in modo conforme alle normative locali. In una pipeline di dati aziendali, i dati non elaborati possono essere estratti da diverse origini (ad esempio siti Web e file flat interni) e trasformati per memorizzarli in un database strutturato o in un database non strutturato per l'analisi dei dati. La documentazione del data lineage descrive in dettaglio dove vengono estratti i dati e le modifiche apportate.

La documentazione delle modifiche dei dati, delle origini e della posizione di storage finale assicura che le pipeline funzionino come previsto e che gli errori possano essere corretti più rapidamente. Ad esempio, l'origine dati potrebbe modificarne la struttura, pertanto la pipeline dei dati apporta modifiche a un numero di telefono in cui nella destinazione finale sono memorizzati numeri errati. Disporre di una documentazione del data lineage aiuta gli sviluppatori a identificare più rapidamente dove si verificano gli errori.

Vantaggi del data lineage

I dati sensibili devono essere archiviati utilizzando determinati standard di sicurezza. L'accesso ai dati deve essere eseguito tramite registrazione. Un documento di data lineage garantisce risultati migliori per la conformità e può essere utilizzato durante qualsiasi procedura di audit. La conformità è solo uno dei vantaggi più importanti del data lineage.

Anche la documentazione delle fasi di trasformazione dei dati, l'estrazione dell'origine e la destinazione finale dello storage rendono la risoluzione dei problemi più efficiente. Quando gli sviluppatori conoscono ogni fase della trasformazione dei dati, possono convalidare il codice e identificare gli errori più rapidamente. Quando i dati vengono utilizzati in applicazioni rivolte ai clienti, gli sviluppatori possono identificare più rapidamente dove vengono archiviati. Qualsiasi integrazione dei dati è più efficiente e la documentazione per il data lineage riduce il rischio di perdere l'integrità dei dati durante lo sviluppo delle applicazioni.

Implementazione del data lineage

Potrebbe sembrare un progetto semplice, ma l'implementazione del data lineage può rappresentare una sfida enorme per le applicazioni di livello enterprise. Ogni stakeholder deve essere coinvolto e possono essere necessari mesi per raccogliere tutte le informazioni necessarie per documentare il lignaggio dei dati. Ecco i passaggi di base per il processo di data lineage:

  1. Parla con gli stakeholder per capire l'applicazione utilizzata per la loro funzione lavorativa.
  2. Discutere le origini dati delle applicazioni con gli sviluppatori.
  3. Determina i metadati per il tuo catalogo dati.
  4. Crea un catalogo di dati utilizzando i metadati .
  5. Definisci il nuovo monitoraggio del lignaggio dei dati.
  6. Procedure di monitoraggio dei documenti.
  7. Stabilisci una governance sulle future modifiche dei dati per garantire che la documentazione rimanga aggiornata.
  8. Discutere i cambiamenti con gli stakeholder.
  9. Monitora il monitoraggio del lignaggio dei dati e modificalo quando necessario.

La scoperta dei dati e il monitoraggio delle modifiche è una sfida enorme, ma puoi lavorare con strumenti per semplificare il processo. Alcuni strumenti ti aiutano a creare un catalogo dati, altri a scoprire le origini dati. Ciò che usi dipende dal processo e dai risultati che vuoi ottenere. Ecco alcuni strumenti per iniziare:

  • Data lineage Collibra: Trova automaticamente le origini dati e mappa il flusso di lavoro dalle origini alla destinazione di storage finale.
  • Octopai: Gestisci il catalogo dati e i metadati mappati a ciascuna origine dati.
  • Atlan: Mappa le pipeline dei dati e assicurati che le posizioni di storage e il processo della pipeline seguano i requisiti normativi per la conformità.

Best practice per il data lineage

Se il processo di data lineage si rompe, potresti perdere di vista le origini dati, lavorare con i dati sensibili senza essere conformi o perdere i dati quando le pipeline non funzionano più correttamente. Per evitare la perdita di dati o costose violazioni della conformità, puoi seguire alcune best practice per le procedure di gestione dei dati. Ecco alcuni modi per proteggere e documentare la tua linea di dati e le pipeline:

  • Aggiorna la documentazione quando ci sono modifiche alle pipeline, alla destinazione o alle origini.
  • Controlla e registra le versioni della documentazione con informazioni su chi l'ha modificata e quando.
  • Utilizza l'automazione per accelerare la delivery e ridurre i rischi di supervisione.
  • Sviluppa una convenzione di denominazione che sia coerente in tutta la documentazione.
  • Catalogare le persone responsabili dei dati e delle applicazioni che utilizzano i dati.
  • Rivedi la documentazione ogni anno per assicurarti che sia ancora accurata.

Sfide e soluzioni

Il data lineage è una forma di auditing e, come per qualsiasi progetto di auditing, può avere delle sfide. La sfida più grande per la maggior parte dei revisori è trovare le origini dati e mappare le pipeline alle destinazioni dati. In un ambiente enterprise, è possibile avere centinaia di origini dati. La trasformazione dei dati potrebbe richiedere diversi passaggi e i dati potrebbero essere inviati a database onsite o nel cloud. Può essere difficile individuare i dati man mano che si spostano nella pipeline dei dati. Gli strumenti di scoperta con intelligenza artificiale aiutano a risolvere questa sfida e gli sviluppatori per le pipeline di dati possono aiutare a risolvere le domande sulla trasformazione.

Gli sviluppatori e gli amministratori di database spesso apportano modifiche senza documentarle. Senza aggiornamenti, la documentazione del data lineage diventa obsoleta. Per i revisori e gli amministratori è difficile garantire che la documentazione del data lineage sia sempre aggiornata sulle modifiche apportate alle pipeline dei dati. Collaborare con gli stakeholder e creare policy che richiedono la documentazione degli sviluppatori aiuta a ridurre questo rischio. Inoltre, gli strumenti possono essere utilizzati per automatizzare le modifiche e inviare avvisi quando vengono apportate modifiche alla pipeline dei dati.

Conclusione

Per garantire la conformità e una transizione più fluida quando si modificano le pipeline dei dati, un processo di data lineage può documentare ogni origine, destinazione e trasformazione che influisce sui dati. I dati sensibili vengono monitorati in modo che tutti i controlli di storage e accesso rispettino i requisiti di conformità. Puoi sfruttare lo storage unificato di Pure Storage per aiutarti con la scalabilità e una migliore documentazione dei tuoi dati.

Potrebbe interessarti anche...

03/2026
Azure VMware Storage - Cut AVS Costs by 40% | Everpure
Reduce Azure VMware Solution costs by 40% with independently scalable storage. Enterprise-grade block storage managed directly from Azure portal.
Solution brief
5 pages

Esplora risorse ed eventi principali

TRADESHOW
Pure//Accelerate® 2026
June 16-18, 2026 | Resorts World Las Vegas

Preparati all'evento più importante a cui parteciperai quest'anno.

Registrati ora
DEMO DI PURE360
Esplora, scopri e prova Pure Storage.

Accedi a video e demo on demand per scoprire i vantaggi che Pure Storage ti offre.

Guarda le demo
VIDEO
Guarda: Il valore di un Enterprise Data Cloud (EDC).

Charlie Giancarlo spiega perché il futuro è nella gestione dei dati, non dello storage. Scopri in che modo un approccio unificato trasforma le operazioni IT aziendali.

Guarda
RISORSA
Lo storage legacy non può alimentare il futuro.

I workload moderni richiedono velocità, sicurezza e scalabilità AI-ready. Il tuo stack è pronto?

Effettua la valutazione
Il browser che stai usando non è più supportato.

I browser non aggiornati spesso comportano rischi per la sicurezza. Per offrirti la migliore esperienza possibile sul nostro sito, ti invitiamo ad aggiornare il browser alla versione più recente.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
Strategie di virtualizzazione pronte per affrontare il futuro

Soluzioni di storage per tutte le tue esigenze

Consenti progetti di AI di qualunque dimensione

Storage a performance elevate per pipeline dei dati, formazione e inferenza

Proteggiti dalla perdita dei dati

Soluzioni di resilienza informatica che proteggono i tuoi dati

Riduci i costi delle operazioni su cloud

Storage efficiente dal punto di vista dei costi per Azure, AWS e private cloud

Accelera le performance di applicazioni e database

Storage a bassa latenza per le performance delle applicazioni

Riduci il consumo di energia e di ingombro del data center

Storage efficiente delle risorse per ottimizzare l'utilizzo dei data center

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.