La pipeline dei dati è il mezzo su cui viaggiano i dati mentre si spostano da una posizione all'altra nell'ambito dello stack tecnologico di un'azienda e può includere qualunque blocco costitutivo e di elaborazione coinvolto nel trasferimento.
In genere, una pipeline dei dati è formata da:
I tipici scenari di utilizzo della pipeline dei dati includono:
Anche se le pipeline dei dati possono essere create internamente, oggi vengono solitamente create nel cloud a causa dei suoi livelli superiori di elasticità e flessibilità.
Una pipeline dei dati consente di ottimizzare i dati di un'azienda e massimizzarne il valore, manipolandoli con modalità vantaggiose per il business. Ad esempio, un'azienda che sviluppa e vende un'applicazione per l'automazione dei semafori nelle grandi città può utilizzare la sua pipeline dei dati durante l'addestramento dei dataset per il machine learning, in modo da garantire il funzionamento ottimale dell'applicazione nelle città e consentire ai semafori di gestire la viabilità con la massima efficienza.
I principali vantaggi di una pipeline dei dati sono i seguenti:
L'automazione e l'orchestrazione sono aspetti critici delle pipeline dei dati. L'automazione della pipeline dei dati offre la possibilità di eseguire qualsiasi componente della pipeline dei dati nel momento e con la velocità necessari. L'orchestrazione della pipeline dei dati è il processo di esecuzione coordinata di tutti i componenti.
Una pipeline dei dati completamente automatizzata consente di integrare in modo trasparente dati provenienti da diverse origini per alimentare le applicazioni aziendali e gli analytics, analizzare rapidamente i dati in tempo reale per prendere decisioni aziendali migliori e semplificare la scalabilità delle soluzioni basate sul cloud.
L'orchestrazione permette ai team DataOps di centralizzare la gestione e il controllo delle pipeline dei dati end-to-end, grazie alle funzioni di monitoraggio e report, a cui si aggiungono gli avvisi proattivi.
Come le pipeline dei dati, i sistemi ETL (Extract, Transform, and Load, Estrazione, trasformazione e caricamento), o pipeline ETL, trasportano i dati da una posizione all'altra
ma, a differenza delle pipeline dei dati, per definizione le pipeline ETL:
In genere, i sistemi ETL sono un sottoinsieme delle pipeline dei dati.
L'efficienza di una pipeline dei dati è determinata da quella dei suoi componenti. Un singolo collegamento debole o interrotto può interrompere l'intera pipeline, determinando gravi perdite di tempo e di investimenti.
Proprio per questo, oggi le aziende sono alla ricerca di soluzioni che consentano di ottenere il massimo dai loro dati senza aumentare eccessivamente i costi.
Una soluzione di data storage, come una piattaforma di storage UFFO (Unified Fast File and Object), consolida tutti i dati, sia strutturati che non, in un livello dati accessibile e centralizzato. A differenza dei data warehouse, questo tipo di piattaforma è in grado di gestire i dati operativi e, a differenza dei data lake, può presentare i dati in diversi formati.
Una piattaforma di storage UFFO permette anche di consolidare i data lake e i data warehouse in un singolo livello di accesso e fornisce le funzioni di governance necessarie per semplificare la condivisione dei dati fra gruppi di endpoint diversi. Con un data hub, l'elaborazione dei dati viene astratta, offrendo all'azienda una posizione centralizzata dove estrarre insight di business intelligence.
Pure Storage® FlashBlade® è la piattaforma di storage UFFO leader del settore. Oltre a gestire i workload per gli analytics e i report di un data warehouse, FlashBlade offre:
Inizia a utilizzare FlashBlade.
Nessun hardware, nessuna configurazione, nessun costo: nessun problema. Prova l'esperienza di un'istanza self-service di Pure1® per gestire Pure FlashBlade™, la soluzione più avanzata del settore che offre file e object storage native scale-out.
Hai domande o commenti sui prodotti o sulle certificazioni di Pure? Siamo qui per aiutarti.
Prenota una demo per vedere come puoi trasformare i tuoi dati in risultati concreti con Pure.
Telefono: +39 02 9475 9422
Media: pr@purestorage.com
Pure Storage Italia
Spaces c/o Bastioni di Porta Nuova, 21
Milano, 20121