In che modo i data warehouse potenziano la business intelligence

Che cos'è un data warehouse?

Che cos'è un data warehouse?

Un data warehouse è un sistema di storage ottimizzato per l'archiviazione di dati strutturati che consente di eseguire le query SQL ad alta velocità necessarie per fornire una business intelligence (BI) tempestiva. Dall'elaborazione di transazioni ad alta velocità ai predictive analytics, i data warehouse hanno una storia decennale come standard di storage de facto utilizzato dalle aziende per la propria business intelligence.

I vantaggi dei data warehouse

I vantaggi dei data warehouse includono:

  • Consolidamento di dati strutturati provenienti da più origini diverse 
  • Esecuzione rapida di query analitiche da database relazionali
  • Una soluzione di storage dedicata per ridurre i costi delle query e accelerare il reporting

Prova FlashBlade attraverso il nostro Test Drive

Prova l'esperienza di un'istanza self-service di Pure1® per gestire Pure FlashBlade™, la soluzione più avanzata del settore che offre file e l'object storage scale-out nativi.

Come funzionano i data warehouse

La logistica della raccolta di dati provenienti da diversi settori aziendali per estrarre informazioni utili può diventare sempre più complessa con la progressiva crescita del business. I data warehouse possono offrire alla tua azienda la possibilità di consolidare in modo affidabile tali informazioni in un unico database e modello di dati per consentire  agli analisti di eseguire le loro query. 

Ecco come funziona:

  1. Estrazione: raccolta dei dati raw dai diversi settori dell'organizzazione (ad es. ERP, CRM, vendite, marketing) in database di staging.
  2. Trasformazione: i dati del livello di staging vengono trasferiti in un livello di integrazione, dove vengono combinati e trasformati in un ODS (Operational Data Store).
  3. Caricamento: i dati vengono spostati dal livello di integrazione nel data warehouse attraverso la definizione dello schema che gli analisti desiderano utilizzare per le loro query SQL prima di scriverli in un database relazionale (schema in scrittura). 

Il database con cui si interagisce in un data warehouse è relazionale; in altre parole, i dati sono strutturati in tabelle costituite da colonne e righe. Queste tabelle sono organizzate in base agli schemi definiti  durante la scrittura. 

Quando la fase di trasformazione è gestita da un ODS esterno al data warehouse, si parla di ETL (Extract, Transform, Load). Quando è il data warehouse a gestire internamente le trasformazioni, si parla di ELT (Extract, Load, Transform). Che la scelta ricada su ETL o su ELT, i data warehouse richiedono dati strutturati, e uno schema in scrittura, per poter essere utilizzati con i database relazionali.

Quali sono gli ambiti di applicazione dei data warehouse?

Le applicazioni più diffuse di data warehouse includono:

  • Online Transaction Processing (OLTP): Un data warehouse può essere ottimizzato per la data integrity e le query veloci per gestire un elevato volume di brevi transazioni di dati. Un esempio è dato dalle transazioni che avvengono su una piattaforma di trading ad alta frequenza. 
  • Elaborazione analitica online (OLAP): puoi ottimizzare un data warehouse per accelerare l'esecuzione di query complesse per un volume di transazioni relativamente inferiore. È sostanzialmente ciò che un analista utilizza per generare report di business intelligence.
  • Predictive analytics: un sistema OLAP può essere ottimizzato per prevedere eventi futuri e generare scenari "what if" per l'azienda, spesso con l'aiuto di algoritmi di machine learning.

Poiché i data warehouse sono schemi in scrittura, è importante sapere che tipo di query si desidera eseguire prima di aggiungere schemi a un data warehouse. Per gestire la complessità di più fonti di dati, un data warehouse può essere segmentato in data mart per dedicare risorse hardware e software a specifiche funzioni aziendali come il CRM.

Data warehouse, data lake e data hub a confronto

Anche se questi tre concetti possono sembrare intercambiabili, è importante comprenderne le differenze:

  • Data warehouse: un unico repository per l'integrazione e l'archiviazione di dati strutturati provenienti da più origini di dati non strutturati in tutta l'organizzazione.
  • Data lake: un unico repository non elaborato di tutte le origini di dati raw strutturati e non strutturati all'interno di un'organizzazione (compresi i data warehouse). I dati devono essere ancora elaborati per estrarre informazione approfondite di business intelligence. 
  • Data hub: un'unica interfaccia che consolida tutti i dati, strutturati e non strutturati, in un livello di dati accessibile a livello centrale. Si differenzia da un data warehouse in quanto è in grado di gestire anche dati operativi e si differenzia da un data lake per la capacità di fornire dati in più formati. 

I data hub offrono la governance dei dati necessaria per semplificare la condivisione dei dati nell'ambito di una raccolta diversificata di endpoint. In questo modo, i data hub consolidano i data lake e i data warehouse in un unico livello di accesso. L'elaborazione dei dati avviene in modo invisibile dietro il data hub, offrendo all'organizzazione una posizione centralizzata dove estrarre le informazioni approfondite di business intelligence.

Perché scegliere Pure Storage per le tue esigenze di data warehouse?

Se hai la necessità di aggiungere una nuova pipeline OLAP o OLTP alla tua infrastruttura di data warehouse esistente, potrebbe essere il momento di valutare l'opportunità di investire in una Modern Data Experience™ più avanzata con le soluzioni di storage all-flash di Pure Storage. 

In qualità di primo data hub del settore, Pure Storage®  FlashBlade®  può non solo gestire i workload di analytics and reporting di un data warehouse, ma anche fornire le qualità essenziali di un data hub:

  • Condivisione dei dati fluida tra tutti gli endpoint di dati
  • File storage e object storage unificati
  • Possibilità di gestire i dati operativi in tempo reale
  • Concepito in modalità nativa per lo scale-out
  • Progettato per fornire performance multidimensionali per qualsiasi tipo di dati
  • Parallelo dal software all'hardware
800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387