Guida

Guida ai Big Data starter pack

Guida ai Big Data starter pack
Che cosa sono i Big Data e come funzionano? Segui il nostro approfondimento sui Big Data e sulle tecnologie necessarie per estrarre informazioni approfondite e fruibili per la tua organizzazione.

Che cosa sono i Big Data?

Le aziende di oggi raccolgono, da una varietà di fonti, enormi quantità di dati, che devono spesso essere analizzati in tempo reale. I Big Data si riferiscono a dati che sono troppo grandi, troppo veloci o troppo complessi per essere elaborati con tecniche tradizionali. Ma il termine comprende anche numerose tecnologie e strategie che i Big Data rendono possibili, come i settori che generano intelligence, la predictive analytics, l'Internet of Things, l'intelligenza artificiale e molto altro.

Research and Markets indica che il mercato globale dei Big Data dovrebbe raggiungere i 156 miliardi di dollari entro il 2026 e le aziende hanno molti buoni motivi per farne parte. Vediamo quindi cosa sono i Big Data, da dove provengono, per cosa possono essere utilizzati e come le aziende possono preparare le proprie infrastrutture IT per trarne il massimo vantaggio.

Le tre V dei Big Data

Sebbene il concetto di Big Data esista da molto tempo, l'analista di settore Doug Laney è stato il primo a coniare, nel 2001, le tre V dei Big Data. Le tre V dei Big Data sono:

  • Volume: la quantità di dati da elaborare (di solito nell'ordine di numerosi gigabyte, exabyte o misura ancora maggiore)
  • Varietà: l'ampia gamma di tipologie di dati, sia strutturati che non strutturati, provenienti da molte fonti diverse
  • Velocità: la velocità con cui i nuovi dati vengono immessi nel sistema

Alcuni esperti di dati estendono la definizione ad altre V. La quarta e la quinta V sono:

  • Veridicità: la qualità dei dati rispetto alla loro accuratezza, precisione e affidabilità
  • Valore: il valore fornito dai dati al business

Sebbene l'elenco includa ben 42 V, le cinque V appena descritte sono quelle più comunemente usate per definire i Big Data.

I Big Data si dividono inoltre in due diverse tipi, che differiscono nel modo in cui i dati vengono elaborati e nel tipo di domande e query a cui sono abituati a rispondere.

  • L'elaborazione in batch viene in genere utilizzata con grandi quantità di dati storici archiviati per fornire informazioni dettagliate per strategie a lungo termine o rispondere a domande complesse. Si tratta di enormi quantità di dati con un'analisi complessa e approfondita.
  • I dati in streaming non riguardano tanto la possibilità di dare risposta a domande complesse, quanto la possibilità di ottenere informazioni immediate e in tempo reale all'occorrenza, come ad esempio per mantenere l'accuratezza di un processo di produzione. Di solito vengono utilizzati con grandi quantità di dati che si muovono rapidamente. Si tratta di enormi quantità di dati ad alta velocità con analisi meno complesse ma estremamente rapide.

Scopri di più sulla differenza tra Big Data e dati tradizionali.

Da dove provengono i Big Data?

Il termine Big Data descrive in realtà l'insieme dei dati moderni, non strutturati, che oggi sono raccolti e il modo in cui vengono utilizzati per ottenere informazioni dettagliate e approfondite. Le fonti spesso includono:

  • L'Internet of Things e i dati provenienti da miliardi di dispositivi e sensori
  • Dati di registro generati da computer e utilizzati per l'analytics dei registri
  • Software, piattaforme e applicazioni enterprise
  • Persone: social media, transazioni, clic online, cartelle cliniche, consumo di risorse naturali, ecc.
  • Dati di ricerca della comunità scientifica e di altre organizzazioni

Tipi di Big Data: strutturati rispetto a non strutturati

Diversi tipi di dati richiedono diversi tipi di storage. È il caso dei dati strutturati e non strutturati, che richiedono diversi tipi di database, elaborazione, storage e analisi.

I dati strutturati sono dati tradizionali che possono essere inseriti perfettamente in tabelle. Sono spesso facilmente categorizzati e formattati in voci di valori standard come prezzi, date, orari, ecc.

I dati non strutturati sono dati moderni che non è così semplice inserire in una tabella. Oggi i dati non strutturati sono spesso sinonimo di Big Data e nei prossimi anni rappresenteranno circa l'80% dei dati. Includono tutti i dati generati da social media, IoT, creatori di contenuti, sistemi di sorveglianza e altro ancora. Possono includere testo, immagini, audio e video. Sono il motore propulsivo di nuove categorie di storage come FlashBlade® Unified Fast File and Object (UFFO). Per utilizzare dati non strutturati, le aziende hanno bisogno di più storage, più potenza di elaborazione e un migliore consolidamento di numerosi tipi di dati.

Scopri di più sulle differenze tra dati strutturati e dati non strutturati.

Che caratteristiche ha il ciclo di vita dei Big Data?

Il ciclo di vita dei Big Data può includere, ad esempio, le seguenti fasi:

  1. I dati vengono estratti e raccolti. I dati potrebbero provenire da una varietà di fonti, inclusi sistemi di pianificazione delle risorse aziendali, sensori IoT, software come applicazioni di marketing o punti vendita, dati in streaming tramite API e altro ancora. L'output di questi dati può variare, il che rende l'acquisizione un importante passo successivo. Ad esempio, i dati provenienti dal mercato azionario saranno molto diversi dai dati di registro dei sistemi interni.
  2. I dati vengono acquisiti. Le pipeline Exchange-Transform-Load (ETL) trasformano i dati nel formato corretto. Che siano destinati a un database SQL o a uno strumento di visualizzazione dati, i dati devono essere trasformati in un formato che lo strumento possa comprendere. Ad esempio, i nomi potrebbero avere un formato non uniforme. A questo punto, i dati sono pronti per l'analisi.
  3. I dati vengono caricati nello storage per l'elaborazione. Successivamente, i dati vengono archiviati da qualche parte, ad esempio in un data warehouse basato su cloud o su storage on-premise. Questo può accadere in modi diversi, a seconda che i dati vengano caricati in batch o che lo streaming basato su eventi avvenga 24 ore su 24. (Nota: questo passaggio può essere eseguito prima della fase di trasformazione, a seconda delle esigenze aziendali).

    Maggiori informazioni: Che cos'è un data warehouse?

  4. I dati vengono sottoposti a query e analizzati. I moderni strumenti di elaborazione e storage basati su cloud stanno avendo un grande impatto sull'evoluzione del ciclo di vita dei Big Data. (Nota: alcuni strumenti moderni come Amazon Redshift possono ignorare i processi ETL e consentire di eseguire query sui dati molto più velocemente). 
  5. I dati vengono archiviati. Indipendentemente dal fatto che vengano archiviati a lungo termine in una soluzione di cold storage o che siano tenuti "al caldo" in soluzioni di storage più accessibili, i dati soggetti al fattore tempo che non servono più verranno archiviati. Se un accesso immediato non è più necessario, il cold storage è un modo conveniente ed efficiente in termini di spazio per archiviare i dati, soprattutto se si tratta di soddisfare i requisiti di conformità o rendere più efficace il processo decisionale strategico a lungo termine. Ciò riduce anche l'impatto sulle performance dovuto alla conservazione di petabyte di dati inattivi su un server che contiene anche dati attivi.

Cosa possono fare le aziende con i Big Data?

Esistono molti modi interessanti ed efficaci di utilizzare i Big Data. Il loro valore risiede nelle innovazioni aziendali che gli insight acquisiti grazie ai Big Data possono aiutare a promuovere. Gli obiettivi e le applicazioni legate ai Big Data spesso includono:

  • Insight e intelligence in tempo reale dall'analisi dei dati in streaming per attivare avvisi e identificare anomalie
  • Predictive analytics
  • Business intelligence
  • Machine learning
  • Analisi dei rischi per contribuire a prevenire frodi e violazioni dei dati e ridurre i rischi per la sicurezza
  • Intelligenza artificiale, compreso il riconoscimento delle immagini, l'elaborazione del linguaggio naturale e le reti neurali
  • Miglioramento della user experience e delle interazioni con i clienti tramite motori di raccomandazioni e supporto predittivo
  • Riduzione dei costi e delle inefficienze nei processi (interni, produttivi, ecc.)
  • Marketing e comunicazione basati sui dati, con l'analisi di milioni di data point di social media, consumatori e pubblicità digitale creati in tempo reale

Scopri altri casi d'uso e applicazioni di Big Data in settori specifici.

Come vengono archiviati i Big Data?

I Big Data hanno esigenze uniche, soprattutto in termini di data storage. Vengono quasi sempre scritti in un database (come nel caso dei dati in streaming in tempo reale) e spesso contengono un'enorme varietà di formati. Di conseguenza, spesso è meglio archiviare i Big Data in ambienti senza schema (non strutturati) per l'avvio su un file system distribuito in modo che l'elaborazione possa avvenire in parallelo su enormi set di dati. Ciò li rende perfetti per una piattaforma di storage non strutturata in grado di unificare i dati di file e oggetti.

Scopri di più sulla differenza tra un data hub e un data lake.

In che modo l'edge computing sta dando impulso alla richiesta di Big Data

L'ascesa dell'Internet of Things (IoT) ha portato a un aumento del volume di dati, che devono essere gestiti mediante parchi di dispositivi distribuiti. 

Invece di aspettare che i dati IoT vengano trasferiti ed elaborati in remoto in una posizione centralizzata come un data center, l'edge computing è una topologia di elaborazione distribuita in cui le informazioni vengono elaborate localmente all'"edge", ovvero l'intersezione tra persone e dispositivi in cui vengono creati nuovi dati. 

Grazie all'edge computing, le aziende sono in grado non solo di risparmiare denaro e larghezza di banda, ma anche di sviluppare applicazioni in tempo reale più efficienti che offrono una user experience superiore ai propri clienti. Questa tendenza accelererà ancora nei prossimi anni con il lancio di nuove tecnologie wireless come il 5G.

Con sempre più dispositivi connessi a Internet, la quantità di dati che devono essere elaborati in tempo reale e all'edge aumenterà. Come fornire quindi un data storage distribuito e sufficientemente agile da soddisfare la crescente domanda di data storage dell'edge computing? La risposta è il data storage container-native. 

Quando esaminiamo le piattaforme edge esistenti come AWS Snowball, Microsoft Azure Stack e Google Anthos, vediamo che sono tutte basate su Kubernetes, una piattaforma diffusa di orchestrazione dei containers. Kubernetes consente a questi ambienti di eseguire workload per l'acquisizione di dati, lo storage, l'elaborazione, l'analytics e il machine learning all'edge. 

Un cluster Kubernetes multinodo in esecuzione all'edge necessita di un motore di storage container-native efficiente che soddisfi le esigenze specifiche dei workload incentrati sui dati. In altre parole, le applicazioni containerizzate in esecuzione all'edge richiedono una gestione dello storage granulare a livello di container. Portworx® è una piattaforma di data services che fornisce un'infrastruttura stateful per la gestione di volumi di dati compatibili con gli SLA dei container.

Scopri di più sulla relazione tra Big Data e IoT.

Data storage all-flash scalabile per tutte le esigenze di Big Data

I vantaggi di ospitare i Big Data su array all-flash includono:

  • Velocità più elevate (55-180 IOPS degli HDD rispetto ai 3.000-40.000 IOPS degli SSD)
  • Parallelismo con oltre 64.000 code per le operations I/O
  • Performance e affidabilità di NVMe

Perché scegliere Pure Storage® per le tue esigenze di Big Data?

Il volume, la varietà e la velocità relative dei Big Data cambiano continuamente. Affinché i tuoi Big Data rimangano veloci, devi investire costantemente nelle più recenti tecnologie di storage. Gli sviluppi compiuti nella memoria flash hanno consentito di fornire soluzioni di storage all-flash personalizzate per tutti i tuoi tier di dati. Ecco come Pure Storage® può aiutarti a potenziare la tua pipeline di Big Data Analytics:

  • Tutti i vantaggi degli array all-flash
  • Consolidamento in un data hub unificato e performante, in grado di sostenere l'alta velocità di trasmissione per lo streaming dei dati da diverse fonti
  • Aggiornamenti del programma Evergreen™ realmente non disruptive, senza downtime o migrazioni dei dati
  • Sistema di gestione dei dati semplificato che combina i vantaggi economici del cloud con il controllo e l'efficienza on-premise

Flash storage scale-out veloce ed efficiente con FlashBlade

800-379-7873 +44 2039741869 +43 720882474 +32 (0) 7 84 80 560 +33 1 83 76 42 54 +498962824144 +353 1 485 4307 +39 02 9475 9422 +31 202457440 +46850541356 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 43 505 28 17 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387 +48 22 343 36 49
Il browser che stai usando non è più supportato.

I browser non aggiornati spesso comportano rischi per la sicurezza. Per offrirti la migliore esperienza possibile sul nostro sito, ti invitiamo ad aggiornare il browser alla versione più recente.