La guida ai Big Data starter pack

Dati strutturati e dati non strutturati a confronto

Nell'ultimo decennio, la nostra definizione e comprensione di cosa sono i dati è cambiata radicalmente, in parte a causa della crescente disponibilità di nuovi strumenti per leggere, archiviare e analizzare i dati non strutturati.

In passato, i dati non strutturati sono stati spesso sottoutilizzati, data la difficoltà di interpretarli. Le nuove tecnologie hanno reso più facile non solo comprendere i dati non strutturati, ma anche estrarre preziose indicazioni da questa miniera di informazioni.

Secondo IDC, il volume totale di dati creati, acquisiti, copiati e utilizzati in tutto il mondo entro il 2024 supererà i 149 zettabyte ogni anno e per la maggior parte si tratterà di dati non strutturati. Ogni organizzazione trarrà vantaggio dalla creazione di funzionalità di analisi dei dati non strutturati. Il primo passo di questo percorso consiste semplicemente nel capire cosa distingue i dati strutturati da quelli non strutturati.

Ecco un breve riassunto della differenza tra i due, seguito da spiegazioni più approfondite:

Caratteristica

Dati strutturati

Dati non strutturati

Tipo di dati

Di solito quantitativo

Di solito qualitativo

Modello dei dati

Predefinito; una volta definito e una volta memorizzati alcuni dati, è difficile cambiare il modello

I dati non strutturati non hanno uno schema particolare; il modello dei dati è molto flessibile

Formato dei dati

È disponibile un numero limitato di formati di dati

Per i dati non strutturati è disponibile un'enorme varietà di formati di dati

Database

Vengono utilizzati database relazionali basati su SQL

Vengono utilizzati database NoSQL senza schemi specifici

Ricerca

È molto facile cercare e trovare dati all'interno del database o del set di dati

È molto difficile cercare dati particolari a causa della loro natura non strutturata

Analisi

Molto facili da analizzare, data la natura quantitativa dei dati

Molto difficili da analizzare, anche con gli strumenti software esistenti

Metodo di archiviazione

Per i dati strutturati vengono utilizzati i data warehouse

Per archiviare i dati non strutturati vengono utilizzati i data lake

Che cosa sono i dati strutturati?

I dati strutturati hanno uno schema ben definito per le informazioni che contengono. Per dare una definizione estremamente semplice, tutti i dati che possono essere presentati in un programma di fogli di calcolo come Fogli Google o Microsoft Excel sono dati strutturati.

In questo esempio, i dati possono essere rappresentati come righe e colonne. Ogni colonna rappresenta un attributo diverso, mentre ogni riga conterrà i dati associati all'attributo per una singola istanza. Righe e colonne formano una tabella a cui è possibile fare facilmente riferimento.

È possibile collegare diverse tabelle, ovvero si possono considerare correlate in base alla colonna comune presente in entrambe le tabelle.

Se più tabelle sono correlate in successione e combinazione, viene creato un database relazionale. Ad esempio, i dati relativi a clienti, vendite e inventario di un grande magazzino possono essere considerati dati strutturati archiviati come database relazionale.

  • Ogni cliente avrà un ID cliente, oltre a campi per il nome, numero di contatto, informazioni sulla carta di credito, indirizzo, ecc.
  • Il database dei clienti può essere collegato al database delle vendite, con attributi quali l'ora di acquisto, i codici degli articoli acquistati, l'importo totale speso, l'ID cliente, ecc. Entrambe le tabelle saranno collegate con l'attributo comune dell'ID cliente.
  • Infine, il database delle vendite può essere collegato al database dell'inventario utilizzando l'attributo comune del codice articolo, collegando di fatto tutte e tre le tabelle in un database relazionale.

I dati strutturati di questo tipo sono generalmente archiviati in sistemi di gestione di database relazionali (RDBMS). I database possono essere scritti, letti e manipolati utilizzando SQL (Structured Query Language), un linguaggio sviluppato da IBM negli anni '70 per supportare i suoi database mainframe (sebbene fosse inizialmente noto come Sequence English Query Language o SEQUEL). È stato chiamato così poiché si legge più o meno come la lingua inglese. SQL nella sua forma attuale è stato reso popolare da Relational Software, Inc. (nota oggi come Oracle).

Cosa sono i dati non strutturati?

Tutti i dati che non sono dati strutturati possono essere classificati come dati non strutturati. Si prevede che entro il 2025, l'80% dei dati che incontreremo saranno dati non strutturati sotto forma di testo, audio, immagini o video1.

In breve, i dati non strutturati sono i dati moderni. Questi dati spesso sono:

  • digitali in origine e imprevedibili
  • sempre in creazione e in movimento
  • misti, multimodali e interoperabili
  • distribuiti geograficamente per una migliore protezione

I dati non strutturati possono avere alcuni metadati associati che possono, a loro volta, avere una struttura. Ad esempio, un video può avere metadati quali risoluzione video, velocità in bit, fotogrammi al secondo (FPS), proprietario del video, ecc. ma il video stesso non è strutturato. Quando sono presenti alcuni metadati strutturati associati a dati non strutturati, questi a volte vengono indicati come dati semi-strutturati.

Guardando più da vicino l'esempio di un video di YouTube, sono presenti alcuni metadati, come l'ora del caricamento, la data del caricamento, il numero di visualizzazioni (parziale o completo), il numero di Mi piace e Non mi piace, ecc. Ma il contenuto all'interno del titolo del video, la descrizione del video e il video stesso non sono strutturati. Hanno un aspetto qualitativo che non può essere acquisito solamente dai numeri.

Il database usato più comunemente per i dati non strutturati è NoSQL. NoSQL sta per "non solo SQL", e indica che il database può gestire una gamma più ampia di dati con funzionalità superiori a quelle dei database SQL. I database NoSQL non hanno uno schema o una struttura tabulare, si tratta semplicemente di una raccolta di dati raggruppati insieme.

 

Storage per dati non strutturati con UFFO

Detto questo, sebbene i dati non strutturati siano potenzialmente in grado di fornire informazioni approfondite con un enorme potenziale di trasformazione, presentano alcune problematiche di gestione. La soluzione di storage avanzata UFFO di Pure, Pure Storage® FlashBlade®, offre la velocità associata alla tecnologia di flash storage, nonché la capacità di scalare qualsiasi architettura in modo agile. Ti interessa scoprirla più in dettaglio? Pure offre una prova gratuita di Pure FlashBlade così potrai provare la soluzione senza alcun impegno.

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387