In de laatste tien jaar, is onze definitie en het begrip van way data nu precies is dramatisch toegenomen - voor een deel dankzij de groeiende toename van beschikbare nieuwe tools om unstructured data te lezen, op te slaan en analyseren.
In het verleden werd unstructured data nauwelijks gebruikt, gezien de complexiteit om deze data te begrijpen. Deze nieuwe technologieën hebben het makkelijker gemaakt om de unstructured data niet alleen te begrijpen, maar ook om waardevolle inzichten uit deze schat aan informatie te halen.
Volgens IDC is het totale volume aan gecreëerde, vastgelegde, gekopieerde en gebruikte data wereldwijd groter dan 149 zettabytes elk jaar, waarvan het grootste deel unstructured is. Elke organisatie zal profiteren van het opbouwen van unstructured data analysemogelijkheden. De eerste stap hiernaar is het begrijpen wat structured data is in vergelijking tot unstructured data.
Hier is een korte samenvatting van het verschil tussen die twee, met meer uitleg daarbij:
Karakteristiek |
Structured Data |
Unstructured Data |
Aard van de data |
Vooral kwantitatief |
Vooral kwalitatief |
Datamodel |
Voorgedefinieerd: zodra het is vastgesteld en er data is opgeslagen, is het lastig om het model te veranderen. |
Geen specifiek schema wordt gebruikt bij unstructured data: het datamodel is erg flexibel. |
Dataformat |
Een beperkt aantal dataformats is beschikbaar |
Een grote hoeveelheid dataformats is beschikbaar voor unstructured data |
Database |
SQL-gebaseerde relationele databases worden gebruikt |
NoSQL-databases met geen specifiek schema worden gebruikt |
Zoeken |
Zeer eenvoudig om data te zoeken en vinden binnen de database of het dataset |
Zeer lastig om specifieke data te zoeken vanwege diens ongestructureerde aard |
Analyse |
Zeer eenvoudig te analyseren, gezien de kwantitatieve aard van de data |
Zeer lastig om te analyseren, zelfs met de bestaande softwaretools |
Opslagmethode |
Data-warehouses worden gebruikt voor structured data |
Data lakes worden gebruikt om unstructured data op te slaan |
Structured data heeft een voroafbepaald schema voor de informatie dat het bevat. Om een uiterst eenvoudig voorbeeld te geven, elke data die gepresenteerd kan worden in een spreadsheetprogreamma zoals Google Sheets of Microsoft Excel is structured data.
In dit voorbeeld wordt de data voorgesteld als kolommen en rijen. Elke kolom vertegenwoordigt een ander attribuut, terwijl elke rij de data associeert met dat attribuut voor een specifieke gebeurtenis. Rijen en kolommen vormen samen een tabel die gemakkelijk als referentie kunnen dienen.
Verschillende tabellen kunnen worden verbonden: dat wil zeggen dat de gemeenschappelijke kolommen in beide tabellen kunnen worden verbonden.
Wanneer meerdere tabellen achter elkaar worden verbonden en gecombineerd, krijg je een relationele database. Zo kunnen klant-, verkoop- en voorraadgegevens van een winkel worden beschouwd als structured data in een relationele database.
Structured data zoals dit wordt doorgaans opgeslagen in een relationeel databasemanagementsysteem (RDBMS). Databases kunne worden geschreven, gelezen en bewerkt met de hulp van Structured Query Language (SQL), een taal ontwikkeld door IBM in de jaren 1970 om de mainframedatabases te ondersteunen. (Oorspronkelijk stond het bekend als Sequence English Query Language of SEQUEL). Het werd zo genoemd omdat het min of meer leest als het Engels. SQL in diens huidige vorm werd populair door Relational Software, Inc. (nu Oracle).
Elk stukje data dat geen structured data is, kan worden geklassificeerd als unstructured data. Naar verwachting zal in 2025, 80% van alle data die we tegenkomen unstructured data zijn in de vorm van tekst, audio, afbeeldingen of video. 1.
Kort gezegd, unstructured data is moderne data. Het is vaak:
Unstructured data heeft soms geassocieerde metadata dat op diens beurt wel een structuur heeft. Zo kan een video metadata als een videoresolutie hebben, maar ook bitrate, frames per seconde (FPS), eigenaar van de video etc. Maar de video op zichzelf is unstructured. Wanneer er soms structured metadata wordt geassocieerd met unstructured data, wordt het soms ook wel semi-structured data genoemd.
Als we bijvoorbeeld kijken naar een YouTube-video: sommige metadata is aanwezig, zoals de uploadtijd, aantal views (gedeeltelijk of volledig), aantal likes en niet-leuks etc. Maar de content van de video, de video-omschrijving en de video zelf zijn unstructured. Het heeft een kwalitatief aspect dat niet kan worden bepaald met getallen alleen.
De meestgebruikte database voor unstructured data is NoSQL. NoSQL staat voor „not only SQL”, waarmee wordt aangegeven dat de database een bredere range van data aankan, die verder reikt dan de mogelijkheden van een SQL-database. Er is geen schema of tabstructuur voor NoSQL-databases: het is slechts een verzameling van gegroepeerde data.
Dat gezegd hebbende: unstructured data kan dan wel significante inzichten leveren met ontzettend veel potentieel, er blijven flinke uitdagingen aan kleven. Pure’s geavanceerde UFFO opslagoplossing, Pure Storage® FlashBlade®, biedt de snelheid die past bij flash storage technologie, evenals de mogelijkheid om elke architectuur op een agile manier te schalen. Wil je meer weten? Pure biedt een gratis trial voor Pure FlashBlade zodat je de oplossing zonder verplichting kunt testen en proberen.
1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html
Hebt u een vraag of opmerking over Pure-producten of certificeringen? Wij zijn er om te helpen.
Plan een livedemo in en zie zelf hoe Pure kan helpen om jouw data in krachtige resultaten om te zetten.
Bel ons: 31 (0) 20-201-49-65
Media: pr@purestorage.com
Pure Storage
Herikerbergweg 292
1101 CT . Amsterdam Zuidoost
The Netherlands