De Beginnersgids voor Big Data

Structured Data tov Unstructured Data

In de laatste tien jaar, is onze definitie en het begrip van way data nu precies is dramatisch toegenomen - voor een deel dankzij de groeiende toename van beschikbare nieuwe tools om unstructured data te lezen, op te slaan en analyseren.

In het verleden werd unstructured data nauwelijks gebruikt, gezien de complexiteit om deze data te begrijpen. Deze nieuwe technologieën hebben het makkelijker gemaakt om de unstructured data niet alleen te begrijpen, maar ook om waardevolle inzichten uit deze schat aan informatie te halen.

Volgens IDC is het totale volume aan gecreëerde, vastgelegde, gekopieerde en gebruikte data wereldwijd groter dan 149 zettabytes elk jaar, waarvan het grootste deel unstructured is. Elke organisatie zal profiteren van het opbouwen van unstructured data analysemogelijkheden. De eerste stap hiernaar is het begrijpen wat structured data is in vergelijking tot unstructured data.

Hier is een korte samenvatting van het verschil tussen die twee, met meer uitleg daarbij:

Karakteristiek

Structured Data

Unstructured Data

Aard van de data

Vooral kwantitatief

Vooral kwalitatief

Datamodel

Voorgedefinieerd: zodra het is vastgesteld en er data is opgeslagen, is het lastig om het model te veranderen.

Geen specifiek schema wordt gebruikt bij unstructured data: het datamodel is erg flexibel.

Dataformat

Een beperkt aantal dataformats is beschikbaar

Een grote hoeveelheid dataformats is beschikbaar voor unstructured data

Database

SQL-gebaseerde relationele databases worden gebruikt

NoSQL-databases met geen specifiek schema worden gebruikt

Zoeken

Zeer eenvoudig om data te zoeken en vinden binnen de database of het dataset

Zeer lastig om specifieke data te zoeken vanwege diens ongestructureerde aard

Analyse

Zeer eenvoudig te analyseren, gezien de kwantitatieve aard van de data

Zeer lastig om te analyseren, zelfs met de bestaande softwaretools

Opslagmethode

Data-warehouses worden gebruikt voor structured data

Data lakes worden gebruikt om unstructured data op te slaan

Wat Is structured data?

Structured data heeft een voroafbepaald schema voor de informatie dat het bevat. Om een uiterst eenvoudig voorbeeld te geven, elke data die gepresenteerd kan worden in een spreadsheetprogreamma zoals Google Sheets of Microsoft Excel is structured data.

In dit voorbeeld wordt de data voorgesteld als kolommen en rijen. Elke kolom vertegenwoordigt een ander attribuut, terwijl elke rij de data associeert met dat attribuut voor een specifieke gebeurtenis. Rijen en kolommen vormen samen een tabel die gemakkelijk als referentie kunnen dienen.

Verschillende tabellen kunnen worden verbonden: dat wil zeggen dat de gemeenschappelijke kolommen in beide tabellen kunnen worden verbonden.

Wanneer meerdere tabellen achter elkaar worden verbonden en gecombineerd, krijg je een relationele database. Zo kunnen klant-, verkoop- en voorraadgegevens van een winkel worden beschouwd als structured data in een relationele database.

  • Elke klant heeft een eigen klant-ID, net zoals velden voor hun naam, contactnummer, creditcardinformatie, adres, etc.
  • De database van klanten kan worden verbonden aan de database van verkoop, met attributen als tijd stip van aankoop, specifieke aangeschafte aankoopcodes, totaal besteede bedrag, klant-ID etc. Allebei de tabellen worden verbonden met het gemeenschappelijke attribuut klant-ID.
  • Tot slot kan de verkoopdatabase worden verbonden met de voorraaddatabase door middel van het gemeenschappelijke attribuut aankoopcode, waardoor feitelijk alledrie de tabellen in een relationele database worden verbonden.

Structured data zoals dit wordt doorgaans opgeslagen in een relationeel databasemanagementsysteem (RDBMS). Databases kunne worden geschreven, gelezen en bewerkt met de hulp van Structured Query Language (SQL), een taal ontwikkeld door IBM in de jaren 1970 om de mainframedatabases te ondersteunen. (Oorspronkelijk stond het bekend als Sequence English Query Language of SEQUEL). Het werd zo genoemd omdat het min of meer leest als het Engels. SQL in diens huidige vorm werd populair door Relational Software, Inc. (nu Oracle).

Wat is unstructured data?

Elk stukje data dat geen structured data is, kan worden geklassificeerd als unstructured data. Naar verwachting zal in 2025, 80% van alle data die we tegenkomen unstructured data zijn in de vorm van tekst, audio, afbeeldingen of video. 1.

Kort gezegd, unstructured data is moderne data. Het is vaak:

  • Digitaal ontstaan en onvoorspelbaar
  • Altijd gecreëerd en beweeglijk
  • Blended, multimodal en interoperabel
  • Geo-verspreid voor betere beveiliging

Unstructured data heeft soms geassocieerde metadata dat op diens beurt wel een structuur heeft. Zo kan een video metadata als een videoresolutie hebben, maar ook bitrate, frames per seconde (FPS), eigenaar van de video etc. Maar de video op zichzelf is unstructured. Wanneer er soms structured metadata wordt geassocieerd met unstructured data, wordt het soms ook wel semi-structured data genoemd.

Als we bijvoorbeeld kijken naar een YouTube-video: sommige metadata is aanwezig, zoals de uploadtijd, aantal views (gedeeltelijk of volledig), aantal likes en niet-leuks etc. Maar de content van de video, de video-omschrijving en de video zelf zijn unstructured. Het heeft een kwalitatief aspect dat niet kan worden bepaald met getallen alleen.

De meestgebruikte database voor unstructured data is NoSQL. NoSQL staat voor „not only SQL”, waarmee wordt aangegeven dat de database een bredere range van data aankan, die verder reikt dan de mogelijkheden van een SQL-database. Er is geen schema of tabstructuur voor NoSQL-databases: het is slechts een verzameling van gegroepeerde data.

 

Unstructured Data opslag met UFFO

Dat gezegd hebbende: unstructured data kan dan wel significante inzichten leveren met ontzettend veel potentieel, er blijven flinke uitdagingen aan kleven. Pure’s geavanceerde UFFO opslagoplossing, Pure Storage® FlashBlade®, biedt de snelheid die past bij flash storage technologie, evenals de mogelijkheid om elke architectuur op een agile manier te schalen. Wil je meer weten? Pure biedt een gratis trial voor Pure FlashBlade zodat je de oplossing zonder verplichting kunt testen en proberen.

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387