Anfängerleitfaden zu Big Data

Strukturierte Daten versus unstrukturierte Daten

In den letzten zehn Jahren haben sich unsere Definition und unser Verständnis von Daten dramatisch verändert – zum Teil aufgrund der zunehmenden Verfügbarkeit neuer Tools zum Lesen, Speichern und Analysieren unstrukturierter Daten.

In der Vergangenheit wurden unstrukturierte Daten aufgrund der Schwierigkeit, sie zu interpretieren, oft nicht umfassend genutzt. Diese neuen Technologien haben es einfacher gemacht, unstrukturierte Daten nicht nur zu verstehen, sondern auch wertvolle Erkenntnisse aus diesem Informationsschatz zu gewinnen.

Laut IDC wird das Gesamtvolumen der weltweit erstellten, erfassten, kopierten und verbrauchten Daten bis 2024 jedes Jahr 149 Zettabyte überschreiten – und ein Großteil davon wird unstrukturiert sein. Jedes Unternehmen wird vom Aufbau von Funktionen zur Analyse unstrukturierter Daten profitieren. Der erste Schritt auf diesem Weg besteht einfach darin, zu verstehen, was strukturierte Daten im Gegensatz zu unstrukturierten Daten sind.

Hier finden Sie eine kurze Zusammenfassung des Unterschieds zwischen den beiden Arten von Daten. Tiefergehende Erklärungen werden folgen:

Merkmal

Strukturierte Daten

Unstrukturierte Daten

Beschaffenheit der Daten

In der Regel quantitativ

In der Regel qualitativ

Datenmodell

Vordefiniert. Nach seiner Definition und nachdem einige Daten gespeichert wurden, ist es schwierig, das Modell zu ändern.

Bei unstrukturierten Daten gibt es kein bestimmtes Schema. Das Datenmodell ist sehr flexibel.

Datenformat

Es ist eine begrenzte Anzahl von Datenformaten verfügbar.

Für unstrukturierte Daten sind viele unterschiedliche Datenformate verfügbar.

Datenbank

SQL-basierte relationale Datenbanken werden verwendet.

NoSQL-Datenbanken ohne spezifisches Schema werden verwendet.

Suche

Sehr einfaches Suchen und Finden von Daten innerhalb der Datenbank oder des Datensatzes

Sehr schwierig, nach bestimmten Daten zu suchen, da sie unstrukturiert sind

Analyse

Sehr einfach zu analysieren, da es sich um quantitative Daten handelt

Sehr schwierig zu analysieren, selbst mit vorhandenen Software-Tools

Storage-Methode

Data Warehouses werden für strukturierte Daten verwendet.

Datenpools werden zum Speichern unstrukturierter Daten verwendet.

Was sind strukturierte Daten?

Strukturierte Daten weisen ein wohldefiniertes Schema für die darin enthaltenen Informationen auf. Eine extrem einfache Definition lautet: Alle Daten, die in einem Tabellenkalkulationsprogramm wie Google Sheets oder Microsoft Excel dargestellt werden können, sind strukturierte Daten.

In diesem Beispiel können die Daten als Zeilen und Spalten dargestellt werden. Jede Spalte steht für ein anderes Attribut, während jede Zeile die mit dem Attribut verbundenen Daten für eine einzelne Instanz enthält. Zeilen und Spalten bilden eine Tabelle, auf die einfach Bezug genommen werden kann.

Verschiedene Tabellen können miteinander verbunden werden, d. h. man kann sie aufgrund der in beiden Tabellen vorhandenen gemeinsame Spalte als zusammengehörig betrachten.

Werden mehrere Tabellen nacheinander und in Kombination miteinander in Beziehung gesetzt, entsteht eine relationale Datenbank. Zum Beispiel können die Kunden-, Verkaufs- und Bestandsdaten eines Kaufhauses als strukturierte Daten betrachtet werden, die in einer relationalen Datenbank gespeichert sind.

  • Für jeden Kunden gibt es eine Kunden-ID sowie Felder für dessen Namen, Kontaktnummer, Kreditkarteninformationen, Adresse usw.
  • Die Kundendatenbank kann mit der Datenbank der Verkäufe verbunden werden, wobei zu den Attributen der Zeitpunkt des Kaufs, die gekauften Artikelcodes, der Gesamtbetrag der Ausgaben, die Kunden-ID usw. gehören. Die beiden Tabellen werden mit dem gemeinsamen Attribut, der Kunden-ID, verbunden.
  • Schließlich kann die Verkaufsdatenbank mit der Bestandsdatenbank über den Artikelcode als gemeinsamem Attribut verbunden werden, wodurch alle drei Tabellen effektiv zu einer relationalen Datenbank verbunden werden.

Strukturierte Daten wie diese werden in der Regel in relationalen Datenbankmanagementsystemen (RDBMS) gespeichert. Datenbanken können mit der Structured Query Language (SQL) geschrieben, gelesen und bearbeitet werden, einer Sprache, die von IBM in den 1970er Jahren zur Unterstützung seiner Mainframe-Datenbanken entwickelt wurde (wobei sie ursprünglich als Sequence English Query Language oder SEQUEL bekannt war). Sie wurde so genannt, da sie sich ziemlich ähnlich wie die englische Sprache liest. SQL in seiner heutigen Form wurde von Relational Software, Inc. (jetzt Oracle genannt), bekannt gemacht.

Was sind unstrukturierte Daten?

Alle Daten, die keine strukturierten Daten sind, können als unstrukturierte Daten klassifiziert werden. Schätzungen zufolge werden bis 2025 80 % der Daten, die uns begegnen, unstrukturierte Daten in Form von Texten, Audioaufnahmen, Bildern oder Videos sein1.

Kurz gesagt: Unstrukturierte Daten sind moderne Daten. Sie sind häufig:

  • digitalen Ursprungs
  • ständig im Entstehen begriffen und in Bewegung
  • kombiniert, multimodal und interoperabel
  • für besseren Schutz geografisch verteilt

Unstrukturierten Daten können einige Metadaten zugeordnet sein, die ihrerseits eine Struktur haben können. Ein Video kann z. B. Metadaten zu Videoauflösung, Bitrate, Bildern pro Sekunde (FPS), Videoeigentümer usw. enthalten. Aber das Video an sich ist unstrukturiert. Wenn mit unstrukturierten Daten einige strukturierte Metadaten verbunden sind, spricht man gelegentlich von halbstrukturierten Daten.

Wenn man sich das Beispiel eines YouTube-Videos genauer ansieht, sind einige Metadaten vorhanden, z. B. die Upload-Uhrzeit, das Upload-Datum, die Anzahl der Aufrufe (teilweise oder vollständig), die Anzahl der Likes und Dislikes usw. Aber der Inhalt innerhalb des Videotitels, der Videobeschreibung und des Videos selbst ist unstrukturiert. Er hat einen qualitativen Aspekt, der nicht rein durch Zahlen erfasst werden kann.

Die am häufigsten verwendete Datenbank für unstrukturierte Daten ist NoSQL. NoSQL steht für „not only SQL“ (nicht nur SQL) und weist darauf hin, dass die Datenbank ein breiteres Spektrum an Daten verarbeiten kann, als es SQL-Datenbanken können. Für NoSQL-Datenbanken gibt es kein Schema und keine tabellarische Struktur; es handelt sich lediglich um eine Sammlung von Daten, die gruppiert sind.

 

Storage für unstrukturierte Daten mit UFFO

Doch auch wenn unstrukturierte Daten wichtige Erkenntnisse mit großem Transformationspotenzial liefern können, gibt es Herausforderungen bei der Handhabung dieser Daten. Die fortschrittliche UFFO-Storage-Lösung von Pure, Pure Storage® FlashBlade®, bietet die Geschwindigkeit, die man mit der Flash-Storage-Technologie verbindet, sowie die Fähigkeit, jede Architektur flexibel zu skalieren. Möchten Sie sie sich näher ansehen? Pure bietet eine kostenlose Testversion von Pure FlashBlade an, sodass Sie die Lösung unverbindlich testen können.

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387