Skip to Content
Anfängerleitfaden zu Big Data

Strukturierte Daten versus unstrukturierte Daten

In den letzten zehn Jahren haben sich unsere Definition und unser Verständnis von Daten dramatisch verändert – zum Teil aufgrund der zunehmenden Verfügbarkeit neuer Tools zum Lesen, Speichern und Analysieren unstrukturierter Daten.

In der Vergangenheit wurden unstrukturierte Daten aufgrund der Schwierigkeit, sie zu interpretieren, oft nicht umfassend genutzt. Diese neuen Technologien haben es einfacher gemacht, unstrukturierte Daten nicht nur zu verstehen, sondern auch wertvolle Erkenntnisse aus diesem Informationsschatz zu gewinnen.

Laut IDC wird das Gesamtvolumen der weltweit erstellten, erfassten, kopierten und verbrauchten Daten bis 2024 jedes Jahr 149 Zettabyte überschreiten – und ein Großteil davon wird unstrukturiert sein. Jedes Unternehmen wird vom Aufbau von Funktionen zur Analyse unstrukturierter Daten profitieren. Der erste Schritt auf diesem Weg besteht einfach darin, zu verstehen, was strukturierte Daten im Gegensatz zu unstrukturierten Daten sind.

Hier finden Sie eine kurze Zusammenfassung des Unterschieds zwischen den beiden Arten von Daten. Tiefergehende Erklärungen werden folgen:

Merkmal

Strukturierte Daten

Unstrukturierte Daten

Beschaffenheit der Daten

In der Regel quantitativ

In der Regel qualitativ

Datenmodell

Vordefiniert. Nach seiner Definition und nachdem einige Daten gespeichert wurden, ist es schwierig, das Modell zu ändern.

Bei unstrukturierten Daten gibt es kein bestimmtes Schema. Das Datenmodell ist sehr flexibel.

Datenformat

Es ist eine begrenzte Anzahl von Datenformaten verfügbar.

Für unstrukturierte Daten sind viele unterschiedliche Datenformate verfügbar.

Datenbank

SQL-basierte relationale Datenbanken werden verwendet.

NoSQL-Datenbanken ohne spezifisches Schema werden verwendet.

Suche

Sehr einfaches Suchen und Finden von Daten innerhalb der Datenbank oder des Datensatzes

Sehr schwierig, nach bestimmten Daten zu suchen, da sie unstrukturiert sind

Analyse

Sehr einfach zu analysieren, da es sich um quantitative Daten handelt

Sehr schwierig zu analysieren, selbst mit vorhandenen Software-Tools

Storage-Methode

Data Warehouses werden für strukturierte Daten verwendet.

Datenpools werden zum Speichern unstrukturierter Daten verwendet.

Slide

Was sind strukturierte Daten?

Strukturierte Daten weisen ein wohldefiniertes Schema für die darin enthaltenen Informationen auf. Eine extrem einfache Definition lautet: Alle Daten, die in einem Tabellenkalkulationsprogramm wie Google Sheets oder Microsoft Excel dargestellt werden können, sind strukturierte Daten.

In diesem Beispiel können die Daten als Zeilen und Spalten dargestellt werden. Jede Spalte steht für ein anderes Attribut, während jede Zeile die mit dem Attribut verbundenen Daten für eine einzelne Instanz enthält. Zeilen und Spalten bilden eine Tabelle, auf die einfach Bezug genommen werden kann.

Verschiedene Tabellen können miteinander verbunden werden, d. h. man kann sie aufgrund der in beiden Tabellen vorhandenen gemeinsame Spalte als zusammengehörig betrachten.

Werden mehrere Tabellen nacheinander und in Kombination miteinander in Beziehung gesetzt, entsteht eine relationale Datenbank. Zum Beispiel können die Kunden-, Verkaufs- und Bestandsdaten eines Kaufhauses als strukturierte Daten betrachtet werden, die in einer relationalen Datenbank gespeichert sind.

  • Für jeden Kunden gibt es eine Kunden-ID sowie Felder für dessen Namen, Kontaktnummer, Kreditkarteninformationen, Adresse usw.
  • Die Kundendatenbank kann mit der Datenbank der Verkäufe verbunden werden, wobei zu den Attributen der Zeitpunkt des Kaufs, die gekauften Artikelcodes, der Gesamtbetrag der Ausgaben, die Kunden-ID usw. gehören. Die beiden Tabellen werden mit dem gemeinsamen Attribut, der Kunden-ID, verbunden.
  • Schließlich kann die Verkaufsdatenbank mit der Bestandsdatenbank über den Artikelcode als gemeinsamem Attribut verbunden werden, wodurch alle drei Tabellen effektiv zu einer relationalen Datenbank verbunden werden.

Strukturierte Daten wie diese werden in der Regel in relationalen Datenbankmanagementsystemen (RDBMS) gespeichert. Datenbanken können mit der Structured Query Language (SQL) geschrieben, gelesen und bearbeitet werden, einer Sprache, die von IBM in den 1970er Jahren zur Unterstützung seiner Mainframe-Datenbanken entwickelt wurde (wobei sie ursprünglich als Sequence English Query Language oder SEQUEL bekannt war). Sie wurde so genannt, da sie sich ziemlich ähnlich wie die englische Sprache liest. SQL in seiner heutigen Form wurde von Relational Software, Inc. (jetzt Oracle genannt), bekannt gemacht.

Was sind unstrukturierte Daten?

Alle Daten, die keine strukturierten Daten sind, können als unstrukturierte Daten klassifiziert werden. Schätzungen zufolge werden bis 2025 80 % der Daten, die uns begegnen, unstrukturierte Daten in Form von Texten, Audioaufnahmen, Bildern oder Videos sein1.

Kurz gesagt: Unstrukturierte Daten sind moderne Daten. Sie sind häufig:

  • digitalen Ursprungs
  • ständig im Entstehen begriffen und in Bewegung
  • kombiniert, multimodal und interoperabel
  • für besseren Schutz geografisch verteilt

Unstrukturierten Daten können einige Metadaten zugeordnet sein, die ihrerseits eine Struktur haben können. Ein Video kann z. B. Metadaten zu Videoauflösung, Bitrate, Bildern pro Sekunde (FPS), Videoeigentümer usw. enthalten. Aber das Video an sich ist unstrukturiert. Wenn mit unstrukturierten Daten einige strukturierte Metadaten verbunden sind, spricht man gelegentlich von halbstrukturierten Daten.

Wenn man sich das Beispiel eines YouTube-Videos genauer ansieht, sind einige Metadaten vorhanden, z. B. die Upload-Uhrzeit, das Upload-Datum, die Anzahl der Aufrufe (teilweise oder vollständig), die Anzahl der Likes und Dislikes usw. Aber der Inhalt innerhalb des Videotitels, der Videobeschreibung und des Videos selbst ist unstrukturiert. Er hat einen qualitativen Aspekt, der nicht rein durch Zahlen erfasst werden kann.

Die am häufigsten verwendete Datenbank für unstrukturierte Daten ist NoSQL. NoSQL steht für „not only SQL“ (nicht nur SQL) und weist darauf hin, dass die Datenbank ein breiteres Spektrum an Daten verarbeiten kann, als es SQL-Datenbanken können. Für NoSQL-Datenbanken gibt es kein Schema und keine tabellarische Struktur; es handelt sich lediglich um eine Sammlung von Daten, die gruppiert sind.

 

Storage für unstrukturierte Daten mit UFFO

Doch auch wenn unstrukturierte Daten wichtige Erkenntnisse mit großem Transformationspotenzial liefern können, gibt es Herausforderungen bei der Handhabung dieser Daten. Die fortschrittliche UFFO-Storage-Lösung von Pure, Pure Storage® FlashBlade®, bietet die Geschwindigkeit, die man mit der Flash-Storage-Technologie verbindet, sowie die Fähigkeit, jede Architektur flexibel zu skalieren. Möchten Sie sie sich näher ansehen? Pure bietet eine kostenlose Testversion von Pure FlashBlade an, sodass Sie die Lösung unverbindlich testen können.

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

KONTAKTIEREN SIE UNS
Fragen, Kommentare?

Haben Sie eine Frage oder einen Kommentar zu Produkten oder Zertifizierungen von Pure?  Wir helfen Ihnen gerne!

Termin für Demo vereinbaren

Vereinbaren Sie einen Termin für eine Live-Demo und sehen Sie selbst, wie Pure Ihnen helfen kann, Ihre Daten in überzeugende Ergebnisse zu verwandeln. 

Rufen Sie uns an: +49 89 26200662
Presse:
 pr@purestorage.com

 

Pure Storage Germany GmbH

Mies-van-der-Rohe-Straße 6

80807 München

Deutschland

info@purestorage.com

SCHLIESSEN
Ihr Browser wird nicht mehr unterstützt!

Ältere Browser stellen häufig ein Sicherheitsrisiko dar. Um die bestmögliche Erfahrung bei der Nutzung unserer Website zu ermöglichen, führen Sie bitte ein Update auf einen dieser aktuellen Browser durch.