In den letzten zehn Jahren haben sich unsere Definition und unser Verständnis von Daten dramatisch verändert – zum Teil aufgrund der zunehmenden Verfügbarkeit neuer Tools zum Lesen, Speichern und Analysieren unstrukturierter Daten.
In der Vergangenheit wurden unstrukturierte Daten aufgrund der Schwierigkeit, sie zu interpretieren, oft nicht umfassend genutzt. Diese neuen Technologien haben es einfacher gemacht, unstrukturierte Daten nicht nur zu verstehen, sondern auch wertvolle Erkenntnisse aus diesem Informationsschatz zu gewinnen.
Laut IDC wird das Gesamtvolumen der weltweit erstellten, erfassten, kopierten und verbrauchten Daten bis 2024 jedes Jahr 149 Zettabyte überschreiten – und ein Großteil davon wird unstrukturiert sein. Jedes Unternehmen wird vom Aufbau von Funktionen zur Analyse unstrukturierter Daten profitieren. Der erste Schritt auf diesem Weg besteht einfach darin, zu verstehen, was strukturierte Daten im Gegensatz zu unstrukturierten Daten sind.
Hier finden Sie eine kurze Zusammenfassung des Unterschieds zwischen den beiden Arten von Daten. Tiefergehende Erklärungen werden folgen:
Merkmal |
Strukturierte Daten |
Unstrukturierte Daten |
Beschaffenheit der Daten |
In der Regel quantitativ |
In der Regel qualitativ |
Datenmodell |
Vordefiniert. Nach seiner Definition und nachdem einige Daten gespeichert wurden, ist es schwierig, das Modell zu ändern. |
Bei unstrukturierten Daten gibt es kein bestimmtes Schema. Das Datenmodell ist sehr flexibel. |
Datenformat |
Es ist eine begrenzte Anzahl von Datenformaten verfügbar. |
Für unstrukturierte Daten sind viele unterschiedliche Datenformate verfügbar. |
Datenbank |
SQL-basierte relationale Datenbanken werden verwendet. |
NoSQL-Datenbanken ohne spezifisches Schema werden verwendet. |
Suche |
Sehr einfaches Suchen und Finden von Daten innerhalb der Datenbank oder des Datensatzes |
Sehr schwierig, nach bestimmten Daten zu suchen, da sie unstrukturiert sind |
Analyse |
Sehr einfach zu analysieren, da es sich um quantitative Daten handelt |
Sehr schwierig zu analysieren, selbst mit vorhandenen Software-Tools |
Storage-Methode |
Data Warehouses werden für strukturierte Daten verwendet. |
Datenpools werden zum Speichern unstrukturierter Daten verwendet. |
Strukturierte Daten weisen ein wohldefiniertes Schema für die darin enthaltenen Informationen auf. Eine extrem einfache Definition lautet: Alle Daten, die in einem Tabellenkalkulationsprogramm wie Google Sheets oder Microsoft Excel dargestellt werden können, sind strukturierte Daten.
In diesem Beispiel können die Daten als Zeilen und Spalten dargestellt werden. Jede Spalte steht für ein anderes Attribut, während jede Zeile die mit dem Attribut verbundenen Daten für eine einzelne Instanz enthält. Zeilen und Spalten bilden eine Tabelle, auf die einfach Bezug genommen werden kann.
Verschiedene Tabellen können miteinander verbunden werden, d. h. man kann sie aufgrund der in beiden Tabellen vorhandenen gemeinsame Spalte als zusammengehörig betrachten.
Werden mehrere Tabellen nacheinander und in Kombination miteinander in Beziehung gesetzt, entsteht eine relationale Datenbank. Zum Beispiel können die Kunden-, Verkaufs- und Bestandsdaten eines Kaufhauses als strukturierte Daten betrachtet werden, die in einer relationalen Datenbank gespeichert sind.
Strukturierte Daten wie diese werden in der Regel in relationalen Datenbankmanagementsystemen (RDBMS) gespeichert. Datenbanken können mit der Structured Query Language (SQL) geschrieben, gelesen und bearbeitet werden, einer Sprache, die von IBM in den 1970er Jahren zur Unterstützung seiner Mainframe-Datenbanken entwickelt wurde (wobei sie ursprünglich als Sequence English Query Language oder SEQUEL bekannt war). Sie wurde so genannt, da sie sich ziemlich ähnlich wie die englische Sprache liest. SQL in seiner heutigen Form wurde von Relational Software, Inc. (jetzt Oracle genannt), bekannt gemacht.
Alle Daten, die keine strukturierten Daten sind, können als unstrukturierte Daten klassifiziert werden. Schätzungen zufolge werden bis 2025 80 % der Daten, die uns begegnen, unstrukturierte Daten in Form von Texten, Audioaufnahmen, Bildern oder Videos sein1.
Kurz gesagt: Unstrukturierte Daten sind moderne Daten. Sie sind häufig:
Unstrukturierten Daten können einige Metadaten zugeordnet sein, die ihrerseits eine Struktur haben können. Ein Video kann z. B. Metadaten zu Videoauflösung, Bitrate, Bildern pro Sekunde (FPS), Videoeigentümer usw. enthalten. Aber das Video an sich ist unstrukturiert. Wenn mit unstrukturierten Daten einige strukturierte Metadaten verbunden sind, spricht man gelegentlich von halbstrukturierten Daten.
Wenn man sich das Beispiel eines YouTube-Videos genauer ansieht, sind einige Metadaten vorhanden, z. B. die Upload-Uhrzeit, das Upload-Datum, die Anzahl der Aufrufe (teilweise oder vollständig), die Anzahl der Likes und Dislikes usw. Aber der Inhalt innerhalb des Videotitels, der Videobeschreibung und des Videos selbst ist unstrukturiert. Er hat einen qualitativen Aspekt, der nicht rein durch Zahlen erfasst werden kann.
Die am häufigsten verwendete Datenbank für unstrukturierte Daten ist NoSQL. NoSQL steht für „not only SQL“ (nicht nur SQL) und weist darauf hin, dass die Datenbank ein breiteres Spektrum an Daten verarbeiten kann, als es SQL-Datenbanken können. Für NoSQL-Datenbanken gibt es kein Schema und keine tabellarische Struktur; es handelt sich lediglich um eine Sammlung von Daten, die gruppiert sind.
Doch auch wenn unstrukturierte Daten wichtige Erkenntnisse mit großem Transformationspotenzial liefern können, gibt es Herausforderungen bei der Handhabung dieser Daten. Die fortschrittliche UFFO-Storage-Lösung von Pure, Pure Storage® FlashBlade®, bietet die Geschwindigkeit, die man mit der Flash-Storage-Technologie verbindet, sowie die Fähigkeit, jede Architektur flexibel zu skalieren. Möchten Sie sie sich näher ansehen? Pure bietet eine kostenlose Testversion von Pure FlashBlade an, sodass Sie die Lösung unverbindlich testen können.
1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html
Haben Sie eine Frage oder einen Kommentar zu Produkten oder Zertifizierungen von Pure? Wir helfen Ihnen gerne!
Vereinbaren Sie einen Termin für eine Live-Demo und sehen Sie selbst, wie Pure Ihnen helfen kann, Ihre Daten in überzeugende Ergebnisse zu verwandeln.
Rufen Sie uns an: +49 89 26200662
Presse: pr@purestorage.com
Pure Storage Germany GmbH
Mies-van-der-Rohe-Straße 6
80807 München
Deutschland