Unter dem Management unstrukturierter Daten ist das Erfassen, Speichern, Pflegen, Überwachen und Verarbeiten von Daten zu verstehen, die nicht vordefiniert wurden und sich nicht einfach in Datenbanktabellen wie etwa in einer Excel-Tabelle speichern lassen.
Die meisten Daten von heute – Experten schätzen etwa 90 % der Unternehmensdaten – sind unstrukturiert. Das bedeutet, dass sie keinem herkömmlichen Datenmodell oder -schema wie etwa dem einer relationalen Datenbank (man denke an die strukturierten Spalten und Zeilen einer Excel-Tabelle) entsprechen.
Unstrukturierte Daten können durch menschliche Aktivitäten oder durch Maschinen generiert werden. Beispiele hierfür sind Text in Word-Dokumenten, E-Mail-Inhalte, Bild- und Videodateien, Inhalte aus sozialen Medien, PowerPoint-Präsentationen, Satellitenbilder, Datenprotokolle von Mobiltelefonen und Gesprächsaufzeichnungen usw.
Strukturierte Daten können in schönen Tabellen übersichtlich angeordnet werden. Sie waren bislang wesentlich einfacher zu verwalten als unstrukturierte Daten. Beispiele hierfür sind Informationen wie Kundendateien, Bestandslisten, Buchhaltungsdaten und Reisereservierungen.
Unstrukturierte Daten unterscheiden sich von strukturierten Daten, wie bereits erwähnt, durch ihr Format, aber auch durch die Art und Weise, wie sie verwendet werden. Unstrukturierte Daten sind eher qualitative als quantitative Daten. Sie stellen eher Ideen, Gedanken und Gefühle als einfache relationale Zahlen und Werte dar.
Unstrukturierte Daten sind zwar schwieriger zu verwalten als strukturierte Daten, aber sie enthalten jede Menge wertvolle Informationen. Stellen Sie sich vor, Sie könnten unstrukturierte Daten analysieren und die Tageszeiten ermitteln, zu denen sich Kunden am besten in Einkaufszentren locken lassen, oder Sie können Verkehrsdaten und Wetterdaten in Echtzeit zusammen analysieren und so herausfinden, wie, wann und warum es im Stadtverkehr zu Staus kommt. Oder wie wäre es, wenn Sie anhand von Inhalten aus sozialen Medien feststellen könnten, wie Ihre Kunden auf eine kürzlich erfolgte Produkteinführung reagieren oder wie sich der Ruf Ihrer Marke aufgrund eines Produktrückrufs verändert? Das alles ist mit unstrukturierten Daten möglich.
Unstrukturierte Daten sind die häufigste Art von Daten, die Unternehmen heute analysieren möchten. Wie in den obigen Beispielen lassen sich durch die Analyse unstrukturierter Daten mithilfe von Datenanalysesystemen mit außergewöhnlicher Rechenleistung sowie KI- und ML-Funktionen unglaubliche Erkenntnisse gewinnen, die kein Mensch so schnell – wenn überhaupt – entdecken könnte. Datenanalyseanwendungen können mehrere Ströme unverbundener Daten (wie Verkaufszahlen für das vergangene Jahr, Wetterdaten, Aktivitäten in sozialen Medien, aktuelle Neuigkeiten, Veranstaltungen und vieles mehr) analysieren, sodass Muster und Korrelationen deutlich werden, die bislang nicht zu erkennen waren. Wenn Unternehmen diese Muster kennen, können sie nach effizienteren Möglichkeiten suchen, wie sie das Serviceerlebnis für Kunden anpassen, bessere und effizientere Services bereitstellen, neue Einnahmequellen erschließen, schneller auf Kunden und Markttrends und neue Anforderungen reagieren können und vieles mehr.
Unstrukturierte Daten sind im Vergleich zu strukturierten Daten zwar schwieriger zu speichern, zu verwalten, zu analysieren und zu verarbeiten, doch gibt es inzwischen zahlreiche Tools und Anwendungen, die Unternehmen beim Management ihrer unstrukturierten Daten und der Gewinnung des darin verborgenen Wertes unterstützen. Im Folgenden werden die Tools zum Analysieren und Verwalten von Daten sowie die Datenbanken beschrieben, die den Umgang mit unstrukturierten Daten vereinfachen.
Die besten Datenanalysetools für unstrukturierte Daten enthalten in der Regel Funktionen für KI und maschinelles Lernen. Außerdem verfügen sie häufig über Funktionen für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), mit denen unstrukturierte Daten ohne ein herkömmlich definiertes Format analysiert werden können. Mit diesen Tools können Inhalte aus E-Mails, sozialen Medien, Kundensupportaufzeichnungen und vielem mehr analysiert werden, sodass der Kontext und die Bedeutung der Daten verstanden werden kann. Darüber hinaus gibt es Funktionen für Text Mining, forensische Analyse von Inhalten, Urheberschaftsanalyse und Stilometrie.
Zu den gängigsten Tools für die Analyse unstrukturierter Daten gehören Folgende:
Wie bereits erwähnt, entsprechen unstrukturierte Daten nicht dem Format der herkömmlichen relationalen Datenbanken, bei denen in der Regel SQL (Structured Query Language) verwendet wird. Daher verwenden die meisten Unternehmen für unstrukturierte Daten NoSQL-Datenbanken. NoSQL steht für „Not only SQL“ (nicht nur SQL) und bezieht sich auf eine nicht relationale Datenbank. Bei NoSQL werden die Daten nicht wie bei relationalen Datenbanken in einzelne Tabellen aufgeteilt, d. h., die Daten liegen nicht tabellarisch vor. Dabei wird zwischen vier verschiedenen Arten von NoSQL-Datenbanken unterschieden: dokumentbasierte Datenbanken, Schlüssel-Wert-Datenbanken, spaltenorientierte Datenbanken und Graphdatenbanken.
Zu den wichtigsten NoSQL-Datenbanken zum Speichern von unstrukturierten Daten gehören folgende:
Bei der Wahl der besten Tools für die Verwaltung von unstrukturierten Daten gibt es einige Dinge zu beachten. Die Tools müssen Sie bei folgenden Aufgaben unterstützen:
Inwiefern sich strukturierte Daten von unstrukturierten Daten allgemein unterscheiden, wurde bereits erläutert. Im Folgenden wird nun beschrieben, inwiefern sich das Management von strukturierten und unstrukturierten Daten unterscheidet.
Strukturierte Daten haben den Vorteil, dass sie von Anwendungen für maschinelles Lernen leicht analysiert werden können. Da sie strukturiert vorliegen, lassen sie sich einfach bearbeiten und abfragen. Der Umgang mit strukturierten Daten stellt auch für Personen, die keine Datenwissenschaftler sind, keine besondere Herausforderung dar. Zudem gibt es inzwischen viele ausgereifte, umfangreich getestete Lösungen für die Analyse, Suche und Verarbeitung dieser Daten.
Strukturierte Daten sind zwar für relationale Datenbanken gut geeignet, aber ihre Einrichtung kann kompliziert sein, und aufgrund der strukturierten Konfiguration der Daten kann sich eine spätere Änderung schwierig gestalten. Da sie einer vordefinierten Struktur entsprechen, können sie in der Regel nur für den ursprünglich vorgesehenen Zweck verwendet werden. Außerdem werden strukturierte Daten in der Regel in Data Warehouses gespeichert, die starr und umfassend definiert sind. Daher ist es sehr zeit- und arbeitsaufwendig, wenn diese strukturierten Daten in einem Unternehmen anders genutzt werden sollen.
Unstrukturierte Daten werden dagegen nicht in einem vordefinierten Format gespeichert. Da sie in ihrem ursprünglichen Format gespeichert werden, können sie sehr flexibel für eine Vielzahl von Anwendungsfällen und Anforderungen genutzt werden. Und da sie nicht vordefiniert sind, lassen sich unstrukturierte Daten in der Regel schnell und einfach erfassen. Meist werden sie nicht in Data Warehouses, sondern in Data Lakes gespeichert, die hoch skalierbar sind und große Datenmengen aufnehmen können.
Unstrukturierte Daten haben jedoch den Nachteil, dass sie im Allgemeinen komplizierter und komplexer aufzubereiten und zu analysieren sind. Unstrukturierte Daten erfordern geschulte Datenwissenschaftler, die wissen, wie die Daten bereinigt und genutzt werden – und die auch verstehen, wie verschiedene Datensätze mit anderen zusammenhängen. Zudem werden für die Analyse von unstrukturierten Daten spezielle Tools benötigt. Die Lösungen sind inzwischen zwar ausgereift, aber immer noch „jünger“ als die Tools für die Analyse von strukturierten Daten. Sie sind noch lange nicht so leistungsfähig, wie es die Branche von der Bearbeitung und Analyse von strukturierten Daten gewohnt ist.
Unstrukturierte Daten sind schwieriger zu verwalten, eben weil sie unstrukturiert sind. Das führt zu einer ganzen Reihe von Problemen, die bereits in den obigen Abschnitten erwähnt wurden. Es ist schwieriger, unstrukturierte Daten zu strukturieren, zu analysieren, zu verarbeiten, zu speichern und abzurufen. Auch das Abfragen oder Durchsuchen der Daten ist schwieriger als bei strukturierten Daten, da es keine festen oder vordefinierten Formate gibt und die Daten in Form von vielen verschiedenen Datentypen vorliegen.
Auch die Skalierbarkeit kann bei unstrukturierten Daten ein Problem darstellen, da Unternehmen herkömmliche Storage-Systeme für ein Scale-out mit zusätzlichen Festplatten oder Storage-Knoten erweitern müssen. Ein solches Scale-Out-Modell ist nicht unbegrenzt und kann mit der Zeit recht kostspielig werden.
Unstrukturierte Daten erfordern einen Storage, der sich effizient und kostengünstig skalieren lässt. Bei vielen Storage-Lösungen für unstrukturierte Daten handelt es sich um Objekt-Storage-Lösungen, da Objekte in einem Objekt-Storage detaillierte Metadaten und eine eindeutige ID enthalten, die den Datenzugriff und die Datenabfrage erleichtern. Darüber hinaus erfordern unstrukturierte Daten einen flexiblen Storage, sodass eine Vielzahl von Datentypen verwendet werden kann und der Zugriff auf archivierte Daten erleichtert wird.
Das Management und die Nutzung von unstrukturierten Daten ist zwar in der Regel immer noch schwieriger, aber der zusätzliche Aufwand lohnt sich. Unstrukturierte Daten sind reich an verborgenen Mustern und Erkenntnissen, die Ihrem Unternehmen neue und innovative Möglichkeiten eröffnen, um auf dem heutigen, immer härter werdenden Markt zu bestehen und erfolgreich zu sein.
Haben Sie eine Frage oder einen Kommentar zu Produkten oder Zertifizierungen von Pure? Wir helfen Ihnen gerne!
Vereinbaren Sie einen Termin für eine Live-Demo und sehen Sie selbst, wie Pure Ihnen helfen kann, Ihre Daten in überzeugende Ergebnisse zu verwandeln.
Rufen Sie uns an: +49 89 26200662
Presse: pr@purestorage.com
Pure Storage Germany GmbH
Mies-van-der-Rohe-Straße 6
80807 München
Deutschland