Anfängerleitfaden zu Big Data

Big Data versus herkömmliche Daten

Big Data bietet Unternehmen immense Möglichkeiten, darunter aussagekräftigere Einblicke in das Kundenverhalten, genauere Prognosen über das Marktgeschehen und eine insgesamt höhere Effizienz.

Menschen und Unternehmen erzeugen jedes Jahr immer mehr Daten. Laut einem IDC-Bericht hat die Welt im Jahr 2010 gerade einmal 1,2 Zettabyte (1,2 Billionen Gigabyte) an neuen Daten erzeugt. Bis 2025 könnte dieser Wert auf 175 Zettabyte (175 Billionen Gigabyte) oder mehr ansteigen1.

In dem Maße, in dem Unternehmen diese florierende Ressource über vorausschauende Analysen und Datengewinnung erschließen, wird auch der Markt für Big Data wachsen. Untersuchungen von Statista prognostizieren, dass sich der Wert des Big-Data-Marktes zwischen 2018 und 2027 von 169 Milliarden Dollar auf 274 Milliarden Dollar nahezu verdoppeln wird.

Aber was sind die wesentlichen Unterschiede zwischen Big Data und herkömmlichen Daten? Und welche Auswirkungen haben sie auf die aktuelle Daten-Storage-, Datenverarbeitungs- und Datenanalysetechnologie? Hier erklären wir die unterschiedlichen Zwecke der einzelnen Arten von Daten und betonen gleichzeitig die Bedeutung einer Strategie, bei der sowohl Big Data als auch herkömmliche Daten gewinnbringend eingeplant werden.

 

Was sind herkömmliche Daten?

Bei herkömmlichen Daten handelt es sich um strukturierte, relationale Daten, die Unternehmen seit Jahrzehnten speichern und verarbeiten. Herkömmliche Daten machen noch immer den größten Teil der weltweiten Daten aus.

Unternehmen können herkömmliche Daten zum Nachverfolgen von Verkäufen oder zum Verwalten von Kundenbeziehungen oder Arbeitsabläufen verwenden. Herkömmliche Daten sind oft einfacher zu bearbeiten und können mit herkömmlicher Datenverarbeitungssoftware verwaltet werden. Sie bieten jedoch im Allgemeinen weniger tiefgehende Einblicke und einen geringeren Nutzen als Big Data.

 

Was ist Big Data?

Der Begriff „Big Data“ kann sich sowohl auf einen großen und komplexen Datensatz beziehen als auch auf die Methoden, die zur Verarbeitung dieser Art von Daten verwendet werden. Big Data hat vier Hauptmerkmale, die oft als „die vier Vs“ bezeichnet werden:

  • Volume (Volumen): Big Data ist … nun, groß. Big Data zeichnet sich nicht nur durch seine Größe aus, sondern typischerweise auch durch ein sehr hohes Datenvolumen.
  • Variety (Vielfalt): Ein großer Datensatz enthält in der Regel strukturierte, halbstrukturierte und unstrukturierte Daten.
  • Velocity (Geschwindigkeit): Big Data wird schnell generiert und oft in Echtzeit verarbeitet.
  • Veracity (Stichhaltigkeit): Big Data ist nicht automatisch von besserer Qualität als herkömmliche Daten, aber seine Stichhaltigkeit (Genauigkeit) ist extrem wichtig. Anomalien, Verzerrungen und Rauschen können die Qualität von Big Data erheblich beeinträchtigen.

 

Die Unterschiede zwischen Big Data und herkömmlichen Daten

Zur Unterscheidung zwischen Big Data und herkömmlichen Daten werden mehrere Merkmale verwendet. Dazu gehören folgende:

  • die Größe der Daten
  • wie die Daten organisiert sind
  • die zum Verwalten der Daten erforderliche Architektur
  • die Quellen, aus denen die Daten stammen
  • die zum Analysieren der Daten verwendeten Methoden

Größe

Herkömmliche Datensätze werden in der Regel in Gigabytes und Terabytes gemessen. Dank ihrer Größe können sie zentral, sogar auf einem Server, gespeichert werden.

Big Data zeichnet sich nicht nur durch seine Größe, sondern auch durch seine Menge aus. Big Data wird üblicherweise in Petabytes, Zettabytes oder Exabytes gemessen. Die stets wachsenden Big-Data-Datensets sind einer der Hauptgründe für die Nachfrage nach moderneren Cloud-basierten Daten-Storage-Lösungen mit hoher Kapazität.

Organisation

Herkömmliche Daten sind normalerweise strukturierte Daten, die in Datensätzen, Dateien und Tabellen organisiert sind. Felder in traditionellen Datensätzen sind relational, sodass es möglich ist, ihre Beziehung zueinander herauszuarbeiten und die Daten entsprechend zu bearbeiten. Herkömmliche Datenbanken wie SQL, Oracle DB und MySQL verwenden ein festes Schema, das statisch und vorkonfiguriert ist.

Big Data verwendet ein dynamisches Schema. Im Storage ist Big Data roh und unstrukturiert. Wenn auf Big Data zugegriffen wird, wird das dynamische Schema auf die Rohdaten angewendet. Moderne nicht relationale oder NoSQL-Datenbanken wie Cassandra und MongoDB sind aufgrund der Art und Weise, wie sie Daten in Dateien speichern, ideal für unstrukturierte Daten.

Architektur

Herkömmliche Daten werden in der Regel über eine zentralisierte Architektur verwaltet, die für kleinere, strukturierte Datensätze kostengünstiger und sicherer sein kann.

Im Allgemeinen besteht ein zentralisiertes System aus einem oder mehreren Client-Knoten (z. B. Computer oder mobile Geräte), die mit einem zentralen Knoten (z. B. einem Server) verbunden sind. Der zentrale Server steuert das Netzwerk und überwacht dessen Sicherheit.

Aufgrund seiner Größe und Komplexität ist es nicht möglich, Big Data zentral zu verwalten. Es erfordert eine verteilte Architektur.

Verteilte Systeme verbinden mehrere Server oder Computer über ein Netzwerk und fungieren als gleichberechtigte Knoten. Die Architektur kann horizontal skaliert werden („auswärts“) und funktioniert auch dann noch, wenn ein einzelner Knoten ausfällt. Verteilte Systeme können Standardhardware nutzen, um Kosten zu senken.

Quellen

Herkömmliche Daten stammen in der Regel aus dem Enterprise Resource Planning (ERP), dem Customer Relationship Management (CRM), Online-Transaktionen und von anderen Daten auf Unternehmensebene.

Big Data stammt aus einem breiteren Spektrum von Daten auf Unternehmens- und Nicht-Unternehmensebene. Dazu können Informationen aus sozialen Medien, Geräte- und Sensordaten sowie audiovisuelle Daten gehören. Diese Quellentypen sind dynamisch, entwickeln sich ständig weiter und wachsen mit jedem Tag.

Zu den Quellen unstrukturierter Daten können auch Text-, Video-, Bild- und Audiodateien gehören. Mit den Spalten und Zeilen herkömmlicher Datenbanken kann diese Art von Daten nicht genutzt werden. Da immer mehr Daten unstrukturiert sind und aus verschiedenen Quellen stammen, sind Big-Data-Analysemethoden erforderlich, um aus ihnen einen Wert zu schöpfen.

Analyse

Die Analyse herkömmlicher Daten erfolgt inkrementell: Ein Ereignis tritt ein, Daten werden generiert und die Analyse dieser Daten erfolgt nach dem Ereignis. Die Analyse herkömmlicher Daten kann Unternehmen dabei helfen, die Auswirkungen bestimmter Strategien oder Änderungen auf Basis einer begrenzten Anzahl an Kennzahlen über einen bestimmten Zeitraum zu verstehen.

Big-Data-Analysen können in Echtzeit erfolgen. Da Big Data im Sekundentakt generiert wird, kann die Analyse bereits während der Datenerfassung erfolgen. Die Analyse von Big Data ermöglicht Unternehmen ein dynamischeres und ganzheitlicheres Verständnis ihrer Bedürfnisse und Strategien.

Nehmen wir zum Beispiel an, ein Unternehmen hat in ein Schulungsprogramm für seine Mitarbeiter investiert und möchte dessen Wirkung messen.

Bei einem herkömmlichen Datenanalysemodell könnte das Unternehmen versuchen, die Auswirkungen des Schulungsprogramms auf einen bestimmten Bereich des Betriebs, wie z. B. den Verkauf, zu bestimmen. Das Unternehmen stellt den Umsatz vor und nach der Schulung fest und schließt alle Fremdeinflüsse aus. Es kann theoretisch sehen, um wie viel der Umsatz durch die Schulung gestiegen ist.

Im Rahmen eines Big-Data-Analysemodells kann das Unternehmen Fragen danach beiseite lassen, wie sich das Schulungsprogramm auf einen bestimmten Aspekt seines Betriebs ausgewirkt hat. Stattdessen können durch das Analysieren einer großen Menge an Daten, die in Echtzeit im gesamten Unternehmen gesammelt werden, die spezifischen Bereiche identifiziert werden, auf die Auswirkungen erkennbar sind, wie z. B. Vertrieb, Kundenservice, Öffentlichkeitsarbeit usw.

 

Big Data versus herkömmliche Daten: Wichtige Überlegungen für die Zukunft

Big Data und herkömmliche Daten dienen unterschiedlichen, aber verwandten Zwecken. Es mag zwar den Anschein haben, dass Big Data einen größeren potenziellen Nutzen hat, aber es ist nicht unter allen Umständen geeignet (oder notwendig). Big Data …

  • … kann eine tiefere Analyse von Markttrends und Verbraucherverhalten liefern. Die Analyse herkömmlicher Daten kann enger gefasst und zu eingeschränkt sein, um die aussagekräftigen Erkenntnisse zu liefern, die Big Data liefern kann.
  • … liefert schneller Einblicke. Organisationen können in Echtzeit von Big Data lernen. Im Kontext von Big-Data-Analysen kann dies einen Wettbewerbsvorteil darstellen.
  • … ist effizienter. Die zunehmende Digitalisierung unserer Gesellschaft bedeutet, dass Menschen und Unternehmen jeden Tag – und sogar jede Minute – riesige Datenmengen erzeugen. Big Data ermöglicht es uns, diese Daten nutzbar zu machen und sie sinnvoll zu interpretieren.
  • … erfordert umfassende Vorbereitung. Um diese Vorteile zu nutzen, müssen sich Unternehmen durch neue Sicherheitsprotokolle, Konfigurationsschritte und eine Erhöhung der verfügbaren Rechenleistung auf Big Data vorbereiten.

Der Aufstieg von Big Data bedeutet nicht, dass herkömmliche Daten verschwinden. Herkömmliche Daten …

  • … können einfacher zu sichern sein, weshalb sie für hochsensible, persönliche oder vertrauliche Datensätze vorzuziehen sind. Da herkömmliche Daten kleiner sind, erfordern sie keine verteilte Architektur und seltener Storage Dritter.
  • … können mit herkömmlicher Datenverarbeitungssoftware und einer normalen Systemkonfiguration verarbeitet werden. Die Verarbeitung von Big Data erfordert in der Regel einen höheren Konfigurationsaufwand, was den Ressourcenverbrauch und die Kosten unnötig in die Höhe treiben kann, obwohl herkömmliche Datenmethoden ausreichen würden.
  • … sind leichter zu bearbeiten und zu interpretieren. Da herkömmliche Daten einfacher und relational sind, können sie mithilfe normaler Funktionen verarbeitet werden – und sind möglicherweise sogar für Nicht-Experten zugänglich.

Letztlich geht es nicht um die Wahl zwischen Big Data und herkömmlichen Daten. Da immer mehr Unternehmen große, unstrukturierte Datensätze generieren, benötigen sie die richtigen Tools dafür. Ein Verständnis dafür, wie beide Modelle genutzt und unterstützt werden, ist ein notwendiges Element der Aktualisierung Ihrer Strategie, um für eine Big Data-Zukunft gerüstet zu sein.

 

Zusätzliche Kapitel im Big-Data-Leitfaden

  1. Strukturierte Daten versus unstrukturierte Daten
  2. 5 Wege, wie Big Data Unternehmen auf die Sprünge hilft
  3. Die Beziehung zwischen Big Data und IoT

1https://www.forbes.com/sites/gilpress/2020/01/06/6-predictions-about-data-in-2020-and-the-coming-decade/?sh=44e375c74fc3

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387