Leitfaden

Anfängerleitfaden zu Big Data

Anfängerleitfaden zu Big Data
Was ist Big Data und wie funktioniert es? Werfen wir gemeinsam einen tiefen Blick in Big Data und die Technologien, die Sie benötigen, um für Ihr Unternehmen verwertbare Erkenntnisse zu gewinnen.

Was ist Big Data?

Moderne Unternehmen sammeln riesige Datenmengen aus einer Vielzahl von Quellen, die oft in Echtzeit analysiert werden müssen. Als „Big Data“ bezeichnet man Daten, die zu umfangreich, zu schnell oder zu komplex sind, um mithilfe herkömmlicher Verfahren verarbeitet zu werden. Der Begriff umfasst aber auch zahlreiche Technologien und Strategien, die durch Big Data ermöglicht werden, beispielsweise wissensgenerierende Bereiche wie vorausschauende Analysen, das Internet der Dinge, künstliche Intelligenz und mehr.

Research and Markets meldet, dass der globale Big-Data-Markt bis 2026 voraussichtlich 156 Milliarden US-Dollar erreichen wird – und es gibt viele gute Gründe für Unternehmen, auf diesen Zug aufzuspringen. Beim Folgenden handelt es sich um eine Betrachtung dessen, was Big Data ist, woher es kommt, wofür es genutzt werden kann und wie Unternehmen ihre IT-Infrastrukturen für die erfolgreiche Nutzung von Big Data vorbereiten können.

Drei Hauptschlagworte im Zusammenhang mit Big Data

Das Konzept von „Big Data“ gibt es zwar schon seit Langem, aber der Industrieanalyst Doug Laney war der Erste, der 2001 die drei Hauptschlagworte („Drei Vs“) von Big Data formulierte. Diese drei Vs sind:

  • Volume (Volumen): Die Menge an Daten, die verarbeitet werden muss (in der Regel sehr viel – Gigabytes, Exabytes oder mehr)
  • Variety (Vielfalt): Die vielen unterschiedlichen Arten von Daten, sowohl strukturierte als auch unstrukturierte, die aus vielen verschiedenen Quellen stammen
  • Velocity (Geschwindigkeit): Die Geschwindigkeit, mit der neue Daten in Ihr System strömen

Manche Datenexperten erweitern die Definition auf vier, fünf oder mehr Vs. Das vierte und fünfte V sind:

  • Veracity (Stichhaltigkeit): Die Qualität der Daten in Bezug auf ihre Genauigkeit, Präzision und Zuverlässigkeit
  • Value (Wert): Der Mehrwert, den die Daten bieten – welchen Nutzen bringen sie Ihrem Unternehmen?

Die Liste kann noch auf bis zu 42 Vs verlängert werden, diese fünf werden aber am häufigsten zum Definieren von Big Data herangezogen.

Es gibt auch zwei verschiedene Arten von Big Data, die sich darin unterscheiden, wie sie verarbeitet werden und welche Fragen und Abfragen damit beantwortet werden sollen.

  • Batch-Verarbeitung wird in der Regel bei großen Mengen gespeicherter historischer Daten verwendet, um Informationen als Basis für langfristige Strategien zu liefern oder um wichtige Fragen zu beantworten. Dabei geht es um riesige Datenmengen mit komplexen, tiefgehenden Analysen.
  • Beim Streaming von Daten geht es weniger um die Beantwortung großer Fragen als vielmehr darum, unmittelbare Echtzeit-Informationen für aktuelle Zwecke zu erhalten, z. B. zur Wahrung der Genauigkeit eines Fertigungsprozesses. Es wird in der Regel bei großen Datenmengen mit hoher Geschwindigkeit eingesetzt. Es geht also um große Mengen an sehr schnellen Daten mit weniger komplexen, aber sehr schnellen Analysen.

Erfahren Sie mehr über den Unterschied zwischen Big Data und herkömmlichen Daten.

Woher kommt Big Data?

Big Data beschreibt im Grunde alle unstrukturierten, modernen Daten, die heute erfasst werden, und wie sie für fundiertes Wissen und tiefgehende Erkenntnisse genutzt werden. Zu diesen Quellen gehören häufig:

  • Das Internet der Dinge und Daten von Milliarden von Geräten und Sensoren
  • Maschinell erzeugte Protokolldaten, die für Protokollanalysen verwendet werden
  • Software, Plattformen und Unternehmensanwendungen
  • Menschen: soziale Medien, Transaktionen, Online-Klicks, Patientenakten, Verbrauch natürlicher Ressourcen usw.
  • Forschungsdaten aus der wissenschaftlichen Gemeinschaft und von anderen Organisationen

Arten von Big Data: Strukturiert versus unstrukturiert

Unterschiedliche Datentypen erfordern unterschiedliche Arten von Storage. Dies gilt für strukturierte und unstrukturierte Daten, für die unterschiedliche Arten von Datenbanken, Verarbeitung, Storage und Analysen erforderlich sind.

Strukturierte Daten sind herkömmliche Daten, die einfach in Tabellen passen. Strukturierte Daten lassen sich oft leicht kategorisieren und als Einträge in Standardwerten wie Preisen, Daten, Zeiten usw. formatieren.

Unstrukturierte Daten sind moderne Daten, die nicht ganz so einfach oder leicht in eine Tabelle einzugeben sind. Unstrukturierte Daten sind heute oft ein Synonym für Big Data und werden in den kommenden Jahren schätzungsweise 80 % der Daten ausmachen. Dazu gehören alle Daten, die von sozialen Medien, vom IoT, von Content Creators, bei der Überwachung und von anderen Anwendungen generiert werden. Das kann Texte, Bilder, Tonaufnahmen und Videos umfassen. Sie sind die treibende Kraft hinter neuen Storage-Kategorien wie FlashBlade® Unified Fast File and Object (UFFO). Um unstrukturierte Daten nutzen zu können, benötigen Unternehmen mehr Storage, mehr Rechenleistung und eine bessere Konsolidierung zahlreicher Datentypen.

Erfahren Sie mehr über strukturierte versus unstrukturierte Daten.

Wie sieht der Big-Data-Lebenszyklus aus?

Der Lebenszyklus von Big Data kann beispielsweise (aber nicht ausschließlich) Folgendes umfassen:

  1. Daten werden extrahiert und gesammelt. Daten können aus einer Vielzahl von Quellen stammen, darunter Systeme für die Unternehmensressourcenplanung, IoT-Sensoren, Software wie Marketing- oder Point-of-Sale-Anwendungen, Streaming-Daten über APIs usw. Die Ausgabe dieser Daten wird variieren, was die Datenaufnahme zu einem wichtigen nächsten Schritt macht. Börsendaten beispielsweise unterscheiden sich stark von den Protokolldaten interner Systeme.
  2. Daten werden aufgenommen. ETL-Pipelines (Exchange-Transform-Load) wandeln Daten in das richtige Format um. Egal, ob die Daten in einer SQL-Datenbank oder in einem Datenvisualisierungstool verwendet werden sollen, müssen sie in ein Format umgewandelt werden, das das Tool versteht. Zum Beispiel können die Namen in inkonsistenten Formaten vorliegen. An diesem Punkt sind die Daten bereit für die Analyse.
  3. Daten werden zur Verarbeitung in den Storage geladen. Als Nächstes werden die Daten irgendwo gespeichert, sei es in einem Cloud-basierten Data Warehouse oder in lokalem Storage. Dies kann auf unterschiedliche Weise geschehen, je nachdem, ob die Daten in Batches geladen werden oder ob ereignisbasiertes Streaming rund um die Uhr stattfindet. (Hinweis: Dieser Schritt kann abhängig von den Geschäftsanforderungen vor dem Umwandlungsschritt erfolgen).

    Mehr erfahren: Was ist ein Data Warehouse?

  4. Daten werden durchsucht und analysiert. Moderne, Cloud-basierte Rechen-, Verarbeitungs- und Storage-Tools haben einen großen Einfluss auf die Entwicklung des Big-Data-Lebenszyklus. (Hinweis: Bestimmte moderne Tools wie Amazon Redshift können ETL-Prozesse umgehen und ermöglichen es Ihnen, Daten viel schneller zu durchsuchen.) 
  5. Daten werden archiviert. Egal, ob sie langfristig kalt gespeichert werden oder in einem besser zugänglichen Storage „warmgehalten“ werden: Zeitkritische Daten, die ihren Zweck erfüllt haben, werden gespeichert. Wenn kein sofortiger Zugriff mehr erforderlich ist, ist Kaltspeicherung eine kostengünstige und platzsparende Möglichkeit, Daten zu speichern, besonders dann, wenn sie zur Erfüllung von Compliance-Anforderungen oder als Grundlage für langfristige strategische Entscheidungen benötigt werden. Dadurch werden auch die Auswirkungen auf die Performance reduziert, die sich daraus ergeben, dass Petabytes an kalten Daten auf einem Server gespeichert werden, der auch heiße Daten enthält.

Wozu können Unternehmen Big Data nutzen?

Es gibt viele spannende, effektive Einsatzmöglichkeiten für Big Data. Ihr Wert liegt in den geschäftlichen Durchbrüchen, zu denen Erkenntnisse aus Big Data beitragen können. Häufige Ziele und Anwendungen für Big Data sind:

  • Echtzeit-Einblicke und -Erkenntnisse aus der Analyse von Streaming-Daten zum Auslösen von Warnungen und zum Erkennen von Anomalien
  • Vorausschauende Analysen
  • Business-Intelligence
  • Maschinelles Lernen
  • Risikoanalyse zur Vorbeugung von Betrug und Datenverletzungen und zur Reduzierung von Sicherheitsrisiken
  • Künstliche Intelligenz, einschließlich Bilderkennung, Verarbeitung natürlicher Sprache und neuronaler Netzwerke
  • Verbesserung von Benutzererfahrung und Kundeninteraktionen durch Empfehlungsmaschinen und vorausschauenden Support
  • Reduzierung von Kosten und Ineffizienzen in Prozessen (intern, Fertigung usw.)
  • Datengesteuertes Marketing und Kommunikation, mit Analyse von Millionen von Datenpunkten aus sozialen Medien, von Verbrauchern und aus digitaler Werbung, die in Echtzeit erstellt werden

Informieren Sie sich über weitere branchenspezifische Big-Data-Anwendungsfälle und -Anwendungen.

Wie wird Big Data gespeichert?

Big Data stellt besondere Anforderungen, insbesondere an den Daten-Storage. Es wird fast ständig in eine Datenbank geschrieben (wie bei Echtzeit-Streaming-Daten) und umfasst häufig viele unterschiedliche Formate. Infolgedessen wird Big Data oft am besten in schemalosen (unstrukturierten) Umgebungen gespeichert, um auf einem verteilten Dateisystem gestartet zu werden, damit die Verarbeitung parallel über massive Datensätze hinweg erfolgen kann. Dadurch eignet es sich hervorragend für eine unstrukturierte Storage-Plattform, die Datei- und Objektdaten vereinen kann.

Erfahren Sie mehr über den Unterschied zwischen einem Data Hub und einem Datenpool.

Wie Edge Computing den Bedarf nach Big Data steigert

Das Aufkommen des Internets der Dinge (IoT) hat zu einem Anstieg der Menge an Daten geführt, die über Flotten von verteilten Geräten verwaltet werden müssen. 

Anstatt darauf zu warten, dass IoT-Daten an einen zentralen Ort wie ein Rechenzentrum übertragen und dort verarbeitet werden, ist Edge Computing eine verteilte Rechentopologie, bei der Informationen lokal in der Peripherie verarbeitet werden, dem Schnittpunkt zwischen Menschen und Geräten, an dem neue Daten erzeugt werden. 

Mit Edge Computing sparen Unternehmen nicht nur Geld und Bandbreite, sondern können auch effizientere Echtzeitanwendungen entwickeln, die ihren Kunden ein besseres Benutzererlebnis bieten. Dieser Trend wird sich in den kommenden Jahren mit der Einführung neuer Funktechnologien wie 5G nur noch beschleunigen.

Da immer mehr Geräte mit dem Internet verbunden sind, wird die Menge der Daten, die in Echtzeit und in der Peripherie verarbeitet werden müssen, zunehmen. Wie können Sie also Daten-Storage bereitstellen, der verteilt und flexibel genug ist, um die steigenden Anforderungen an Daten-Storage beim Edge Computing zu erfüllen? Die kurze Antwort lautet: Container-nativer Daten-Storage. 

Wenn wir uns bestehende Edge-Plattformen wie AWS Snowball, Microsoft Azure Stack und Google Anthos ansehen, fällt auf, dass sie alle auf Kubernetes basieren, einer beliebten Container-Orchestrierungsplattform. Kubernetes ermöglicht es diesen Umgebungen, Workloads für die Datenaufnahme, -speicherung, -verarbeitung, -analyse und für maschinelles Lernen in der Peripherie auszuführen. 

Ein Kubernetes-Cluster mit mehreren Knoten, das in der Peripherie ausgeführt wird, erfordert eine effiziente, Container-native Storage-Engine, die den spezifischen Anforderungen datenzentrierter Workloads gerecht wird. Mit anderen Worten: Containerisierte Anwendungen, die in der Peripherie ausgeführt werden, erfordern Container-spezifisches Storage-Management. Portworx® ist eine Datenserviceplattform, die eine Stateful-Fabric für die Verwaltung von Container-SLA-fähigen Datenvolumen bereitstellt.

Erfahren Sie mehr über die Beziehung zwischen Big Data und IoT.

Skalierbarer All-Flash-Daten-Storage für alle Ihre Big-Data-Anforderungen

Das Hosten großer Datenmengen auf All-Flash-Arrays hat unter anderem folgende Vorteile:

  • höhere Geschwindigkeiten (55–180 IOPS bei HDDs gegenüber 3.000–40.000 IOPS bei SSDs)
  • enorme Parallelität mit mehr als 64.000 Queues für I/O-Vorgänge
  • NVMe-Performance und -Zuverlässigkeit

Weshalb sollten Sie sich im Hinblick auf Ihre Big-Data-Anforderungen für Pure Storage® entscheiden?

Relatives Volumen, Vielfalt und Geschwindigkeit von Big Data ändern sich ständig. Wenn Sie möchten, dass Ihre Daten umfangreich und schnell bleiben, sollten Sie darauf achten, durchgängig in die neuesten Storage-Technologien zu investieren. Fortschritte beim Flash-Storage haben es möglich gemacht, maßgeschneiderte All-Flash-Storage-Lösungen für alle Ihre Datenebenen anzubieten. So kann Pure Ihnen beim Betrieb Ihrer Big-Data-Analyse-Pipeline helfen:

  • Alle Vorteile von All-Flash-Arrays
  • Konsolidierung zu einem einheitlichen, leistungsstarken Daten-Hub, der das Daten-Streaming mit hohem Durchsatz aus einer Vielzahl von Quellen bewältigen kann
  • Tatsächlich unterbrechungsfreie Evergreen™-Programmupgrades ohne Ausfallzeiten oder Datenmigrationen
  • Ein vereinfachtes Daten-Management-System, das die Wirtschaftlichkeit der Cloud mit der Kontrolle und Effizienz lokaler Systeme kombiniert

Schneller und effizienter Scale-out-Flash-Storage mit FlashBlade

800-379-7873 +44 2039741869 +43 720882474 +32 (0) 7 84 80 560 +33 1 83 76 42 54 +49 89 12089253 +353 1 485 4307 +39 02 9475 9422 +31 202457440 +46850541356 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 43 505 28 17 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387 +48 22 343 36 49
Ihr Browser wird nicht mehr unterstützt!

Ältere Browser stellen häufig ein Sicherheitsrisiko dar. Um die bestmögliche Erfahrung bei der Nutzung unserer Website zu ermöglichen, führen Sie bitte ein Update auf einen dieser aktuellen Browser durch.