Moderne Unternehmen sammeln riesige Datenmengen aus einer Vielzahl von Quellen, die oft in Echtzeit analysiert werden müssen. Als „Big Data“ bezeichnet man Daten, die zu umfangreich, zu schnell oder zu komplex sind, um mithilfe herkömmlicher Verfahren verarbeitet zu werden. Der Begriff umfasst aber auch zahlreiche Technologien und Strategien, die durch Big Data ermöglicht werden, beispielsweise wissensgenerierende Bereiche wie vorausschauende Analysen, das Internet der Dinge, künstliche Intelligenz und mehr.
Research and Markets meldet, dass der globale Big-Data-Markt bis 2026 voraussichtlich 156 Milliarden US-Dollar erreichen wird – und es gibt viele gute Gründe für Unternehmen, auf diesen Zug aufzuspringen. Beim Folgenden handelt es sich um eine Betrachtung dessen, was Big Data ist, woher es kommt, wofür es genutzt werden kann und wie Unternehmen ihre IT-Infrastrukturen für die erfolgreiche Nutzung von Big Data vorbereiten können.
Das Konzept von „Big Data“ gibt es zwar schon seit Langem, aber der Industrieanalyst Doug Laney war der Erste, der 2001 die drei Hauptschlagworte („Drei Vs“) von Big Data formulierte. Diese drei Vs sind:
Manche Datenexperten erweitern die Definition auf vier, fünf oder mehr Vs. Das vierte und fünfte V sind:
Die Liste kann noch auf bis zu 42 Vs verlängert werden, diese fünf werden aber am häufigsten zum Definieren von Big Data herangezogen.
Es gibt auch zwei verschiedene Arten von Big Data, die sich darin unterscheiden, wie sie verarbeitet werden und welche Fragen und Abfragen damit beantwortet werden sollen.
Erfahren Sie mehr über den Unterschied zwischen Big Data und herkömmlichen Daten.
Big Data beschreibt im Grunde alle unstrukturierten, modernen Daten, die heute erfasst werden, und wie sie für fundiertes Wissen und tiefgehende Erkenntnisse genutzt werden. Zu diesen Quellen gehören häufig:
Unterschiedliche Datentypen erfordern unterschiedliche Arten von Storage. Dies gilt für strukturierte und unstrukturierte Daten, für die unterschiedliche Arten von Datenbanken, Verarbeitung, Storage und Analysen erforderlich sind.
Strukturierte Daten sind herkömmliche Daten, die einfach in Tabellen passen. Strukturierte Daten lassen sich oft leicht kategorisieren und als Einträge in Standardwerten wie Preisen, Daten, Zeiten usw. formatieren.
Unstrukturierte Daten sind moderne Daten, die nicht ganz so einfach oder leicht in eine Tabelle einzugeben sind. Unstrukturierte Daten sind heute oft ein Synonym für Big Data und werden in den kommenden Jahren schätzungsweise 80 % der Daten ausmachen. Dazu gehören alle Daten, die von sozialen Medien, vom IoT, von Content Creators, bei der Überwachung und von anderen Anwendungen generiert werden. Das kann Texte, Bilder, Tonaufnahmen und Videos umfassen. Sie sind die treibende Kraft hinter neuen Storage-Kategorien wie FlashBlade® Unified Fast File and Object (UFFO). Um unstrukturierte Daten nutzen zu können, benötigen Unternehmen mehr Storage, mehr Rechenleistung und eine bessere Konsolidierung zahlreicher Datentypen.
Erfahren Sie mehr über strukturierte versus unstrukturierte Daten.
Der Lebenszyklus von Big Data kann beispielsweise (aber nicht ausschließlich) Folgendes umfassen:
Es gibt viele spannende, effektive Einsatzmöglichkeiten für Big Data. Ihr Wert liegt in den geschäftlichen Durchbrüchen, zu denen Erkenntnisse aus Big Data beitragen können. Häufige Ziele und Anwendungen für Big Data sind:
Informieren Sie sich über weitere branchenspezifische Big-Data-Anwendungsfälle und -Anwendungen.
Big Data stellt besondere Anforderungen, insbesondere an den Daten-Storage. Es wird fast ständig in eine Datenbank geschrieben (wie bei Echtzeit-Streaming-Daten) und umfasst häufig viele unterschiedliche Formate. Infolgedessen wird Big Data oft am besten in schemalosen (unstrukturierten) Umgebungen gespeichert, um auf einem verteilten Dateisystem gestartet zu werden, damit die Verarbeitung parallel über massive Datensätze hinweg erfolgen kann. Dadurch eignet es sich hervorragend für eine unstrukturierte Storage-Plattform, die Datei- und Objektdaten vereinen kann.
Erfahren Sie mehr über den Unterschied zwischen einem Data Hub und einem Datenpool.
Das Aufkommen des Internets der Dinge (IoT) hat zu einem Anstieg der Menge an Daten geführt, die über Flotten von verteilten Geräten verwaltet werden müssen.
Anstatt darauf zu warten, dass IoT-Daten an einen zentralen Ort wie ein Rechenzentrum übertragen und dort verarbeitet werden, ist Edge Computing eine verteilte Rechentopologie, bei der Informationen lokal in der Peripherie verarbeitet werden, dem Schnittpunkt zwischen Menschen und Geräten, an dem neue Daten erzeugt werden.
Mit Edge Computing sparen Unternehmen nicht nur Geld und Bandbreite, sondern können auch effizientere Echtzeitanwendungen entwickeln, die ihren Kunden ein besseres Benutzererlebnis bieten. Dieser Trend wird sich in den kommenden Jahren mit der Einführung neuer Funktechnologien wie 5G nur noch beschleunigen.
Da immer mehr Geräte mit dem Internet verbunden sind, wird die Menge der Daten, die in Echtzeit und in der Peripherie verarbeitet werden müssen, zunehmen. Wie können Sie also Daten-Storage bereitstellen, der verteilt und flexibel genug ist, um die steigenden Anforderungen an Daten-Storage beim Edge Computing zu erfüllen? Die kurze Antwort lautet: Container-nativer Daten-Storage.
Wenn wir uns bestehende Edge-Plattformen wie AWS Snowball, Microsoft Azure Stack und Google Anthos ansehen, fällt auf, dass sie alle auf Kubernetes basieren, einer beliebten Container-Orchestrierungsplattform. Kubernetes ermöglicht es diesen Umgebungen, Workloads für die Datenaufnahme, -speicherung, -verarbeitung, -analyse und für maschinelles Lernen in der Peripherie auszuführen.
Ein Kubernetes-Cluster mit mehreren Knoten, das in der Peripherie ausgeführt wird, erfordert eine effiziente, Container-native Storage-Engine, die den spezifischen Anforderungen datenzentrierter Workloads gerecht wird. Mit anderen Worten: Containerisierte Anwendungen, die in der Peripherie ausgeführt werden, erfordern Container-spezifisches Storage-Management. Portworx® ist eine Datenserviceplattform, die eine Stateful-Fabric für die Verwaltung von Container-SLA-fähigen Datenvolumen bereitstellt.
Erfahren Sie mehr über die Beziehung zwischen Big Data und IoT.
Das Hosten großer Datenmengen auf All-Flash-Arrays hat unter anderem folgende Vorteile:
Relatives Volumen, Vielfalt und Geschwindigkeit von Big Data ändern sich ständig. Wenn Sie möchten, dass Ihre Daten umfangreich und schnell bleiben, sollten Sie darauf achten, durchgängig in die neuesten Storage-Technologien zu investieren. Fortschritte beim Flash-Storage haben es möglich gemacht, maßgeschneiderte All-Flash-Storage-Lösungen für alle Ihre Datenebenen anzubieten. So kann Pure Ihnen beim Betrieb Ihrer Big-Data-Analyse-Pipeline helfen:
Schneller und effizienter Scale-out-Flash-Storage mit FlashBlade
Haben Sie eine Frage oder einen Kommentar zu Produkten oder Zertifizierungen von Pure? Wir helfen Ihnen gerne!
Vereinbaren Sie einen Termin für eine Live-Demo und sehen Sie selbst, wie Pure Ihnen helfen kann, Ihre Daten in überzeugende Ergebnisse zu verwandeln.
Rufen Sie uns an: +49 89 26200662
Presse: pr@purestorage.com
Pure Storage Germany GmbH
Mies-van-der-Rohe-Straße 6
80807 München
Deutschland