Skip to Content
Dismiss
Innovation
Eine AIVision für alle

Eine einheitliche, automatisierte Grundlage für die Umwandlung von Daten in Intelligenz im großen Maßstab.

Erfahren Sie, wie das geht
Dismiss
16. bis 18. Juni, Las Vegas
Pure//Accelerate® 2026

Entdecken Sie, wie Sie den wahren Wert Ihrer Daten erschließen können.

Jetzt anmelden
Dismiss
Gartner® Magic Quadrant™-Bericht 2025
Beste Umsetzungsfähigkeit und beste Vision

Everpure wurde im Gartner® Magic Quadrant™ 2025 für Enterprise Storage-Plattformen als Leader genannt und als das Unternehmen mit der besten Umsetzungsfähigkeit und der besten Vision eingestuft.

Report downloaden
Leitfaden

Anfängerleitfaden zu Big Data

Was ist Big Data und wie funktioniert es? Werfen wir gemeinsam einen tiefen Blick in Big Data und die Technologien, die Sie benötigen, um für Ihr Unternehmen verwertbare Erkenntnisse zu gewinnen.

Was ist Big Data?

Moderne Unternehmen sammeln riesige Datenmengen aus einer Vielzahl von Quellen, die oft in Echtzeit analysiert werden müssen. Als „Big Data“ bezeichnet man Daten, die zu umfangreich, zu schnell oder zu komplex sind, um mithilfe herkömmlicher Verfahren verarbeitet zu werden. Der Begriff umfasst aber auch zahlreiche Technologien und Strategien, die durch Big Data ermöglicht werden, beispielsweise wissensgenerierende Bereiche wie vorausschauende Analysen, das Internet der Dinge, künstliche Intelligenz und mehr.

Research and Markets meldet, dass der globale Big-Data-Markt bis 2026 voraussichtlich 156 Milliarden US-Dollar erreichen wird – und es gibt viele gute Gründe für Unternehmen, auf diesen Zug aufzuspringen. Beim Folgenden handelt es sich um eine Betrachtung dessen, was Big Data ist, woher es kommt, wofür es genutzt werden kann und wie Unternehmen ihre IT-Infrastrukturen für die erfolgreiche Nutzung von Big Data vorbereiten können.

Verwandte Artikel

Blog-Artikel
Infrastruktur für Big-Data-Analysen

Drei Hauptschlagworte im Zusammenhang mit Big Data

Das Konzept von „Big Data“ gibt es zwar schon seit Langem, aber der Industrieanalyst Doug Laney war der Erste, der 2001 die drei Hauptschlagworte („Drei Vs“) von Big Data formulierte. Diese drei Vs sind:

  • Volume (Volumen): Die Menge an Daten, die verarbeitet werden muss (in der Regel sehr viel – Gigabytes, Exabytes oder mehr)
  • Variety (Vielfalt): Die vielen unterschiedlichen Arten von Daten, sowohl strukturierte als auch unstrukturierte, die aus vielen verschiedenen Quellen stammen
  • Velocity (Geschwindigkeit): Die Geschwindigkeit, mit der neue Daten in Ihr System strömen

Manche Datenexperten erweitern die Definition auf vier, fünf oder mehr Vs. Das vierte und fünfte V sind:

  • Veracity (Stichhaltigkeit): Die Qualität der Daten in Bezug auf ihre Genauigkeit, Präzision und Zuverlässigkeit
  • Value (Wert): Der Mehrwert, den die Daten bieten – welchen Nutzen bringen sie Ihrem Unternehmen?

Die Liste kann noch auf bis zu 42 Vs verlängert werden, diese fünf werden aber am häufigsten zum Definieren von Big Data herangezogen.

Es gibt auch zwei verschiedene Arten von Big Data, die sich darin unterscheiden, wie sie verarbeitet werden und welche Fragen und Abfragen damit beantwortet werden sollen.

  • Batch-Verarbeitung wird in der Regel bei großen Mengen gespeicherter historischer Daten verwendet, um Informationen als Basis für langfristige Strategien zu liefern oder um wichtige Fragen zu beantworten. Dabei geht es um riesige Datenmengen mit komplexen, tiefgehenden Analysen.
  • Beim Streaming von Daten geht es weniger um die Beantwortung großer Fragen als vielmehr darum, unmittelbare Echtzeit-Informationen für aktuelle Zwecke zu erhalten, z. B. zur Wahrung der Genauigkeit eines Fertigungsprozesses. Es wird in der Regel bei großen Datenmengen mit hoher Geschwindigkeit eingesetzt. Es geht also um große Mengen an sehr schnellen Daten mit weniger komplexen, aber sehr schnellen Analysen.

Erfahren Sie mehr über den Unterschied zwischen Big Data und herkömmlichen Daten.

Woher kommt Big Data?

Big Data beschreibt im Grunde alle unstrukturierten, modernen Daten, die heute erfasst werden, und wie sie für fundiertes Wissen und tiefgehende Erkenntnisse genutzt werden. Zu diesen Quellen gehören häufig:

  • Das Internet der Dinge und Daten von Milliarden von Geräten und Sensoren
  • Maschinell erzeugte Protokolldaten, die für Protokollanalysen verwendet werden
  • Software, Plattformen und Unternehmensanwendungen
  • Menschen: soziale Medien, Transaktionen, Online-Klicks, Patientenakten, Verbrauch natürlicher Ressourcen usw.
  • Forschungsdaten aus der wissenschaftlichen Gemeinschaft und von anderen Organisationen

Arten von Big Data: Strukturiert versus unstrukturiert

Unterschiedliche Datentypen erfordern unterschiedliche Arten von Storage. Dies gilt für strukturierte und unstrukturierte Daten, für die unterschiedliche Arten von Datenbanken, Verarbeitung, Storage und Analysen erforderlich sind.

Strukturierte Daten sind herkömmliche Daten, die einfach in Tabellen passen. Strukturierte Daten lassen sich oft leicht kategorisieren und als Einträge in Standardwerten wie Preisen, Daten, Zeiten usw. formatieren.

Unstrukturierte Daten sind moderne Daten, die nicht ganz so einfach oder leicht in eine Tabelle einzugeben sind. Unstrukturierte Daten sind heute oft ein Synonym für Big Data und werden in den kommenden Jahren schätzungsweise 80 % der Daten ausmachen. Dazu gehören alle Daten, die von sozialen Medien, vom IoT, von Content Creators, bei der Überwachung und von anderen Anwendungen generiert werden. Das kann Texte, Bilder, Tonaufnahmen und Videos umfassen. Sie sind die treibende Kraft hinter neuen Storage-Kategorien wie FlashBlade® Unified Fast File and Object (UFFO). Um unstrukturierte Daten nutzen zu können, benötigen Unternehmen mehr Storage, mehr Rechenleistung und eine bessere Konsolidierung zahlreicher Datentypen.

Erfahren Sie mehr über strukturierte versus unstrukturierte Daten.

Wie sieht der Big-Data-Lebenszyklus aus?

Der Lebenszyklus von Big Data kann beispielsweise (aber nicht ausschließlich) Folgendes umfassen:

  1. Daten werden extrahiert und gesammelt. Daten können aus einer Vielzahl von Quellen stammen, darunter Systeme für die Unternehmensressourcenplanung, IoT-Sensoren, Software wie Marketing- oder Point-of-Sale-Anwendungen, Streaming-Daten über APIs usw. Die Ausgabe dieser Daten wird variieren, was die Datenaufnahme zu einem wichtigen nächsten Schritt macht. Börsendaten beispielsweise unterscheiden sich stark von den Protokolldaten interner Systeme.
  2. Daten werden aufgenommen. ETL-Pipelines (Exchange-Transform-Load) wandeln Daten in das richtige Format um. Egal, ob die Daten in einer SQL-Datenbank oder in einem Datenvisualisierungstool verwendet werden sollen, müssen sie in ein Format umgewandelt werden, das das Tool versteht. Zum Beispiel können die Namen in inkonsistenten Formaten vorliegen. An diesem Punkt sind die Daten bereit für die Analyse.
  3. Daten werden zur Verarbeitung in den Storage geladen. Als Nächstes werden die Daten irgendwo gespeichert, sei es in einem Cloud-basierten Data Warehouse oder in lokalem Storage. Dies kann auf unterschiedliche Weise geschehen, je nachdem, ob die Daten in Batches geladen werden oder ob ereignisbasiertes Streaming rund um die Uhr stattfindet. (Hinweis: Dieser Schritt kann abhängig von den Geschäftsanforderungen vor dem Umwandlungsschritt erfolgen).

    Mehr erfahren: Was ist ein Data Warehouse?

  4. Daten werden durchsucht und analysiert. Moderne, Cloud-basierte Rechen-, Verarbeitungs- und Storage-Tools haben einen großen Einfluss auf die Entwicklung des Big-Data-Lebenszyklus. (Hinweis: Bestimmte moderne Tools wie Amazon Redshift können ETL-Prozesse umgehen und ermöglichen es Ihnen, Daten viel schneller zu durchsuchen.) 
  5. Daten werden archiviert. Egal, ob sie langfristig kalt gespeichert werden oder in einem besser zugänglichen Storage „warmgehalten“ werden: Zeitkritische Daten, die ihren Zweck erfüllt haben, werden gespeichert. Wenn kein sofortiger Zugriff mehr erforderlich ist, ist Kaltspeicherung eine kostengünstige und platzsparende Möglichkeit, Daten zu speichern, besonders dann, wenn sie zur Erfüllung von Compliance-Anforderungen oder als Grundlage für langfristige strategische Entscheidungen benötigt werden. Dadurch werden auch die Auswirkungen auf die Performance reduziert, die sich daraus ergeben, dass Petabytes an kalten Daten auf einem Server gespeichert werden, der auch heiße Daten enthält.

Wozu können Unternehmen Big Data nutzen?

Es gibt viele spannende, effektive Einsatzmöglichkeiten für Big Data. Ihr Wert liegt in den geschäftlichen Durchbrüchen, zu denen Erkenntnisse aus Big Data beitragen können. Häufige Ziele und Anwendungen für Big Data sind:

  • Echtzeit-Einblicke und -Erkenntnisse aus der Analyse von Streaming-Daten zum Auslösen von Warnungen und zum Erkennen von Anomalien
  • Vorausschauende Analysen
  • Business-Intelligence
  • Maschinelles Lernen
  • Risikoanalyse zur Vorbeugung von Betrug und Datenverletzungen und zur Reduzierung von Sicherheitsrisiken
  • Künstliche Intelligenz, einschließlich Bilderkennung, Verarbeitung natürlicher Sprache und neuronaler Netzwerke
  • Verbesserung von Benutzererfahrung und Kundeninteraktionen durch Empfehlungsmaschinen und vorausschauenden Support
  • Reduzierung von Kosten und Ineffizienzen in Prozessen (intern, Fertigung usw.)
  • Datengesteuertes Marketing und Kommunikation, mit Analyse von Millionen von Datenpunkten aus sozialen Medien, von Verbrauchern und aus digitaler Werbung, die in Echtzeit erstellt werden

Informieren Sie sich über weitere branchenspezifische Big-Data-Anwendungsfälle und -Anwendungen.

Wie wird Big Data gespeichert?

Big Data stellt besondere Anforderungen, insbesondere an den Daten-Storage. Es wird fast ständig in eine Datenbank geschrieben (wie bei Echtzeit-Streaming-Daten) und umfasst häufig viele unterschiedliche Formate. Infolgedessen wird Big Data oft am besten in schemalosen (unstrukturierten) Umgebungen gespeichert, um auf einem verteilten Dateisystem gestartet zu werden, damit die Verarbeitung parallel über massive Datensätze hinweg erfolgen kann. Dadurch eignet es sich hervorragend für eine unstrukturierte Storage-Plattform, die Datei- und Objektdaten vereinen kann.

Erfahren Sie mehr über den Unterschied zwischen einem Data Hub und einem Datenpool.

Wie Edge Computing den Bedarf nach Big Data steigert

Das Aufkommen des Internets der Dinge (IoT) hat zu einem Anstieg der Menge an Daten geführt, die über Flotten von verteilten Geräten verwaltet werden müssen. 

Anstatt darauf zu warten, dass IoT-Daten an einen zentralen Ort wie ein Rechenzentrum übertragen und dort verarbeitet werden, ist Edge Computing eine verteilte Rechentopologie, bei der Informationen lokal in der Peripherie verarbeitet werden, dem Schnittpunkt zwischen Menschen und Geräten, an dem neue Daten erzeugt werden. 

Mit Edge Computing sparen Unternehmen nicht nur Geld und Bandbreite, sondern können auch effizientere Echtzeitanwendungen entwickeln, die ihren Kunden ein besseres Benutzererlebnis bieten. Dieser Trend wird sich in den kommenden Jahren mit der Einführung neuer Funktechnologien wie 5G nur noch beschleunigen.

Da immer mehr Geräte mit dem Internet verbunden sind, wird die Menge der Daten, die in Echtzeit und in der Peripherie verarbeitet werden müssen, zunehmen. Wie können Sie also Daten-Storage bereitstellen, der verteilt und flexibel genug ist, um die steigenden Anforderungen an Daten-Storage beim Edge Computing zu erfüllen? Die kurze Antwort lautet: Container-nativer Daten-Storage. 

Wenn wir uns bestehende Edge-Plattformen wie AWS Snowball, Microsoft Azure Stack und Google Anthos ansehen, fällt auf, dass sie alle auf Kubernetes basieren, einer beliebten Container-Orchestrierungsplattform. Kubernetes ermöglicht es diesen Umgebungen, Workloads für die Datenaufnahme, -speicherung, -verarbeitung, -analyse und für maschinelles Lernen in der Peripherie auszuführen. 

Ein Kubernetes-Cluster mit mehreren Knoten, das in der Peripherie ausgeführt wird, erfordert eine effiziente, Container-native Storage-Engine, die den spezifischen Anforderungen datenzentrierter Workloads gerecht wird. Mit anderen Worten: Containerisierte Anwendungen, die in der Peripherie ausgeführt werden, erfordern Container-spezifisches Storage-Management. Portworx® ist eine Datenserviceplattform, die eine Stateful-Fabric für die Verwaltung von Container-SLA-fähigen Datenvolumen bereitstellt.

Erfahren Sie mehr über die Beziehung zwischen Big Data und IoT.

Skalierbarer All-Flash-Daten-Storage für alle Ihre Big-Data-Anforderungen

Das Hosten großer Datenmengen auf All-Flash-Arrays hat unter anderem folgende Vorteile:

  • höhere Geschwindigkeiten (55–180 IOPS bei HDDs gegenüber 3.000–40.000 IOPS bei SSDs)
  • enorme Parallelität mit mehr als 64.000 Queues für I/O-Vorgänge
  • NVMe-Performance und -Zuverlässigkeit

Weshalb sollten Sie sich im Hinblick auf Ihre Big-Data-Anforderungen für Pure Storage® entscheiden?

Relatives Volumen, Vielfalt und Geschwindigkeit von Big Data ändern sich ständig. Wenn Sie möchten, dass Ihre Daten umfangreich und schnell bleiben, sollten Sie darauf achten, durchgängig in die neuesten Storage-Technologien zu investieren. Fortschritte beim Flash-Storage haben es möglich gemacht, maßgeschneiderte All-Flash-Storage-Lösungen für alle Ihre Datenebenen anzubieten. So kann Pure Ihnen beim Betrieb Ihrer Big-Data-Analyse-Pipeline helfen:

  • Alle Vorteile von All-Flash-Arrays
  • Konsolidierung zu einem einheitlichen, leistungsstarken Daten-Hub, der das Daten-Streaming mit hohem Durchsatz aus einer Vielzahl von Quellen bewältigen kann
  • Tatsächlich unterbrechungsfreie Evergreen™-Programmupgrades ohne Ausfallzeiten oder Datenmigrationen
  • Ein vereinfachtes Daten-Management-System, das die Wirtschaftlichkeit der Cloud mit der Kontrolle und Effizienz lokaler Systeme kombiniert

Schneller und effizienter Scale-out-Flash-Storage mit FlashBlade

07/2025
Scalable Lakehouse Analytics with Everpure and Starburst | Everpure
From Hadoop sprawl to data lakehouse: Starburst + FlashBlade Object Storage delivers performance, cost, and operational gains in a scalable solution.
Referenzarchitektur
17 pages

Wichtige Ressourcen und Veranstaltungen durchsuchen

VIDEO
Sehen Sie selbst: Der Wert einer Enterprise Data Cloud

Charlie Giancarlo erklärt, warum die Zukunft in der Verwaltung von Daten und nicht in der Verwaltung von Storage liegt. Erfahren Sie, wie ein einheitlicher Ansatz IT-Abläufe in Unternehmen transformiert.

Jetzt ansehen
RESSOURCE
Herkömmlicher Storage kann die Zukunft nicht beflügeln.

Moderne Workloads erfordern KI-fähige Geschwindigkeit, Sicherheit und Skalierbarkeit. Ist Ihr Stack darauf vorbereitet?

Bewertung durchführen
PURE360-DEMOS
Pure Storage erkunden, kennenlernen und erleben.

Überzeugen Sie sich mit On-Demand-Videos und -Demos von den Möglichkeiten von Pure Storage.

Demos ansehen
THOUGHT LEADERSHIP
Der Innovationswettlauf

Branchenführer, die an vorderster Front der Storage-Innovationen stehen, geben Einblicke und Ausblicke.

Mehr erfahren
Ihr Browser wird nicht mehr unterstützt!

Ältere Browser stellen häufig ein Sicherheitsrisiko dar. Um die bestmögliche Erfahrung bei der Nutzung unserer Website zu ermöglichen, führen Sie bitte ein Update auf einen dieser aktuellen Browser durch.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
Zukunftssichere Virtualisierungsstrategien

Storage-Optionen für alle Ihre Anforderungen.

KIAIProjekte in beliebigem Umfang ermöglichen

Hochleistungs-Storage für Datenpipelines, Training und Inferenz.

Verhindern Sie Datenverluste

Cyber-Resilienz-Lösungen, die Ihr Risiko senken.

Senken Sie die Kosten für Cloud-Operationen

Kosteneffizienter Storage für Azure, AWS und Private Clouds.

Beschleunigen Sie die Performance von Anwendungen und Datenbanken

Storage mit geringer Latenz zur Beschleunigung der Anwendungs-Performance.

Verringern Sie den Stromverbrauch und den Platzbedarf von Rechenzentren

Ressourceneffizienter Storage zur Verbesserung der Rechenzentrumsauslastung.

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.