Skip to Content
Dismiss
Innovation
Eine AIVision für alle

Eine einheitliche, automatisierte Grundlage für die Umwandlung von Daten in Intelligenz im großen Maßstab.

Erfahren Sie, wie das geht
Dismiss
16. bis 18. Juni, Las Vegas
Pure//Accelerate® 2026

Entdecken Sie, wie Sie den wahren Wert Ihrer Daten erschließen können.

Jetzt anmelden
Dismiss
Gartner® Magic Quadrant™-Bericht 2025
Beste Umsetzungsfähigkeit und beste Vision

Everpure wurde im Gartner® Magic Quadrant™ 2025 für Enterprise Storage-Plattformen als Leader genannt und als das Unternehmen mit der besten Umsetzungsfähigkeit und der besten Vision eingestuft.

Report downloaden

Was ist eine Parquet-Datei?

Eine Apache-Parquet-Datei ist ein Open-Source-Daten-Storage-Format, das für Spaltendatenbanken bei analytischen Abfragen verwendet wird. Wenn Sie kleine Datensätze, aber Millionen von Zeilen durchsuchen müssen, ist es möglicherweise besser, ein Spaltenformat zu verwenden, um die Performance zu verbessern. Spaltendatenbanken speichern Daten, indem sie Spalten statt der zeilenbasierten Standarddatenbank gruppieren, die nach Zeilen gruppiert wird. Eine Parquet-Datei ist eines von mehreren Spalten-Storage-Formaten.

Was ist eine Parquet-Datei?

Anstatt Zeilen wie eine Excel-Tabelle oder eine relationale Standarddatenbank zu gruppieren, gruppiert eine Apache-Parquet-Datei Spalten für eine schnellere Performance zusammen. Parquet ist ein spaltenorientiertes Storage-Format und keine Datenbank selbst, aber das Parquet-Format ist bei Data Lakes üblich, insbesondere bei Hadoop. Da es sich um ein Spaltenformat handelt, ist es bei Analysedaten-Storage und Abfragen beliebt.

Die meisten Entwickler sind an zeilenbasierten Daten-Storage gewöhnt, stellen sich jedoch vor, eine Excel-Tabelle so zu drehen, dass die Spalten jetzt anstelle nummerierter Zeilen angezeigt werden. Anstatt beispielsweise eine Kundentabelle mit einer Liste von Vor- und Nachnamensspalten zu führen, in denen jeder Vor- und Nachname als Zeile gruppiert ist, speichert eine Parquet-Datei Spalten zusammen, sodass Datenbanken schneller Informationen aus einer bestimmten Spalte zurückgeben können, anstatt jede Zeile mit zahlreichen Spalten zu durchsuchen. 

Vorteile von Parkettdateien

Abgesehen von der Abfrage-Performance, die auf der Art und Weise basiert, wie Parquet-Dateien Daten speichern, ist der weitere Hauptvorteil die Kosteneffizienz. Apache-Parquet-Dateien verfügen über eine hocheffiziente Komprimierung und Dekomprimierung, sodass sie nicht so viel Platz benötigen wie eine Standarddatenbankdatei. Durch den geringeren Storage-Platzbedarf könnte ein Unternehmen Tausende von Dollar an Storage-Kosten einsparen.

Spalten-Storage-Formate eignen sich am besten für Big-Data- und Analyseabfragen. Parquet-Dateien können Bilder, Videos, Objekte, Dateien und Standarddaten speichern, sodass sie in jeder Art von Analyseanwendung verwendet werden können. Da Parquet-Dateistrategien Open Source sind, eignen sie sich auch für Unternehmen, die ihre Daten-Storage- und Abfragestrategien anpassen möchten.

So funktionieren Parquet-Dateien

Parquet-Dateien enthalten spaltenbasierten Storage, aber auch Metadaten. Die Spalten sind in jeder Zeilengruppe zur Effizienz der Abfrage gruppiert, und die Metadaten helfen der Datenbank-Engine, Daten zu finden. Die Metadaten enthalten Informationen über die Spalten, Zeilengruppen, die Daten enthalten, und das Schema. 

Das Schema in einer Parquet-Datei beschreibt den spaltenbasierten Storage-Ansatz. Das Schemaformat ist binär und kann in einer Hadoop-Data-Lake-Umgebung verwendet werden. Parquet-Dateien können in jedem Dateisystem gespeichert werden, sodass sie nicht auf Hadoop-Umgebungen beschränkt sind.

Ein Vorteil des Datei-Storage-Formats von Parquet ist eine Strategie namens „Predicate Pushdown“. Mit einem Pushdown-Vorhaben filtert die Datenbank-Engine Daten frühzeitig in der Verarbeitung, sodass gezieltere Daten in die Pipeline übertragen werden. Da weniger Daten auf eine Abfrage abzielen, verbessert dies die Abfrage-Performance. Weniger Datenverarbeitung senkt auch die Nutzung von Computerressourcen und senkt letztendlich auch die Kosten.

Verwendung von Parkettdateien

Parquet-Dateien sind Apache-Dateien, sodass Sie sie in Ihren eigenen Python-Skripten erstellen können, vorausgesetzt, Sie importieren mehrere Bibliotheken. Nehmen wir an, Sie haben einen Tisch in Python:

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   index=list('abc'))
 table = pa.Table.from_pandas(df)

Mit dieser Tabelle können wir jetzt eine Parquet-Datei erstellen:

import pyarrow.parquet as pq
 pq.write_table(table, 'mytable.parquet')

Der obige Code erstellt die Datei „mytable.parquet“ und schreibt die Tabelle in sie. Sie können jetzt aus Ihrer bevorzugten Datenbank lesen und die Daten importieren oder die Daten für Ihre eigenen Abfragen und Analysen verwenden.

Sie können diese Tabelle auch mit Python aus der Datei lesen:

pq.read_table('mytable.parquet', columns=['one', 'three'])

Mit der Funktion Write() können Sie Optionen festlegen, wenn Sie die Tabelle in eine Datei schreiben. Eine Liste der Optionen finden Sie auf der Website von Apache, aber hier ist ein Beispiel für die Einstellung der Kompatibilität der Datei mit Apache Spark:

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   flavor=’spark’)
 table = pa.Table.from_pandas(df)

Fazit

Wenn Sie Parquet-Dateien für Hadoop, Apache Spark oder andere kompatible Datenbanken verwenden möchten, können Sie die Dateierstellung mit Python automatisieren oder Dateien zur Analyse in die Datenbankumgebung importieren. Parquet-Dateien verwenden Komprimierung, um den Speicherplatzbedarf zu senken, aber Sie benötigen immer noch eine übermäßige Storage-Kapazität für Big-Data-Silos. Pure Storage kann Ihnen mit unserer Deduplizierungs- und Komprimierungstechnologie bei Big-Data-Storage helfen.

07/2020
Pure Storage® FlashArray™ //X Datenblatt | Pure Storage
Erfüllen Sie die Anforderungen Ihrer anspruchsvollsten Unternehmensanwendungen.
Datenblatt
6 pages

Wichtige Ressourcen und Veranstaltungen durchsuchen

VIDEO
Sehen Sie selbst: Der Wert einer Enterprise Data Cloud

Charlie Giancarlo erklärt, warum die Zukunft in der Verwaltung von Daten und nicht in der Verwaltung von Storage liegt. Erfahren Sie, wie ein einheitlicher Ansatz IT-Abläufe in Unternehmen transformiert.

Jetzt ansehen
RESSOURCE
Herkömmlicher Storage kann die Zukunft nicht beflügeln.

Moderne Workloads erfordern KI-fähige Geschwindigkeit, Sicherheit und Skalierbarkeit. Ist Ihr Stack darauf vorbereitet?

Bewertung durchführen
PURE360-DEMOS
Pure Storage erkunden, kennenlernen und erleben.

Überzeugen Sie sich mit On-Demand-Videos und -Demos von den Möglichkeiten von Pure Storage.

Demos ansehen
THOUGHT LEADERSHIP
Der Innovationswettlauf

Branchenführer, die an vorderster Front der Storage-Innovationen stehen, geben Einblicke und Ausblicke.

Mehr erfahren
Ihr Browser wird nicht mehr unterstützt!

Ältere Browser stellen häufig ein Sicherheitsrisiko dar. Um die bestmögliche Erfahrung bei der Nutzung unserer Website zu ermöglichen, führen Sie bitte ein Update auf einen dieser aktuellen Browser durch.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
Zukunftssichere Virtualisierungsstrategien

Storage-Optionen für alle Ihre Anforderungen.

KIAIProjekte in beliebigem Umfang ermöglichen

Hochleistungs-Storage für Datenpipelines, Training und Inferenz.

Verhindern Sie Datenverluste

Cyber-Resilienz-Lösungen, die Ihr Risiko senken.

Senken Sie die Kosten für Cloud-Operationen

Kosteneffizienter Storage für Azure, AWS und Private Clouds.

Beschleunigen Sie die Performance von Anwendungen und Datenbanken

Storage mit geringer Latenz zur Beschleunigung der Anwendungs-Performance.

Verringern Sie den Stromverbrauch und den Platzbedarf von Rechenzentren

Ressourceneffizienter Storage zur Verbesserung der Rechenzentrumsauslastung.

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.