Skip to Content
Dismiss
Innovatie
Een platform, gebouwd voor AI

Unified, geautomatiseerd en klaar om data om te zetten in informatie.

Ontdek hoe
Dismiss
16-18 juni, Las Vegas
Pure//Accelerate® 2026

Ontdek hoe u de ware waarde van uw gegevens kunt ontsluiten. 

Schrijf u nu in

Wat is een parketbestand?

Een Apache Parquet-bestand is een open-source dataopslagformaat dat wordt gebruikt voor columnaire databases in analytische query's. Als u kleine datasets hebt, maar miljoenen rijen om te zoeken, is het misschien beter om een columnair formaat te gebruiken voor betere prestaties. Columnaire databases slaan data op door kolommen te groeperen in plaats van de standaard op rijen gebaseerde database die op rijen groepeert. Een parketbestand is een van de verschillende columnaire opslagformaten.

Wat is een parketbestand?

In plaats van rijen te groeperen zoals een Excel-spreadsheet of een standaard relationele database, groepeert een Apache Parquet-bestand kolommen samen voor snellere prestaties. Parquet is een columnair opslagformaat en geen database zelf, maar het Parquetformaat is gebruikelijk bij datalakes, vooral bij Hadoop. Omdat het een columnair formaat is, is het populair bij analytische dataopslag en query's.

De meeste ontwikkelaars zijn gewend aan dataopslag op basis van rijen, maar stel u voor dat u een Excel-spreadsheet draait, zodat de kolommen nu worden weergegeven in plaats van genummerde rijen. In plaats van bijvoorbeeld een klantentabel bij te houden met een lijst met voor- en achternaamkolommen waarbij elke voor- en achternaam als een rij is gegroepeerd, slaat een parketbestand kolommen samen op, zodat databases sneller informatie uit een specifieke kolom kunnen teruggeven in plaats van door elke rij met meerdere kolommen te zoeken. 

Voordelen van parketbestanden

Naast queryprestaties op basis van de manier waarop parketbestanden data opslaan, is het andere belangrijkste voordeel kostenefficiëntie. Apache Parquet-bestanden hebben zeer efficiënte compressie en decompressie, zodat ze niet zoveel ruimte in beslag nemen als een standaard databasebestand. Door minder opslagruimte in te nemen, kan een onderneming duizenden dollars aan opslagkosten besparen.

Kolomopslagformaten zijn het beste met big data en analytische query's. Parquetbestanden kunnen afbeeldingen, video's, objecten, bestanden en standaardgegevens opslaan, zodat ze in elk type analytische toepassing kunnen worden gebruikt. Omdat Parquet file-strategieën open source zijn, zijn ze ook goed voor organisaties die hun dataopslag- en querystrategieën willen aanpassen.

Hoe parketbestanden werken

Parquetbestanden bevatten op kolommen gebaseerde opslag, maar ze bevatten ook Metadata De kolommen worden in elke rijgroep gegroepeerd voor query-efficiëntie, en de Metadata helpen de database-engine data te lokaliseren. De Metadata bevat informatie over de kolommen, rijgroepen met data en het schema. 

Het schema in een parketbestand beschrijft de kolomgebaseerde benadering van opslag. Schemaformaat is binair en kan worden gebruikt in een Hadoop-datalakeomgeving. Parquetbestanden kunnen in elk bestandssysteem worden opgeslagen, zodat ze niet beperkt zijn tot alleen Hadoop-omgevingen.

Een voordeel van het Parquet-bestandsopslagformaat is een strategie die predicate pushdown wordt genoemd. Met predicate pushdown filtert de database-engine data vroeg in de verwerking, zodat gerichtere data via de pijplijn worden overgedragen. Door minder data te hebben die op een query zijn gericht, verbetert het de queryprestaties. Minder dataverwerking vermindert ook het gebruik van computerresources en verlaagt uiteindelijk ook de kosten.

Parquetbestanden gebruiken

Parquetbestanden zijn Apache-bestanden, dus u kunt ze in uw eigen Python-scripts maken op voorwaarde dat u meerdere bibliotheken importeert. Stel dat u een tafel hebt in Python:

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   index=list('abc'))
 table = pa.Table.from_pandas(df)

Met deze tabel kunnen we nu een parketbestand maken:

import pyarrow.parquet as pq
 pq.write_table(table, 'mytable.parquet')

De bovenstaande code creëert het bestand "mytable.parquet" en schrijft de tabel ernaar toe. U kunt het nu uit uw favoriete database lezen en de data importeren, of u kunt de data gebruiken voor uw eigen query's en analyses.

U kunt deze tabel ook uit het bestand lezen met Python:

pq.read_table('mytable.parquet', columns=['one', 'three'])

Met de write()-functie kunt u opties instellen wanneer u de tabel naar een bestand schrijft. U kunt een lijst met opties vinden op de site van Apache, maar hier is een voorbeeld van het instellen van de compatibiliteit van het bestand met Apache Spark:

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   flavor=’spark’)
 table = pa.Table.from_pandas(df)

Conclusie

Als u van plan bent om parketbestanden te gebruiken voor Hadoop, Apache Spark of andere compatibele databases, kunt u het maken van bestanden automatiseren met behulp van Python of bestanden importeren in de database-omgeving voor analyse. Parquetbestanden maken gebruik van compressie om de behoefte aan opslagruimte te verlagen, maar u hebt nog steeds overmatige opslagcapaciteit nodig voor grote big data-silo's. Pure Storage kan u helpen met big data-opslag met onze deduplicatie- en compressietechnologie.

09/2025
Everpure FlashArray//X: Mission-critical Performance | Everpure
Pack more IOPS, ultra consistent latency, and greater scale into a smaller footprint for your mission-critical workloads with Everpure®️ FlashArray//X™️.
Datasheet
4 pagina's

Blader door belangrijke resources en evenementen

BEURS
Pure//Accelerate® 2026
June 16-18, 2026 | Resorts World Las Vegas

Maak je klaar voor het meest waardevolle evenement dat je dit jaar zult bijwonen.

Schrijf u nu in
PURE360 DEMO’S
Ontdek, leer en ervaar Everpure.

Krijg toegang tot on-demand video's en demo's om te zien wat Everpure kan doen.

Demo’s bekijken
VIDEO
Bekijk: De waarde van een Enterprise Data Cloud

Charlie Giancarlo over waarom het beheren van data en niet opslag de toekomst zal zijn. Ontdek hoe een uniforme aanpak de IT-activiteiten van bedrijven transformeert.

Nu bekijken
RESOURCE
Legacy-storage kan de toekomst niet aandrijven.

Moderne workloads vragen om AI-ready snelheid, beveiliging en schaalbaarheid. Is uw stack er klaar voor?

Doe de assessment
Uw browser wordt niet langer ondersteund!

Oudere browsers vormen vaak een veiligheidsrisico. Om de best mogelijke ervaring te bieden bij het gebruik van onze site, dient u te updaten naar een van deze nieuwste browsers.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
Toekomstbestendige virtualisatiestrategieën

Opslagmogelijkheden voor al uw behoeften

AI-projecten op elke schaal mogelijk maken

Krachtige opslag voor datapijplijnen, training en inferentie

Bescherm tegen dataverlies

Cyberweerbaarheidsoplossingen die uw data beschermen

Kosten van cloudactiviteiten verlagen

Kostenefficiënte opslag voor Azure, AWS en private clouds

Versnel de prestaties van applicaties en databases

Opslag met lage latentie voor applicatieprestaties

Verminder het stroomverbruik in het datacenter

Efficiënte opslag van middelen om het gebruik van datacenters te verbeteren

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.