Skip to Content
Dismiss
Innovation
Une vision de l’IA pour tous

Une base unifiée et automatisée pour transformer les données en intelligence à grande échelle.

En savoir plus
Dismiss
Du 16 au 18 juin, Las Vegas
Pure//Accelerate® 2026

Découvrez comment exploiter la véritable valeur de vos données. 

S’inscrire maintenant
Dismiss
Rapport Gartner® Magic Quadrant™ 2025
En tête dans les catégories Exécution et Vision

Everpure s’est classé parmi les leaders dans le Gartner® Magic Quadrant™ 2025 pour les plateformes de stockage d’entreprise et se positionne en tête dans les catégories Exécution et Vision.

Obtenir le rapport

Qu’est-ce qu’un fichier de parquet ?

Un fichier Apache Parquet est un format de stockage de données open source utilisé pour les bases de données en colonnes dans les requêtes analytiques. Si vous disposez de petits ensembles de données, mais de millions de lignes à rechercher, il peut être préférable d’utiliser un format en colonnes pour améliorer les performances. Les bases de données en colonnes stockent les données en regroupant les colonnes plutôt que la base de données standard basée sur les lignes, qui les regroupe par lignes. Un fichier Parquet est l’un des nombreux formats de stockage en colonnes.

Qu’est-ce qu’un fichier de parquet ?

Au lieu de regrouper des lignes comme une feuille de calcul Excel ou une base de données relationnelle standard, un fichier Apache Parquet regroupe les colonnes pour des performances plus rapides. Parquet est un format de stockage en colonnes et non une base de données elle-même, mais le format Parquet est courant avec les lacs de données, en particulier avec Hadoop. Comme il s’agit d’un format en colonnes, il est très apprécié pour le stockage de données et les requêtes analytiques.

La plupart des développeurs sont habitués au stockage de données par rangée, mais imaginez faire tourner une feuille de calcul Excel pour que les colonnes soient désormais affichées à la place des lignes numérotées. Par exemple, au lieu de conserver une table de clients avec une liste de colonnes de prénom et de nom où chaque prénom et nom est regroupé sous forme de ligne, un fichier Parquet stocke les colonnes ensemble afin que les bases de données puissent renvoyer plus rapidement les informations d’une colonne spécifique au lieu de rechercher dans chaque ligne avec de nombreuses colonnes. 

Avantages des fichiers Parquet

Outre les performances des requêtes basées sur la manière dont les fichiers Parquet stockent les données, l’autre avantage principal est la rentabilité. Les fichiers Apache Parquet disposent d’une compression et d’une décompression extrêmement efficaces, ce qui leur permet de prendre moins de place qu’un fichier de base de données standard. En réduisant l’espace de stockage, une entreprise peut économiser des milliers de dollars en coûts de stockage.

Les formats de stockage colonnenaires sont préférables pour le Big Data et les requêtes analytiques. Les fichiers Parquet peuvent stocker des images, des vidéos, des objets, des fichiers et des données standard, ce qui permet de les utiliser dans n’importe quel type d’application analytique. Les stratégies de fichiers Parquet étant open source, elles sont également idéales pour les organisations qui souhaitent personnaliser leurs stratégies de stockage de données et de requêtes.

Fonctionnement des fichiers Parquet

Les fichiers Parquet contiennent un stockage en colonnes, mais ils contiennent également des métadonnées . Les colonnes sont regroupées dans chaque groupe de lignes pour garantir l’efficacité des requêtes, et les métadonnées aident le moteur de base de données à localiser les données. Les métadonnées contiennent des informations sur les colonnes, les groupes de lignes contenant des données et le schéma. 

Le schéma d’un fichier Parquet décrit l’approche du stockage en colonnes. Le format du schéma est binaire et peut être utilisé dans un environnement de lac de données Hadoop. Les fichiers Parquet peuvent être stockés dans n’importe quel système de fichiers , ils ne sont donc pas limités aux environnements Hadoop uniquement.

L’un des avantages du format de stockage de fichiers Parquet est une stratégie appelée « pushdown prédicat ». Avec le « pushdown » préalable, le moteur de base de données filtre les données dès le début du traitement afin que les données plus ciblées soient transférées le long du pipeline. En réduisant le nombre de données ciblées sur une requête, les performances des requêtes sont améliorées. La réduction du traitement des données réduit également l’utilisation des ressources informatiques et, au final, les coûts.

Utilisation de fichiers Parquet

Les fichiers Parquet sont des fichiers Apache. Vous pouvez donc les créer dans vos propres scripts Python à condition d’importer plusieurs bibliothèques. Imaginons que vous ayez une table dans Python :

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   index=list('abc'))
 table = pa.Table.from_pandas(df)

Avec ce tableau, nous pouvons désormais créer un fichier Parquet :

import pyarrow.parquet as pq
 pq.write_table(table, 'mytable.parquet')

Le code ci-dessus crée le fichier « mytable.parquet » et y écrit le tableau. Vous pouvez désormais lire à partir de votre base de données favorite et importer les données, ou vous pouvez les utiliser pour vos propres requêtes et analyses.

Vous pouvez également lire ce tableau à partir du fichier à l’aide de Python :

pq.read_table('mytable.parquet', columns=['one', 'three'])

La fonction d’écriture() vous permet de définir des options lorsque vous écrivez la table dans un fichier. Vous trouverez une liste d’options sur le site d’Apache, mais voici un exemple de configuration de la compatibilité du fichier avec Apache Spark  :

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   flavor=’spark’)
 table = pa.Table.from_pandas(df)

Conclusion

Si vous envisagez d’utiliser des fichiers Parquet pour Hadoop, Apache Spark ou d’autres bases de données compatibles, vous pouvez automatiser la création de fichiers à l’aide de Python ou importer des fichiers dans l’environnement de base de données pour analyse. Les fichiers Parquet utilisent la compression pour réduire les besoins en espace de stockage, mais vous avez toujours besoin d’une capacité de stockage excessive pour les silos de Big Data. Avec notre technologie de déduplication et de compression , Pure Storage peut vous aider dans le stockage du Big Data.

Nous vous recommandons également…

07/2020
FlashArray//X fiche technique | Pure Storage
Le stockage accéléré partagé pour toutes les charges de travail.
Fiche technique
9 pages

Parcourez les ressources clés et les événements

VIDÉO
À voir : Avantages d’Enterprise Data Cloud

Charlie Giancarno : l’avenir dépend de la gestion des données, pas du stockage Découvrez comment une approche unifiée peut transformer les opérations informatiques au sein de l’entreprise

Regarder maintenant
RESSOURCE
Le stockage traditionnel ne peut pas alimenter l’avenir.

Les charges de travail modernes exigent des vitesses, des mesures de sécurité et une évolutivité adaptées à l’IA. Votre pile est-elle prête ?

Lancer l’évaluation
PURE360-DEMOS
Pure Storage erkunden, kennenlernen und erleben.

Überzeugen Sie sich mit On-Demand-Videos und -Demos von den Möglichkeiten von Pure Storage.

Demos ansehen
LEADERSHIP ÉCLAIRÉ
La course à l’innovation

Les dernières informations stratégiques et perspectives fournies par des leaders du secteur, pionniers de l’innovation en matière de stockage.

En savoir plus
Votre navigateur n’est plus pris en charge !

Les anciens navigateurs présentent souvent des risques de sécurité. Pour profiter de la meilleure expérience possible sur notre site, passez à la dernière version de l’un des navigateurs suivants.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
Stratégies de virtualisation pérennes

Des options de stockage adaptées à tous vos besoins.

Favorisez les projets d’IA à n’importe quelle échelle

Stockage haute performance pour les pipelines de données, l’entraînement et l’inférence.

Prévenir la perte de données

Des solutions de cyber-résilience qui réduisent vos risques.

Réduire le coût des opérations cloud

Stockage économique pour Azure, AWS et les clouds privés.

Accélérer les performances des applications et des bases de données

Stockage à faible latence pour accélérer les performances des applications.

Réduire la consommation d’énergie et d’espace du datacenter

Stockage efficace en ressources pour améliorer l’utilisation du datacenter.

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.