Skip to Content
Dismiss
Innovazione
Una piattaforma creata per l'AI

Unificata, automatizzata e pronta a trasformare i dati in intelligence.

Scopri come
Dismiss
16-18 giugno, Las Vegas
Pure//Accelerate® 2026

Scopri come trarre il massimo dai tuoi dati. 

Registrati ora

Che cos'è un file Parquet?

Un file Apache Parquet è un formato di data storage open source utilizzato per i database colonnari nelle query analitiche. Se hai piccoli dataset ma milioni di righe da cercare, potrebbe essere meglio utilizzare un formato colonnare per ottenere performance migliori. I database colonnari memorizzano i dati raggruppando le colonne anziché il database standard basato su righe che raggruppa per righe. Un file Parquet è uno dei diversi formati di storage colonnare.

Che cos'è un file Parquet?

Invece di raggruppare righe come un foglio di calcolo Excel o un database relazionale standard, un file Apache Parquet raggruppa le colonne per prestazioni più veloci. Parquet è un formato di storage colonnare e non un database stesso, ma il formato Parquet è comune con i data lake, specialmente con Hadoop. Dal momento che è un formato colonnare, è molto diffuso nel data storage e nelle query analitiche.

La maggior parte degli sviluppatori è abituata al data storage basato su righe, ma immagina di ruotare un foglio di calcolo Excel in modo che le colonne siano ora visualizzate al posto delle righe numerate. Ad esempio, invece di mantenere una tabella clienti con un elenco di colonne di nome e cognome in cui il nome e il cognome vengono raggruppati insieme come una riga, un file Parquet memorizza le colonne insieme in modo che i database possano restituire più rapidamente le informazioni da una colonna specifica invece di cercare in ogni riga con numerose colonne. 

Vantaggi dei file Parquet

Oltre alle performance delle query basate sul modo in cui i file Parquet memorizzano i dati, l'altro vantaggio principale è l'efficienza in termini di costi. I file Apache Parquet sono dotati di compressione e decompressione altamente efficienti, quindi non occupano tanto spazio quanto un file di database standard. Con meno spazio di storage, un'azienda può risparmiare migliaia di dollari in costi di storage.

I formati di storage colonnare sono i migliori per Big Data e query analitiche. I file Parquet possono memorizzare immagini, video, oggetti, file e dati standard, in modo da poter essere utilizzati in qualsiasi tipo di applicazione analitica. Poiché le strategie di file Parquet sono open source, sono adatte anche alle organizzazioni che desiderano personalizzare le proprie strategie di data storage e query.

Come funzionano i file Parquet

I file Parquet contengono uno storage basato su colonne, ma anche metadati. Le colonne vengono raggruppate in ciascun gruppo di righe per garantire l'efficienza delle query e i metadati aiutano il motore di database a individuare i dati. I metadati contengono informazioni sulle colonne, sui gruppi di righe contenenti dati e sullo schema. 

Lo schema di un file Parquet descrive l'approccio allo storage basato su colonne. Il formato dello schema è binario e può essere utilizzato in un ambiente di data lake Hadoop. I file Parquet possono essere archiviati in qualsiasi file system, quindi non sono limitati solo agli ambienti Hadoop.

Uno dei vantaggi del formato di file storage Parquet è una strategia chiamata pushdown predicato. Con il predicate pushdown, il motore di database filtra i dati nelle prime fasi dell'elaborazione in modo che i dati più mirati vengano trasferiti lungo la pipeline. Grazie alla minore quantità di dati destinati a una query, migliora le performance delle query. Una minore elaborazione dei dati riduce anche l'utilizzo delle risorse informatiche e, in ultima analisi, anche i costi.

Utilizzo dei file Parquet

I file Parquet sono file Apache, quindi puoi crearli nei tuoi script Python, a condizione di importare diverse librerie. Supponiamo di avere una tabella in Python:

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   index=list('abc'))
 table = pa.Table.from_pandas(df)

Con questa tabella è ora possibile creare un file Parquet:

import pyarrow.parquet as pq
 pq.write_table(table, 'mytable.parquet')

Il codice di cui sopra crea il file "mytable.parquet" e lo scrive nella tabella. Ora puoi leggerlo dal tuo database preferito e importare i dati, oppure puoi utilizzarli per le tue query e analisi.

Puoi anche leggere questa tabella dal file utilizzando Python:

pq.read_table('mytable.parquet', columns=['one', 'three'])

La funzione write() consente di impostare le opzioni quando si scrive la tabella in un file. Puoi trovare un elenco di opzioni sul sito di Apache, ma ecco un esempio di come impostare la compatibilità del file su Apache Spark:

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   flavor=’spark’)
 table = pa.Table.from_pandas(df)

Conclusione

Se intendi utilizzare file Parquet per Hadoop, Apache Spark o altri database compatibili, puoi automatizzare la creazione di file utilizzando Python o importare file nell'ambiente di database per l'analisi. I file Parquet utilizzano la compressione per ridurre i requisiti di spazio di storage, ma è comunque necessaria una capacità di storage eccessiva per i silos di Big Data di grandi dimensioni. Pure Storage può aiutarti con il Big Data Storage con la nostra tecnologia di deduplica e compressione.

Potrebbe interessarti anche...

09/2025
Everpure FlashArray//X: Mission-critical Performance | Everpure
Pack more IOPS, ultra consistent latency, and greater scale into a smaller footprint for your mission-critical workloads with Everpure®️ FlashArray//X™️.
Scheda tecnica
4 pages

Esplora risorse ed eventi principali

TRADESHOW
Pure//Accelerate® 2026
June 16-18, 2026 | Resorts World Las Vegas

Preparati all'evento più importante a cui parteciperai quest'anno.

Registrati ora
DEMO DI PURE360
Esplora, scopri e prova Pure Storage.

Accedi a video e demo on demand per scoprire i vantaggi che Pure Storage ti offre.

Guarda le demo
VIDEO
Guarda: Il valore di un Enterprise Data Cloud (EDC).

Charlie Giancarlo spiega perché il futuro è nella gestione dei dati, non dello storage. Scopri in che modo un approccio unificato trasforma le operazioni IT aziendali.

Guarda
RISORSA
Lo storage legacy non può alimentare il futuro.

I workload moderni richiedono velocità, sicurezza e scalabilità AI-ready. Il tuo stack è pronto?

Effettua la valutazione
Il browser che stai usando non è più supportato.

I browser non aggiornati spesso comportano rischi per la sicurezza. Per offrirti la migliore esperienza possibile sul nostro sito, ti invitiamo ad aggiornare il browser alla versione più recente.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
Strategie di virtualizzazione pronte per affrontare il futuro

Soluzioni di storage per tutte le tue esigenze

Consenti progetti di AI di qualunque dimensione

Storage a performance elevate per pipeline dei dati, formazione e inferenza

Proteggiti dalla perdita dei dati

Soluzioni di resilienza informatica che proteggono i tuoi dati

Riduci i costi delle operazioni su cloud

Storage efficiente dal punto di vista dei costi per Azure, AWS e private cloud

Accelera le performance di applicazioni e database

Storage a bassa latenza per le performance delle applicazioni

Riduci il consumo di energia e di ingombro del data center

Storage efficiente delle risorse per ottimizzare l'utilizzo dei data center

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.