Skip to Content
Dismiss
Innovación
Una plataforma diseñada para la IA

Unificada, automatizada y preparada para convertir los datos en inteligencia.

Descubra cómo
Dismiss
16-18 de junio, Las Vegas
Pure//Accelerate® 2026

Descubra cómo extraer el verdadero valor de sus datos. 

Inscríbase ahora

¿Qué es un archivo de parquet?

Un archivo Apache Parquet es un formato de almacenamiento de datos de código abierto que se utiliza para las bases de datos columnares en las consultas analíticas. Si tiene pequeños conjuntos de datos, pero millones de filas para buscar, puede ser mejor usar un formato de columna para un mejor rendimiento. Las bases de datos columnas almacenan los datos agrupando columnas en lugar de agruparlas por filas en la base de datos estándar basada en filas. Un archivo Parquet es uno de varios formatos de almacenamiento columnar.

¿Qué es un archivo de parquet?

En lugar de agrupar filas como una hoja de cálculo de Excel o una base de datos relacional estándar, un archivo Apache Parquet agrupa columnas para un rendimiento más rápido. El parquet es un formato de almacenamiento columnar y no una base de datos en sí misma, pero el formato Parquet es común con los lagos de datos, especialmente con Hadoop. Como es un formato columnar, es popular entre el almacenamiento de datos analíticos y las consultas.

La mayoría de los desarrolladores están acostumbrados al almacenamiento de datos basado en filas, pero imagine rotar una hoja de cálculo de Excel para que las columnas se muestren ahora en lugar de las filas numeradas. Por ejemplo, en lugar de mantener una tabla de clientes con una lista de columnas de nombre y apellido, en la que cada nombre y apellido se agrupan como fila, un archivo Parquet almacena columnas juntas para que las bases de datos puedan devolver más rápidamente la información de una columna específica en lugar de buscar en cada fila con numerosas columnas. 

Ventajas de los archivos de parqué

Aparte del rendimiento de las consultas basado en la manera en que Parquet almacena los datos, la otra ventaja principal es la rentabilidad. Los archivos Apache Parquet tienen una compresión y descompresión muy eficientes, por lo que no ocupan tanto espacio como un archivo de base de datos estándar. Al ocupar menos espacio de almacenamiento, una organización empresarial podría ahorrar miles de dólares en costes de almacenamiento.

Los formatos de almacenamiento Columnar son mejores con macrodatos y consultas analíticas. Los archivos de parqué pueden almacenar imágenes, vídeos, objetos, archivos y datos estándar, por lo que pueden usarse en cualquier tipo de aplicación analítica. Debido a que las estrategias de archivos de Parquet son de código abierto, también son buenas para las organizaciones que quieren personalizar sus estrategias de almacenamiento y consulta de datos.

Cómo funcionan los archivos de parqué

Los archivos de parqué contienen almacenamiento basado en columnas, pero también contienen metadatos. Las columnas se agrupan en cada grupo de filas para lograr una mayor eficiencia en las consultas y los metadatos ayudan al motor de la base de datos a localizar los datos. Los metadatos contienen información sobre las columnas, los grupos de filas que contienen datos y el esquema. 

El esquema de un archivo Parquet describe el enfoque del almacenamiento basado en columnas. El formato de esquema es binario y puede usarse en un entorno de lago de datos de Hadoop. Los archivos de parqué pueden almacenarse en cualquier sistema de archivos, por lo que no se limitan solo a los entornos Hadoop.

Una de las ventajas del formato de almacenamiento de archivos Parquet es una estrategia llamada pushdown predicado. Con una reducción prevista, el motor de la base de datos filtra los datos al principio del procesamiento, para que los datos más dirigidos se transfieran a través de la canalización. Al tener menos datos dirigidos a una consulta, mejora el rendimiento de la consulta. Un menor procesamiento de los datos también reduce el uso de los recursos informáticos y, en última instancia, también reduce los costes.

Uso de los archivos de parqué

Los archivos de parqué son archivos Apache, por lo que puede crearlos en sus propios scripts Python, siempre que importe varias bibliotecas. Supongamos que tiene una tabla en Python:

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   index=list('abc'))
 table = pa.Table.from_pandas(df)

Con esta tabla, ahora podemos crear un archivo Parquet:

import pyarrow.parquet as pq
 pq.write_table(table, 'mytable.parquet')

El código anterior crea el archivo “mytable.parquet” y escribe la tabla en él. Ahora puede leer desde su base de datos favorita e importar los datos, o puede usar los datos para sus propias consultas y análisis.

También puede leer esta tabla desde el archivo usando Python:

pq.read_table('mytable.parquet', columns=['one', 'three'])

La función write() le permite establecer opciones cuando escribe la tabla en un archivo. Puede encontrar una lista de opciones en el sitio de Apache, pero aquí tiene un ejemplo de cómo configurar la compatibilidad del archivo con Apache Spark:

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   flavor=’spark’)
 table = pa.Table.from_pandas(df)

Conclusión

Si tiene previsto usar archivos Parquet para Hadoop, Apache Spark u otras bases de datos compatibles, puede automatizar la creación de archivos usando Python o importar archivos en el entorno de la base de datos para su análisis. Los archivos de parqué utilizan la compresión para reducir los requisitos de espacio de almacenamiento, pero sigue necesitando una capacidad de almacenamiento excesiva para los silos de macrodatos grandes. Pure Storage puede ayudarle con el almacenamiento de macrodatos con nuestra tecnología de deduplicación y compresión.

09/2025
Everpure FlashArray//X: Mission-critical Performance | Everpure
Pack more IOPS, ultra consistent latency, and greater scale into a smaller footprint for your mission-critical workloads with Everpure®️ FlashArray//X™️.
Hoja de datos
4 pages

Explore los recursos y eventos clave

FERIA COMERCIAL
Pure//Accelerate® 2026
June 16-18, 2026 | Resorts World Las Vegas

Prepárese para el evento más valioso al que asistirá este año.

Inscríbase ahora
DEMOS DE PURE360
Explore, aprenda y experimente Everpure.

Acceda a vídeos y demostraciones bajo demanda para ver lo que Everpure puede hacer.

Ver las Demos
VÍDEO
Ver: El valor de Enterprise Data Cloud.

Charlie Giancarlo explica por qué la gestión de los datos —y no del almacenamiento— es el futuro. Descubra cómo un enfoque unificado transforma las operaciones de TI de la empresa.

Ver ahora
RECURSO
El almacenamiento tradicional no puede impulsar el futuro.

Las cargas de trabajo modernas exigen velocidad, seguridad y escala preparadas para la IA. ¿Su stack está listo?

Realice la evaluación
Your Browser Is No Longer Supported!

Older browsers often represent security risks. In order to deliver the best possible experience when using our site, please update to any of these latest browsers.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
Estrategias de virtualización preparadas para el futuro

Opciones de almacenamiento para todas sus necesidades

Permita los proyectos de IA a cualquier escala

Almacenamiento de alto rendimiento para las canalizaciones de datos, el entrenamiento y la inferencia.

Proteja frente a la pérdida de datos

Soluciones de ciberresiliencia que defienden sus datos

Reduzca el coste de las operaciones en la nube

Almacenamiento rentable para Azure, AWS y las nubes privadas

Acelere el rendimiento de las aplicaciones y las bases de datos

Almacenamiento de baja latencia para el rendimiento de las aplicaciones

Reduzca el consumo de energía y espacio del centro de datos

Un almacenamiento eficiente en cuanto a recursos para mejorar el uso del centro de datos

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.