Skip to Content
Dismiss
Inovação
Uma plataforma criada para IA

Unificado, automatizado e pronto para transformar dados em inteligência.

Saber como
Dismiss
16-18 juni, Las Vegas
Pure//Accelerate® 2026

Ontdek hoe u de ware waarde van uw gegevens kunt ontsluiten. 

Schrijf u nu in

O que é um arquivo Parquet?

Um arquivo Apache Parquet é um formato de armazenamento de dados de código aberto usado para bancos de dados em colunas em consultas analíticas. Se você tiver pequenos conjuntos de dados, mas milhões de linhas para pesquisar, pode ser melhor usar um formato colunar para melhor desempenho. Os bancos de dados de colunas armazenam dados agrupando colunas em vez do banco de dados padrão baseado em linhas que agrupa por linhas. Um arquivo Parquet é um dos vários formatos de armazenamento em colunas.

O que é um arquivo Parquet?

Em vez de agrupar linhas como uma planilha do Excel ou um banco de dados relacional padrão, um arquivo Apache Parquet agrupa colunas para um desempenho mais rápido. O Parquet é um formato de armazenamento colunar e não um banco de dados em si, mas o formato Parquet é comum com data lakes, especialmente com o Hadoop. Como é um formato colunar, é popular com armazenamento e consultas de dados analíticos.

A maioria dos desenvolvedores está acostumada ao armazenamento de dados baseado em linhas, mas imagine girar uma planilha do Excel para que as colunas agora sejam mostradas no lugar de linhas numeradas. Por exemplo, em vez de manter uma tabela de clientes com uma lista de colunas de nome e sobrenome em que cada nome e sobrenome são agrupados como uma linha, um arquivo Parquet armazena colunas juntas para que os bancos de dados possam retornar informações mais rapidamente de uma coluna específica em vez de pesquisar em cada linha com várias colunas. 

Benefícios dos arquivos Parquet

Além do desempenho da consulta com base na forma como os arquivos da Parquet armazenam dados, a outra principal vantagem é a economia. Os arquivos Apache Parquet têm compactação e descompressão altamente eficientes, para que não ocupem tanto espaço quanto um arquivo de banco de dados padrão. Ao ocupar menos espaço de armazenamento, uma empresa poderia economizar milhares de dólares em custos de armazenamento.

Os formatos de armazenamento em colunas são melhores com Big Data e consultas analíticas. Os arquivos Parquet podem armazenar imagens, vídeos, objetos, arquivos e dados padrão para que possam ser usados em qualquer tipo de aplicativo analítico. Como as estratégias de arquivos Parquet são de código aberto, elas também são boas para organizações que desejam personalizar suas estratégias de armazenamento e consulta de dados.

Como funcionam os arquivos Parquet

Os arquivos Parquet contêm armazenamento baseado em coluna, mas também contêm metadados . As colunas são agrupadas em cada grupo de linhas para eficiência de consulta, e os metadados ajudam o mecanismo de banco de dados a localizar dados. Os metadados contêm informações sobre as colunas, grupos de linhas que contêm dados e o esquema. 

O esquema em um arquivo Parquet descreve a abordagem do armazenamento baseada em coluna. O formato de esquema é binário e pode ser usado em um ambiente de data lake Hadoop. Os arquivos Parquet podem ser armazenados em qualquer sistema de arquivos, portanto, não estão limitados apenas aos ambientes Hadoop.

Uma vantagem do formato de armazenamento de arquivos da Parquet é uma estratégia chamada pushdown predicado. Com o pushdown avançado, o mecanismo de banco de dados filtra os dados no início do processamento para que dados mais direcionados sejam transferidos no fluxo. Ao ter menos dados direcionados a uma consulta, melhora o desempenho da consulta. Menos processamento de dados também reduz o uso de recursos de computador e também os custos.

Usando arquivos Parquet

Os arquivos Parquet são arquivos Apache, para que você possa criá-los em seus próprios scripts Python, desde que importe várias bibliotecas. Digamos que você tenha uma tabela em Python:

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   index=list('abc'))
 table = pa.Table.from_pandas(df)

Com essa tabela, agora podemos criar um arquivo Parquet:

import pyarrow.parquet as pq
 pq.write_table(table, 'mytable.parquet')

O código acima cria o arquivo “mytable.parquet” e grava a tabela nele. Agora, você pode ler a partir do seu banco de dados favorito e importar os dados, ou pode usar os dados para suas próprias consultas e análises.

Você também pode ler esta tabela do arquivo usando Python:

pq.read_table('mytable.parquet', columns=['one', 'three'])

A função write() permite definir opções ao gravar a tabela em um arquivo. Você pode encontrar uma lista de opções no site do Apache, mas aqui está um exemplo de configuração da compatibilidade do arquivo com o Apache Spark:

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   flavor=’spark’)
 table = pa.Table.from_pandas(df)

Conclusão

Se você planeja usar arquivos Parquet para Hadoop, Apache Spark ou outros bancos de dados compatíveis, pode automatizar a criação de arquivos usando Python ou importar arquivos para o ambiente de banco de dados para análise. Os arquivos Parquet usam compactação para reduzir os requisitos de espaço de armazenamento, mas você ainda precisa de capacidade de armazenamento excessiva para grandes silos de Big Data. A Pure Storage pode ajudar com o armazenamento de Big Data com nossa tecnologia de desduplicação e compactação.

09/2025
Everpure FlashArray//X: Mission-critical Performance | Everpure
Pack more IOPS, ultra consistent latency, and greater scale into a smaller footprint for your mission-critical workloads with Everpure®️ FlashArray//X™️.
Datasheet
4 pages

Confira os principais recursos e eventos

FEIRA DE NEGÓCIOS
Pure//Accelerate® 2.026
June 16-18, 2026 | Resorts World Las Vegas

Prepare-se para o evento mais valioso do ano.

Registrar-se agora
DEMONSTRAÇÕES SOBRE O PURE360
Explore, conheça e teste a Everpure.

Acesse vídeos e demonstrações sob demanda para ver do que a Everpure é capaz.

Assistir às demonstrações
VÍDEO
Assista: O valor de um Enterprise Data Cloud.

Charlie Giancarlo sobre o por que de gerenciar dados — e não o armazenamento — é o futuro. Descubra como uma abordagem unificada transforma as operações de TI corporativas.

Assista agora
RECURSO
O armazenamento legado não pode potencializar o futuro.

Cargas de trabalho avançadas exigem velocidade, segurança e escala compatíveis com a IA. Sua pilha está pronta?

Faça a avaliação
Seu navegador não é mais compatível.

Navegadores antigos normalmente representam riscos de segurança. Para oferecer a melhor experiência possível ao usar nosso site, atualize para qualquer um destes navegadores mais atualizados.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
Estratégias de virtualização pronta para o futuro

Opções de armazenamento para todas as suas necessidades

Viabilização de projetos de IA em qualquer escala

Armazenamento de alto desempenho para fluxo de dados, treinamento e inferência

Proteção contra perda de dados

Soluções para resiliência cibernética que protegem os seus dados

Redução do custo das operações em nuvem

Armazenamento econômico para Azure, AWS e nuvens privadas

Aumento do desempenho de aplicativos e bancos de dados

Armazenamento de baixa latência para desempenho de aplicativos

Redução do consumo de energia e espaço físico do datacenter

Armazenamento com uso eficiente de recursos para melhorar o uso do datacenter

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.