Skip to Content
Dismiss
혁신
모두를 위한 AI 비전

대규모 환경에서 데이터를 인텔리전스로 전환하는 통합된 자동화 기반의 플랫폼

자세히 알아보기
Dismiss
6월 16-18일, 라스베이거스
Pure//Accelerate® 2026

데이터의 진정한 가치를 실현하는 방법을 알아보세요.

지금 등록하기
Dismiss
2025 가트너 매직 쿼드런트 리포트
실행력 최상위, 비전 완성도 최우수 평가

에버퓨어가 실행력 부문 최상위, 비전 완성도 부문 최우수 평가를 받으며, 2025 Gartner® Magic Quadrant™ Enterprise Storage Platforms 리더로 선정됐습니다.

리포트 다운로드

파켓 파일이란?

Apache Parquet 파일은 분석 쿼리 시 열상 데이터베이스에 사용되는 오픈소스 데이터 스토리지 형식입니다. 데이터 세트는 작지만 수백만 개의 행을 검색할 수 있다면 더 나은 성능을 위해 열 형식을 사용하는 것이 더 좋을 수 있습니다. 열 데이터베이스는 행별로 그룹화되는 표준 행 기반 데이터베이스가 아닌 열을 그룹화하여 데이터를 저장합니다. Parquet 파일은 여러 열 스토리지 형식 중 하나입니다.

파켓 파일이란?

Excel 스프레드시트나 표준 관계형 데이터베이스와 같은 행을 그룹화하는 대신, Apache Parquet 파일은 더 빠른 성능을 위해 열을 그룹화합니다. 파켓은 데이터베이스 자체가 아닌 열 스토리지 형식이지만, 파켓 형식은 데이터 레이크, 특히 Hadoop에서 일반적입니다. 열 형식이기 때문에 분석 데이터 스토리지와 쿼리에 널리 사용됩니다.

대부분의 개발자는 행 기반 데이터 스토리지에 사용되지만, 이제 번호가 매겨진 행 대신 열이 표시되도록 Excel 스프레드시트를 회전하는 것을 상상해 보십시오. 예를 들어, 각 이름과 성이 하나의 행으로 그룹화되어 있는 이름 및 성 열의 목록을 고객 테이블에 보관하는 대신, Parquet 파일은 열을 함께 저장하여 데이터베이스가 여러 개의 열이 있는 각 행을 검색하는 대신 특정 열의 정보를 보다 신속하게 반환할 수 있도록 합니다. 

파켓 파일의 장점

Parquet 파일이 데이터를 저장하는 방식에 기반한 쿼리 성능 외에도, 또 다른 주요 장점은 비용 효율성입니다. Apache Parquet 파일은 압축 및 압축 해제 효율성이 뛰어나 표준 데이터베이스 파일만큼 많은 공간을 차지하지 않습니다. 스토리지 공간을 줄임으로써, 엔터프라이즈 조직은 수천 달러의 스토리지 비용을 절감할 수 있습니다.

컬럼 스토리지 형식은 빅데이터 및 분석 쿼리에 가장 적합합니다. 파켓 파일은 이미지, 비디오, 오브젝트, 파일 및 표준 데이터를 저장할 수 있어 모든 유형의 분석 애플리케이션에 사용할 수 있습니다. Parquet 파일 전략은 오픈소스이기 때문에 데이터 스토리지 및 쿼리 전략을 맞춤화하려는 조직에도 적합합니다.

파켓 파일 작동 방식

Parquet 파일에는 열 기반 스토리지가 포함되어 있지만 메타데이터도 포함되어 있습니다 메타데이터. 쿼리 효율성을 위해 각 행 그룹에서 열이 함께 그룹화되며, 메타데이터는 데이터베이스 엔진이 데이터를 찾는 데 도움이 됩니다. 메타데이터에는 열, 데이터가 포함된 행 그룹 및 스키마에 대한 정보가 포함되어 있습니다. 

Parquet 파일의 스키마는 스토리지에 대한 열 기반 접근 방식을 설명합니다. 스키마 형식은 바이너리 형식이며 Hadoop 데이터 레이크 환경에서 사용할 수 있습니다. 파켓 파일은 모든 파일 시스템에 저장할 수 있으므로 Hadoop 환경에만 국한되지 않습니다.

Parquet 파일 스토리지 형식의 한 가지 장점은 사전 푸시다운이라는 전략입니다. 데이터베이스 엔진은 예측 가능한 푸시다운을 통해 처리 초기에 데이터를 필터링하여 더 많은 대상 데이터를 파이프라인으로 전송합니다. 쿼리를 대상으로 하는 데이터가 적기 때문에 쿼리 성능이 향상됩니다. 또한 데이터 처리가 적기 때문에 컴퓨터 리소스 사용량이 줄어들고 비용도 절감됩니다.

파켓 파일 사용

Parquet 파일은 Apache 파일이므로 여러 라이브러리를 가져오는 경우 Python 스크립트에서 만들 수 있습니다. Python에 테이블이 있다고 가정해 봅시다.

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   index=list('abc'))
 table = pa.Table.from_pandas(df)

이 표를 통해 이제 Parquet 파일을 생성할 수 있습니다.

import pyarrow.parquet as pq
 pq.write_table(table, 'mytable.parquet')

위의 코드는 “mytable.parquet” 파일을 생성하고 여기에 표를 씁니다. 이제 즐겨찾는 데이터베이스에서 데이터를 읽고 가져올 수 있으며, 데이터를 쿼리 및 분석에 사용할 수 있습니다.

Python을 사용하여 파일에서 이 표를 읽을 수도 있습니다.

pq.read_table('mytable.parquet', columns=['one', 'three'])

쓰기() 기능을 사용하면 테이블에 파일을 쓸 때 옵션을 설정할 수 있습니다. Apache의 사이트에서 옵션 목록을 찾을 수 있지만, 다음은 Apache Spark와의 파일 호환성을 설정하는 예입니다.

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   flavor=’spark’)
 table = pa.Table.from_pandas(df)

결론

Hadoop, Apache Spark 또는 기타 호환 가능한 데이터베이스에 Parquet 파일을 사용하려면 Python을 사용하여 파일 생성을 자동화하거나 분석을 위해 데이터베이스 환경으로 파일을 가져올 수 있습니다. 파켓 파일은 스토리지 공간 요구사항을 낮추기 위해 압축을 사용하지만, 대규모 빅데이터 사일로에 과도한 스토리지 용량이 필요합니다. 퓨어스토리지는 중복제거 및 압축 기술을 통해 빅데이터 스토리지를 지원합니다.

다음을 추천드립니다.

07/2023
퓨어스토리지 플래시어레이//X (FlashArray//X) | 퓨어스토리지
강력한 성능과 효율성으로 핵심 애플리케이션 가속화
데이터시트
5 pages

주요 유용한 자료 및 이벤트를 확인하세요

THOUGHT LEADERSHIP
혁신을 향한 레이스

스토리지 혁신의 최전선에 있는 업계 리더들의 최신 인사이트 및 관점을 확인하세요.

더 알아보기
동영상
동영상 시청: 엔터프라이즈 데이터 클라우드의 가치

찰스 쟌칼로(Charles Giancarlo) CEO가 전하는 스토리지가 아닌 데이터 관리가 미래인 이유 통합 접근 방식이 기업 IT 운영을 어떻게 혁신하는지 알아보세요

지금 시청하기
유용한 자료
레거시 스토리지는 미래를 지원할 수 없습니다.

현대적 워크로드에는 AI 지원 속도, 보안, 확장성이 필수입니다. 귀사의 IT 스택, 준비됐나요?

지금 확인하기
퓨어360(PURE260) 데모
퓨어스토리지를 직접 탐색하고, 배우고, 경험해보세요.

퓨어스토리지의 역량을 확인할 수 있는 온디맨드 비디오와 데모를 시청하세요.

데모영상 시청하기
지원하지 않는 브라우저입니다.

오래된 브라우저는 보안상 위험을 초래할 수 있습니다. 최상의 경험을 위해서는 다음과 같은 최신 브라우저로 업데이트하세요.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
미래를 대비한 가상화 전략

모든 요구 사항에 맞는 스토리지 옵션.

모든 규모의 AI 프로젝트 지원

데이터 파이프라인, 교육 및 추론을 위한 고성능 스토리지

중요한 데이터 손실을 사전에 방지하세요.

비즈니스 리스크를 최소화하는 사이버 복원력 솔루션

클라우드 운영 비용 절감

Azure, AWS 및 프라이빗 클라우드를 위한 비용 효율적인 스토리지.

애플리케이션 및 데이터베이스 성능 가속화

로우 레이턴시 스토리지로 애플리케이션 성능을 극대화하세요.

데이터센터 전력 및 공간 사용량 절감

리소스 효율을 극대화하는 스토리지로 데이터센터 활용도를 최적화

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.