Skip to Content
Dismiss
イノベーション
あらゆる AI ビジョンをサポート

統合化・自動化された基盤が大規模なデータをインテリジェンスに変えます。

詳しく見る
Dismiss
6月16日~18日 ラスベガス開催
Pure//Accelerate® 2026

データの価値を最大化する方法がわかります。

ご登録
Dismiss
2025 年ガートナー・マジック・クアドラント・レポート
「実行能力」と「ビジョンの完全性」で最上位に位置付け

Everpure は、2025 年ガートナー「エンタープライズ・ストレージ・プラットフォーム部門のマジック・クアドラント」において、リーダーの 1 社として「実行能力」と「ビジョンの完全性」の両軸上で最上位に位置付けられました。

レポートを読む

Parquet ファイルとは?

Apache Parquet ファイルは、分析クエリのカラム型データベースに使用されるオープンソースのデータ・ストレージ形式です。データセットは小さいものの、検索する行が数百万行ある場合は、性能を高めるためにカラム形式を使用する方がよいかもしれません。カラム型データベースは、行ごとにグループ化する標準的な行ベースのデータベースではなく、列をグループ化することでデータを保存します。Parquet ファイルは、複数のカラム型ストレージ形式の 1 つです。

Parquet ファイルとは?

Excel スプレッドシートや標準的なリレーショナル・データベースのように行をグループ化する代わりに、Apache Parquet ファイルは列をグループ化し、性能を向上させます。Parquet は、データベース自体ではなくカラム型のストレージ形式ですが、Parquet 形式はデータレイク、特に Hadoop で一般的です。カラム形式であるため、分析データ・ストレージやクエリでよく使用されます。

ほとんどの開発者は、行ベースのデータ・ストレージに慣れていますが、Excel スプレッドシートを回転させて、列が番号付きの行の代わりに表示されるようになることを想像してみてください。例えば、Parquet ファイルは、姓と名を 1 行にまとめた姓と名列のリストで顧客テーブルを保持する代わりに、列をまとめて格納し、データベースが多数の列で各行を検索するのではなく、特定の列からの情報をより迅速に返すことができるようにします。

Parquet ファイルのメリット

Parquet のファイルによるデータの保存方法に基づくクエリ性能とは別に、もう 1 つの主な利点はコスト効率です。Apache Parquet ファイルは、圧縮と解凍が効率的であるため、標準的なデータベース・ファイルほどのスペースを消費しません。ストレージ・スペースを削減することで、エンタープライズの組織は、ストレージ・コストを数千ドル削減できます。

カラム型ストレージの形式は、ビッグデータや分析クエリに最適です。Parquet ファイルは、画像、動画、オブジェクト、ファイル、標準データを保存できるため、あらゆるタイプの分析アプリケーションに使用できます。Parquet のファイル戦略はオープンソースであるため、データ・ストレージやクエリ戦略をカスタマイズしたい組織にも最適です。

Parquet ファイルの仕組み

Parquet ファイルには、列ベースのストレージが含まれていますが、メタデータも含まれます。列は、クエリの効率を高めるために各行グループでグループ化され、メタデータは、データベース・エンジンがデータを見つけるのに役立ちます。メタデータには、列、データを含む行グループ、スキーマに関する情報が含まれます。

Parquet ファイルのスキーマは、ストレージに対する列ベースのアプローチを示しています。スキーマ形式はバイナリ形式であり、Hadoop データレイク環境で使用できます。Parquet ファイルは任意のファイル・システムに保存できるため、Hadoop 環境に限定されません。

Parquet ファイル・ストレージ形式の利点の 1 つは、述語プッシュダウンと呼ばれる戦略です。述語プッシュダウンにより、データベース・エンジンは、処理の早い段階でデータをフィルタリングし、よりターゲットを絞ったデータをパイプラインに転送します。クエリの対象となるデータを減らすことで、クエリの性能が向上します。また、データ処理が減ることで、コンピュータ・リソースの使用量が削減され、最終的にはコストも削減されます。

Parquet ファイルの使用

Parquet ファイルは Apache ファイルであるため、複数のライブラリをインポートすれば、独自の Python スクリプトで作成できます。Python にテーブルがあるとします。

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   index=list('abc'))
 table = pa.Table.from_pandas(df)

このテーブルでは、Parquet ファイルを作成できるようになりました。

import pyarrow.parquet as pq
 pq.write_table(table, 'mytable.parquet')

上記のコードは、ファイル「mytable.parquet」を作成し、テーブルを書き込みます。お気に入りのデータベースから読み取ってデータをインポートしたり、独自のクエリや分析にデータを使用したりできます。

また、Python を使用してファイルからこのテーブルを読むこともできます。

pq.read_table('mytable.parquet', columns=['one', 'three'])

write() 関数を使用すると、ファイルにテーブルを書き込むときにオプションを設定できます。Apache のサイトにはオプションのリストがありますが、ファイルの Apache Spark への互換性の設定例を以下に示します。

import numpy as np
 import pandas as pd
 import pyarrow as pa
 df = pd.DataFrame({'one': [-1, 4, 1.3],
                   'two': ['blue', 'green', 'white'],
                   'three': [False, False, True]},
                   flavor=’spark’)
 table = pa.Table.from_pandas(df)

まとめ

Parquet ファイルを Hadoop、Apache Spark、その他の互換性のあるデータベースに使用する場合は、Python を使用してファイル作成を自動化するか、分析のためにデータベース環境にファイルをインポートすることができます。Parquet ファイルは圧縮によりストレージ容量の要件を低減しますが、大規模なビッグデータ・サイロには過剰なストレージ容量が必要です。ピュア・ストレージの重複排除/圧縮技術は、ビッグデータ・ストレージを支援します。

こちらの資料もご覧ください!

11/2020
VMware Hybrid Cloud Solution Brief | Solution Brief | Everpure
Hybrid cloud and container adoption are growing rapidly. Advance to an effortless, optimized VMware environment.
ソリューションの概要
3 pages

関連リソースとイベント

動画
動画:エンタープライズ・データ・クラウドのメリット

会長兼 CEO のチャーリー・ジャンカルロが、ストレージ管理からデータ管理へのシフトこそが未来である理由を解説します。統合により、エンタープライズ IT の運用管理がいかに変わるかがわかります。

視聴する
リソース
従来のストレージは未来を支えません。

近代的なワークロードには、AI 対応の高速性、セキュリティ、拡張性が求められます。スタックの準備はできていますか?

現行のサイバー対策を評価する
Pure360 デモ
ピュア・ストレージを探索、体験、学習できます。

ピュア・ストレージの製品や機能をご紹介するオンデマンド動画/デモ付き動画をご用意しています。是非ご利用ください!

デモ動画を見る
ソート・リーダーシップ
イノベーション競争

ストレージ技術革新の最前線に立つ業界リーダーによる最新のインサイトと展望。

詳しく見る
このブラウザは現在サポートされていません。

古いブラウザには、セキュリティ・リスクが存在する場合があります。ピュア・ストレージの Web サイトをより快適にご利用いただけるよう、最新のブラウザにアップデートしてください。

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
ニーズの変化に対応する仮想化戦略

あらゆるニーズに応えるストレージの選択肢

あらゆる規模の AI を支援

データ・パイプライン、トレーニング、推論に最適な高性能ストレージ

徹底したデータ損失対策

サイバー・レジリエンス・ソリューションがリスクを低減

クラウド運用コストを削減

Azure、AWS、プライベート・クラウドを支える高コスト効率のストレージ

アプリとデータベースを高速化

アプリケーションの性能を高める低レイテンシ―のストレージ

省電力・省スペースのデータセンター

リソース消費効率の高いストレージが、データセンターを高効率化

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.