Dismiss

4月22日オンライン開催

【緊急提言2026年版】IT インフラ調達の新常識：納期遅延と価格高騰をどう乗り越えるか

半導体不足、為替の乱高下、AI 投資の加速などによる変化を乗り越えるための解決策を提言します。

ご登録

Dismiss

イノベーション

あらゆる AI ビジョンをサポート

統合化・自動化された基盤が大規模なデータをインテリジェンスに変えます。

詳しく見る

Dismiss

6月16日～18日ラスベガス開催

Pure//Accelerate® 2026

データの価値を最大化する方法がわかります。

ご登録

ご相談・お問い合わせ

ピュア・ナレッジ
データ・ウェアハウス

データ・ウェアハウスとは

データ・ウェアハウスは、構造化データ向けに最適化されたストレージ・システムで、迅速なビジネス・インテリジェンス（BI）に必要な高速 SQL クエリを可能にします。データ・ウェアハウスは、高速トランザクションから予測型分析まで、企業における BI 促進のためのストレージのデファクト・スタンダートとして使用されてきました。

データ・ウェアハウスの特長

データ・ウェアハウスには、次のような特長があります。

複数の異なるソースから構造化データを集約
リレーショナル・データベースの分析クエリを高速化
安価なクエリと迅速なレポート作成のための専用のストレージ・ソリューション

データ・ウェアハウスの仕組み

有益な情報を抽出するために社内の各部門からデータを収集するロジスティクスは、ビジネスの成長とともに複雑になります。データ・ウェアハウスは、その情報を単一のデータベースおよびデータモデルに集約し、アナリストによるクエリの実行を可能にする信頼性の高い方法を提供します。

仕組みの概要：

抽出：ERP、CRM、営業、マーケティング部門など、組織内のさまざまなソースから未加工データをステージング・データベースに集約
変換：ステージング・レイヤーのデータを統合レイヤーに転送し、そこでデータを結合してオペレーショナル・データ・ストア（ODS）に変換
ロード：アナリストが SQL クエリに使用するスキーマを定義することで、データを統合レイヤーからデータ・ウェアハウスに移動した後、リレーショナル・データベースに書き込み（スキーマ・オン・ライト）

データ・ウェアハウスで扱うデータベースはリレーショナル型であるため、データは構造化されており、列と行からなるテーブル形式で格納されます。これらのテーブルは、書き込み時に定義されたスキーマによって管理されます。

変換のステップがデータ・ウェアハウスの外部にある ODS で処理される場合は、ETL（Extract, Transform, Load：抽出、変換、ロード）と呼ばれます。変換データをデータ・ウェアハウス内部で処理する場合は、ELT （Extract, Load, Transform：抽出、ロード、変換）と呼ばれます。ETL と ELT のどちらを使用する場合でも、データ・ウェアハウスは、構造化データ、スキーマ・オン・ライトでリレーショナル・データベースと連動する必要があります。

データ・ウェアハウスの使用目的

データ・ウェアハウスの一般的なアプリケーション：

オンライン・トランザクション処理（OLTP: Online Transaction Processing）：データ・ウェアハウスは、大量の短いデータの処理のために最適化され、データの整合性の維持と高速なクエリが可能になります。一例として、高頻度の取引用プラットフォームで行われるトランザクションが挙げられます。
オンライン分析処理（OLAP: Online Analytical Processing）：データ・ウェアハウスを最適化することで、トランザクション量の比較的少ない複雑なクエリを高速化できます。これは、アナリストが BI レポートを生成するときなどに使用されます。
予測型分析：例えば自社の将来予測と「仮定」のシナリオを生成するために、機械学習アルゴリズムを活用して OLAP システムを最適化します。

データ・ウェアハウスはスキーマ・オン・ライトであるため、データ・ウェアハウスにスキーマを追加する前に、実行予定のクエリのタイプを把握しておくことが重要です。多様なデータソースによる複雑さを解消するために、データ・ウェアハウスをセグメント化してデータ・マートとし、CRM のような特定の事業部門にハードウェア／ソフトウェアのリソースを割り当てるという方法もあります。

データ・ウェアハウス、データ・レイク、データ・ハブの違い

これらは似た概念を持つものと思われがちですが、次のような違いがあります。

データ・ウェアハウス：データ・ウェアハウスは、組織内の複数の非構造化データ・ソースから取り込んだ構造化データを統合・格納する単一のリポジトリです。
データ・レイク：組織内（データ・ウェアハウスを含む）のあらゆる構造化および未加工の非構造化データを格納する単一の未精製リポジトリです。このデータから BI のための知見を抽出するには、まずデータを処理する必要があります。
データハブ：構造化および非構造化データを集中管理型データ・レイヤーに集約し、一元管理可能にする単一のインターフェースです。オペレーショナル・データも処理できる点でデータ・ウェアハウスとは異なり、複数の形式のデータに対応可能な点でデータ・レイクとも異なります。

データ・ハブは、異なるエンドポイントの集合間でのデータ共有に必要なデータ・ガバナンスを提供します。このように、データ・ハブはデータ・レイクとデータ・ウェアハウスを単一のアクセス・レイヤーに集約します。データ処理が抽象化されるため、BI のための知見抽出を一元化された場所で行うことができます。