ビッグデータ・ビギナーズ・ガイド

Table of Contents

ビッグデータとはビッグデータの 3 つの「V」ビッグデータは何から生成されるのかビッグデータの種類：構造化データと非構造化データビッグデータのライフサイクルビッグデータの活用で何ができるのかビッグデータはどのように保存されるのかビッグデータの需要を牽引するエッジ・コンピューティングあらゆるビッグデータに対応するスケーラブルなオールフラッシュ・データ・ストレージビッグデータにピュア・ストレージが選ばれる理由

ビッグ・データとは何でしょうか？その活用方法とは？ビッグデータと、組織に役立つ実用的な知見を抽出するために必要なテクノロジーについて解説します。

ビッグデータとは

今日のビジネスでは、膨大な量のデータをさまざまなソースから収集しており、多くの場合、それらをリアルタイムで分析する必要があります。ビッグデータとは、従来の手法で処理するには大きすぎる、速すぎる、複雑すぎるといったデータを指します。また、予測分析、IoT（モノのインターネット）、AI といったインテリジェンス生成の分野では、ビッグデータが可能にしている数多くのテクノロジーや戦略も含まれます。

Research and Markets 社のレポートによると、世界のビッグデータ市場は 2026 年までに 1560 億ドルに達すると報告しており、多くの企業がこの市場に参入することが予想されます。以下に、ビッグデータとは何か、何から生成されるのか、何に使われるのか、そして、ビッグデータの活用を成功に導く IT インフラストラクチャについて紹介します。

ブログ

ビッグデータ分析インフラストラクチャ

ブログ

Why Data Analytics Maturity Matters（ESG 調査：データ分析の成熟度が重要な理由）

ブログ

SQL Server Big Data Cluster

ビッグデータの 3 つの「V」

ビッグデータの概念は従来から存在していましたが、2001 年に業界アナリストの Doug Laney 氏によって、ビッグデータにおける 3 つの「V」が新たに提唱されました。それらは以下のとおりです。

Volume（データの量）：処理する必要のあるデータの量（通常は大量であり、ギガバイト～エクサバイト、またはそれ以上）
Variety（データの多様性）：構造化データ、非構造化データ、さまざまなソースからのストリーミング・データなど、幅広い種類のデータ
Velocity（データの速さ）：新しいデータがシステムにストリーミングされる速度

この 3 つ以外にもさらなる「V」があると主張するデータ専門家もいます。例えば、次のようなものです。

Veracity（データの正しさ）：正確性、精度、信頼性の面でのデータの品質
Value（データの価値）：データが提供する価値、ビジネスにどのようなメリットがあるのか

「V」は 42 個まで定義されていますが、上記の 5 つはビッグデータを定義するために最も一般的に使用されるものです。

また、ビッグデータには以下の 2 つの種類があり、処理方法や、どのような用途課題やクエリに答えるために使用されるかが異なります。

バッチ処理：一般的に、大量の履歴データに使用され、それらは長期的な戦略や大規模な課題に答えるために保存されています。複雑かつ詳細な分析を必要とする膨大な量のデータが該当します。
ストリーミング・データ：大規模な課題を解決することよりも、製造工程の精度を維持する場合など、その場でリアルタイムに情報を得るためのものです。一般的には、高速な大量のデータに使用されます。複雑ではないが極めて迅速な分析を必要とする膨大な量の高速データが該当します。

ビッグデータと従来のデータの違いについて詳しく見る

ビッグデータは何から生成されるのか

ビッグデータとは、日々収集される近代的な非構造化データの全てであり、詳細なインテリジェンスや知見を得るために利用されます。ビッグデータのソースとしては、次のようなものがあります。

IoT、何十億ものデバイスやセンサーからのデータ
ログ分析に使用される機械的に生成されたログデータ
ソフトウェア、プラットフォーム、エンタープライズ・アプリケーション
人々の活動：SNS、取引、オンライン処理、健康記録、天然資源の消費など
科学業界や各種団体の研究データ

ビッグデータの種類：構造化データと非構造化データ

データの種類によって必要なストレージは異なります。構造化データと非構造化データでは、それぞれに異なる種類のデータベース、処理、ストレージ、分析が必要になります。

構造化データとは、テーブルに無理なく収まるような従来のデータを指します。構造化データは通常、価格、日付、時間といった標準的な値のエントリーに簡単に分類・フォーマットできます。

非構造化データとは、テーブルへ入力が容易でないモダン・データを指します。非構造化データは、ビッグデータと同じ意味で使われることも多く、今後数年間で全データの 80% を占めると予測されています。SNS、IoT、コンテンツ制作者、監視カメラなどから、さまざまなデータが生成され、テキスト、画像、音声、動画などが含まれます。このことは、FlashBlade® 統合型高速ファイル／オブジェクト（UFFO）ストレージに代表される、新しいストレージ・カテゴリの登場の原動力となっています。非構造化データを活用するには、より多くのストレージと、より多くの処理能力を必要とし、多種多様なデータを効率よく統合する必要があります。

構造化データと非構造化データの違いについて詳しく見る

ビッグデータのライフサイクル

ビッグデータのライフサイクルには、以下のようなものがありますが、これらに限定されません。

データを抽出・収集する：データは、エンタープライズ・リソース・プランニング・システム、IoT センサー、マーケティングや POS アプリケーションなどのソフトウェア、API によるストリーミング・データなど、さまざまなソースで生成される可能性があります。これらのデータの出力はさまざまであるため、次の取り込みのステップが重要になります。例えば、株式市場から送られてくるデータと、社内システムのログデータでは大きく異なります。
データを取り込む：ETL（抽出、変換、読み込み）パイプラインにより、適切なデータ形式に変換します。SQLデータベースやデータ可視化ツールなど、利用するツールが理解できる形式にデータを変換する必要があります。例えば、名前の形式が適切でないことが原因で、データ解析を行えない可能性もあります。
データをストレージに読み込む：データは、クラウドベースのデータ・ウェアハウスや、オンプレミスのストレージなどに保存されています。データの読み込みは、バッチで行う方法や、イベントベースのストリーミングで行う方法などさまざまです。（注：このステップは、ビジネスのニーズに応じて、変換ステップの前に行われることもあります。）

データ・ウェアハウスについて詳しく見る
データのクエリ・分析を行う：近代的なクラウドベースのコンピューティング、プロセス、ストレージ・ツールは、ビッグデータのライフサイクルの進化に大きな影響を与えています。（注：Amazon Redshift のような一部の近代的なツールでは、ETL プロセスをバイパスすることでデータのクエリをより高速に行うことができます。）
データをアーカイブする：データの用途に適したストレージにデータを保存します。長期保存のためにコールド・ストレージを利用する場合や、常時アクセス可能なストレージに保存する場合があります。データにすぐにアクセスする必要がない場合、コールド・ストレージは手頃な価格で利用できるスペース効率の良い方法です。特に、コンプライアンス要件を満たすためや、長期的な戦略的意思決定のためにデータを保存する場合に適しています。また、ペタバイト級のコールド・データとアクセス頻度が高いホット・データを、同一のサーバーに保持することによるパフォーマンスへの影響も軽減されます。

ビッグデータの活用で何ができるのか

ビッグデータに活用方法には、画期的で効果的なものが多くあります。その価値は、ビッグデータから得る知見がもたらすビジネスのブレークスルーにあります。ビッグデータの目標や用途には、以下のようなものがあります。

ストリーミング・データの分析から、リアルタイムな知見とインテリジェンスをその場で提供し、アラートのトリガーと異常の特定を行う
予測分析
ビジネス・インテリジェンス
機械学習
不正行為やデータ漏洩の防止、セキュリティ・リスクの低減に役立つリスク分析
画像認識、自然言語処理、ニューラル・ネットワークなどの人工知能
レコメンド・エンジンや予測サポートによるユーザー・エクスペリエンスや顧客とのやり取りの改善
プロセス（社内、製造など）におけるコスト削減と効率性向上
データ主導のマーケティングとコミュニケーション、リアルタイムに生成される何百万ものソーシャル・メディア、消費者、デジタル広告のデータポイントを分析

ビッグデータの業界別ユース・ケースおよびアプリケーションについて詳しく見る

ビッグデータはどのように保存されるのか

ビッグデータには独自の要件がありますが、それはデータ・ストレージにおいて顕著です。リアルタイムのストリーミング・データに代表されるように、データは絶えずデータベースに書き込まれる場合がほとんどです。また、多くの場合、膨大な種類のデータ形式が含まれています。そのため、ビッグデータはスキーマレス（非構造化）環境に保存して分散ファイルシステム上で開始するのが最適であり、これにより、膨大なデータ・セットを並行して処理できるようになります。これには、ファイル・データとオブジェクト・データを統合できる非構造化ストレージ・プラットフォームが最適です。

データ・ハブとデータ・レイクの違いについて詳しく見る

ビッグデータの需要を牽引するエッジ・コンピューティング

IoT の台頭により、分散する多数のデバイスによって生成するデータ量が増大しています。

エッジ・コンピューティングとは、人々とデバイスの間で新たなデータが生成される「エッジ」という場所において、情報をローカルに処理する分散コンピューティング・トポロジのことで、IoT データがデータ・センターなどの集中管理された場所に転送され、遠隔地で処理されるのを待つ必要がなくなります。

エッジ・コンピューティングは、企業のコストや帯域幅を削減するだけでなく、より効率的でリアルタイムなアプリケーション開発を可能にし、顧客に優れたユーザー・エクスペリエンスを提供することができます。この傾向は、5G などの新しいワイヤレス技術の展開により、今後数年間でさらに加速することが見込まれます。

より多くのデバイスがインターネットに接続されるようになると、リアルタイムかつエッジで処理しなければならないデータ量も増加します。では、エッジ・コンピューティングによって増大するデータ・ストレージの需要に応えることができる、分散型の俊敏なデータ・ストレージとはどのようなものでしょうか。それは、コンテナネイティブなデータ・ストレージです。

AWS Snowball、Microsoft Azure Stack、Google Anthos といった既存のエッジ・プラットフォームはどれも、コンテナ・オーケストレーション・プラットフォームとして人気の高い Kubernetes をベースにしています。Kubernetes は、これらの環境において、データの取り込み、保存、処理、分析、機械学習などのワークロードをエッジで実行することを可能にします。

エッジで実行するマルチノードの Kubernetes クラスタには、データ中心のワークロード固有のニーズに対応した、効率的でコンテナネイティブなストレージ・エンジンが必要です。つまり、エッジで実行するコンテナ化されたアプリケーションには、コンテナに適したきめ細かなストレージ管理が必要です。Portworx® は、ステートフルなファブリックを提供するデータ・サービス・プラットフォームで、コンテナ SLA 対応のデータ・ボリュームを管理できます。

ビッグデータと IoT の関係について詳しく見る

あらゆるビッグデータに対応するスケーラブルなオールフラッシュ・データ・ストレージ

ビッグデータをオールフラッシュ・アレイでホスティングするメリット：

高速化（HDD の 55～180 IOPS に対し、SSD は 3K～40K IOPS を実現）
I/O 用に 64K 以上のキューを持つ大規模な並列処理
NVMe による高性能、高信頼性

ビッグデータにピュア・ストレージが選ばれる理由

ビッグデータの相対的な量、種類、速度は絶えず変化しています。データを大きく高速に保つためには、常に最新のストレージ技術に投資しているかを確認する必要があります。フラッシュ・メモリの進歩により、あらゆるデータ層に対応したカスタムのオールフラッシュ・ストレージ・ソリューションを提供できるようになりました。ピュア・ストレージは、次のような特長によって、お客様のビッグデータ分析パイプラインを強化します。