ビッグデータは、顧客の行動に関するより重要な洞察、市場活動に関するより正確な予測、事業全体にわたる効率性の向上など、ビジネスに計り知れない機会をもたらします。
人や企業が生み出すデータは年々増大しています。IDC 社のレポートによると、2010 年に世界で新たに作成されたデータは、わずか 1.2 ゼタバイト(1.2 兆ギガバイト)に過ぎませんでした。この数値は、2025 年には 175 ゼタバイト(175 兆ギガバイト)以上に増大する可能性があります。1
この豊富な資源を企業が予測分析やデータ・マイニングに活用することで、ビッグデータの市場も拡大することが予想されます。Statista 社の調査によると、ビッグデータ市場は 2018 年から 2027 年にかけてその価値を倍増し、1,690 億ドルから 2,740 億ドルまでに成長すると予測されています。
しかし、ビッグデータと従来のデータでは、どのようのな違いがあるのでしょうか。また、それらは現在のデータ・ストレージ、処理方法、分析技術にどのような影響を与えるのでしょうか。以下に、それぞれのデータの目的を説明するとともに、ビッグデータと従来のデータの活用を成功に導くための戦略の重要性を紹介します。
従来のデータとは、これまで多くの組織が何十年もかけて保存・処理してきた構造化されたリレーショナル・データのことです。世界のデータの大半は、依然として従来のデータが占めています。
企業は従来のデータを、売上げの追跡、顧客関係やワークフローの管理に利用しています。多くの場合、従来のデータは操作が容易で、従来のデータ処理ソフトウェアで管理することができます。しかし、一般的にはビッグデータよりも洗練された洞察力に欠け、メリットも限られています。
ビッグデータとは、大規模で複雑なデータ・セットと、このような種類のデータを処理するために使用される手法の両方を指します。ビッグデータには、「4 つの V」と呼ばれる大きな特徴があります。
ビッグデータと従来のデータは、次のような特徴によって区別できます。
従来のデータ・セットは通常、ギガバイト(GB)やテラバイト(TB)といった単位で表せます。したがって、そのようなサイズであれば、1 台のサーバーに集約して保存できます。
ビッグデータの特徴は、サイズだけでなく、データ数の多さにもあります。ビッグデータは通常、ペタバイト(PB)、ゼタバイト(ZB)、エクサバイト(EB)といった単位で表されます。ビッグデータのサイズがますます大きくなっていることが、近代的で大容量のクラウドベースのデータ・ストレージ・ソリューションが求められる要因の 1 つとなっています。
一般的な従来のデータは、記録、ファイル、表などで構成された構造化データです。従来のデータ・セットのフィールドはリレーショナルであるため、それらの関係を把握し、必要に応じてデータを操作することが可能です。SQL、Oracle DB、MySQL などの従来のデータベースは、静的で事前構成された固定スキーマを使用します。
ビッグデータでは、動的スキーマを使用します。ビッグデータは、ストレージ内では raw データであり、構造化されていません。ビッグデータにアクセスすると、raw データに動的スキーマが適用されます。Cassandra や MongoDB のような近代的な非リレーショナル(NoSQL)データベースは、データをファイルに格納する方法において、非構造化データに最適です。
従来のデータは通常、一元化されたアーキテクチャを使用して管理されるため、小規模で構造化されたデータ・セットに対しては、費用対効果が高く、十分な安全性も備えています。
一般的に、一元化されたシステムは、1つまたは複数のクライアント・ノード(コンピュータやモバイル・デバイスなど)が、中央ノード(サーバーなど)に接続される構成です。中央のサーバーがネットワークを制御し、セキュリティを監視します。
ビッグデータは、その規模や複雑さが原因で一元的に管理することは不可能です。そのため、分散型のアーキテクチャが必要となります。
分散システムは、ネットワークを介して複数のサーバーやコンピュータを接続し、同等のノードとして動作します。このアーキテクチャは、水平方向に拡張(スケールアウト)することができ、個々のノードに障害が発生した場合でも機能を維持することができます。分散システムでは、汎用的なハードウェアを活用してコストを削減することができます。
従来のデータは、ERP(エンタープライズ・リソース・プランニング)や CRM(カスタマー・リレーションシップ・マネジメント)、オンライン・トランザクションで生成されるデータや、その他のエンタープライズ・レベルのデータが一般的でした。
ビッグデータとは、より広範なデータを指し、エンタープライズ・レベルのデータに限らず、SNS から取得した情報、デバイスやセンサーのデータ、音声や映像のデータなどが含まれます。この種のソースは、ダイナミックに進化しており、日々成長しています。
非構造化データ・ソースには、テキスト、動画、画像、音声のファイルも含まれます。このようなデータを、列や行を使用する従来のデータベースで扱うことは不可能です。非構造化データの量が日々増加し、ソースも多様化している中で、そこから価値を引き出すためには、ビッグデータに特化した分析手法が必要となります。
従来のデータ分析は、段階的に行われていました。イベントが発生し、データが生成され、そのデータの分析をイベントの後に行うというステップです。従来のデータ分析は、特定の期間の限られた範囲の指標において、ある戦略が与える影響や変化を理解するのに役立ちます。
ビッグデータの分析は、リアルタイムで行うことができます。ビッグデータは秒単位で生成されるため、データを収集しながら分析を行うことができます。ビッグデータの分析は、企業のニーズや戦略をよりダイナミックかつ包括的に理解することを可能にします。
例えば、ある企業がスタッフのためのトレーニング・プログラムに投資し、その効果を測定したいとします。
従来のデータ分析モデルの場合、トレーニング・プログラムが特定の対象(営業部門など)に与える影響を調べようとします。そのためには、トレーニング前後の販売量を記録し、それ以外の余計な要因を排除します。理論的には、トレーニングによって、どれだけ売上げが伸びたかを知ることができます。
いっぽう、ビッグデータを利用した分析モデルでは、そのトレーニング・プログラムが業務の特定の分野に対してどのような影響を与えたかという質問を設定することができます。つまり、ビジネス全体でリアルタイムに収集された大量のデータを分析することで、営業、顧客サービス、広報など、影響を受けた分野を特定することができます。
ビッグデータと従来のデータには、それぞれ異なる目的がありますが、それらは関連しています。ビッグデータは、より大きなメリットをもたらす可能性があると思われがちですが、どのような状況にも適している(または、必要である)というわけではありません。ビッグデータには、以下のような特徴があります。
ビッグデータの台頭によって、従来のデータがなくなるわけではありません。従来のデータには、以下のような特徴があります。
結局のところ、これはビッグデータと従来のデータのどちらを選択するかということではありません。より多くの企業が大規模な非構造化データ・セットを生成するようになると、それらを扱うための適切なツールが必要になります。両方のモデルをどのように使用し、サポートするかを理解することは、ビッグデータの将来を見据えて戦略を更新するために必要なことです。
1https://www.forbes.com/sites/gilpress/2020/01/06/6-predictions-about-data-in-2020-and-the-coming-decade/?sh=44e375c74fc3
ピュア・ストレージ製品および認定についてのご質問・ご相談を承っております。ご連絡をお待ちしております。
ライブデモのご用命を承っております。ピュアがいかにしてデータを成果に変えるお手伝いができるかをご説明します。
電話: 03-4563-7443
メディア: pr-japan@purestorage.com
ピュア・ストレージ・ジャパン株式会社
〒100-0014 東京都千代田区永田町 2 丁目 10-3 東急キャピトルタワー 12 階
03-4563-7443(総合案内)