ビッグデータの基礎

構造化データと非構造化データ

データの定義およびデータに対する解釈が、この 10 年間で大きく変わりました。非構造化データの読み取り、保存、分析を行うための新たなツールが登場したことが 1 つの要因となっています。

従来、非構造化データは、解釈が困難なことが理由で、十分に活用されていませんでした。新たなテクノロジーによって、非構造化データを理解することが容易になり、さらに、非構造化データという情報の宝庫から貴重な知見を引き出せるようになっています。

IDC 社によると、2024 年までに世界中で作成、取得、コピー、消費されるデータの総量は、毎年 149 ゼタバイトを超え、その多くは非構造化データであると予測されています。非構造化データの分析機能を構築することで、あらゆる組織がメリットを得ることができます。そのためにはまず、構造化データと非構造化データの違いを理解する必要があります。

以下に、両者の違いを簡単にまとめ、より詳細な説明を続けます。

特徴

構造化データ

非構造化データ

データの性質

通常は定量的

通常は定性的

データ・モデル

事前定義。いったん定義され、データが保存されると、モデルの変更は困難。

特定のスキーマは存在せず、データ・モデルは非常に柔軟。

データ形式

使用できるデータ形式は限られている

膨大な種類のデータ形式を使用可能

データベース

SQL ベースのリレーショナル・データベースを使用

特定のスキーマを持たない NoSQL データベースを使用

検索

データベースやデータ・セット内のデータを非常に簡単に検索・発見できる

構造化されていないため、特定のデータを検索することは非常に困難

分析

定量的なデータであるため、分析が容易

ソフトウェア・ツールを利用しても、分析は極めて困難

保存場所

データ・ウェアハウス

データ・レイク

構造化データとは

構造化データは、保持する情報について明確に定義されたスキーマがあります。非常に単純に定義すると、Google スプレッドシートやMicrosoft Excel などの表計算プログラムで表せるデータは全て構造化データです。

この場合、データは行と列で表現されます。各列は異なる属性を表し、各行は単一のインスタンスの属性に関連付けられたデータを持ちます。行と列によって、簡単に参照できる表が形成されます。

異なる表を連結することもでき、そのことはつまり、両方の表に存在する共通の列によって関連付けられていることになります。

複数の表を連続して組み合わせて関連付けることで、リレーショナル・データベースができあがります。例えば、デパートの顧客データ、売上データ、在庫データなどは、リレーショナル・データベースとして保存されている構造化データです。

  • 各顧客には顧客 ID のほか、氏名、連絡先、クレジット・カード情報、住所などのフィールドがあります。
  • 顧客データベースは、売上データベースと接続することができ、購入時刻、購入品のアイテム・コード、購入金額、顧客 ID などの属性を持つことができます。これらの表は、顧客 ID という共通の属性で関連付けられています。
  • さらに、アイテム・コードという共通の属性を使用して売上データベースを在庫データベースに接続することで、リレーショナル・データベースに 3 つの表を効果的に相互接続することができます。

このような構造化されたデータは、一般的にリレーショナル・データベース管理システム(RDBMS)に格納されます。データベースは、SQL(Structured Query Language)を使って記述、読み取り、操作することができます。SQL は、1970 年代に IBM 社がメインフレームのデータベースをサポートするために開発した言語で、当初は、SEQUEL(Sequence English Query Language)と呼ばれていました。英語によく似た読み方をすることがこの名前の由来です。現在の形の SQL は、Relational Software, Inc.社(現 Oracle 社)によって広められました。

非構造化データとは

非構造化データとは、構造化されていないデータを意味します。構造化されていない全てのデータが非構造化データに分類されます。2025 年には、私たちが扱うデータの 80% が、テキスト、音声、画像、動画などによる非構造化データになると予測されています。1

すなわち、非構造化データはモダン・データといえます。非構造化データには次のような特徴があります。

  • 本質的にデジタルで、予測不可能
  • 常時生成され、動的に変化する
  • ブレンド、マルチモーダル、相互運用が可能
  • 地理的な分散により保護される

非構造化データには、構造を持つメタデータが関連付けられている場合があります。例えば、動画には、解像度、ビットレート、1 秒あたりのフレーム数(FPS)、所有者などのメタデータを関連付けることができます。しかし、動画自体は構造化されていません。構造化されたメタデータが関連付けられている非構造化データを、半構造化データと呼ぶことがあります。

YouTube の動画を例に挙げると、アップロードした日時、視聴回数(部分・全体)、評価の数といったメタデータが存在します。しかし、動画自体の内容、タイトルや説明文は構造化されていません。それらは、単純に数字だけでは捉えられないという特徴があります。

非構造化データ用のデータベースとして最もよく使われているのが NoSQL です。NoSQL は「not only SQL」の略で、SQL データベースのケイパビリティを超えて、より広範囲のデータを扱えることを示しています。NoSQL データベースには、スキーマや表形式の構造はなく、データをグループ化するだけです。

 

UFFO を利用した非構造化データの保存

非構造化データを活用することで、大きな変革の可能性を秘めた重要な知見を提供できるかもしれませんが、それにはさまざまな課題が存在します。ピュア・ストレージの先進的な UFFO ストレージ・ソリューションである FlashBlade® は、フラッシュ・ストレージ技術による優れたスピードを提供するだけでなく、あらゆるアーキテクチャを俊敏に拡張する能力を備えています。ご興味をお持ちのお客様には、FlashBlade を無料でお試しいただけるテスト・ドライブをご用意しています。

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387