データ・ハイジーン(衛生)とは、データベースやファイル共有内の構造化データや非構造化データが全てクリーンであることを保証することです。つまり、正確で、最新で、エラーのない状態です。データ・ハイジーンは、「データ・クリーンネス」や「データ品質」とも呼ばれます。
一般的に、データ品質の低下の原因は、以下のとおりです。
- データの重複(データ冗長性とも呼ばれる):データベース内のレコードが繰り返されること
- データの不備:レコードに必要なデータが全て存在しないこと
- データの不整合:同じデータが複数のテーブルに異なる形式で存在する場合、同じオブジェクトや個人に関する異なる情報を含む異なるファイルが発生すること
- データの不正確さ:特定のオブジェクトに格納されたデータ値が間違っていること
データ・ハイジーンが重要な理由
データ・ハイジーンは、セキュリティ、生産性、規制とコンプライアンスの徹底、効率性を向上させます。これにより、アプリケーションやビジネス・プロセスが、クリーンで正確で関連性のあるデータのみを使用し、不要になった機密性の高い個人データを削除できるようになります。適切なデータ・プラクティスがなければ、行き止まりや誤った決断への手がかりやパンくずをたどることになります。
ここでは、低品質のデータによって組織で発生する可能性のある問題の例をいくつかご紹介します。
営業・マーケティング
DiscoverOrg の調査によると、営業・マーケティング部門は、誤ったデータの使用により、営業担当者 1 人あたり約 550 時間、32,000 ドルもの損失を被っています。
マーケティングでは、誤ったデータは過剰な支出につながる可能性があります。また、データの重複(同じデータベース内で、同じ名前の綴りが少し違うだけでレコードが重複すること)により、同じコンテンツを複数回受け取ると、見込み客を困らせたり、遠ざけたりすることさえあります。
オンライン販売では、データ・ハイジーンが不十分なため、製品やターゲット・オーディエンスに関するデータが不足している場合、間違った顧客に間違った製品を販売しようとする可能性があります。
金融サービス
財務報告では、データの不整合により、同じ質問に対して異なる回答が得られ、不正確で誤解を招く財務報告につながる可能性があります。これらのレポートは、金融安全の誤った感覚または金融不安の驚異的な感覚を与える可能性があります。
サプライチェーン
サプライチェーンに悪影響を与えるデータもあります。なぜなら、プロセスの意思決定が信頼できない位置情報に基づいている場合、プロセスの自動化が非常に困難になるからです。
全体的な企業目標
企業レベルでは、データ品質の問題は、長期的な目標を達成する能力に大きな影響を与える可能性があります。以下のようなことを引き起こす可能性があります。
- 新たな市場の動向や状況に迅速に対応し、転換する能力に悪影響を及ぼす
- GDPR、HIPAA、CCPA などの主要なプライバシーおよびデータ保護規制のコンプライアンス要件を満たすことが難しくなる
- 企業データに対する予測型分析の利用が困難であるため、短期的・長期的な目的において、意思決定のリスクが高くる
優れたデータ・ハイジーンを維持する上での課題
優れたデータ・ハイジーンが重要であるのと同様に、多くの企業はデータの品質の維持に苦労しています。ハーバード・ビジネス・レビューが発表したある調査によると、新規に作成されたデータ・レコードの平均 47% に少なくとも 1 つの重大な(例えば、業務に影響を与える)エラーがあり、可能な限り緩い基準で「許容可能」と評価されたデータ品質スコアは、わずか 3% でした。
さまざまな要因により、データ・ハイジーンの最適化が困難になる可能性があります。以下に例を示します。
- さまざまなデータソースの増加:以前は、売上や在庫データなど、自社のビジネス・システムから生成されたデータのみを使用していました。現在、データソースは大きく異なり、インターネット、IoT デバイス、科学データ、実験データなどのデータセットを含むことができます。データソースが多いほど、何らかの方法でデータが変更されたり改ざんされたりしないことが難しくなります。データ処理エンジンに別のシステムを追加するたびに、異なるデータソースが異なるデータタイプを生成するため、そのデータが汚れたり、失われたりすることで価値を失う可能性があります。非構造化データ、または事前設定されたデータモデルやスキーマに従って配置されていない情報は、現在、全グローバル・データの推定 80% を占めています。
- データ量の増加:ビッグデータの時代は間違いなくここにあり、ビッグデータはより大きなデータになってきています。1970 年以降、データ量は 3 年ごとに倍増しています。データが多ければ多いほど、一定の期間内にデータを収集、クリーンアップ、統合し、合理的に高品質のデータを得ることが難しくなります。このデータのほとんどが非構造化データである場合、非構造化データを構造化データや半構造化データに変換する必要があるため、処理時間がさらに長くなり、データ処理の質がさらに低下します。
- データの高速化:「リアルタイム」データは、この 5 年間で大きな話題となっています。なぜなら、生成されるデータが多いほど、処理が速くなったり、システムがバックアップされるリスクがあるためです。その意味では、データはパイプに流れる液体のようなものです。データを迅速に流すほど、パイプが破損する危険性が高まります。増大する容量に対処する唯一の方法は、パイプを大きくすることです。データにとっては、パイプを大きくすることは、導入される速度を満たすために処理を高速化することを意味します。しかし、実際のリアルタイム処理は比較的新しいフィールドと機能であり、未使用または無関係なデータを使用する形ではまだ多くのノイズがあることを意味します。その結果、そのデータに基づいて下される決定は、最適ではなくなり、最悪の場合には誤りとなる傾向があります。
- 明確なデータ品質基準の欠如:製品品質基準は、国際標準化機構(ISO)が ISO 9000 を発表した 1987 年から存在しています。対照的に、公式のデータ品質標準は 2011 年(ISO 8000)以降に制定されたばかりで、まだ成熟途上にあり、比較的新しいものです。Data Science Journal に掲載された 2015 年の研究によると、「現在、ビッグデータの品質基準や品質評価方法に関する包括的な分析・研究は不足している 」といいます。
データ・ハイジーンのベストプラクティス
データ品質基準は成熟途上にありますが、データ品質を高く維持するために、データ・ハイジーンのベストプラクティスが確立しています。
ベストプラクティスには、次のようなものがあります。
監査
データ監査は、良好なデータ・ハイジーンを維持するためのカギであり、通常はデータ・クレンジング・プロセスの最初のステップです。行動を起こす前に、データの品質を評価し、企業のデータ・ハイジーンの現実的なベースラインを確立する必要があります。一般的なデータ監査では、IT インフラとプロセスを詳しく調査し、データが存在する場所、データの使用方法、データの更新頻度を確認します。
コンプライアンス
どのようなデータが収集され、なぜ収集されるのか、特にデータが消費者から提供された場合は、ポリシーを定義することが重要です。これには、データ保持と削除のポリシーを固めることも含まれます。保持スケジュールは、データがパージされるまでの時間を決定します。ハイジーン(衛生管理)とは、どのようなデータを保存しているのか、なぜ、どこで、いつ消去する必要があるのかを知ることを意味します。データ・コンプライアンスのベストプラクティスについて詳しくは、こちらをご覧ください。
ガバナンス
データ・ガバナンスとは、組織が目標を達成できるよう、効果的で効率的な情報利用を保証するプロセス、役割、ポリシー、基準、指標の集合です。データ・ガバナンスは、誰がどのような行動を取ることができるか、どのようなデータ、どのような状況、どのような方法を使用するかを定義します。優れたデータ・ガバナンスは、組織全体で高いデータ品質を保証するために不可欠です。
自動化
データ品質関連のプロセスを自動化することで、優れたデータ・ハイジーンを実現します。つまり、データを常に最新で正確に更新するために、できるだけ頻繁にデータを自動的に更新することを意味します。データ・クレンジング・システムは、大量のデータを選別し、アルゴリズムを使用して異常を検出し、ヒューマンエラーに起因する外れ値を特定することができます。また、重複記録がないかデータベースを精査することもできます。
高品質なデータ
データ品質を構成する属性は、いくつかあります。高品質なデータとは、以下のとおりです。
- タイムリー:作成、保守、利用可能性が即時に、必要に応じて提供されます。
- 簡潔:無関係な情報はありません。
- 一貫性:システム内やシステム間で情報に矛盾はありません。
- 正確性:正確で、精度が高く、最新の状態です。
- 完全:必要なデータが全て存在します。
- 適合:適切で標準化された形式で保存されます。
- 有効期間:信頼できる、認知された権威ある情報源からのものです。
データがこれらの基準を全て満たす場合、お客さま、システム、アプリケーションは、最良の情報を使用して、より良い顧客サービス、より良い顧客エクスペリエンス、より良いビジネス成果を推進します。
ピュア・ストレージでクラス最高のデータ削減と重複排除を実現
データ重複排除は、ストレージ・ボリューム内やストレージ・システム全体(クロスボリューム重複排除)でデータの重複コピーを排除するプロセスです。パターン認識を使用して冗長なデータを識別し、単一の保存されたコピーへの参照に置き換えます。Purity Reduce により、ピュア・ストレージは 5 つの異なるデータ削減技術を使用して、オールフラッシュ・アレイのスペースを節約します。詳しくは、こちらをご覧ください。