Skip to Content

什麼是資料衛生?

資料衛生是確保資料庫或檔案分享內所有結構化或非結構化資料都“乾淨”的作法,這意味著資料準確、最新、無錯誤。資料衛生又稱為“資料清潔度”和“資料品質”。 

總體而言,資料品質不佳來自於:

  • 資料重複(也稱為資料重複存放):當資料庫內的記錄重複時。 
  • 資料不完整:並非所有記錄的必要資料都存在時。 
  • 資料不一致:當同一資料以不同格式存在於多個表格中時,會導致不同檔案包含相同物件或人員的不同資訊。
  • 資料不準確:當特定物件儲存的資料值不正確時。

為何資料衛生很重要?

資料衛生可推動安全性、生產力、法規與合規性遵從性,以及效率。其作法是確保您的應用程式和業務流程僅使用乾淨、正確且相關的資料,包括移除不再需要的敏感個人資料。如果沒有良好的資料做法,您會追蹤線索和麵包屑,直到死去和做出錯誤決定。 

以下是一些品質不佳的資料在組織中可能造成的問題範例。

銷售與行銷

DiscoverOrg 的一項研究發現,銷售與行銷部門損失了約 550 小時,每位銷售代表使用不良資料損失了高達 32,000 美元。 

在行銷方面,不良資料可能導致超支。如果由於資料重複而多次收到相同的內容,也可能讓潛在客戶感到煩惱,甚至驅逐他們(亦即,相同名稱的重複記錄在同一個資料庫中拼寫有點不同)。

在線上銷售中,如果缺乏產品與目標對象的資料,資料衛生狀況不佳可能導致您嘗試將錯誤的產品銷售給錯誤的客戶。 

金融

在財務報告中,由於資料不一致,不良資料可能會給您不同答案,導致不準確和誤導性的財務報告。這些報告可能會給您帶來錯誤的金融安全感,或是令人擔憂的金融不安全感。

供應鏈

不良資料也會嚴重影響供應鏈,因為如果這些流程決策是基於不可靠的位置資訊,就很難將流程自動化。

整體企業目標

在企業層面上,資料品質問題會大幅影響您達成長期目標的能力。它們可能導致:

  • 對您快速調整並回應新市場趨勢和條件的能力產生負面影響。
  • GDPR、HIPAA 和 CCPA 等主要隱私和資料保護法規的合規性要求更加困難。
  • 在企業資料上難以運用預測式分析,導致短期和長期目標的決策風險較高。

維持良好資料衛生的挑戰

與良好的資料衛生一樣重要,許多公司都努力維持資料的品質。根據哈佛商業評論所發表的一項研究,平均而言,47% 的新建立資料記錄至少有一項重大(例如影響工作)錯誤,而只有 3% 的資料品質分數是以最寬鬆的標準評為“可接受”。 

各種因素都可能使您難以優化資料衛生。包括:

  • 不斷增加的各種資料來源:公司過去僅使用自有業務系統產生的資料,例如銷售或庫存資料。現在,資料來源差異很大,可能包含來自網路、IoT 裝置、科學和實驗資料等的資料集。您擁有的資料來源越多,就越難確保資料不會遭到某種程度的修改或篡改。每當您在資料處理引擎中加入另一個系統時,您都會因為被污染或遺失而增加資料損失的機會,因為不同的資料來源會產生不同的資料類型。非結構化資料,或未根據預設資料模型或架構配置的資訊,現在佔全球資料約 80%。
  • 增加資料量:大數據的時代無庸置疑地在這裡,大數據才是大數據。自 1970 年以來,資料量每三年就翻了一倍。資料越多,就越難在特定時間範圍內收集、清理、整合,並達到合理的高品質資料。如果大部分資料為非結構化資料,處理時間將增加更多,因為非結構化資料需要轉變成結構化或半結構化資料,進一步降低資料處理的品質。
  • 增加資料速度:過去五年來,“即時”資料已成為一個大流行詞。這是因為產生的資料越多,處理資料的速度越快,否則會有系統備份的風險。就這一點而言,資料就像是流進管道的液體,它越快,管道越有破裂的危險,處理容量增加的唯一方法就是讓管道變得更大。對資料而言,讓管道變得更大代表處理速度更快,以達成進來的速度。但實際的即時處理仍然是一個相對較新的領域和能力,這意味著使用未使用或不相關的資料,仍有很多噪音。因此,根據該資料做出的決定,最好是次佳,最差是錯誤的。
  • 缺乏明確的資料品質標準:自 1987 年國際標準化組織(ISO)發佈 ISO 9000 以來,產品品質標準便已開始實施。相較之下,官方資料品質標準從 2011 年起才開始出現(從 ISO 8000 開始),這表示這些標準仍在持續成熟,而且仍然相對較新。根據 2015 年在資料科學期刊上發表的研究,“目前缺乏對大數據品質標準和品質評估方法的全面分析和研究。”

資料衛生最佳實務

雖然資料品質標準仍在成熟中,但您現在仍能採取某些已確立的資料衛生最佳實務,以確保您的資料品質維持高水準。

最佳作法包括:

稽核 

資料稽核是維持良好資料衛生的關鍵,通常是任何資料清理流程的第一步。在採取任何行動之前,您需要評估資料的品質,並建立公司資料衛生的真實基準。典型的資料稽核包括仔細檢視您的 IT 基礎架構和流程,以了解您的資料的居住地、使用方式,以及更新頻率。 

法規遵循

定義蒐集哪些資料及其原因的相關政策至關重要,尤其是如果資料來自消費者。這包括強化資料保留與移除政策。保留時程規定資料在清除前儲存在系統上的時間。衛生是指了解您要儲存哪些資料、為何儲存、在何處儲存,以及何時需要清除資料。深入了解資料法規遵循的最佳做法。

治理

資料治理是一系列流程、角色、政策、標準和指標的集合,確保有效和高效地使用資訊,使組織能夠實現其目標。資料治理定義了誰可以採取什麼行動、對什麼資料、在什麼情況下,以及使用什麼方法。良好的資料管理對於確保整個組織的高品質資料至關重要。 

自動化

最後,實現資料品質相關流程的自動化,是實現良好資料衛生的基礎。這主要意味著盡可能頻繁地自動更新您的資料,以確保資料始終是最新且正確的。資料清理系統可篩選大量資料,並使用演算法偵測異常,並找出人為錯誤造成的異常值。他們也可以刷洗您的資料庫,以取得重複記錄。 

高品質資料是什麼原因?

資料品質包含多項屬性。高品質資料是:

  • 及時:它是建立、維護,並在需要時立即可用。
  • 簡明:其中不含外來資訊。
  • 一致:系統內或系統間的資訊沒有衝突。
  • 準確:正確、精確且為最新狀態。
  • 完成:所有可能的必要資料都存在。
  • 合格者:以適當且標準化的格式儲存。
  • 有效期間:它是真實的,來自已知的權威來源。

如果您的資料符合所有這些標準,您的系統和應用程式將盡可能提供最佳資訊,以推動更好的客戶服務、更好的客戶體驗和更好的業務成果。

使用 Pure Storage 取得同級最佳的資料減量與資料去重功能

重複資料刪除也稱為重複資料刪除,是消除儲存磁碟區或整個儲存系統(跨磁碟區去重複)內重複資料副本的過程。去重複化使用重複排列識別技術辨認出冗餘資料,並將其以同一個已存檔副本之參考資料替代。有了 Purity,Pure Storage 使用五種不同的資料減量技術來節省全快閃陣列的空間。在這裡瞭解更多資訊。

01/2026
Technical Brief: FlashBlade//EXA | Everpure
This brief describes how FlashBlade//EXA delivers efficient, easy-to-deploy, scale-out storage with the capacity, throughput, and metadata performance that modern AI and HPC demand.
12 頁

查看重要資訊與活動

影片
觀看影片:企業級資料雲端的價值。

Charlie Giancarlo 討論管理為何管理資料才是未來趨勢,而非儲存設備。發掘整合式做法如何革新企業級 IT 作業。

立即觀看
資源
傳統儲存裝置無法驅動未來。

現代化工作負載需求必須達到 AI 級速度、安全性與規模。您的技術棧準備好了嗎?

進行評估
PURE360 示範
探索、認識、體驗 Pure Storage。

存取隨取隨用影片與示範,了解 Pure Storage 的強大功效。

觀賞示範影片
精神領袖
創新競賽

儲存創新最前線的產業領導者最新深度資訊與觀點。

了解更多資訊
您的瀏覽器已不受支援!

較舊版的瀏覽器通常存在安全風險。為讓您使用我們網站時得到最佳體驗,請更新為這些最新瀏覽器其中一個。

Personalize for Me
Steps Complete!
1
2
3
Thinking...