初學者大數據指南

結構化資料 vs. 非結構化資料

過去十年來,我們對於資料的理解和定義已產生了劇變,部分是因為越來越多新工具出現,讓我們得以讀取、儲存、分析非結構化資料。

以往,非結構化資料經常未善加利用,因此想要進一步轉譯解讀並不容易。新技術出現後,不但解讀非結構化資料變得簡單,也能從這些資訊寶藏挖掘出更多珍貴見解。

國際數據資訊 (IDC) 表示,全球在 2024 年前每年所產生、捕捉、複製、消耗的資料總量將會超過 149 ZB,而且多數都會是非結構化資料。企業組織若能具備分析非結構化資料的能力,將會受益無窮。想要迎頭趕上?第一步便是了解結構化資料 vs. 非結構化資料。

我們列出兩種資料的概要差異,下方有更多深度說明:

特點

結構化資料

非結構化資料

資料特性

通常與「量」相關

通常與「質」相關

資料模型

預定義;一經定義並儲存資料後,很難再更動模型

非結構化資料無特定模式;其資料模型極為彈性靈活。

資料格式

有限的資料格式

非結構化資料的資料格式五花八門,種類繁多

資料庫

使用以 SQL 為基礎的關聯式資料庫

無特定模式,使用 NoSQL 資料庫

搜尋

在資料庫或資料集內可輕易搜尋查找

由於非結構化的特性,搜尋特定資料相當困難

分析

資料以「量」為特性,因此容易分析

即使用現有的軟體工具也難以分析

儲存方式

結構化資料使用資料倉儲

非結構化資料使用資料湖泊

什麼是結構化資料?

結構化資料的資訊內容有精確定義的模式。若要簡單定義,意即所有可以透過表單系統(如 Google 試算表、Microsoft Excel)呈現出來的資料都是結構化資料。

在這個例子當中,資料可以透過行列式表格呈現出來。每一行都代表一種特殊的屬性,而每一列會個別列出與該屬性相關的資料。行與列組成了表格,因而可以輕鬆引用。

不同的表格可以互相連結,意即兩個表格之間同一列的資料可以互相關聯。

假如多個相關表格接續整合起來,便可建立起關聯式資料庫。舉例來說,百貨公司的客戶、銷售、存貨資料可以視作儲存在關聯式資料庫的結構化資料。

  • 每一位客戶都有專屬的 ID 號碼,以及他們的姓名、聯絡電話、信用卡資訊、地址⋯⋯等等。
  • 客戶資料庫可以連結到銷售資料庫,銷售資料包括了購買時間、購買單品代碼、消費總金額、客戶 ID⋯⋯等等。兩邊的表格可以透過共通的「客戶 ID」這一項屬性連結起來。
  • 最後,銷售資料庫可以利用共通屬性「單品代碼」與存貨資料庫連結起來,進而有效互聯這三個獨立表格成為關聯式資料庫。

像這樣的結構化資料通常儲存在關聯式資料庫管理系統 (RDBMS)。可以利用結構化查詢語言 (SQL) 來寫入、讀取、操作資料庫,這種程式語言是 1970 年代 IBM 開發用來支援資料庫大型主機的,最初名稱叫作「序列英語查詢語言」,或者縮寫為 SEQUEL。這個名稱由來是因為它和英語一樣仰賴大量讀取。而現行的 SQL 形式則是由關連式軟體公司(現在的 Oracle)所普及化的。

什麼是非結構化資料?

所有不是結構化資料的資料都可以被歸類為非結構化資料。預估到了 2025 年我們所接觸的資料會有 80% 是非結構化資料,形式包括了文字、聲音、圖片、影像等1

簡單地說,非結構化資料就是現代化資料。這類資料通常是:

  • 數位化生成、不可預測
  • 持續產生、持續變動
  • 混合、多模式、互通性
  • 地理位置分散,以達更佳的資安保護

非結構化資料可以建立相關中繼資料,因而結構化。舉例來說,一支影片可以具備影片的中繼資料,如解析度、位元速率、影格率 (FPS)、影片所有者⋯⋯等。但影片本身是無法結構化的。若非結構化資料有相關的結構化中繼資料,有時可稱為半結構化資料。

例如你可仔細觀察 YouTube 影片,它也呈現出了中繼資料,像是上傳時間、上傳日期、觀看次數(部分或整體)喜歡和不喜歡的點擊數⋯⋯等。但是影片標題內容、影片敘述以及影片本身是非結構化的。它涉及了「質」的內容,因而無單純以數字定量。

NoSQL 是最常用來存放非結構化資料的資料庫。NoSQL 代表「不只是 SQL」的意思,表示這種資料庫處理更廣泛範圍的資料,能完成 SQL 資料庫所不能勝任的任務。NoSQL 資料庫沒有固定模式或表格化的架構,它僅只是將資料收集並分類群組。

 

使用整合式高速檔案暨高速物件儲存 (UFFO) 解決方案來儲存非結構化資料

綜合以上內容,雖然非結構化資料能提供重要的深入見解,有很大的變革潛力,要想妥善處理這些資料仍然是艱鉅的挑戰。Pure Storage® FlashBlade® 是 Pure 推出的整合式高速檔案暨高速物件儲存 (UFFO) 解決方案,提供快閃儲存技術所需的處理速度,並具備靈活擴充基礎架構的能力。想了解更多嗎? 我們提供 Pure FlashBlade 免費試用版,讓你不必擔心投資花費,盡情測試解決方案。

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387