過去十年來,我們對於資料的理解和定義已產生了劇變,部分是因為越來越多新工具出現,讓我們得以讀取、儲存、分析非結構化資料。
以往,非結構化資料經常未善加利用,因此想要進一步轉譯解讀並不容易。新技術出現後,不但解讀非結構化資料變得簡單,也能從這些資訊寶藏挖掘出更多珍貴見解。
國際數據資訊 (IDC) 表示,全球在 2024 年前每年所產生、捕捉、複製、消耗的資料總量將會超過 149 ZB,而且多數都會是非結構化資料。企業組織若能具備分析非結構化資料的能力,將會受益無窮。想要迎頭趕上?第一步便是了解結構化資料 vs. 非結構化資料。
我們列出兩種資料的概要差異,下方有更多深度說明:
特點 |
結構化資料 |
非結構化資料 |
資料特性 |
通常與「量」相關 |
通常與「質」相關 |
資料模型 |
預定義;一經定義並儲存資料後,很難再更動模型 |
非結構化資料無特定模式;其資料模型極為彈性靈活。 |
資料格式 |
有限的資料格式 |
非結構化資料的資料格式五花八門,種類繁多 |
資料庫 |
使用以 SQL 為基礎的關聯式資料庫 |
無特定模式,使用 NoSQL 資料庫 |
搜尋 |
在資料庫或資料集內可輕易搜尋查找 |
由於非結構化的特性,搜尋特定資料相當困難 |
分析 |
資料以「量」為特性,因此容易分析 |
即使用現有的軟體工具也難以分析 |
儲存方式 |
結構化資料使用資料倉儲 |
非結構化資料使用資料湖泊 |
結構化資料的資訊內容有精確定義的模式。若要簡單定義,意即所有可以透過表單系統(如 Google 試算表、Microsoft Excel)呈現出來的資料都是結構化資料。
在這個例子當中,資料可以透過行列式表格呈現出來。每一行都代表一種特殊的屬性,而每一列會個別列出與該屬性相關的資料。行與列組成了表格,因而可以輕鬆引用。
不同的表格可以互相連結,意即兩個表格之間同一列的資料可以互相關聯。
假如多個相關表格接續整合起來,便可建立起關聯式資料庫。舉例來說,百貨公司的客戶、銷售、存貨資料可以視作儲存在關聯式資料庫的結構化資料。
像這樣的結構化資料通常儲存在關聯式資料庫管理系統 (RDBMS)。可以利用結構化查詢語言 (SQL) 來寫入、讀取、操作資料庫,這種程式語言是 1970 年代 IBM 開發用來支援資料庫大型主機的,最初名稱叫作「序列英語查詢語言」,或者縮寫為 SEQUEL。這個名稱由來是因為它和英語一樣仰賴大量讀取。而現行的 SQL 形式則是由關連式軟體公司(現在的 Oracle)所普及化的。
所有不是結構化資料的資料都可以被歸類為非結構化資料。預估到了 2025 年我們所接觸的資料會有 80% 是非結構化資料,形式包括了文字、聲音、圖片、影像等1。
簡單地說,非結構化資料就是現代化資料。這類資料通常是:
非結構化資料可以建立相關中繼資料,因而結構化。舉例來說,一支影片可以具備影片的中繼資料,如解析度、位元速率、影格率 (FPS)、影片所有者⋯⋯等。但影片本身是無法結構化的。若非結構化資料有相關的結構化中繼資料,有時可稱為半結構化資料。
例如你可仔細觀察 YouTube 影片,它也呈現出了中繼資料,像是上傳時間、上傳日期、觀看次數(部分或整體)喜歡和不喜歡的點擊數⋯⋯等。但是影片標題內容、影片敘述以及影片本身是非結構化的。它涉及了「質」的內容,因而無單純以數字定量。
NoSQL 是最常用來存放非結構化資料的資料庫。NoSQL 代表「不只是 SQL」的意思,表示這種資料庫處理更廣泛範圍的資料,能完成 SQL 資料庫所不能勝任的任務。NoSQL 資料庫沒有固定模式或表格化的架構,它僅只是將資料收集並分類群組。
綜合以上內容,雖然非結構化資料能提供重要的深入見解,有很大的變革潛力,要想妥善處理這些資料仍然是艱鉅的挑戰。Pure Storage® FlashBlade® 是 Pure 推出的整合式高速檔案暨高速物件儲存 (UFFO) 解決方案,提供快閃儲存技術所需的處理速度,並具備靈活擴充基礎架構的能力。想了解更多嗎? 我們提供 Pure FlashBlade 免費試用版,讓你不必擔心投資花費,盡情測試解決方案。
1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html
如對Pure的產品或認證,有任何的疑問或建議,歡迎與我們聯繫!
預約現場示範,親眼看看 Pure 如何幫助您將資料轉化為強大的成果。
聯絡我們:886-2-3725-7989
Pure Storage總部
34F, Taipei Nanshan Plaza,
No. 100, Songren Road,
Xinyi District,
Taipei City 110016
Taiwan (R.O.C.)
800-379-7873 (一般資訊)