初學者大數據指南

大數據 vs. 傳統資料

大數據為企業帶來商機無限,包括更有效的深入見解,讓業主更加了解客戶行為、更準確預測市場活動,以及改善總體效能。

年復一年,民眾和企業產出越來越多的資料。IDC 報告指出,光 2010 這一年,全世界就產出了 1.2 ZB(相當於 1.2 兆 GB)的全新資料。到了 2025 年,這個數字會攀升到 175 ZB(相當於 175 兆 GB),甚至更多1

隨著企業界利用這項蓬勃發展的資源來進行預測式分析和資料探勘,大數據的市場也將持續成長。Statista 研究預估,大數據市場在 2018 年至 2027 年間會暴漲一倍,市值從 $1690 億增至 $2740 億。

那麼,大數據和傳統資料的關鍵差異到底在哪裡? 大數據又會對現行的資料儲存裝置、處理程序、分析技術有什麼潛在影響? 本文將解釋各類型資料的不同服務目標,並強調成功規劃出大數據與傳統資料同步運用策略的重要性。

 

什麼是傳統資料?

傳統資料是經結構化的關聯式資料,數十年來已由企業組織廣泛儲存應用。時至今日,傳統資料仍然佔資料量的絕大多數。

企業利用傳統資料來追踨銷售狀況、管理客戶關係或工作流程。傳統資料通常運用簡易,而且使用傳統的資料處理軟體就能管理。然而,相較於大數據,傳統資料無法提供精確的深入見解,應用效益也很有限。

 

什麼是大數據?

大數據是指大型複雜的資料集,也可以指處理這類資料的方式。大數據有四個主要特點,通常被稱作「四個 V」:

  • 資料量:大數據的資料量毋庸置疑,是非常的多。具有超大資訊量的特性。
  • 多樣性:大數據資料集通常包含了結構化、半結構化、以及非結構化資料。
  • 速度:大數據生成速度飛快,經常需要即時處理。
  • 真實性:大數據的資料品質並不一定比傳統資料好,但真實性(準確性)是極其重要的一環。資料異常、偏差、雜訊都會嚴重影響大數據的資料品質。

 

大數據與傳統資料之間的差異

要分辨大數據與傳統資料,可利用幾點特性:包括:

  • 資料大小
  • 資料的編排方式
  • 管理資料所需的基礎架構
  • 資料來源
  • 分析資料的方式

資料大小

傳統資料集通常使用 GB 或 TB 等計量單位。因此,這樣的用量大小可以集中儲存在中心裝置,有時僅需一個伺服器即可。

大數據不只是尺寸大,它的資訊量也非常大。大數據通常使用 PB、ZB 或 EB 等計量單位。大數據日益增加的海量資料集可說是幕後的主要推手,促成現代化、大容量、以雲端為基礎的儲存解決方案。

資料編排

傳統資料一般都是結構化資料,以記錄、檔案、表格等方式編排 傳統資料集的欄位互相關聯,因此可用來找出資料間的關係,並據此操作資料內容。傳統資料庫如 SQL、Oracle DB、MySQL 都是使用預先配置好、固定不變的模式。

大數據是一個動態模式。大數據的儲存裝置既原始又未經結構化。在獲取大數據時,這些原始資料會適用動態模式。考慮到現代化非關聯式或 NoSQL 資料庫如 Cassandra 和 MongoDB 以檔案形式儲存資料的方式,它們都很適合非結構化資料。

基礎架構

傳統資料通常以集中式的架構來管理,對於較少量的結構化資料集來說,這樣比較符合成本效益,也比較安全。

一般而言,集中式系統由一個以上的用戶端節點(例如電腦或行動裝置)連接至中心節點(例如伺服器)組成。中央伺服器控制網路並監控安全性。

由於規模龐大而且複雜,因此不可能從中央管理大數據。它需要分散式基礎架構。

分散式系統透過網路連結多個伺服器或電腦,操作起來與其他同等節點一樣。基礎架構可以橫向擴展,即使個別節點故障仍可繼續正常運行。分散式系統可以利用現成硬體來降低成本。

資料來源

傳統資料通常來自企業資源計劃 (ERP)、客戶關係管理 (CRM)、線上交易及其他企業級資料。

大數據則廣泛擷取企業或非企業的資料,包含社群媒體、裝置和感測器資料、視聽資料等片段。這些資料來源類型多變,每天都在進化成長。

非結構化資料來源包含文字、影像、圖片及聲音檔。傳統資料庫的行列式表格根本無法應用這些資料。因為有越來越多非結構化的資料、越來越多元的資料來源,想要妥善利用這些資料,大數據分析法不可或缺。

分析

傳統資料分析法緩慢漸進:通常事件發生並產生資料之後才進行資料分析。傳統資料分析僅能在特定期間內以有限變量協助企業了解已知策略或變動的影響。

大數據分析法則即時快速。大數據每秒都會生成資料,因此在收集資料的當下即可進行分析。大數據分析讓企業更加動態全面地掌握供需與策略。

舉例來說,若企業投資一項員工訓練方案,並想要衡量成效:

以傳統模式進行資料分析的話,企業必須決定要衡量訓練方案在某特定領域所造成的影響,例如銷售量。那麼該企業便可比較員工訓練前後的銷售量,並排除所有無關的因素。理論上,比較結果應能看出訓練後是否對銷售有所助益。

那麼,以大數據模式進行資料分析的話,企業可以不必糾結於訓練方案對哪一塊特定領域有所影響。相反地,只要分析整個企業體中即時收集的資料內容,便可以辨別受到影響的區塊有哪些,像是銷售、客戶服務、公共關係等等。

 

大數據 vs. 傳統資料 籌備未來的重點考量

大數據和傳統資料用途不同但卻具有關聯性。儘管大數據看來具備更多潛在效益,卻並不適用所有情境,也非絕對必要。大數據的特點:

  • 可提供更深入的市場趨勢與客戶行為分析 傳統資料分析較為狹獈受限,無法像大數據那樣提供深入見解。
  • 更快速提供深度資訊。企業組織可以即時透過大數據了解現況。有了大數據分析,會更有競爭優勢。
  • 更有效率。日趨數位化的社會意味著群眾與企業每天、甚至每分鐘都在產生大量的資料。大數據讓我們得以活用這些資料,並能進一步解讀資料涵義。
  • 需要進階準備工作 為了善加利用大數據的優勢,企業組織需要妥善準備,以因應新的資安協定、建置步驟,以及高規格的電腦效能要求。

大數據崛起不代表傳統資料會就此淘汰出局。傳統資料的特點:

  • 保管簡易,適用於高度敏感、個人或機密資料集。傳統資料容量需求較小,因此不必使用分散式架構,通常也不太需要第三方儲存。
  • 使用一般資料處理軟體和通用系統建置就能運用資料。大數據處理則需要更高階的建置設定,如果使用傳統資料就能完成分析工作,大數據反而會增加資源消耗與不必要的成本。
  • 操作簡易,解讀方便。傳統資料的特點是簡單且彼此相關,只要使用一般功能即可進行分析,即使非專業人士也能理解。

總結來說,我們並不需要在大數據和傳統資料之間做出抉擇。隨著越來越多公司產出大量的非結構化資料集,我們需要的是功能合適的工具。想為大數據的未來做好準備,就要隨時更新策略,了解如何在兩種模式之間轉換使用至關重要。

 

更多大數據指南知識篇

  1. 結構化資料 vs. 非結構化資料
  2. 5 個方法,大數據助你搶得先機
  3. 物聯網與大數據之間的關係

1https://www.forbes.com/sites/gilpress/2020/01/06/6-predictions-about-data-in-2020-and-the-coming-decade/?sh=44e375c74fc3

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387