Skip to Content
指南

大數據初學者指南

什麼是大數據?它如何運作? 與我們一起深入探討大數據,了解擷取深度資訊為公司執行決策所需的技術。

什麼是大數據?

現今企業從各種來源收集大量資料,且通常必須即時分析這些資料。大數據是指傳統技術無法處理的大量、快速或複雜資料內容。大數據也對許多技術及策略貢獻良多,例如智慧生成領域,包括預測式分析、物聯網、人工智慧等新興科技都是由大數據所推動。

市調公司 Research and Markets 指出,2026 年全球大數據市場的預估市值將達 $1,560 億美元,企業組織最好趕緊搭上大數據快車。以下將概覽介紹大數據是什麼、它從何而來、有何作用,以及公司如何調整 IT 架構,成功運用大數據。

大數據的三個「V」

大數據的概念已行之有年,產業分析師 Doug Laney 在 2001 年率先提出了大數據的三個「V」。這三個「V」是:

  • 量:必須處理的資料量(通常很多-GB、EB 或更多)
  • 多樣性:串流來自許多不同來源的多種結構化和非結構化資料
  • 速度:新資料串流進入系統的速度

有些資料專家將定義擴展到四個、五個或更多的 V。第四和第五個「V」為:

  • 真實性:資料的準確性、精確性和可靠性
  • 價值:資料提供的價值-是否對公司業務有助益?

雖然清單還可以繼續列下去,最多可達 42 個 V,不過這五點最常用來定義大數據。

大數據有兩種不同特色,差別在於處理過程以及查詢問題的用途。

  • 批次處理任務通常使用大量儲存的歷史資料來促成長期策略或解析大規模問題。摘要:海量資料、複雜的深度分析。
  • 串流資料比較不重深度,它注重的是可隨選隨用,立刻、即時的資訊,例如用來維持大量製程精確性的資料分析。這一類資料的型態通常數量龐大、變動迅速。摘要:海量高速的資料分析,複雜性不大,但變動非常快速。

了解更多大數據 vs. 傳統資料的差別。

大數據從何而來?

大數據是指現今所有收集而來的非結構化現代資料,以及如何運用這些資料進行深度智慧與深度資訊探討。大數據常見的來源:

  • 物聯網與數量繁多的裝置和感應器上的資料
  • 機器生成的日誌記錄資料,用以進行日誌分析
  • 軟體、平台、企業應用程式
  • 人類活動:社群媒體、交易、線上點擊、健康記錄、自然資源使用量⋯⋯等
  • 科學界及相關機構的研究資料

大數據的類別:結構化 vs. 非結構化

不同型態的資料需要不同型態的儲存裝置。結構化和非結構化資料即是如此,它們需要不同型態的資料庫處理、儲存及分析法。

結構化資料是傳統的資料型態,能夠填入固定格式。結構化資料通常可輕易分類、套入標準值的規格當中使用,例如價格、日期、時間⋯⋯等。

非結構化資料是現代的資料型態,難以直接歸類編目。非結構化資料通常等同於今日的大數據,在未來幾年間將會佔大約 80% 的資料量。它包括了所有社群媒體、物聯網、內容產出者、監視器等裝置所產生的資料。它的形式可以是文字、圖片、聲音或影像。它是推動新型態儲存的原動力,例如 FlashBlade® 整合式高速檔案暨高速物件儲存 (UFFO)。為了妥善運用非結構化資料,企業組織需要更多儲存空間、更好的資料處理能力與整合跨類型資料的能力。

了解更多結構化資料 vs. 非結構化資料

大數據資料的生成週期為何?

大數據週期包含但不限於以下過程:

  1. 資料提取與採集。資料來源五花八門,包括了企業內部的規劃系統、物聯網感測器、軟體如行銷或 POS 應用程式、API 上的串流資料等等。資料的產出也各有差異,因此資料攝入便是重要的下一步。例如,公開的股市資料就會與內部系統的紀錄資料大相徑庭。
  2. 資料攝入。資料擷取、轉換、載入(ETL) 的通道會將資料轉換成適當的格式。不管是輸入 SQL 資料庫或是資料視覺化工具,都需要將資料轉換成操作工具可以讀取的格式。例如,姓名的格式可能不一致,這時,資料已準備就緒,可進行分析。
  3. 儲存裝置加載資料進行處理。下一步是將資料儲存到另一空間,可以存在雲端資料倉儲或就地部署儲存設備。資料處理過程依照資料加載方式而有不同,例如分批次加載,或是全天候的事件流處理。(注意:此一步驟可能發生在資料轉換步驟之前,端賴企業需求而定。)

    了解更多:什麼是資料倉儲?

  4. 資料查詢與分析。現代化雲端運算處理和儲存工具都對大數據週期進化造成了深遠影響。(注意:有些現代化工具像 Amazon Redshift 可能會省略 ETL 過程,讓你查詢資料更快速。) 
  5. 資料歸檔。不論是供長期存放的冷儲存還是放在比較「保鮮」、可隨時取用的空間之中,注重時效性的資料一旦功成身退就需要歸檔。若資料不需要隨取隨用,冷儲存是省錢又節省空間的好方法,尤其在資料存放需要符合規範或用來進行長期策略性決策的時候。這樣也能減少負面效能影響,伺服器不必一邊儲存暖資料還要一邊騰出 PB 容量給冷資料儲存。

企業可以用大數據來做什麼?

大數據有多種令人振奮的高效能用途。大數據的珍貴價值在於它帶來的深入見解能夠驅動商業突破。大數據常見的使用目標與應用方式:

  • 即時深入見解、即時串流資料智能分析,進而辨認異常、發出警訊
  • 預測式分析
  • 商業情報
  • 機器學習
  • 風險分析,防杜詐騙及資料外洩,並減輕資安風險
  • 人工智慧,包括圖片辨識、自然語言處理、神經網路
  • 透過推薦引擎系統和預測式支援,改善用戶使用體驗及客戶互動
  • 減少作業過程的成本與效率不彰問題(組織內部、製造等)
  • 資料驅動公關行銷法,運用即時生成的海量社群媒體、消費者、數位廣告資料點來進行分析

查看更多特定產業的大數據應用案例故事

如何儲存大數據?

大數據的需求獨特,尤其在資料儲存裝置方面更是。它需要持續不中斷地寫入資料庫(這點與即時串流資料一樣),通常也包含型態迥異的資料格式。因此,通常大數據最好儲存在不限模式(非結構化)的作業環境中,以分散式檔案系統來啟動,才能在大規模的資料集之間平行處理資料。非結構化儲存平台可以整合檔案與物件式資料,所以相當適合大數據使用。

了解更多資料中樞 vs. 資料湖泊的差異。

邊緣運算如何驅動大數據需求

物聯網 (IoT) 的崛起導致資料量大增,這些資料必須透過分散在終端位置的各組設備來管理。 

與其等候物聯網將資料傳送到資料中心之類的中心節點進行遠端處理,不如利用邊緣運算,這是一種分散式運算拓撲學的應用,在「邊緣」節點上直接處理資訊,也就是人機互動生成新資料的位置。 

邊緣運算不僅節省商業成本與頻寬,也能讓企業開發效能更好的即時應用程式,提供客戶更佳的用戶使用體驗。隨著全新無線科技如 5G 技術陸續推出,大數據的趨勢在未來幾年只會有增無減。

隨著越來越多設備連接到網路上,需要在邊緣即時處理的資料量日益增加。為了符合逐漸增加的邊緣運算資料儲存裝置需求,儲存裝置如何達到應有的分散性與靈活性? 答案揭曉:容器原生資料儲存。 

仔細觀察現有的邊緣運算平台,像是 AWS Snowball、Microsoft Azure Stack、Google Anthos,都是以 Kubernetes 為基礎,這是一款相當受歡迎的容器化調度規劃平台。Kubernetes 讓這些工作環境得以在邊緣節點上運行資料攝入、儲存、處理、分析及機器學習的工作負載。 

在邊緣運作的多節點 Kubernetes 叢集需要高效能的容器原生儲存引擎因應以資料為中心的特定工作負載需求。也就是說,在邊緣運行的容器化應用程式需要達到容器資料精細度的儲存管理。Portworx® 是一種資料服務平台,提供狀態應述的 Fabric 服務,可管理容器化遵循 SLA 的資料量。

了解更多大數據與物聯網的關係。

可擴充的全快閃資料儲存,因應所有大數據需求

在全快閃陣列上託管大數據的優點:

  • 速度更快(HDD 的 55-180 IOPS 與 SSD 的 3K-40K IOPS)
  • 為 I/O 作業使用超過 64K 的佇列進行大規模平行處理
  • 非揮發性記憶體儲存裝置 (NVMe) 的高效能和可靠性

大數據選擇 Pure Storage® 有何優勢?

大數據的相對數量、類型和速度不斷在變化。如果您期望資料持續高速成長,就要不斷投資最新的儲存技術。快閃記憶日漸進步,可為所有資料層級提供客製化的全快閃儲存解決方案。以下是 Pure 協助推動大數據分析管道的方式:

  • 全快閃陣列的完整效益
  • 整合成統一的高效能資料中樞,能處理各種來源的高傳輸量資料流
  • 真正落實升級不中斷的 Evergreen™ 方案,零停機時間,也不必進行資料搬移。
  • 簡化的資料管理系統,結合雲端經濟與就地部署的控制性及效率。

使用 FlashBlade 享有快速、高效率、橫向擴充的快閃儲存功效

聯繫我們
問題或建議

如對Pure的產品或認證,有任何的疑問或建議,歡迎與我們聯繫!

預約試用

預約現場示範,親眼看看 Pure 如何幫助您將資料轉化為強大的成果。 

聯絡我們:886-2-3725-7989

媒體:pr@purestorage.com

 

Pure Storage總部

34F, Taipei Nanshan Plaza,

No. 100, Songren Road,

Xinyi District,

Taipei City 110016

Taiwan (R.O.C.)

800-379-7873 (一般資訊)

info@purestorage.com

關閉
您的瀏覽器已不受支援!

較舊版的瀏覽器通常存在安全風險。為讓您使用我們網站時得到最佳體驗,請更新為這些最新瀏覽器其中一個。