大數據從何而來？

大數據是指現今所有收集而來的非結構化現代資料，以及如何運用這些資料進行深度智慧與深度資訊探討。大數據常見的來源：

物聯網與數量繁多的裝置和感應器上的資料
機器生成的日誌記錄資料，用以進行日誌分析
軟體、平台、企業應用程式
人類活動：社群媒體、交易、線上點擊、健康記錄、自然資源使用量⋯⋯等
科學界及相關機構的研究資料

大數據的類別：結構化 vs. 非結構化

不同型態的資料需要不同型態的儲存裝置。結構化和非結構化資料即是如此，它們需要不同型態的資料庫處理、儲存及分析法。

結構化資料是傳統的資料型態，能夠填入固定格式。結構化資料通常可輕易分類、套入標準值的規格當中使用，例如價格、日期、時間⋯⋯等。

非結構化資料是現代的資料型態，難以直接歸類編目。非結構化資料通常等同於今日的大數據，在未來幾年間將會佔大約 80% 的資料量。它包括了所有社群媒體、物聯網、內容產出者、監視器等裝置所產生的資料。它的形式可以是文字、圖片、聲音或影像。它是推動新型態儲存的原動力，例如 FlashBlade® 整合式高速檔案暨高速物件儲存 (UFFO)。為了妥善運用非結構化資料，企業組織需要更多儲存空間、更好的資料處理能力與整合跨類型資料的能力。

了解更多結構化資料 vs. 非結構化資料

大數據資料的生成週期為何？

大數據週期包含但不限於以下過程：

資料提取與採集。資料來源五花八門，包括了企業內部的規劃系統、物聯網感測器、軟體如行銷或 POS 應用程式、API 上的串流資料等等。資料的產出也各有差異，因此資料攝入便是重要的下一步。例如，公開的股市資料就會與內部系統的紀錄資料大相徑庭。
資料攝入。資料擷取、轉換、載入(ETL) 的通道會將資料轉換成適當的格式。不管是輸入 SQL 資料庫或是資料視覺化工具，都需要將資料轉換成操作工具可以讀取的格式。例如，姓名的格式可能不一致，這時，資料已準備就緒，可進行分析。
儲存裝置加載資料進行處理。下一步是將資料儲存到另一空間，可以存在雲端資料倉儲或就地部署儲存設備。資料處理過程依照資料加載方式而有不同，例如分批次加載，或是全天候的事件流處理。（注意：此一步驟可能發生在資料轉換步驟之前，端賴企業需求而定。）

了解更多：什麼是資料倉儲？
資料查詢與分析。現代化雲端運算處理和儲存工具都對大數據週期進化造成了深遠影響。（注意：有些現代化工具像 Amazon Redshift 可能會省略 ETL 過程，讓你查詢資料更快速。）
資料歸檔。不論是供長期存放的冷儲存還是放在比較「保鮮」、可隨時取用的空間之中，注重時效性的資料一旦功成身退就需要歸檔。若資料不需要隨取隨用，冷儲存是省錢又節省空間的好方法，尤其在資料存放需要符合規範或用來進行長期策略性決策的時候。這樣也能減少負面效能影響，伺服器不必一邊儲存暖資料還要一邊騰出 PB 容量給冷資料儲存。

企業可以用大數據來做什麼？

大數據有多種令人振奮的高效能用途。大數據的珍貴價值在於它帶來的深入見解能夠驅動商業突破。大數據常見的使用目標與應用方式：

即時深入見解、即時串流資料智能分析，進而辨認異常、發出警訊
預測式分析
商業情報
機器學習
風險分析，防杜詐騙及資料外洩，並減輕資安風險
人工智慧，包括圖片辨識、自然語言處理、神經網路
透過推薦引擎系統和預測式支援，改善用戶使用體驗及客戶互動
減少作業過程的成本與效率不彰問題（組織內部、製造等）
資料驅動公關行銷法，運用即時生成的海量社群媒體、消費者、數位廣告資料點來進行分析

查看更多特定產業的大數據應用案例故事。

如何儲存大數據？

大數據的需求獨特，尤其在資料儲存裝置方面更是。它需要持續不中斷地寫入資料庫（這點與即時串流資料一樣），通常也包含型態迥異的資料格式。因此，通常大數據最好儲存在不限模式（非結構化）的作業環境中，以分散式檔案系統來啟動，才能在大規模的資料集之間平行處理資料。非結構化儲存平台可以整合檔案與物件式資料，所以相當適合大數據使用。

了解更多資料中樞 vs. 資料湖泊的差異。

邊緣運算如何驅動大數據需求

物聯網 (IoT) 的崛起導致資料量大增，這些資料必須透過分散在終端位置的各組設備來管理。

與其等候物聯網將資料傳送到資料中心之類的中心節點進行遠端處理，不如利用邊緣運算，這是一種分散式運算拓撲學的應用，在「邊緣」節點上直接處理資訊，也就是人機互動生成新資料的位置。

邊緣運算不僅節省商業成本與頻寬，也能讓企業開發效能更好的即時應用程式，提供客戶更佳的用戶使用體驗。隨著全新無線科技如 5G 技術陸續推出，大數據的趨勢在未來幾年只會有增無減。

隨著越來越多設備連接到網路上，需要在邊緣即時處理的資料量日益增加。為了符合逐漸增加的邊緣運算資料儲存裝置需求，儲存裝置如何達到應有的分散性與靈活性？答案揭曉：容器原生資料儲存。

仔細觀察現有的邊緣運算平台，像是 AWS Snowball、Microsoft Azure Stack、Google Anthos，都是以 Kubernetes 為基礎，這是一款相當受歡迎的容器化調度規劃平台。Kubernetes 讓這些工作環境得以在邊緣節點上運行資料攝入、儲存、處理、分析及機器學習的工作負載。

在邊緣運作的多節點 Kubernetes 叢集需要高效能的容器原生儲存引擎，因應以資料為中心的特定工作負載需求。也就是說，在邊緣運行的容器化應用程式需要達到容器資料精細度的儲存管理。Portworx® 是一種資料服務平台，提供狀態應述的 Fabric 服務，可管理容器化遵循 SLA 的資料量。

了解更多大數據與物聯網的關係。