根據產業測試和供應商規格,原始 NAND 快閃讀取大約需要 100 微秒。然而,SATA SSD 通常的總延遲為 100-200 微秒,而 NVMe SSD 則達到 20-100 微秒,顯示協定的開銷如何等於或超過實際的媒體存取時間。
IOPS 與真實世界的影響
單一 NVMe 裝置即可為 4KB 隨機讀取提供超過 100 萬個 IOPS,效能需要數十個 SATA SSD。端到端 NVMe 上的 Oracle 資料庫顯示:
- 每秒更多交易
- 縮短查詢回應時間
- 減少儲存相關等待事件
能源效率
NVMe 的效率將效能優勢混為一談。透過消除協定的開銷:
- SATA SSD:~10,000 IOPS/瓦
- NVMe SSD:~50,000 IOPS/瓦
NVMe-oF:將 NVMe 延伸到直接連接
NVMe over Fabrics 將 NVMe 的優勢延伸到資料中心,實現共享儲存,同時不影響延遲的優勢。但實作選擇會對效能產生重大影響。
NVMe over fibre channel (FC-NVMe)
FC-NVMe 利用現有的 SAN 基礎架構,使其對擁有fibre channel投資的企業具有吸引力。它需要支援 NVMe 轉送的 Gen 5 (16Gb) 或 Gen 6 (32Gb) 交換器,舊型交換器聲稱支援 NVMe,通常會執行協定轉譯,重新引入開銷。
透過 RoCE 取得 NVMe
RoCE 透過核心旁路保證最低的網路延遲,RDMA 作業大約在幾微秒內完成。但 RoCE 需要無失真乙太網路,並在每個交換器和轉接器上提供優先流量控制。一個設定錯誤的連接埠可能導致效能崩潰。事實上,許多“RoCE”部署實際上都運行iWARP,因為真正的RoCE證明太脆弱了。妥善實作後,RoCE 可提供 160-180 微秒的儲存延遲。
透過 TCP 取得 NVMe
NVMe/TCP 透過標準乙太網路運行,無需特殊硬體。批評者將其視作“緩慢”,但現代的實作可以達到 200-250 毫秒延遲,即使跨越網路,速度仍比 SATA SSD 快。
關鍵優勢:簡易性。NVMe/TCP 適用於現有的交換器、標準 NIC 和雲端供應商網路。
在生產中實作 NVMe
只需安裝 NVMe 硬碟,幾乎不會帶來預期效益。整個儲存堆疊必須支援端到端 NVMe 作業。
協定翻譯陷阱
許多組織為現有陣列購買 NVMe SSD,並期待轉型。硬碟透過 NVMe 進行通訊,但控制器會將所有內容轉換為 SCSI 以獲得相容性。此項翻譯增加了幾微秒時間,進而降低了 NVMe 的優勢。
OS和遷移要求
NVMe 需要現代化的Operating System來支援。每個模組都需要特定的配置,包括中斷親和力、多路徑模組和佇列深度調整。
若要成功移轉:
- 從非關鍵工作負載開始驗證
- 在每一層實施延遲監控
- 優先處理延遲敏感的資料庫
- 使用 NVMe-cli 等工具驗證端到端 NVMe
適用於 AI 和現代工作負載的 NVMe
昂貴的 GPU 經常處於閒置狀態,等待資料。NVMe 透過 GPU Direct Storage 改變了這項功能,讓硬碟能夠將資料直接傳輸到 GPU 記憶體。
對於 AI 訓練而言,這代表:
- 更快速的 Epoch 訓練
- 更快速的檢查點寫入
- 增加 GPU 使用率
- 釋放 CPU 進行預處理
資料庫帶來的效益遠遠超過原始速度。NVMe 可預測的低於 200 微秒延遲,可消除查詢規劃的不確定性。優化器在資料快速到達的情況下做出更好的決策。當儲存變得可預測時,專為緩慢儲存而設計的應用程式表現會有所不同。
Pure Storage 端到端 NVMe 優勢
雖然業界爭論採用策略,但 Pure Storage 已將端到端 NVMe 部署在數千個客戶部署中,並產生遙測技術,揭示實際運作方式。差異化器消除了應用程式與 NAND 快閃記憶體之間的所有協定轉換。
DirectFlash:消除隱藏的開銷
傳統 NVMe SSD 包含備援控制器和超額配置。Pure Storage® DirectFlash® 模組將原始 NAND 直接暴露在陣列的 NVMe 介面上,提供:
- 更多可用容量
- 降低耗電量
- 無需垃圾收集機制即可預測延遲
- 橫跨所有快閃的全球耗損平衡技術
端到端 NVMe 架構
Purity 軟體從主機到 NAND 維護 NVMe,同時支援傳統系統。對於 NVMe 主機,它提供直接的命名空間存取。對於傳統主機,它在陣列邊緣翻譯一次,而非內部。
Pure Storage FlashArray//XCOR 透過消除內部協定轉換,提供一致的低於 200 微秒的延遲:
- Pure Storage 陣列:150μs 平均延遲
- 傳統 "NVMe" 陣列,含內部翻譯:400-600μs
- 差別在於免除協定翻譯的額外負荷
不中斷的進化
Pure Storage Evergreen 基礎架構 不需堆疊式升級,即可採用 NVMe。控制器不需資料搬移即可升級為支援 NVMe 的版本。
NVMe 的未來
NVMe 的演進超越了速度。NVMe 2.0 規格 引入了運算儲存裝置,也就是儲存裝置本身的處理流程。資料庫篩選、壓縮和 AI 推論會在資料儲存的地方進行,消除了移動開銷。
結論
NVMe 代表數十年來消除了限制應用程式的人工瓶頸。無需協定翻譯即可進行端到端的實作時,NVMe 可提供 150 毫秒延遲,從資料庫交易到 AI 訓練,都能徹底轉變。
關鍵深度資訊:協定翻譯摧毀了 NVMe 的優勢。NVMe-oF 能將優勢延伸到資料中心,但實作非常重要。現代工作負載只需要端到端 NVMe 提供的可預測、低延遲。
Pure Storage 的端到端實作經過數千名客戶的驗證,證明了 150 毫秒延遲是營運現實。透過 DirectFlash 模組,組織達成 NVMe 對效能的承諾。隨著儲存裝置的運算能力和記憶體速度的演進,Pure Storage EvergreenEvergreen 基礎架構可確保今日的投資不會中斷,實現未來的創新。