什麼是 NVMe？ Non-Volatile Memory Express 完整指南

專為機械式硬碟設計的儲存協定，已限制快閃效能超過十年。雖然 SSD 提供微秒的硬體功能，但 SATA 和 SAS 等傳統協定透過其單一佇列架構和協定轉換層，增加了數百微秒不必要的延遲，這些都是基於產業基準和實際部署。

NVMe （Non-Volatile Memory Express）是一種專為固態硬碟設計的儲存協定，可直接透過 PCIe 介面連接，消除磁碟時代協定的瓶頸。NVMe 不像 SATA 一樣透過單一佇列來處理指令，而是能支援多達 64，000 個佇列，每個佇列有 64，000 個指令，大幅改變儲存與現代多核心處理器的通訊方式。

但大多數討論遺漏的是，如果您的系統仍然在協議之間轉換，將 NVMe 轉換為 SCSI，並再次回到資料路徑中的不同點，則只新增 NVMe 硬碟是不夠的。

本指南探討 NVMe 的架構，量化其實際效能優勢，並解釋為何端到端 NVMe 實作如此重要。

NVMe 如何革新儲存架構

20 年來，儲存協定都是以機械限制為設計基礎。SATA 和 SAS 假設儲存裝置需要時間來實際搜尋資料，建立在命令額外負荷中，當磁碟碟片必須旋轉到位時，這很有意義。這些協定透過單一佇列提供所有指令，足以進行機械搜尋，但對於能夠回應微秒的快閃記憶體卻是災難性的。

數字中會清楚顯示通訊協定不符。SAS 在其單一佇列中最多支援 256 個指令（根據 SAS-3 規格），而企業級 SSD 可同時處理數千個作業。這些傳統協定需要多個翻譯層：應用程式會傳送 NVMe 指令，然後轉換成 SCSI，然後轉換成 SATA 或 SAS，然後可能回到硬碟層級的 NVMe。每次翻譯都會增加 50-200 微秒的延遲。

快閃為何需要自己的協定

NVMe 於 2011 年問世，以免除翻譯罰金。NVM Express 聯盟設計了一個協定，假設沒有機械元件，而不是改裝磁碟協定。NVMe 簡化了指令集，消除了剖析開銷，同時維持了完整的功能。

該協定透過 PCIe 通道將儲存設備直接連接到 CPU，與圖形卡使用的高速介面相同。這樣可將儲存裝置定位為其他高效能元件的同僚，而不是在翻譯層背後進行授權。借助 PCIe Gen 4 提供 64GB/s 的頻寬，NVMe 讓快閃運作不受限制。

NVMe 如何運作：架構與元件

NVMe 的基礎架構從根本上重新思考儲存通訊。NVMe 儲存系統並非傳統的主機匯流排介面卡，而是以記憶體映射的 I/O 形式呈現在 CPU 上，因此能直接存取，而不需為關鍵作業負擔核心開銷。

佇列架構與 CPU 最佳化

現代處理器包含數十個核心，但傳統儲存協定透過單一 I/O 佇列提供所有核心。NVMe 為每個 CPU 核心指派專屬佇列配對，消除鎖定爭議，並實現真正的平行處理。

當應用程式需要資料時，它會透過簡單的記憶體寫入，在提交佇列中放下指令，無需系統呼叫。NVMe 控制器可獨立處理指令，並將結果置於完成佇列中。這種非同步模式意味著 CPU 幾乎無需等待儲存的週期。

PCIe 通道和頻寬

NVMe 裝置透過 PCIe 通道連接，每個通道都提供雙向頻寬。典型的 NVMe SSD 使用四個 PCIe 通道，透過 PCIe Gen 4 提供高達 8GB/s 的容量。企業級陣列可彙總多個裝置，達到更高的傳輸量。

但頻寬本身無法決定效能。延遲，也就是請求和回應之間的時間，對於交易工作負載來說，通常更重要。NVMe 的 PCIe 直接連接可消除多個匯流排轉換和協定轉換，從而困擾 SATA 的實作。

NVMe 效能優勢：實數，非行銷

儲存產業的行銷經常造成模糊的宣稱，如“快如閃電”或“超快回應”。然而，NVMe 能提供真正的優勢。

延遲：微秒現實

儲存協定	一般延遲	計畫管理費
SATA SSD	100-200 μs	50-100 μs
NVMe Direct	20-100 μs	<10 μs
Pure Storage 端到端 NVMe	150 μs	0 μs

Slide

根據產業測試和供應商規格，原始 NAND 快閃讀取大約需要 100 微秒。然而，SATA SSD 通常的總延遲為 100-200 微秒，而 NVMe SSD 則達到 20-100 微秒，顯示協定的開銷如何等於或超過實際的媒體存取時間。

IOPS 與真實世界的影響

單一 NVMe 裝置即可為 4KB 隨機讀取提供超過 100 萬個 IOPS，效能需要數十個 SATA SSD。端到端 NVMe 上的 Oracle 資料庫顯示：

每秒更多交易
縮短查詢回應時間
減少儲存相關等待事件

能源效率

NVMe 的效率將效能優勢混為一談。透過消除協定的開銷：

SATA SSD：~10，000 IOPS/瓦
NVMe SSD：~50，000 IOPS/瓦

NVMe-oF：將 NVMe 延伸到直接連接

NVMe over Fabrics 將 NVMe 的優勢延伸到資料中心，實現共享儲存，同時不影響延遲的優勢。但實作選擇會對效能產生重大影響。

NVMe over fibre channel （FC-NVMe）

FC-NVMe 利用現有的 SAN 基礎架構，使其對擁有fibre channel投資的企業具有吸引力。它需要支援 NVMe 轉送的 Gen 5 （16Gb）或 Gen 6 （32Gb）交換器，舊型交換器聲稱支援 NVMe，通常會執行協定轉譯，重新引入開銷。

透過 RoCE 取得 NVMe

RoCE 透過核心旁路保證最低的網路延遲，RDMA 作業大約在幾微秒內完成。但 RoCE 需要無失真乙太網路，並在每個交換器和轉接器上提供優先流量控制。一個設定錯誤的連接埠可能導致效能崩潰。事實上，許多“RoCE”部署實際上都運行iWARP，因為真正的RoCE證明太脆弱了。妥善實作後，RoCE 可提供 160-180 微秒的儲存延遲。

透過 TCP 取得 NVMe

NVMe/TCP 透過標準乙太網路運行，無需特殊硬體。批評者將其視作“緩慢”，但現代的實作可以達到 200-250 毫秒延遲，即使跨越網路，速度仍比 SATA SSD 快。

關鍵優勢：簡易性。NVMe/TCP 適用於現有的交換器、標準 NIC 和雲端供應商網路。

在生產中實作 NVMe

只需安裝 NVMe 硬碟，幾乎不會帶來預期效益。整個儲存堆疊必須支援端到端 NVMe 作業。

協定翻譯陷阱

許多組織為現有陣列購買 NVMe SSD，並期待轉型。硬碟透過 NVMe 進行通訊，但控制器會將所有內容轉換為 SCSI 以獲得相容性。此項翻譯增加了幾微秒時間，進而降低了 NVMe 的優勢。

OS和遷移要求

NVMe 需要現代化的Operating System來支援。每個模組都需要特定的配置，包括中斷親和力、多路徑模組和佇列深度調整。

若要成功移轉：

從非關鍵工作負載開始驗證
在每一層實施延遲監控
優先處理延遲敏感的資料庫
使用 NVMe-cli 等工具驗證端到端 NVMe

適用於 AI 和現代工作負載的 NVMe

昂貴的 GPU 經常處於閒置狀態，等待資料。NVMe 透過 GPU Direct Storage 改變了這項功能，讓硬碟能夠將資料直接傳輸到 GPU 記憶體。

對於 AI 訓練而言，這代表：

更快速的 Epoch 訓練
更快速的檢查點寫入
增加 GPU 使用率
釋放 CPU 進行預處理

資料庫帶來的效益遠遠超過原始速度。NVMe 可預測的低於 200 微秒延遲，可消除查詢規劃的不確定性。優化器在資料快速到達的情況下做出更好的決策。當儲存變得可預測時，專為緩慢儲存而設計的應用程式表現會有所不同。

Pure Storage 端到端 NVMe 優勢

雖然業界爭論採用策略，但 Pure Storage 已將端到端 NVMe 部署在數千個客戶部署中，並產生遙測技術，揭示實際運作方式。差異化器消除了應用程式與 NAND 快閃記憶體之間的所有協定轉換。

DirectFlash：消除隱藏的開銷

傳統 NVMe SSD 包含備援控制器和超額配置。Pure Storage® DirectFlash® 模組將原始 NAND 直接暴露在陣列的 NVMe 介面上，提供：

更多可用容量
降低耗電量
無需垃圾收集機制即可預測延遲
橫跨所有快閃的全球耗損平衡技術

端到端 NVMe 架構

Purity 軟體從主機到 NAND 維護 NVMe，同時支援傳統系統。對於 NVMe 主機，它提供直接的命名空間存取。對於傳統主機，它在陣列邊緣翻譯一次，而非內部。

Pure Storage FlashArray//XCOR 透過消除內部協定轉換，提供一致的低於 200 微秒的延遲：

Pure Storage 陣列：150μs 平均延遲
傳統 "NVMe" 陣列，含內部翻譯：400-600μs
差別在於免除協定翻譯的額外負荷

不中斷的進化

Pure Storage Evergreen 基礎架構不需堆疊式升級，即可採用 NVMe。控制器不需資料搬移即可升級為支援 NVMe 的版本。

NVMe 的未來

NVMe 的演進超越了速度。NVMe 2.0 規格引入了運算儲存裝置，也就是儲存裝置本身的處理流程。資料庫篩選、壓縮和 AI 推論會在資料儲存的地方進行，消除了移動開銷。

結論

NVMe 代表數十年來消除了限制應用程式的人工瓶頸。無需協定翻譯即可進行端到端的實作時，NVMe 可提供 150 毫秒延遲，從資料庫交易到 AI 訓練，都能徹底轉變。

關鍵深度資訊：協定翻譯摧毀了 NVMe 的優勢。NVMe-oF 能將優勢延伸到資料中心，但實作非常重要。現代工作負載只需要端到端 NVMe 提供的可預測、低延遲。

Pure Storage 的端到端實作經過數千名客戶的驗證，證明了 150 毫秒延遲是營運現實。透過 DirectFlash 模組，組織達成 NVMe 對效能的承諾。隨著儲存裝置的運算能力和記憶體速度的演進，Pure Storage EvergreenEvergreen 基礎架構可確保今日的投資不會中斷，實現未來的創新。

什麼是 NVMe？ Non-Volatile Memory Express 完整指南

NVMe 如何革新儲存架構

快閃為何需要自己的協定

NVMe 如何運作：架構與元件

佇列架構與 CPU 最佳化

PCIe 通道和頻寬

NVMe 效能優勢：實數，非行銷

延遲：微秒現實

IOPS 與真實世界的影響

能源效率

NVMe-oF：將 NVMe 延伸到直接連接

NVMe over fibre channel （FC-NVMe）

透過 RoCE 取得 NVMe

透過 TCP 取得 NVMe

在生產中實作 NVMe

協定翻譯陷阱

OS和遷移要求

適用於 AI 和現代工作負載的 NVMe

Pure Storage 端到端 NVMe 優勢

DirectFlash：消除隱藏的開銷

端到端 NVMe 架構

不中斷的進化

NVMe 的未來

結論

線上體驗 FlashArray//X

查看重要資訊與活動

什麼是 NVMe？ Non-Volatile Memory Express 完整指南

NVMe 如何革新儲存架構

快閃為何需要自己的協定

NVMe 如何運作：架構與元件

佇列架構與 CPU 最佳化

PCIe 通道和頻寬

NVMe 效能優勢：實數，非行銷

延遲：微秒現實

IOPS 與真實世界的影響

能源效率

NVMe-oF：將 NVMe 延伸到直接連接

NVMe over fibre channel （FC-NVMe）

透過 RoCE 取得 NVMe

透過 TCP 取得 NVMe

在生產中實作 NVMe

協定翻譯陷阱

OS和遷移要求

適用於 AI 和現代工作負載的 NVMe

Pure Storage 端到端 NVMe 優勢

DirectFlash：消除隱藏的開銷

端到端 NVMe 架構

不中斷的進化

NVMe 的未來

結論

線上體驗 FlashArray//X

更多推薦

查看重要資訊與活動