業界のテストとベンダー仕様によると、未加工の NAND フラッシュの読み取りには約 100 マイクロ秒かかります。しかし、SATA SSD は通常、100~200 マイクロ秒の総レイテンシーを示すのに対し、NVMe SSD は 20~100 マイクロ秒を達成し、プロトコルのオーバーヘッドが実際のメディア・アクセス時間と同等またはそれ以上であることを示しています。
IOPS と実環境への影響
1 台の NVMe デバイスは、4 KB のランダム読み取りに対して 100 万 IOPS 以上を提供することができ、数十台の SATA SSD を必要とする性能を発揮します。エンドツーエンドの NVMe 上の Oracle データベースは、以下を示しています。
- 1 秒あたりのトランザクション数の増加
- クエリ応答時間の短縮
- ストレージ関連の待機イベントの削減
電力効率
NVMe の効率性は、性能上のメリットをさらに高めます。プロトコルのオーバーヘッドを排除することで、次のような違いが生まれます。
- SATA SSD:ワットあたり最大 10,000 IOPS
- NVMe SSD:ワットあたり最大 50,000 IOPS
NVMe-oF:ダイレクト・アタッチメントを超えて NVMe を拡張
NVMe over Fabrics は、NVMe のメリットをデータセンター全体に拡張し、レイテンシーのメリットを損なうことなく共有ストレージを実現します。しかし、実装の選択は、性能に劇的な影響を与えます。
NVMe over ファイバー・チャネル(FC-NVMe)
FC-NVMe は、既存の SAN インフラを活用しており、ファイバー・チャネルに投資する企業にとって魅力的です。これには、NVMe 転送をサポートする Gen 5(16 Gb)または Gen 6(32 Gb)スイッチが必要です。NVMe をサポートしている旧式のスイッチは、プロトコル変換を実行し、オーバーヘッドを再導入することがよくあります。
NVMe over RoCE
RoCE は、カーネル・バイパスによるネットワーク・レイテンシーの最小化を約束します。RDMA 操作は、約 1 マイクロ秒で完了します。しかし、RoCE には、全てのスイッチとアダプタにわたって、プライオリティ・フロー制御を備えたロスレス・イーサネットが必要です。1 つのポートが誤って構成されると、性能が低下します。現実には、真の RoCE は脆弱すぎるため、多くの RoCE 導入環境では実際には iWARP が稼働しています。RoCE は、適切に実装することで、160~180 マイクロ秒のストレージ・レイテンシーを実現します。
NVMe over TCP
NVMe/TCP は、特別なハードウェアなしで標準イーサネット上で動作します。批評家たちはこれを遅いと一蹴しますが、最新の実装では 200~250 マイクロ秒のレイテンシーを実現しており、ネットワークを経由しているにもかかわらず SATA SSD より高速です。
主な利点は、シンプルさです。NVMe/TCP は、既存のスイッチ、標準 NIC、クラウド・プロバイダ・ネットワークで動作します。
NVMe の本番運用環境への導入
NVMe ドライブをインストールするだけでは、期待するメリットが得られることはほとんどありません。ストレージ・スタック全体がエンドツーエンドの NVMe 操作をサポートしている必要があります。
プロトコル変換の落とし穴
多くの組織が既存のアレイ向けに NVMe SSD を購入し、変革が起きることを期待しています。ドライブは NVMe で通信しますが、コントローラは互換性のために全てを SCSI に変換します。この変換により、マイクロ秒が追加され、NVMe のメリットが損なわれます。
OS および移行要件
NVMe のサポートには、最新の OS が必要です。それぞれ、割り込みアフィニティ、マルチパス・モジュール、キュー深度の調整など、特定の構成が必要です。
移行を成功させるためには、次の点が重要です。
- 検証のために、重要でないワークロードから開始
- あらゆるレイヤーでレイテンシー監視を実装
- レイテンシーに敏感なデータベースを優先
- nvme-cli などのツールでエンドツーエンドの NVMe を検証
AI とモダン・ワークロードのための NVMe
高価な GPU はデータを待つ間、しばしば遊休状態になります。NVMe は、GPU ダイレクト・ストレージによってそれを変えます。ドライブがデータを GPU メモリに直接転送できるようにします。
AI トレーニングでは、次のような効果が得られます。
- 迅速なエポック・トレーニング
- チェックポイントの書き込みを高速化
- GPU 使用率の向上
- 前処理のための CPU を解放
データベースは、未処理の速度を超えるメリットを提供します。NVMe の予測可能な 200 マイクロ秒未満のレイテンシーは、クエリ計画の不確実性を排除します。オプティマイザーは、データを迅速に受信できるので、より良い意思決定を可能にします。低速ストレージ用に設計されたアプリケーションは、ストレージが予測可能になると動作が変わります。
ピュア・ストレージのエンドツーエンド NVMe のメリット
業界が採用戦略を議論する一方で、ピュア・ストレージは数千社におよぶ顧客環境でエンドツーエンドの NVMe を導入しており、その実装から得られるテレメトリによって、実際に何が有効なのかが明らかになっています。差別化要因は、アプリケーションと NAND フラッシュ間のプロトコル変換を排除することです。
DirectFlash:隠れたオーバーヘッドを排除
従来の NVMe SSD には、冗長コントローラとオーバープロビジョニングが含まれています。ピュア・ストレージの DirectFlash モジュールは、未加工の NAND をアレイの NVMe インターフェースに直接公開し、次のメリットを提供します。
- より使用可能な容量
- 低消費電力
- ガベージ・コレクションなしで予測可能なレイテンシー
- フラッシュ全体のグローバルなウェア・レベリング(摩耗平滑化)
エンドツーエンドの NVMe アーキテクチャ
Purity ソフトウェアは、従来のシステムをサポートしながら、ホストから NAND まで NVMe を維持します。NVMe ホストでは、直接ネームスペース・アクセスを提供します。従来のホストでは、内部ではなくアレイのエッジで一度変換されます。
ピュア・ストレージの FlashArray//X は、内部プロトコル変換を排除することで、200 マイクロ秒未満の一貫したレイテンシーを実現します。
- ピュア・ストレージのアレイ:平均レイテンシー 150 μs
- 内部で変換を行う従来の NVMe アレイ:400~600 μs
- 違い:プロトコル変換オーバーヘッドの排除
無停止の進化
ピュア・ストレージの Evergreen アーキテクチャは、フォークリフト・アップグレードなしで NVMe を導入できるようにします。コントローラは、データ移行なしで NVMe 対応バージョンにアップグレードできます。
NVMe の未来
NVMe の進化は、スピードだけにとどまりません。NVMe 2.0 の仕様では、コンピューティング・ストレージが導入されています。ストレージ・デバイス自体で処理されます。データベースのフィルタリング、圧縮、AI 推論は、データが存在する場所で行われ、移動のオーバーヘッドを排除します。
まとめ
NVMe は、何十年にもわたってアプリケーションを制限してきた人工的なボトルネックを排除します。プロトコル変換なしのエンドツーエンド実装を行うと、NVMe は 150 マイクロ秒のレイテンシーを実現し、データベース・トランザクションや AI トレーニングなど、あらゆる処理を変革します。
重要なインサイト:プロトコル変換は、NVMe の利点を損ないます。NVMe-oF は、データセンター全体にメリットをもたらしますが、実装方法が重要です。最新のワークロードには、エンドツーエンドの NVMe だけが提供できる予測可能で低レイテンシーな性能が求められます。
数千社の顧客環境で検証されたピュア・ストレージのエンドツーエンド実装は、150 マイクロ秒のレイテンシーが現実の運用レベルで達成可能であることを証明しています。DirectFlash モジュールにより、NVMe の性能を約束します。ピュア・ストレージの Evergreen アーキテクチャは、ストレージが内蔵された計算機能やメモリ速度へと進化するにつれて、今日の投資が将来のイノベーションへと途切れなくつながることを保証します。