Wat is NVMe? De complete gids voor Non-Volatile Memory Express

Opslagprotocollen die zijn ontworpen voor mechanische schijven beperken al meer dan tien jaar de flashprestaties. Terwijl SSD's hardware leveren die geschikt is voor microseconden, voegen legacy-protocollen zoals SATA en SAS honderden microseconden onnodige latency toe via hun single-queue architecturen en protocolvertalingslagen - op basis van industriebenchmarks en real-world implementaties.

NVMe (Non-Volatile Memory Express) is een opslagprotocol dat speciaal is ontworpen voor Solid-state-schijven en dat rechtstreeks verbinding maakt via de PCIe-interface, waardoor de knelpunten van disk-era-protocollen worden geëlimineerd. In plaats van commando's door een enkele wachtrij zoals SATA te leiden, maakt NVMe tot 64.000 wachtrijen mogelijk met elk 64.000 commando's - waardoor de manier waarop opslag communiceert met moderne multi-core processors fundamenteel verandert.

Maar wat de meeste discussies missen is dat het simpelweg toevoegen van NVMe-schijven niet genoeg is als uw systeem nog steeds vertaalt tussen protocollen, waarbij NVMe wordt omgezet in SCSI en weer terug op verschillende punten in het datapad.

Deze gids onderzoekt de architectuur van NVMe, kwantificeert de prestatievoordelen in de praktijk en legt uit waarom end-to-end NVMe-implementatie belangrijk is.

Hoe NVMe een revolutie teweegbracht in de opslagarchitectuur

Twee decennia lang werden opslagprotocollen ontworpen rond mechanische beperkingen. SATA en SAS gingen ervan uit dat opslagapparaten tijd nodig hadden om fysiek data op te zoeken, waarbij overhead werd opgebouwd die zinvol was toen schijfschijven in positie moesten draaien. Deze protocollen leiden alle commando's door één enkele wachtrij - voldoende voor mechanische zoekacties, maar catastrofaal voor flashgeheugen dat in staat is om microseconden te reageren.

De discrepantie in het protocol wordt duidelijk in de cijfers. SAS ondersteunt tot 256 commando's (volgens de SAS-3-specificatie) in zijn enkele wachtrij, terwijl enterprise SSD's duizenden gelijktijdige bewerkingen uitvoeren. Deze legacy-protocollen vereisen meerdere vertaallagen: applicaties sturen NVMe-commando's die worden vertaald naar SCSI, vervolgens naar SATA of SAS, en vervolgens mogelijk terug naar NVMe op schijfniveau. Elke vertaling voegt 50-200 microseconden latency toe.

Waarom Flash haar eigen protocol nodig had

NVMe kwam in 2011 op om vertaalboetes te elimineren. In plaats van schijfprotocollen achteraf aan te passen, heeft het NVM Express-consortium een protocol ontworpen waarbij wordt aangenomen dat er geen mechanische componenten zijn. NVMe stroomlijnt de commandoset, waardoor overhead niet meer wordt geparseerd en de volledige functionaliteit behouden blijft.

Het protocol verbindt opslag rechtstreeks met CPU's via PCIe-banen, dezelfde snelle interface die voor grafische kaarten wordt gebruikt. Dit positioneert opslag als een peer naar andere high-performance componenten in plaats van het te delegeren achter vertaallagen. Met PCIe Gen 4 die 64GB/s bandbreedte levert, zorgt NVMe ervoor dat flash zonder beperkingen kan werken.

Hoe NVMe werkt: Architectuur en componenten

De architectuur van NVMe heroverweegt storagecommunicatie fundamenteel. In plaats van traditionele hostbusadapters, verschijnt NVMe-opslag voor de CPU als geheugen-toegewezen I/O, waardoor directe toegang zonder kernel-overhead voor kritieke activiteiten mogelijk is.

Wachtrijarchitectuur en CPU-optimalisatie

Moderne processors bevatten tientallen cores, maar oude opslagprotocollen leiden ze allemaal door één I/O-wachtrij. NVMe wijst speciale wachtrijparen toe aan elke CPU-core, waardoor lock-contentie wordt geëlimineerd en echte parallelle verwerking mogelijk is.

Wanneer een applicatie data nodig heeft, plaatst deze commando's in de wachtrij voor inzending via eenvoudige geheugenschrijven - geen systeemoproepen nodig. De NVMe-controller verwerkt commando's onafhankelijk en plaatst resultaten in wachtrijen voor voltooiing. Dit asynchrone model betekent dat CPU's vrijwel geen cycli hoeven te wachten op opslag.

PCIe-lanen en bandbreedte

NVMe-apparaten maken verbinding via PCIe-banen, waarbij elke baan bidirectionele bandbreedte biedt. Een typische NVMe SSD maakt gebruik van vier PCIe-banen, die tot 8GB/s leveren met PCIe Gen 4. Enterprise arrays aggregeren meerdere apparaten voor een nog hogere verwerkingscapaciteit.

Maar alleen bandbreedte bepaalt niet de prestaties. Latentie - de tijd tussen verzoek en reactie - is vaak belangrijker voor transactionele workloads. NVMe's directe PCIe-verbinding elimineert meerdere busovergangen en protocolconversies die SATA-implementaties tegengaan.

NVMe-prestatievoordelen: Echte cijfers, geen marketing

Marketing in de opslagindustrie maakt vaak vage beweringen als "razendsnel" of "ultra-responsief". NVMe biedt echter echte voordelen.

Latentie: De realiteit van microseconden

Opslagprotocol	Typische latency	Protocol-overhead
SATA SSD	100-200 μs	50-100 μs
NVMe Direct	20-100 μs	<10 μs
Pure Storage end-to-end NVMe	150 μs	0 μs

Slide

Volgens industrietests en leveranciersspecificaties duurt het ongeveer 100 microseconden om ruwe NAND-flash-reads te lezen. SATA SSD's leveren echter meestal een totale latentie van 100-200 microseconden, terwijl NVMe SSD's 20-100 microseconden bereiken - waaruit blijkt hoe de protocoloverhead de werkelijke mediatoegangstijd kan bereiken of overschrijden.

IOPS en impact op de echte wereld

Eén NVMe-apparaat kan meer dan 1 miljoen IOPS leveren voor willekeurige 4KB-reads - prestaties waarvoor tientallen SATA SSD's nodig zijn. Oracle-databases op end-to-end NVMe tonen:

Meer transacties per seconde
Vermindering van de responstijd van query's
Minder opslaggerelateerde wachttijden

Energie-efficiëntie

De efficiëntie van NVMe verenigt de prestatievoordelen. Door de overheadkosten van het protocol te elimineren:

SATA SSD: ~10.000 IOPS per watt
NVMe SSD: ~50.000 IOPS per watt

NVMe-oF: NVMe uitbreiden tot voorbij directe bevestiging

NVMe over Fabrics breidt de voordelen van NVMe uit in datacenters, waardoor gedeelde opslag mogelijk is zonder dat dit ten koste gaat van de latency-voordelen. Maar implementatiekeuzes hebben een enorme invloed op de prestaties.

NVMe over fibre channel (FC-NVMe)

FC-NVMe maakt gebruik van de bestaande SAN-infrastructuur, waardoor het aantrekkelijk is voor ondernemingen met investeringen in fibre channel. Het vereist Gen 5 (16Gb)- of Gen 6 (32Gb)-switches die NVMe-forwarding ondersteunen - oudere switches die claimen "NVMe-support" voeren vaak protocolvertalingen uit, waardoor de overhead opnieuw wordt geïntroduceerd.

NVMe over RoCE

RoCE belooft de laagste netwerklatentie door middel van kernel bypass - RDMA-operaties zijn binnen ongeveer een microseconde voltooid. Maar RoCE vereist verliesloos Ethernet met Priority Flow Control voor elke switch en adapter. Eén verkeerd geconfigureerde poort kan leiden tot een instorting van de prestaties. De realiteit is dat veel "RoCE"-implementaties iWARP uitvoeren omdat echte RoCE te kwetsbaar blijkt te zijn. Wanneer RoCE correct is geïmplementeerd, kan het 160-180 microseconde opslaglatentie leveren.

NVMe over TCP

NVMe/TCP draait via standaard Ethernet zonder speciale hardware. Critici zien het als "langzaam", maar moderne implementaties kunnen een latency van 200-250 microseconde latency bereiken, sneller dan SATA SSD's, ondanks dat ze het netwerk overschrijden.

Het belangrijkste voordeel: eenvoud. NVMe/TCP werkt met bestaande switches, standaard NIC's en cloudprovidernetwerken.

NVMe implementeren in productie

Het simpelweg installeren van NVMe-schijven levert zelden verwachte voordelen op. De volledige storage stack moet end-to-end NVMe-operaties ondersteunen.

De protocolvertalingsval

Veel organisaties kopen NVMe SSD's voor bestaande arrays en verwachten transformatie. De drives communiceren via NVMe, maar de controller vertaalt alles naar SCSI voor compatibiliteit. Deze vertaling voegt microseconden toe, waardoor de voordelen van NVMe teniet worden gedaan.

Vereisten voor OS en migratie

NVMe vereist een modern Operating System om te ondersteunen. Elk vereist specifieke configuraties - onderbroken affiniteit, multipathmodules en wachtrijdiepteaanpassingen.

Voor een succesvolle migratie:

Begin met niet-kritieke workloads voor validatie
Implementeer latency-monitoring op elke laag
Prioriteit geven aan latency-gevoelige databases
Controleer end-to-end NVMe met tools zoals NVMe-cli

NVMe voor AI en moderne workloads

Dure GPU's blijven vaak inactief en wachten op data. NVMe verandert dat via GPU Direct Storage, waardoor schijven data rechtstreeks naar het GPU-geheugen kunnen overbrengen.

Voor AI-training betekent dit:

Snellere epoch training
Sneller schrijven van controlepunten
Toegenomen GPUGPUgebruik
Maak CPU vrij voor voorverwerking

Databases profiteren van meer dan ruwe snelheid. NVMe's voorspelbare latency van minder dan 200 microseconden elimineert onzekerheid in queryplanning. Optimalisatoren nemen betere beslissingen in de wetenschap dat data snel arriveert. Applicaties die zijn ontworpen voor trage opslag gedragen zich anders wanneer opslag voorspelbaar wordt.

Het Pure Storage End-to-end NVMe-voordeel

Terwijl de industrie de adoptiestrategieën debatteert, heeft Pure Storage end-to-end NVMe ingezet voor duizenden klantimplementaties, waardoor telemetrie wordt gegenereerd die onthult wat daadwerkelijk werkt. De differentiator elimineert elke protocolvertaling tussen de applicatie en NAND-flash.

DirectFlash: Verborgen overhead elimineren

Traditionele NVMe SSD's bevatten redundante controllers en overprovisioning. Pure Storage® DirectFlash®-modules stellen ruwe NAND direct bloot aan de NVMe-interface van de array, waardoor:

Meer bruikbare capaciteit
Lager stroomverbruik
Voorspelbare latency zonder afvalverzameling
Wereldwijde Wear-leveling voor alle flash

End-to-end NVMe-architectuur

Purity-software onderhoudt NVMe van host naar NAND en ondersteunt legacy-systemen. Voor NVMe-hosts biedt het directe toegang tot namespace. Voor legacy-hosts vertaalt het zich één keer aan de array edge, niet intern.

Pure Storage FlashArray//X™ levert consistente latency van minder dan 200 microseconden door interne protocolconversies te elimineren:

Pure Storage-arrays: gemiddelde latency van 150 μs
Traditionele "NVMe"-arrays met interne vertaling: 400-600μs
Het verschil: eliminatie van overheadkosten voor protocolvertaling

Non-disruptieve evolutie

Pure Storage Evergreen-architectuur maakt NVMeNVMeadoptie mogelijk zonder forklift-upgrades. Controllers upgraden naar NVMe-compatibele versies zonder datamigratie.

De toekomst van NVMe

De evolutie van NVMe gaat verder dan snelheid. De NVMe 2.0-specificatie introduceert rekenkundige opslag - verwerking binnen het opslagapparaat zelf. Databasefiltering, compressie en AI-inferentie vinden plaats waar data zich bevinden, waardoor verplaatsingsoverhead wordt geëlimineerd.

Conclusie

NVMe vertegenwoordigt het elimineren van kunstmatige knelpunten die applicaties decennialang beperken. Wanneer NVMe end-to-end wordt geïmplementeerd zonder protocolvertaling, levert het een latency van 150 microseconde latency die alles transformeert, van databasetransacties tot AI-training.

De kritische inzichten: Protocolvertaling vernietigt de voordelen van NVMe. NVMe-oF breidt de voordelen uit voor datacenters, maar implementatie is belangrijk. Moderne workloads vereisen de voorspelbare, alleen end-to-end NVMe met lage latency.

Een Pure Storage end-to-end-implementatie, gevalideerd voor duizenden klanten, bewijst dat 150-microseconde latency een operationele realiteit is. DirectFlash modules bereiken organisaties de prestatiebeloftes van NVMe. Naarmate opslag zich ontwikkelt naar rekencapaciteiten en geheugensnelheden, zorgt Pure Storage EvergreenEvergreen- architectuur ervoor dat de investeringen van vandaag de innovaties van morgen zonder onderbreking leveren.

Wat is NVMe? De complete gids voor Non-Volatile Memory Express

Hoe NVMe een revolutie teweegbracht in de opslagarchitectuur

Waarom Flash haar eigen protocol nodig had

Hoe NVMe werkt: Architectuur en componenten

Wachtrijarchitectuur en CPU-optimalisatie

PCIe-lanen en bandbreedte

NVMe-prestatievoordelen: Echte cijfers, geen marketing

Latentie: De realiteit van microseconden

IOPS en impact op de echte wereld

Energie-efficiëntie

NVMe-oF: NVMe uitbreiden tot voorbij directe bevestiging

NVMe over fibre channel (FC-NVMe)

NVMe over RoCE

NVMe over TCP

NVMe implementeren in productie

De protocolvertalingsval

Vereisten voor OS en migratie

NVMe voor AI en moderne workloads

Het Pure Storage End-to-end NVMe-voordeel

DirectFlash: Verborgen overhead elimineren

End-to-end NVMe-architectuur

Non-disruptieve evolutie

De toekomst van NVMe

Conclusie

FlashArray//X testen

Blader door belangrijke resources en evenementen

Wat is NVMe? De complete gids voor Non-Volatile Memory Express

Hoe NVMe een revolutie teweegbracht in de opslagarchitectuur

Waarom Flash haar eigen protocol nodig had

Hoe NVMe werkt: Architectuur en componenten

Wachtrijarchitectuur en CPU-optimalisatie

PCIe-lanen en bandbreedte

NVMe-prestatievoordelen: Echte cijfers, geen marketing

Latentie: De realiteit van microseconden

IOPS en impact op de echte wereld

Energie-efficiëntie

NVMe-oF: NVMe uitbreiden tot voorbij directe bevestiging

NVMe over fibre channel (FC-NVMe)

NVMe over RoCE

NVMe over TCP

NVMe implementeren in productie

De protocolvertalingsval

Vereisten voor OS en migratie

NVMe voor AI en moderne workloads

Het Pure Storage End-to-end NVMe-voordeel

DirectFlash: Verborgen overhead elimineren

End-to-end NVMe-architectuur

Non-disruptieve evolutie

De toekomst van NVMe

Conclusie

FlashArray//X testen

Wij bevelen ook aan...

Blader door belangrijke resources en evenementen