Che cos'è Amazon FSx per Lustre?

Amazon FSx per Lustre è un file system a performance elevate e completamente gestito per workload ad alta intensità di calcolo che offre velocità di elaborazione, scalabilità ed efficienza dei costi.

Il termine "FSx" si riferisce al "file system completamente gestito" e Amazon attualmente offre servizi FSx per diversi file system ampiamente utilizzati, tra cui il file system Lustre open source.

Che cos'è il file system Lustre?

Con un nome coniato dalla combinazione di "Linux" e "cluster", Lustre è un file system parallelo e distribuito. È più comunemente utilizzato per il cluster computing su larga scala. Di fatto, Lustre è stato il file system preferito da almeno cinque dei 10 supercomputer più veloci al mondo, tra cui il primo supercomputer Frontier, a novembre 2022.

Lustre è stata una scelta molto diffusa di supercomputer, data center di grandi dimensioni, simulatori e altre organizzazioni di calcolo a performance elevate grazie alla sua estrema scalabilità e alla sua capacità di gestire molti cluster con decine di migliaia di nodi, decine di petabyte di storage su centinaia di server e una velocità di trasmissione media di oltre un terabyte al secondo (TB/s).

Come viene utilizzato FSx per Lustre?

Poiché si tratta di un servizio completamente gestito, Amazon FSx per Lustre semplifica il funzionamento e la gestione del sistema Lustre della tua organizzazione. Il servizio ti aiuta a evitare la necessità di configurare, configurare e gestire Lustre in modo autonomo: non è un problema ottenere il file system a performance elevate di cui hai bisogno in pochi minuti. Inoltre, con più opzioni di deployment, puoi scegliere il modello più conveniente per le tue esigenze.

Quali sono le differenze tra EFS ,EBS e FSx?

Oltre a FSx, AWS offre una vasta gamma di opzioni di data storage, tra cui Elastic File System (EFS) ed Elastic Block Store (EBS). A volte può essere un po' confuso che le organizzazioni comprendano le differenze tra queste offerte e quali opzioni possono soddisfare al meglio le esigenze specifiche di un'azienda.

La risposta breve è che AWS fornisce opzioni per diversi tipi di storage, che sono file, block e object storage. Ognuno di questi tipi di storage è semplicemente un modo diverso di archiviare i dati. Prima di confrontare EFS ed EBS con FSx, esaminiamo più da vicino EFS ed EBS singolarmente.

Elastic File System (EFS)

EFS è un sistema di file storage, il che significa che i dati vengono salvati in gerarchie (come lo storage di directory, cartelle e file system della maggior parte dei PC). Altamente scalabile e completamente gestito, EFS può essere collegato a istanze EC2 con sistemi operativi Mac o Linux e risorse di elaborazione nei data center on-premise. Lo storage può espandersi fino a petabyte di capacità e offrire bassa latenza in migliaia di istanze. Grazie alla sua bassa latenza e scalabilità, molte organizzazioni utilizzano EFS per spostare le applicazioni e i workload on-premise direttamente nel cloud.

I professionisti di EFS includono un file storage centralizzato, conveniente, scalabile e facilmente accessibile. Il suo storage condiviso è compatibile con il cloud e facile da integrare senza dover approfondire la ricodifica.

I contro dell'EFS includono il fatto che non funziona con Windows e il file storage semplicemente non può offrire le performance elevate del block storage per quanto riguarda le operazioni di input/output al secondo (IOPS). Il file storage può anche essere difficile da gestire una volta che i volumi di dati sono sufficientemente grandi e gli utenti devono conoscere il percorso verso un file specifico per poterlo trovare.

Elastic Block Store (EBS)

Questa è l'opzione di block storage di AWS. Il block storage è noto per la sua velocità e stabilità, soprattutto perché non include metadati e perché i blocchi possono essere archiviati nelle posizioni più efficienti, indipendentemente dal sistema operativo o persino distribuiti tra più server. Lo storage EBS è collegato a istanze di Amazon Elastic Compute Cloud (EC2), in particolare quelle che sono principalmente transazioni e che devono essere scalate facilmente. Ad esempio, alcune organizzazioni utilizzano EBS per archiviare database NoSQL non strutturati o database relazionali autogestiti.

I professionisti di EBS includono velocità, flessibilità e affidabilità. Questo lo rende ideale per i casi d'uso che richiedono una bassa latenza. Inoltre, poiché è possibile aggiornare il block storage sovrascrivendo singoli blocchi (e non un intero oggetto, come nell'object storage), gli aggiornamenti e le modifiche sono veloci ed efficienti.

I contro dell'EBS includono la mancanza di metadati, che ne velocizza l'archiviazione ma rallenta la ricerca. Inoltre, lo storage EBS può essere collegato a un solo server alla volta (anche se in alcune situazioni è presente una funzionalità di connessione multipla EBS).

FSx per Lustre rispetto a EFS ed EBS

Amazon FSx per Lustre offre performance elevatissime. È un file storage system, simile a EFS, ma una grande differenza è che FSx può funzionare su Windows. Le performance di FSx superano le performance di EFS ed EBS quando si tratta di workload pesanti come AI e machine learning, enormi progetti di data analytics, elaborazione video ed effetti digitali, analytics finanziari e altro ancora.

FSx offre un TCO inferiore rispetto a EFS ed EBS e offre alle organizzazioni opzioni di elaborazione dei dati flessibili per lo storage a breve e lungo termine. FSx è anche in grado di determinare la velocità con cui il file server che ospita il sistema può fornire i dati dei file e offrire livelli di throughput più elevati rispetto a EFS ed EBS, livelli più elevati di IOPS e più memoria per il caching.

Come funziona Amazon FSx per Lustre

Con Amazon FSx per Lustre, le organizzazioni possono accedere facilmente ai file system Lustre. Questi sistemi possono essere scalati in base alle esigenze su più server e dischi di storage. Grazie a questa scalabilità, FSx può eliminare molti dei colli di bottiglia tradizionali che gli utenti riscontrano in altri file system.

Un file system Amazon FSx per Lustre è composto da un file server centralizzato e da una serie di dischi di storage collegati che contengono i dati. I client comunicano con il file server, che può ottimizzare le performance per i dati a cui si accede più regolarmente utilizzando una cache veloce e in-memory. Ciò che lo rende così veloce è che quando un client desidera accedere alle informazioni memorizzate nella cache in-memory o nell'unità SSD, il server non deve leggerle dal disco. La latenza è quindi inferiore e la velocità di trasmissione è superiore.

FSx offre inoltre due opzioni di storage in base alla scelta di utilizzare un'unità a stato solido (SSD) o un'unità disco rigido (HDD). L'opzione migliore dipende dalle esigenze di un'organizzazione:

Lo storage SSD è ideale per i workload sensibili alla latenza o per i workload che richiedono la massima velocità di trasmissione o IOPS.
Lo storage HDD è ideale per i workload che richiedono un throughput elevato, ma non dipendono molto dalla latenza ultra bassa.

Per configurare Amazon FSx per Lustre:

Crea il tuo file system utilizzando la console di gestione AWS. È inoltre possibile utilizzare un'interfaccia della riga di comando (CLI) o un kit di sviluppo software (SDK). Qui puoi anche indicare l'opzione di deployment che preferisci: scratch o persistente (vedi sotto).
Se utilizzi lo storage Amazon S3, collegherai il file system appena creato al bucket S3 in modo da poter elaborare e accedere a qualsiasi dataset memorizzato in S3.
Puoi utilizzare qualsiasi client Linux, compresi i client EC2, EKS o on-premise, per accedere al tuo file system.
Ora puoi eseguire le tue applicazioni, dal machine learning al calcolo a performance elevate, fino al rendering dei supporti e altro ancora, con un file storage condiviso che offre le performance elevate di cui hai bisogno.

Differenze tra modalità di graffio e persistente in FSx per Lustre

Le organizzazioni possono scegliere tra due opzioni di deployment quando utilizzano Amazon FSx per Lustre: scratch e persistente. La scelta dipende dal tempo di archiviazione dei dati.

I file system di scarto sono destinati all'utilizzo per un'elaborazione dei dati più a breve termine e per il data storage temporaneo. Il sistema non replica i dati di scratch, il che significa che possono andare persi in caso di malfunzionamento di un file server. Il vantaggio dei file system scratch è che forniscono un'eccellente velocità di trasmissione, un'enorme esplosione che può essere pari a sei volte la baseline standard di 200 MBps per TiB (equivalente a poco più di una TB) di capacità di storage.

I casi d'uso migliori per i file system scratch includono uno storage conveniente per i workload che richiedono un'elaborazione pesante e sono necessari solo per un breve periodo di tempo.

I file system persistenti devono essere utilizzati per i workload che devono essere archiviati per un periodo di tempo più lungo. Questo tipo di storage, se altamente disponibile e memorizzato, viene replicato automaticamente nella AWS AWS Availability Zone in cui si trova il file system. Il vantaggio è che se un server si guasta, i dati memorizzati vengono sostituiti in pochi minuti.

I casi d'uso più comuni per i file system persistenti includono lo storage persistente per i containers, i data lake archiviati in S3, il calcolo a performance elevate che richiede uno storage a lungo termine, i workload incentrati sulla velocità di trasmissione che devono essere eseguiti a tempo indeterminato e i workload sensibili alle interruzioni della disponibilità.

Vantaggi di Amazon FSx per Lustre

I vantaggi dell'utilizzo di Amazon FSx per Lustre includono:

Performance elevate e flessibili: Ottieni performance veloci, scalabili, coerenti e prevedibili.
Alta disponibilità e durata: Le opzioni di deployment consentono di garantire il giusto livello di disponibilità e durata dei dati.
Facilità d'uso: Il servizio completamente gestito semplifica l'avvio di un file system in pochi minuti senza doverti preoccupare di backup, aggiornamenti o consumo.
Convenienza: FSx offre molte opzioni e scelte di storage che consentono di trovare il giusto equilibrio tra costi e performance; inoltre, non sono previsti costi di configurazione o costi minimi e l'utente è responsabile del pagamento solo delle risorse utilizzate.
Sicurezza e conformità: La crittografia dei dati in transito e inattivi è automatica ed è inoltre possibile controllare l'accesso alla rete come desiderato.
Semplice integrazione con i servizi AWS: Puoi utilizzare FSx con tutti gli altri servizi AWS senza problemi.

Storage persistente a performance elevate per i file system

Mentre FSx ed EFS sono opzioni di storage persistente per i file system basati su Amazon Elastic Kubernetes Service, Portworx di Pure offre vantaggi chiave rispetto a entrambi. Portworx ti consente di eseguire qualsiasi data service cloud-native, in qualsiasi cloud, utilizzando qualsiasi piattaforma Kubernetes, con alta disponibilità integrata, data protection, sicurezza dei dati e mobilità dell'hybrid cloud. Grazie a tutto quanto sopra, Portwox offre vantaggi significativi in termini di:

Performance
Costo
Disaster recovery

Prova la semplicità e le performance offerte dall'utilizzo di un data storage persistente cloud-native per i workload Kubernetes. Scopri di più su Portworx qui .