Le stockage éphémère excelle pour les données temporaires qui peuvent être régénérées, les couches d’images de conteneurs, les artefacts de création et les fichiers de traitement temporaires. L’utilisation du stockage éphémère pour ces charges de travail réduit les coûts et la complexité tout en améliorant les performances grâce à l’accès aux disques locaux.
Le stockage persistant devient essentiel lorsque les données doivent survivre au-delà du cycle de vie d’un pod. Au-delà des bases de données, les journaux d’applications pour la conformité, les téléchargements d’utilisateurs et les fichiers de configuration nécessitent tous une persistance. Les plateformes de surveillance génèrent quotidiennement des gigaoctets de métriques et de tracés persistants par application.
Le coût caché du choix de composés incorrects au fil du temps. Les entreprises qui optent par défaut pour un stockage permanent pour tout ce qui concerne les coûts croissants et les frais de gestion. Ceux qui sous-provisionnent un stockage persistant risquent de perdre des données lorsque le stockage éphémère se remplit de manière inattendue. Assurez-vous d’analyser les exigences du cycle de vie des données avant le déploiement, et non après la survenue d’incidents.
Avantages et inconvénients du stockage persistant
Toutes les entreprises ont besoin de données persistantes, mais le défi consiste à préserver l’intégrité et la disponibilité des données après leur modification. La plupart des bases de données disposent d’une technologie avancée pour réduire les « lectures sales », entraînant le retour et le stockage de données incorrectes sur disque. Les fichiers journaux assurent le suivi des transactions de la base de données pour éviter la perte d’intégrité des données.
Les entreprises doivent disposer d’un plan de stockage de données pour garantir la cohérence et la sécurité des données. Les données doivent être normalisées de manière à ce que les données restent cohérentes sur toutes les applications et ne se mettent pas à jour à plusieurs endroits, ce qui peut entraîner des inexactitudes. Toutes les données doivent être sécurisées à l’aide de règles d’authentification et d’autorisation, et des systèmes de surveillance doivent être en place pour détecter toute activité suspecte.
Le stockage cloud offre aux entreprises une option flexible pour réduire leurs budgets informatiques tout en réduisant les frais de maintenance. Les administrateurs disposent de fonctionnalités intégrées pour sécuriser les sauvegardes de bases de données et les données de production, et ils n’ont pas besoin de gérer le matériel. Les entreprises doivent toujours disposer de sauvegardes de leurs données persistantes, et le cloud offre l’évolutivité nécessaire pour augmenter la capacité à mesure que davantage de données sont collectées et stockées.
Mise en œuvre du stockage persistant : Bonnes pratiques d’entreprise
Une mise en œuvre réussie nécessite une planification stratégique alignée sur les exigences de l’entreprise. Les entreprises qui se précipitent dans la mise en œuvre sans évaluation sont confrontées à des goulets d’étranglement des performances, à des coûts inattendus et à des difficultés de migration.
Évaluation préalable à la mise en œuvre
Commencez par classer les charges de travail en trois niveaux :
- Critique : Bases de données, journaux de transactions
- Important : État de l’application, données utilisateur
- Temporaire : Cache, traitement intermédiaire
Les exigences de performance varient considérablement. Les bases de données haute performance peuvent nécessiter des milliers d’IOPS seconde avec une latence inférieure à la milliseconde, tandis qu’un CMS peut fonctionner correctement avec 1 000 IOPS par seconde. Documentez clairement les exigences : les spécifications vagues comme le « stockage rapide » entraînent un surallocation.
Stratégie multi-cloud
Les déploiements multi-cloud compliquent le stockage persistant. Les performances varient considérablement : un volume qui génère 16 000 IOPS sur AWS peut produire des résultats différents sur Azure avec des spécifications identiques.
Les organisations qui opèrent sur plusieurs clouds font souvent face à des frais de gestion du stockage plus élevés. La solution ? Standardisez votre environnement sur une plateforme de gestion des données unique qui élimine les différences entre les fournisseurs tout en assurant des performances constantes.
Stockage persistant à l’échelle de l’entreprise
La mise à l’échelle au-delà de la Proof of Concept révèle des complexités que les implémentations de base ne rencontrent jamais. Les environnements d’entreprise exigent des performances garanties, une conformité réglementaire et une durabilité économique pour des milliers de volumes persistants.
Exigences de performance pour les bases de données de production
La cohérence des latences est plus importante que la latence moyenne. Une base de données avec une latence moyenne de 500 microsecondes, mais parfois des pics de 50 millisecondes, fonctionne moins bien qu’une base de données avec une latence constante de 1 milliseconde.
La relation entre les performances du stockage et le débit de la base de données n’est pas linéaire. Le doublement des IOPS de 10 000 à 20 000 ne peut améliorer le débit des transactions que de 30 % si la latence reste inchangée.
L’optimisation de la profondeur des files d’attente devient essentielle à grande échelle. Augmenter la profondeur de la file d’attente de 32 à 128 peut améliorer considérablement le débit pour les charges de travail parallèles, bien qu’elle puisse légèrement augmenter la latence pour les opérations en série.
Disaster Recovery et continuité des opérations
Les objectifs de temps de reprise (RTO) et les objectifs de Recovery Point de reprise (RPO) déterminent l’architecture. L’obtention d’un RTO inférieur à une heure nécessite une réplication synchrone, qui double les coûts de stockage et impacte les performances en raison des retards d’accusé de réception en écriture.
La protection par snapshot offre un terrain d’entente. Les systèmes modernes créent des snapshots homogènes toutes les 15 minutes, avec un impact minimal. Il est recommandé aux organisations de maintenir des politiques de conservation appropriées, en équilibrant les besoins de reprise et les coûts de stockage.
La Disaster Recovery sinistre interrégionale ajoute de la complexité. La physique du réseau exige que la réplication d’une côte à l’autre ajoute 40 à 50 millisecondes de latence. De nombreuses entreprises adoptent des approches par niveaux : réplication synchrone en local pour un RPO nul, avec réplication asynchrone vers des régions éloignées pour une protection contre les pannes catastrophiques.
Multi-locataire et isolation des ressources
Les déploiements Kubernetes d’entreprise hébergent plusieurs équipes sur une infrastructure partagée, ce qui nécessite une isolation stricte. Les quotas de stockage empêchent la monopolisation de la capacité, mais ne permettent pas d’isoler les performances. Une tâche d’analyse de données peut priver de bases de données d’IOPS par seconde sur le même backend.
Les politiques de qualité de service (QoS) garantissent des performances par locataire. Le minimum dIOPS garantit que les applications critiques conservent leurs performances pendant les conflits. Les limites maximales dIOPS seconde empêchent les charges de travail éparses de monopoliser les ressources.
L’isolation des ressources s’étend à la sécurité et à la conformité. Les établissements de santé doivent s’assurer que les données réglementées par la loi HIPAA restent sur des systèmes de stockage spécifiques avec chiffrement. Les services financiers ont besoin d’une preuve de résidence des données pour assurer la conformité réglementaire.
Sécuriser le stockage persistant contre Ransomware
Ransomware ciblent de plus en plus le stockage persistant, car les bases de données chiffrées paralysent les opérations. Les stratégies de sauvegarde traditionnelles échouent lorsque les attaquants accèdent à l’administration et suppriment à la fois les données primaires et les sauvegardes.
La vulnérabilité découle d’une conception fondamentale : les administrateurs ont besoin de capacités de suppression pour la maintenance de routine. Les hackers dont les identifiants sont compromis héritent de ces privilèges, ce qui leur permet de chiffrer les volumes et de supprimer les snapshots. Même les snapshots « immuables » dans de nombreux systèmes peuvent être supprimés via des appels API ou des backdoors de prise en charge.
Immuabilité architecturale pour les volumes persistants
La véritable immuabilité nécessite des systèmes de stockage qui ne peuvent pas physiquement supprimer les données avant l’expiration de la conservation, indépendamment des informations d’identification. Il ne s’agit pas d’un contrôle d’accès basé sur les rôles, mais de l’absence totale de chemins de code de suppression. Lorsqu’un snapshot est marqué comme immuable pendant 30 jours, aucune combinaison d’appels API, d’interventions de support ou d’accès physique ne peut le supprimer.
La mise en œuvre implique des chemins d’accès en écriture unique et une vérification cryptographique des politiques de conservation. Les contrôleurs de stockage valident la conservation à l’aide de modules matériels sécurisés que les logiciels ne peuvent pas remplacer. Cela transforme le stockage persistant d’une cible de Ransomware en une solution de Ransomware.
La reprise à l’aide d’un stockage permanent immuable prend des heures au lieu de plusieurs semaines. Les organisations identifient le dernier snapshot propre, restaurent les volumes et reprennent les opérations. Le temps moyen de reprise diminue considérablement avec des snapshots immuables correctement configurés.
Stockage persistant pour les charges de travail d’AI et d’Machine Learning
Les charges de travail d’AI mettent l’accent sur le stockage persistant de manière unique. Les ensembles de données d’entraînement dépassent souvent 100TB, les modèles lisant l’ensemble des ensembles de données plusieurs fois par période. Les clusters GPU qui coûtent des milliers d’heures restent inactifs lorsque le stockage ne peut pas fournir les données suffisamment rapidement, ce qui affecte la majorité des initiatives d’AI.
Ce défi associe bande passante, latence et schémas d’accès simultanés. L’entraînement distribué peut comporter 64 GPU lisant simultanément différentes parties de l’ensemble de données tout en écrivant des points de contrôle. Les architectures traditionnelles qui font passer les I/O par quelques contrôleurs créent des goulets d’étranglement, ce qui gaspille les coûts de calcul.
Optimisation de l’utilisation des GPU
Les architectures parallèles modernes conçues pour l’AI permettent d’utiliser jusqu’à 98 % des GPU graphiques, tandis que les approches traditionnelles sont généralement insuffisantes. La clé : éliminer les goulets d’étranglement des contrôleurs grâce à des architectures scale-out où chaque nœud de stockage sert directement les données. L’ajout linéaire de nœuds augmente à la fois la capacité et les performances.
L’optimisation des points de contrôle est cruciale. Les grands modèles linguistiques génèrent plus de 1TB de points de contrôle qui doivent écrire sans interrompre l’entraînement. Les I/O Checkpoint peuvent avoir un impact significatif sur le débit d’entraînement. Un stockage dédié aux points de contrôle avec optimisation de l’écriture permet de réaliser des points de contrôle parallèles tout en maintenant l’utilisation du GPU.
Les coûts du stockage AI diffèrent fondamentalement. Alors que les entreprises optimisent généralement la capacité par dollar, l’AI optimise l’utilisation des GPU par dollar. Le doublement des investissements de stockage pour améliorer l’utilisation des GPU graphiques de 50 % à 90 % permet d’obtenir 80 % de calcul en plus sans processeurs graphiques supplémentaires. L’investissement dans le stockage se rentabilise en quelques semaines.
Considérations relatives au pipeline de données
Les pipelines ML nécessitent un stockage persistant prenant en charge plusieurs protocoles simultanément. Les spécialistes des données utilisent NFS via les blocs-notes Jupyter pour entraîner l’accès aux tâches via S3. Le stockage traditionnel impose des copies distinctes par protocole, triplant les coûts et créant des cauchemars de synchronisation.
Les plateformes unifiées peuvent entraîner une réduction significative du stockage grâce à la consolidation des protocoles. Un seul espace de nom accessible via n’importe quel protocole signifie que les données S3-ingested sont immédiatement accessibles aux outils basés sur NFS sans copie. La préparation des données passe ainsi de plusieurs jours à plusieurs heures, tout en réduisant considérablement les besoins en stockage.
L’avenir des technologies de stockage persistantes
Les dirigeants du secteur prévoient que le secteur de la technologie flash pourrait remplacer entièrement la capacité de sortie de l’ensemble du secteur des disques durs d’ici 2028, faisant du stockage persistant 100 % flash la seule option. Il ne s’agit pas seulement d’un changement technologique, mais d’une inévitable économique, car les prix de la technologie flash chutent alors que les disques atteignent des limites physiques.
La mort du stockage hiérarchisé représente le plus grand changement. Lorsque tout le stockage s’exécute sur une mémoire flash avec une réduction de données de 10 :1, l’argument économique pour des niveaux plus lents s’évapore. La majorité des données « froides » étant consultées régulièrement, les coûts de hiérarchisation dépassent les économies réalisées. Les architectures futures offriront des performances uniformes pour toutes les données.
Mémoire persistante et mémoire de classe stockage
Les nouvelles technologies de mémoire persistante brouillent les limites du stockage de mémoire. Bien que la capacité limite actuellement la mémoire persistante aux métadonnées et à la mise en cache, les technologies de nouvelle génération promettent des modules de téraoctets qui remplacent le stockage traditionnel pour les charges de travail sensibles à la latence.
Cela permet de créer de nouvelles architectures applicatives. Les bases de données conservent les index dans une mémoire persistante pour les réponses aux requêtes de la microseconde. Les files d’attente de messages atteignent des millions d’opérations par seconde avec une persistance totale. L’analytique en temps réel traite les données en streaming sans la complexité de l’architecture lambda.
Stockage persistant autogéré
L’AI transforme le stockage persistant de l’infrastructure gérée en systèmes autonomes. Les plateformes modernes analysent quotidiennement d’énormes volumes télémétriques, prédisant les défaillances bien à l’avance avec une grande précision. Les systèmes rééquilibrent automatiquement les charges de travail, optimisent les performances et commandent des pièces de rechange avant les pannes.
Les plateformes AIOps réduisent les tickets d’incident. Les administrateurs passent de la lutte contre les incendies à la planification stratégique. Le temps moyen de résolution passe de quelques heures à quelques minutes, souvent résolu avant que les applications ne le remarquent.
À l’avenir, le stockage persistant sera aussi autonome que les systèmes électriques, toujours disponibles, auto-réparables, sans maintenance. La simplicité architecturale, les opérations d’AI et les plateformes unifiées rendront le stockage invisible pour les applications et les administrateurs.
Conclusion
Le stockage persistant est passé des baies de disques de base à la base d’une infrastructure cloud native. Pour passer des serveurs physiques aux conteneurs orchestrés par Kubernetes, il faut repenser la persistance des données, en allant au-delà du stockage traditionnel à plusieurs niveaux vers des plateformes unifiées et intelligentes.
L’Insight critique : La réussite permanente du stockage ne consiste pas à gérer la complexité, mais à l’éliminer. Qu’il s’agisse de mettre en œuvre des volumes persistants, de se protéger contre le Ransomware ou d’optimiser les charges de travail d’AI, les principes restent constants. Donnez la priorité à la simplicité architecturale, adoptez les avantages économiques du 100 % flash et exploitez l’automatisation.
Commencez par vérifier vos classes de stockage et identifier les charges de travail qui utilisent toujours la persistance sur disque. Implémentez l’immuabilité architecturale pour une protection contre le Ransomware avant que les attaques ne se produisent. Plus important encore, standardisez votre environnement sur des plateformes unifiées, en éliminant les frontières artificielles entre le stockage de fichiers, de blocs et d’objets.
Everpure FlashArray™ et FlashBlade® incarnent cette approche moderne, avec une latence constante inférieure à la milliseconde, une réduction de données de 10 :1 et une gestion pilotée par l’AI, pour éviter les problèmes avant qu’ils n’aient d’impact. Avec les snapshots SafeMode™ offrant une protection immuable sur le plan architectural et le stockage Evergreen™ ne nécessitant aucune migration, les entreprises se concentrent sur l’innovation plutôt que sur la maintenance de l’infrastructure. L’avenir du stockage persistant est unifié, intelligent et étonnamment simple.