Contactar con nosotros

Pure Knowledge
¿Qué es el almacenamiento persistente?

¿Qué es el almacenamiento persistente?

Cuando los contenedores se reinician, las aplicaciones empresariales pierden datos críticos, a menos que haya implementado correctamente el almacenamiento persistente. Este requisito fundamental de la infraestructura determina si sus aplicaciones con estado mantienen la integridad de los datos o sufren pérdidas catastróficas durante las operaciones rutinarias.

El almacenamiento persistente es un mecanismo de almacenamiento de datos que conserva la información más allá del ciclo de vida de las aplicaciones, los contenedores o los reinicios del sistema. A diferencia del almacenamiento efímero que desaparece cuando un contenedor termina, el almacenamiento persistente garantiza que las bases de datos, los sistemas de archivos y el estado de la aplicación sobrevivan independientemente de los cambios en la infraestructura. Para las organizaciones que ejecutan cargas de trabajo de Kubernetes, esto significa que PersistentVolumes mantiene los datos incluso cuando los pods se crean, destruyen y reprograman entre clústeres.

El reto no es solo implementar el almacenamiento persistente, sino que lo hace de manera eficiente a escala empresarial. Los enfoques tradicionales que utilizan almacenamiento por niveles y sistemas basados en disco crean una complejidad innecesaria y aumentan los costes. Las arquitecturas all-flash modernas proporcionan una mejor rentabilidad que la persistencia tradicional basada en disco, sobre todo cuando se accede regularmente a la mayoría de los datos supuestamente "fríos".

Esta guía examina el almacenamiento persistente tanto desde el punto de vista de la implementación técnica como de la estrategia empresarial. Descubrirá cómo Kubernetes maneja la persistencia a través de StorageClasses y PersistentVolumeClaims, por qué ya no se aplican los supuestos de almacenamiento tradicionales y cómo diseñar un almacenamiento persistente que se escale sin migraciones ni ciclos de renovación.

La evolución del almacenamiento persistente

Los servidores físicos alguna vez garantizaron el acceso permanente al disco local, un lujo que desapareció con la virtualización y la contenedorización. Este cambio cambió fundamentalmente el modo en que las aplicaciones manejan la persistencia de los datos.

La virtualización introdujo las redes de área de almacenamiento (SAN), lo que permitió que las máquinas virtuales migrasen entre hosts manteniendo al mismo tiempo el acceso a los datos. Esto funcionó para las aplicaciones monolíticas, pero creó cuellos de botella cuando las organizaciones necesitaban un escalamiento rápido.

Las plataformas de orquestación de contenedores como Kubernetes han transformado la persistencia una vez más mediante la abstracción. En lugar de gestionar los montajes LUN o NFS directamente, los desarrolladores solicitan almacenamiento a través de Reclamaciones de volumen persistente que se vinculan automáticamente a los Volúmenes persistentes disponibles. Esta abstracción permite la portabilidad, pero plantea nuevos retos: garantizar la coherencia del rendimiento, gestionar las clases de almacenamiento de manera efectiva y prevenir la pérdida de datos durante las migraciones de pods.

El cambio a los microservices amplifica estos retos. Las arquitecturas modernas requieren un almacenamiento persistente para docenas de servicios con estado, cada uno con diferentes requisitos de rendimiento. El almacenamiento por niveles tradicional que segrega los datos "calientes" y "fríos" resulta ineficiente cuando los patrones de acceso cambian constantemente.

Cómo funciona el almacenamiento persistente en una infraestructura moderna

El almacenamiento persistente en Kubernetes funciona a través de una capa de abstracción que separa el aprovisionamiento de almacenamiento del consumo. Esta arquitectura permite que las aplicaciones soliciten almacenamiento sin conocer los detalles de la implementación.

Arquitectura de almacenamiento persistente de Kubernetes

El subsistema PersistentVolume (PV) gestiona los recursos de almacenamiento independientemente de los ciclos de vida de los pods. Cuando un pod necesita almacenamiento, crea una reclamación de volumen persistente (PVC) que especifica los requisitos de capacidad, modo de acceso y clase de almacenamiento. Kubernetes entonces hace coincidir esta afirmación con un Volumen persistente disponible o aprovisiona dinámicamente uno a través del proveedor de almacenamiento configurado.

Esta vinculación es permanente —una vez que un PVC se une a una PV, esa relación persiste hasta que se borra explícitamente. Incluso si el pod falla o migra a otro nodo, los datos permanecen intactos y accesibles. El controlador de la interfaz de almacenamiento de contenedores (CSI) del proveedor de almacenamiento gestiona el acoplamiento y el desacoplamiento reales de los volúmenes en los nodos.

Clases de almacenamiento y aprovisionamiento dinámico

Las clases de almacenamiento definen diferentes niveles de almacenamiento con características de rendimiento específicas. En lugar de precrear volúmenes, los administradores configuran StorageClasses que aprovisionan automáticamente el almacenamiento cuando las aplicaciones lo solicitan. Una empresa típica puede definir:

"fast-ssd" para las bases de datos que requieren IOPS altas
"estándar" para cargas de trabajo generales
"archivo" para la conservación a largo plazo

El aprovisionamiento dinámico elimina el flujo de trabajo tradicional, en el que los administradores crean manualmente volúmenes para cada aplicación. Cuando los desarrolladores despliegan aplicaciones con estado con PVC que hacen referencia a StorageClass, el sistema de almacenamiento crea automáticamente volúmenes del tamaño adecuado con características de rendimiento correctas. Esta automatización reduce el tiempo de aprovisionamiento de días a segundos.

Modos de acceso y políticas de recuperación

Los volúmenes persistentes admiten tres modos de acceso:

ReadWriteOnce (RWO): Volumen montado como lectura-escritura por un solo nodo
SololecturaMuchos (ROX): Volumen montado como solo lectura por múltiples nodos
ReadWriteMany (RWX): Volumen montado como lectura-escritura por múltiples nodos

La política de reclamación determina lo que ocurre cuando se elimina un PVC. "Eliminar" elimina tanto la PV como el almacenamiento subyacente, mientras que "Retener" conserva los datos para la limpieza manual. Entender estas políticas evita la pérdida accidental de datos.

Almacenamiento persistente frente al almacenamiento efímero

La distinción entre el almacenamiento persistente y el efímero da forma a las decisiones sobre la arquitectura de las aplicaciones. Entender mal sus características conlleva la pérdida de datos, problemas de rendimiento y costes innecesarios.

Característica	Almacenamiento persistente	Almacenamiento efímero
Ciclo de vida de los datos	Sobrevive a los reinicios de los pods y a los fallos de los nodos	Se borra cuando finaliza el pod
Rendimiento	IOPS coherentes, latencia de red	IOPS variable, latencia local
Coste	0,10-0,20 $/GB/mes típico	Incluido con la computación
Casos de uso	Bases de datos, almacenamiento de archivos, estado de la aplicación	Caché, archivos temporales, artefactos de compilación
Requisitos de las copias de seguridad	Esencial para la continuidad operativa	No es necesario

Slide

El almacenamiento efímero es excelente para los datos temporales que pueden regenerarse, las capas de imagen de contenedores, los artefactos de compilación y los archivos de procesamiento temporal. El uso del almacenamiento efímero para estas cargas de trabajo reduce los costes y las complejidades y mejora el rendimiento gracias al acceso al disco local.

El almacenamiento persistente se vuelve esencial cuando los datos tienen que sobrevivir más allá del ciclo de vida de un pod. Más allá de las bases de datos, los registros de las aplicaciones para el cumplimiento normativo, las cargas de usuarios y los archivos de configuración requieren persistencia. Las plataformas de supervisión generan gigabytes de métricas y seguimientos persistentes por aplicación a diario.

El coste oculto de elegir compuestos incorrectos con el tiempo. Las organizaciones que adoptan de manera predeterminada el almacenamiento persistente para todo se enfrentan a costes crecientes y gastos generales de gestión. Aquellos que no aprovisionan lo suficiente se arriesgan a perder datos cuando el almacenamiento efímero se llena inesperadamente. Asegúrese de analizar los requisitos del ciclo de vida de los datos antes de la implementación, no después de que se produzcan los incidentes.

Ventajas e inconvenientes del almacenamiento persistente

Todas las empresas necesitan datos persistentes, pero el reto es preservar la integridad y la disponibilidad de los datos después de realizar cambios en ellos. La mayoría de las bases de datos tienen una tecnología avanzada para reducir las “lecturas sucias”, lo que hace que los datos incorrectos se devuelvan y se almacenen potencialmente en el disco. Los archivos de registro realizan un seguimiento de las transacciones de la base de datos para evitar la pérdida de integridad de los datos.

Las empresas deben tener un plan de almacenamiento de datos para mantener los datos homogéneos y seguros. Los datos deben normalizarse para que los datos sigan siendo coherentes en todas las aplicaciones y no se actualicen en múltiples lugares, lo que puede provocar imprecisiones. Todos los datos deben estar seguros usando reglas de autenticación y autorización y deben existir sistemas de supervisión para detectar cualquier actividad sospechosa.

El almacenamiento en la nube ofrece una opción flexible para que las empresas mantengan unos presupuestos de TI bajos y reduzcan los gastos generales de mantenimiento. Los administradores tienen características integradas para proteger las copias de seguridad de las bases de datos y los datos de producción y no necesitan mantener el hardware. Las empresas siempre deben tener copias de seguridad de sus datos persistentes y la nube ofrece la escalabilidad necesaria para aumentar la capacidad a medida que se recogen y almacenan más datos.

Implementación del almacenamiento persistente: Mejores prácticas empresariales

La implementación exitosa requiere una planificación estratégica alineada con los requisitos de la empresa. Las organizaciones que se apresuran en la implementación sin evaluación se enfrentan a cuellos de botella en el rendimiento, costes inesperados y problemas de migración.

Evaluación previa a la implementación

Empiece clasificando las cargas de trabajo en tres niveles:

Crítico: Bases de datos, registros de transacciones
Importante: Estado de la aplicación, datos de usuario
Temporal: Caché, procesamiento intermedio

Los requisitos de rendimiento varían drásticamente. Las bases de datos de alto rendimiento pueden necesitar miles de IOPS con una latencia de submilisegundos, mientras que un CMS puede funcionar adecuadamente con 1000 IOPS. Documente explícitamente los requisitos —las especificaciones vagas, como el "almacenamiento rápido", conllevan un aprovisionamiento excesivo.

Estrategia multinube

Las implementaciones multinube complican el almacenamiento persistente. El rendimiento varía significativamente —un volumen que proporcione 16.000 IOPS en AWS puede lograr resultados diferentes en Azure con especificaciones idénticas—.

Las organizaciones que operan en múltiples nubes a menudo se enfrentan a una mayor sobrecarga de administración del almacenamiento. ¿La solución? Estandarizar en una única plataforma de gestión de datos que abstrae las diferencias de los proveedores y mantiene un rendimiento constante.

Almacenamiento persistente a escala empresarial

El escalamiento más allá de la Proof of Concept revela complejidades que las implementaciones básicas nunca encuentran. Los entornos empresariales exigen un rendimiento garantizado, el cumplimiento normativo y la sostenibilidad económica en miles de volúmenes persistentes.

Requisitos de rendimiento para las bases de datos de producción

La coherencia de latencia es más importante que la latencia media. Una base de datos con una latencia media de 500 microsegundos, pero con picos ocasionales de 50 milisegundos, tiene un rendimiento peor que una con una latencia constante de 1 milisegundo.

La relación entre el rendimiento del almacenamiento y el rendimiento de la base de datos no es lineal. El hecho de duplicar las IOPS de 10 000 a 20 000 solo puede mejorar el rendimiento de las transacciones en un 30% si la latencia permanece sin cambios.

La optimización de la profundidad de las colas se convierte en algo fundamental a escala. El aumento de la profundidad de las colas de 32 a 128 puede mejorar significativamente el rendimiento de las cargas de trabajo paralelas, aunque puede aumentar ligeramente la latencia de las operaciones en serie.

Recuperación de Desastres y Continuidad del Negocio

Los objetivos de tiempo de recuperación (RTO) y los objetivos de Recovery Point (RPO) impulsan la toma de decisiones sobre la arquitectura. Para lograr un RTO de menos de horas se necesita una replicación síncrona, lo que duplica los costes de almacenamiento y afecta al rendimiento debido a los retrasos en la confirmación de escritura.

La protección basada en las copias instantáneas ofrece un punto medio. Los sistemas modernos crean copias instantáneas coherentes con los choques cada 15 minutos con un impacto mínimo. Se recomienda que las organizaciones mantengan unas políticas de conservación adecuadas, equilibrando las necesidades de recuperación con los costes de almacenamiento.

La Disaster Recovery entre regiones añade complejidad. La física de la red dicta que la replicación de costa a costa añade 40-50 milisegundos de latencia. Muchas empresas implementan enfoques por niveles: replicación síncrona localmente para un RPO cero, con replicación asíncrona a regiones distantes para una protección de fallos catastróficos.

La tenencia múltiple y el aislamiento de recursos

Los despliegues de Kubernetes empresariales alojan a múltiples equipos en una infraestructura compartida, lo que requiere un aislamiento estricto. Las cuotas de almacenamiento impiden la monopolización de la capacidad, pero no abordan el aislamiento del rendimiento. Un trabajo de análisis de datos puede arruinar las bases de datos de IOPS en el mismo back-end.

Las políticas de calidad del servicio (QoS) permiten garantizar el rendimiento por inquilino. Las garantías mínimas de IOPS garantizan que las aplicaciones críticas mantengan el rendimiento durante la contención. Los límites máximos de IOPS impiden que las cargas de trabajo embaladas monopolicen los recursos.

El aislamiento de recursos se extiende a la seguridad y el cumplimiento normativo. Las organizaciones sanitarias deben garantizar que los datos regulados por la HIPAA permanezcan en sistemas de almacenamiento específicos con cifrado. Los servicios financieros necesitan pruebas de residencia de datos para cumplir las normativas.

Protección del almacenamiento persistente frente al Ransomware

Ransomware se dirige cada vez más al almacenamiento persistente, porque las bases de datos cifradas paralizan las operaciones. Las estrategias de copia de seguridad tradicionales fracasan cuando los atacantes obtienen acceso administrativo y eliminan tanto los datos primarios como las copias de seguridad.

La vulnerabilidad se deriva del diseño fundamental: los administradores necesitan funcionalidades de eliminación para el mantenimiento rutinario. Los atacantes con credenciales comprometidas heredan estos privilegios, lo que les permite cifrar volúmenes y eliminar copias instantáneas. Incluso las copias instantáneas "inmutables" de muchos sistemas pueden eliminarse mediante llamadas API o puertas traseras de soporte.

Inmutabilidad arquitectónica para volúmenes persistentes

La verdadera inmutabilidad requiere sistemas de almacenamiento que físicamente no puedan eliminar los datos antes de que caduque la retención, independientemente de las credenciales. No se trata de un control de acceso basado en roles, es la ausencia completa de rutas de código de eliminación. Cuando una copia instantánea se marca como inmutable durante 30 días, ninguna combinación de llamadas API, intervenciones de soporte o acceso físico puede eliminarla.

La implementación incluye rutas de escritura una vez reforzadas por hardware y verificación criptográfica de las políticas de retención. Los controladores de almacenamiento validan la retención mediante módulos de hardware seguros que el software no puede anular. Esto transforma el almacenamiento persistente de un objetivo de Ransomware a una solución de Ransomware.

La recuperación con un almacenamiento persistente inmutable tarda horas en lugar de semanas. Las organizaciones identifican la última copia instantánea limpia, restauran volúmenes y reanudan las operaciones. El tiempo medio de recuperación cae drásticamente con copias instantáneas inmutables correctamente configuradas.

Almacenamiento persistente para cargas de trabajo de IA y Machine Learning

Las cargas de trabajo de IA hacen que el almacenamiento persistente sea un elemento único. Los conjuntos de datos de entrenamiento suelen superar los 100TB y los modelos leen conjuntos de datos completos varias veces por época. Los clústeres de GPU, que cuestan miles por hora, permanecen inactivos cuando el almacenamiento no puede proporcionar datos con la suficiente rapidez, lo que afecta a la mayoría de las iniciativas de IA.

El reto combina ancho de banda, latencia y patrones de acceso simultáneos. El entrenamiento distribuido puede tener 64 GPU que leen simultáneamente diferentes porciones del conjunto de datos mientras escriben puntos de control. Las arquitecturas tradicionales que canalizan I/O a través de unos pocos controladores crean cuellos de botella, con lo que se desperdician costosos cálculos.

Optimización del uso de la GPU

Las arquitecturas paralelas modernas diseñadas para la IA logran un uso de la GPU del 98%, mientras que los enfoques tradicionales suelen quedar cortos. GPU La clave es eliminar los cuellos de botella de los controladores mediante arquitecturas escalables horizontalmente, en las que cada nodo de almacenamiento proporciona datos directamente. La adición lineal de nodos aumenta tanto la capacidad como el rendimiento.

La optimización de los puntos de control es crucial. Los modelos de lenguaje grande generan más de 1TB de puntos de control que deben escribir sin interrumpir el entrenamiento. Las I/O de punto de control pueden afectar significativamente al rendimiento del entrenamiento. El almacenamiento de punto de control dedicado con optimización de escritura permite el control de puntos paralelos manteniendo al mismo tiempo el uso de la GPU.

La economía del almacenamiento de IA difiere fundamentalmente. Si bien las empresas suelen optimizar la capacidad por dólar, la IA optimiza el uso de la GPU por dólar. La duplicación de la inversión en almacenamiento para mejorar el uso de la GPU del 50% al 90% puede proporcionar un 80% más de computación sin GPU adicionales. La inversión en almacenamiento se amortiza en semanas.

Consideraciones sobre los pipelines de datos

Las canalizaciones de ML requieren un almacenamiento persistente que admita múltiples protocolos simultáneamente. Los científicos de datos utilizan NFS a través de cuadernos de Jupyter mientras entrenan los trabajos para acceder a ellos a través de S3. El almacenamiento tradicional obliga a separar las copias por protocolo, triplicando los costes y creando pesadillas de sincronización.

Las plataformas unificadas pueden tener una reducción significativa del almacenamiento mediante la consolidación de protocolos. Un único espacio de nombres accesible a través de cualquier protocolo significa que S3-ingested están inmediatamente disponibles para las herramientas basadas en NFS sin copiar. Esto reduce la preparación de los datos de días a horas y reduce drásticamente los requisitos de almacenamiento.

El futuro de la tecnología de almacenamiento persistente

Los ejecutivos del sector predicen que el sector del flash podría sustituir por completo la producción de capacidad del sector de los discos duros para 2028, lo que hace que el almacenamiento persistente totalmente flash sea la única opción. No se trata solo de un cambio tecnológico, es una inevitable económica, ya que los precios del flash caen mientras las unidades de disco alcanzan límites físicos.

La muerte del almacenamiento por niveles representa el mayor cambio. Cuando todo el almacenamiento se ejecuta en flash con una reducción de datos de 10:1, el argumento económico para niveles más lentos se evapora. Con la mayoría de los datos "fríos" a los que se accede con regularidad, los gastos generales por niveles superan cualquier ahorro. Las arquitecturas futuras proporcionarán un rendimiento uniforme para todos los datos.

Memoria persistente y memoria de clase de almacenamiento

Las tecnologías de memoria persistente emergentes difuminan los límites del almacenamiento de memoria. La capacidad limita actualmente la memoria persistente a los Metadata y al almacenamiento en caché, pero las tecnologías de última generación prometen que los módulos a escala de terabytes sustituirán el almacenamiento tradicional para las cargas de trabajo sensibles a la latencia.

Esto permite nuevas arquitecturas de aplicaciones. Las bases de datos mantienen los índices en la memoria persistente para las respuestas a las consultas de microsegundos. Las colas de mensajes logran millones de operaciones por segundo con una persistencia total. Los análisis en tiempo real procesan los datos de transmisión sin la complejidad de la arquitectura lambda.

Almacenamiento persistente autogestionado

La IA transforma el almacenamiento persistente de la infraestructura gestionada a los sistemas autónomos. Las plataformas modernas analizan volúmenes de telemetría masivos a diario, prediciendo los fallos con mucha antelación y con una gran precisión. Los sistemas reequilibran automáticamente las cargas de trabajo, optimizan el rendimiento y piden piezas de repuesto antes de los fallos.

Las plataformas AIOps reducen los tickets de incidentes. Los administradores pasan de la extinción de incendios a la planificación estratégica. El tiempo medio de resolución se reduce de horas a minutos —a menudo se resuelve antes de que las aplicaciones se den cuenta—.

En el futuro, el almacenamiento persistente será tan autónomo como los sistemas eléctricos —siempre disponibles, autorreparables y sin necesidad de mantenimiento—. La simplicidad arquitectónica, el funcionamiento de la IA y las plataformas unificadas harán que el almacenamiento sea invisible para las aplicaciones y los administradores.

Conclusión

El almacenamiento persistente ha evolucionado de las cabinas de disco básicas a la base de una infraestructura nativa de la nube. El proceso de pasar de los servidores físicos a los contenedores orquestados por Kubernetes exige replantearse la persistencia de los datos —pasando del almacenamiento por niveles tradicional a las plataformas unificadas e inteligentes—.

La Insight crítica: El éxito persistente del almacenamiento no consiste en gestionar la complejidad, sino en eliminarla. Tanto si se implementan volúmenes persistentes como si se protege del Ransomware o se optimizan las cargas de trabajo de IA, los principios siguen siendo coherentes. Priorice la simplicidad de la arquitectura, adopte la economía totalmente flash y aproveche la automatización.

Empiece auditando sus clases de almacenamiento e identificando las cargas de trabajo que siguen usando la persistencia basada en disco. Implemente la inmutabilidad arquitectónica para la protección frente al Ransomware antes de que se produzcan los ataques. Y lo que es más importante, estandarice en plataformas unificadas, eliminando los límites artificiales entre el almacenamiento de archivos, bloques y objetos.

Everpure FlashArray™ y FlashBlade® ejemplifican este enfoque moderno, que proporciona una latencia constante de submilisegundos, una reducción de datos de 10:1 y una gestión IA impulsada por IA, evitando los problemas antes de que se produzcan los impactos. Las empresas se centran en la innovación en lugar de en el mantenimiento de la infraestructura, ya que las copias instantáneas SafeMode™ proporcionan una protección arquitectónicamente inmutable y el almacenamiento Evergreen™ nunca requiere migración. El futuro del almacenamiento persistente es unificado, inteligente y sorprendentemente sencillo.

Explore los recursos y eventos clave

VÍDEO

Ver: El valor de Enterprise Data Cloud.

Charlie Giancarlo explica por qué la gestión de los datos —y no del almacenamiento— es el futuro. Descubra cómo un enfoque unificado transforma las operaciones de TI de la empresa.

Ver ahora

RECURSO

El almacenamiento tradicional no puede impulsar el futuro.

Las cargas de trabajo modernas exigen velocidad, seguridad y escala preparadas para la IA. ¿Su stack está listo?

Realice la evaluación

DEMOS DE PURE360

Explore, aprenda y experimente Pure Storage.

Acceda a vídeos y demostraciones bajo demanda para ver lo que Pure Storage puede hacer.

Ver las Demos

LIDERAZGO INTELECTUAL

La carrera por la innovación

Las últimas ideas y puntos de vista de los líderes del sector que están a la vanguardia de la innovación en almacenamiento.

Más información

Your Browser Is No Longer Supported!

Older browsers often represent security risks. In order to deliver the best possible experience when using our site, please update to any of these latest browsers.

Personalize for Me

Steps Complete!

Edit My Preferences

Start a Chat

Start Over

Select an outcome priority

Back

Select an industry
Select a team