En un entorno de ritmo rápido, necesita un sistema de archivos que permita lecturas simultáneas de varios nodos. El sistema de archivos paralelos general (GPFS) de IBM se desarrolló en 1998, pero es una opción para las empresas que aprovechan la inteligencia artificial (AI ) y el aprendizaje automático (ML ) en sus aplicaciones. Estas aplicaciones necesitan un almacenamiento de alto volumen y alto rendimiento accesible desde varios nodos para un procesamiento más rápido.
¿Qué es GPFS?
Las aplicaciones de nivel empresarial funcionan con varios discos con petabytes potenciales de datos almacenados. El sistema de archivos GPFS de IBM permite una entrega rápida de datos para evitar cuellos de botella de la tecnología de almacenamiento de disco más lenta. La nueva tecnología de GPFS distribuye sus metadatos en varios nodos de almacenamiento en disco, y los datos también se distribuyen en varios discos. La distribución de datos en varios discos permite que las aplicaciones recuperen datos de varios discos al mismo tiempo (es decir, en paralelo) para que se puedan recuperar más datos al mismo tiempo. Esta tecnología supera los cuellos de botella comunes cuando las aplicaciones se ven obligadas a esperar a que se recuperen todos los datos de un solo disco.
Características de GPFS
La entrada y salida paralelas en GPFS es lo que hace que el sistema de archivos sea una de las mejores opciones para las aplicaciones de AI y ML, pero la tecnología tiene varias otras:
- Funciona bien con miles de millones de archivos almacenados en una red de área de almacenamiento (SAN )
- Administración e integración convenientes de sus dispositivos SAN y GPFS
- Lecturas y escrituras de alta velocidad para admitir aplicaciones con usuarios simultáneos de alto volumen
- Lee y escribe exabytes de datos con baja latencia
Casos de uso para GPFS
La computación de alto rendimiento (HPC) requiere lo mejor en tecnología, pero las empresas a menudo olvidan que los cuellos de botella ocurren a nivel de almacenamiento. Puede tener disponibles las CPU, servidores, memoria y velocidades de transferencia de red más rápidas que se alimentan en hardware de almacenamiento para leer o escribir datos. Pero si su tecnología de almacenamiento es lenta, introduce un cuello de botella y ralentiza las aplicaciones.
Algunos casos de uso para GPFS:
- Ingeniería de rendimiento para centros de datos
- Aplicaciones que requieren grandes volúmenes de procesamiento de datos
- Procesamiento e incorporación de aprendizaje automático e inteligencia artificial
- Almacenamiento y procesamiento de aplicaciones múltiples
- Almacenamiento de gran volumen de varios petabytes
Arquitectura de GPFS
GPFS utiliza arquitectura distribuida, lo que significa que los datos abarcan varios dispositivos de almacenamiento. Varios servidores o ubicaciones SAN contienen sus datos, y varias conexiones de red vinculan estos dispositivos de almacenamiento. Cuando una aplicación necesita leer datos, puede usar varias ubicaciones de red para leer datos en paralelo, lo que significa que los datos se leen al mismo tiempo desde todas las ubicaciones de almacenamiento.
Algunos componentes clave en la arquitectura de GPFS:
- Los datos se almacenan en varias ubicaciones de almacenamiento, pero los metadatos que describen los datos también se almacenan en varios servidores.
- Los servidores que almacenan datos podrían estar en varias ubicaciones en la nube o en las instalaciones.
- Las conexiones de red rápidas interconectan las ubicaciones de almacenamiento y las aplicaciones con el almacenamiento GPFS.
- Las tecnologías avanzadas para los dispositivos de almacenamiento son esenciales.
GPFS frente a sistemas de archivos tradicionales
GPFS suele compararse con el Hadoop Distributed File System (HDFS). Ambos están destinados a almacenar grandes cantidades de datos, pero tienen algunas diferencias que afectan el rendimiento y la escalabilidad. Si bien ambos sistemas de archivos desglosan los datos y los almacenan en nodos en toda la red, GPFS tiene semántica Posix para permitir la compatibilidad con varias distribuciones de Linux y sistemas operativos, incluido Windows.
Los grandes servidores de metadatos primarios y secundarios son necesarios para la indexación de Hadoop, pero GPFS distribuye metadatos en todo el sistema sin la necesidad de servidores especializados. Los datos distribuidos también están en bloques más pequeños que Hadoop, por lo que las lecturas se producen más rápido, especialmente porque los datos se leen en paralelo. GPFS requiere más capacidad de almacenamiento de datos que Hadoop, pero es mucho más rápido durante los ciclos de lectura.
Mejores prácticas de GPFS
Para mantener las lecturas y escrituras de archivos a velocidades óptimas, primero asegúrese de tener la infraestructura de red para el rendimiento. Un sistema de almacenamiento GPFS leerá en paralelo, por lo que contar con equipos de red que prioricen el rendimiento garantiza que no será un cuello de botella para las transferencias de datos. La infraestructura de Pure Storage, que incluye Pure Cloud Block Store™, Portworx® y FlashArray™, preserva el rendimiento de las aplicaciones para las lecturas de discos de gran volumen.
El uso compartido de archivos debe utilizarse con puntos de montaje a nivel de directorio para que las aplicaciones no accedan a todo el sistema de archivos, incluidos los archivos del sistema operativo. El montaje basado en directorios en lugar de discos enteros protege mejor los datos y la integridad de los discos de alojamiento del servidor. Los administradores también deben separar los archivos confidenciales no relacionados con los procedimientos de lectura de aplicaciones para reducir los riesgos de acceso no autorizado.
Conclusiones
Si necesita un almacenamiento rápido para una potencia de procesamiento de alto rendimiento en aplicaciones de AI y aprendizaje automático, Pure Storage tiene la infraestructura para ayudar con la escalabilidad necesaria para el crecimiento empresarial y la satisfacción del usuario. Los administradores pueden implementar discos para HPC sin costosos aprovisionamiento e instalación. Nuestra infraestructura de HPC está diseñada para aportar integridad, rendimiento, escalabilidad y procesamiento de próxima generación a su aplicación de alta velocidad.