Por qué los sistemas de almacenamiento tradicionales no admiten los macrodatos

Los retos que plantean los macrodatos (y cómo superarlos)

Los macrodatos tienen varias cualidades —son no estructurados, dinámicos y complejos—. Aunque, quizá, lo más importante es que los macrodatos son grandes. Los humanos y los sensores del IdC producen billones de gigabytes de datos cada año. Pero no se trata del tipo de datos del pasado —son unos datos modernos, que se presentan en una gama de formatos cada vez más diversa y que proceden de una variedad cada vez más amplia de fuentes—.

Esto está generando una brecha entre los datos actuales y los sistemas tradicionales. Su tamaño y escala, junto con la velocidad y la complejidad, están haciendo que los sistemas de almacenamiento tradicionales estén sometidos a un nuevo tipo de presión. Muchos de estos sistemas están simplemente mal preparados y las organizaciones que quieren aprovechar esta mina de oro que ofrecen los datos acaban topando con obstáculos.

¿Por qué ocurre esto? ¿Cuáles son los grandes retos planteados por los macrodatos que hay que conocer? Si quiere aprovechar el poder de los macrodatos, ¿podrá superar estos retos con sus soluciones de almacenamiento?

1. Los macrodatos son demasiado grandes para el almacenamiento tradicional

Quizá el reto más evidente que plantean los macrodatos sea su enorme escala. Normalmente los medimos en petabytes (es decir, 1.024 terabytes o 1.048.576 gigabytes).

Para que se haga una idea de lo grandes que pueden ser los macrodatos, aquí tiene un ejemplo: los usuarios de Facebook suben un mínimo de 14,58 millones de fotos por hora. Cada foto genera además una serie de interacciones, como “me gusta” y comentarios. Los usuarios han indicado “me gusta” en al menos un billón de publicaciones, comentarios y otros puntos de datos.

Pero no solo los gigantes tecnológicos como Facebook almacenan y analizan enormes cantidades de datos. Incluso una pequeña empresa que se lleva una parte de la información de las redes sociales —por ejemplo, para ver lo que la gente dice sobre su marca— necesita una arquitectura de almacenamiento de datos de gran capacidad.

Los sistemas de almacenamiento de datos tradicionales pueden, en teoría, manejar grandes cantidades de datos. Sin embargo, cuando tienen que proporcionar la eficiencia y la información que necesitamos, simplemente no pueden hacer frente a las demandas de los datos modernos.

El rompecabezas de las bases de datos relacionales

Las bases de datos SQL relacionales son métodos fiables y trillados de almacenar, leer y escribir datos. Pero estas bases de datos pueden tener problemas para funcionar eficientemente, incluso antes de llegar a su capacidad máxima. Una base de datos relacional que contenga grandes cantidades de datos puede volverse lenta por numerosas razones. Por ejemplo, cada vez que introduce un registro en una base de datos relacional, el propio índice tiene que actualizarse. Esta operación tarda cada vez a medida que el número de registros se va incrementando. La introducción, la actualización, el borrado y la realización de otras operaciones pueden tardar más tiempo en función del número de relaciones que tienen con otras tablas.

En resumen: cuantos más datos hay en una base de datos relacional, más tiempo tarda cada operación.

Escalamiento vertical frente a escalamiento horizontal

También es posible escalar los sistemas de almacenamiento de datos tradicionales para mejorar su rendimiento. Sin embargo, como los sistemas de almacenamiento de datos tradicionales son centralizados, está obligado a escalarlos “verticalmente” en lugar de “horizontalmente”.

El escalamiento vertical es menos eficiente en cuanto a recursos que el escalamiento horizontal, ya que hay que añadir nuevos sistemas, migrar los datos y luego gestionar la carga entre múltiples sistemas. La arquitectura de almacenamiento de datos tradicional pronto se convierte en algo demasiado extenso y difícil de manejar correctamente.

Los intentos por usar una arquitectura de almacenamiento tradicional para los macrodatos están abocados al fracaso, en parte, porque la cantidad de datos hace que un escalamiento vertical suficiente no resulte realista. Esto convierte al escalamiento horizontal en la única opción viable. Usando un arquitectura de almacenamiento distribuida, puede añadir nuevos nodos a un clúster cuando ha alcanzado una determinada capacidad —y esto es algo que puede hacer prácticamente de manera indefinida—.

2. Los macrodatos son demasiado complejos para el almacenamiento tradicional

¿Otro gran reto que plantea el almacenamiento tradicional en relación con los macrodatos? La complejidad de los tipos de datos. Los datos tradicionales son “estructurados”. Puede organizarlos en tablas, con filas y columnas que están relacionadas de manera directa entre ellas.

Una base de datos relacional —el tipo de base de datos que almacena los datos tradicionales— está formada por unos registros que contienen unos campos claramente definidos. Puede acceder a este tipo de bases de datos usando un sistema de administración de bases de datos relacionales (RDBMS), como MySQL, Oracle DB o SQL Server.

Una base de datos relacional puede ser relativamente grande y compleja: puede estar compuesta por miles de filas y columnas. Pero lo que es crucial es que con una base de datos relacional puede acceder a un dato recurriendo a su relación con otro dato.

Los macrodatos no siempre encajan perfectamente en las filas y columnas relacionales de un sistema de almacenamiento de datos tradicional. En gran parte son no estructurados, están formados por una infinidad de tipos de datos y suelen incluir imágenes, vídeos, audios y contenido de las redes sociales. Por este motivo, las soluciones de almacenamiento tradicionales no son adecuadas para trabajar con los macrodatos. No pueden categorizarlos correctamente.

Las aplicaciones contenedorizadas modernas también crean nuevos retos para el almacenamiento. Por ejemplo, las aplicaciones de Kubernetes son más complejas que las aplicaciones tradicionales. Estas aplicaciones contienen muchos elementos —como pods, volúmenes y configmaps— y requieren actualizaciones frecuentes. El almacenamiento tradicional no puede ofrecer la funcionalidad suficiente para ejecutar Kubernetes eficazmente.

El uso de una base de datos no relacional (NoSQL), como MongoDB, Cassandra o Redis, puede permitirle obtener información muy valiosa de los complejos y variados conjuntos de datos no estructurados.

3. Los macrodatos son demasiado rápidos para el almacenamiento tradicional

Los sistemas de almacenamiento de datos tradicionales están pensados para una conservación estable de los datos. Puede añadir más datos regularmente y luego realizar análisis del nuevo conjunto de datos. Sin embargo, los macrodatos crecen casi al instante y los análisis muchas veces tienen que realizarse en tiempo real. Un RDBMS no está diseñado para las fluctuaciones rápidas.

Piense, por ejemplo, en los datos de los sensores. Los dispositivos del Internet de las cosas (IdC) tienen que procesar grandes cantidades de datos de sensores con una latencia mínima. Los sensores transmiten datos del “mundo real” a un ritmo casi constante. A los sistemas de almacenamiento tradicionales les cuesta mucho almacenar y analizar los datos que llegan a una velocidad tan alta.

Otro ejemplo es la ciberseguridad. Los departamentos informáticos tienen que inspeccionar cada paquete de datos que llega a través del cortafuegos de la empresa para comprobar si contiene código sospechoso. Es posible que a través de la red pasen a diario muchos gigabytes. Para evitar ser víctima de los ciberdelincuentes, los análisis tienen que producirse al instante —almacenar todos los datos en una tabla hasta el final del día no es una opción—.

El carácter muy rápido de los macrodatos no es nada bueno para los sistemas de almacenamiento tradicionales, lo que puede hacer que un proyecto falle o que no se cumpla un ROI.

4. Los retos planteados por los macrodatos exigen unas soluciones de almacenamiento modernas

Las arquitecturas de almacenamiento tradicionales son adecuadas para trabajar con datos estructurados. Pero cuando tienen que enfrentarse al carácter enorme, complejo y muy rápido de los macrodatos no estructurados, las empresas tienen que encontrar soluciones alternativas para empezar a obtener los resultados que buscan.

Los sistemas de almacenamiento no relacionales, escalables y distribuidos pueden procesar grandes cantidades de datos complejos en tiempo real. Este enfoque puede ayudar a las organizaciones a superar fácilmente los grandes retos que plantean los macrodatos —para empezar a recoger una información que impulse los avances—.

Si su arquitectura de almacenamiento tiene dificultades para seguir el ritmo de sus necesidades empresariales —o si quiere tener la ventaja competitiva de una empresa que utiliza los datos de un modo avanzado—, puede que sea muy aconsejable actualizarse a una solución de almacenamiento moderna, capaz de aprovechar toda la potencia de los macrodatos.

Pure ofrece una gama de soluciones de almacenamiento como servicio (STaaS) sencillas y fiables, que se pueden escalar para operaciones de cualquier tamaño y que son adecuadas para todos los casos de uso. Obtenga más información o póngase en marcha hoy mismo.