Las empresas de hoy en día recopilan enormes cantidades de datos de diversas fuentes, datos que suelen tener que analizarse en tiempo real. El término big data hace referencia a los datos que son demasiado grandes, rápidos o complejos para procesarse mediante las técnicas tradicionales. Pero también consta de varias tecnologías y estrategias que son posibles gracias a big data como campos de generación de inteligencia, por ejemplo análisis predictivo, internet de las cosas, inteligencia artificial, y más.
La investigación y los mercados informan que se espera que el mercado de big data alcance los $156 mil millones para el 2026, y que las empresas tienen muchas buenas razones para sumarse. Aquí repasaremos sobre lo que es big data, de dónde proviene, para qué puede usarse y de qué forma las empresas pueden preparar sus infraestructuras de TI para el éxito de big data.
Si bien el concepto de big data existe hace mucho tiempo, el analista de la industria Doug Laney fue el primero en acuñar las tres V de big data en el 2001. Las tres V son las siguientes:
Algunos expertos en datos amplían este concepto a cuatro, cinco o más V. La cuarta y la quinta V son las siguientes:
La lista puede llegar hasta las42 V; sin embargo, las cinco que mencionamos aquí son las más utilizadas a la hora de definir el concepto de big data.
También existen dos ideas diferentes de big data, que se diferencian en la forma en que están procesadas y a qué tipos de preguntas y consultas responden.
Obtenga más información sobre la diferencia entre big data y datos tradicionales.
Big data está realmente destinado a describir todos los datos modernos y no estructurados que se recopilan hoy y cómo se usan para la inteligencia y el conocimiento detallado. Estas fuentes generalmente incluyen:
Diferentes tipos de datos requieren diferentes tipos de almacenamiento. Este es el caso con los datos estructurados y no estructurados, que requieren diferentes tipos de bases de datos, procesamiento, almacenamiento y análisis.
Los datos estructurados son datos tradicionales que pueden ajustarse de forma ordenada en tablas. Los datos estructurados por lo general pueden categorizarse y organizarse de forma fácil en entradas con valores estándar como precios, fechas, horas, etc.
Los datos no estructurados son datos modernos que generalmente no son tan fáciles de adaptar en una tabla. En la actualidad, el concepto de datos no estructurados, por lo general, es sinónimo de big data y representará un estimado del 80 % de los datos en los próximos años. Incluye todos los datos generados por las redes sociales, IoT, creadores de contenido, vigilancia y más. Puede incluir texto, imágenes, sonido y videos. Es la fuerza motora que hay detrás de las nuevas categorías de almacenamiento como los objetos y archivos rápidos unificados (UFFO) FlashBlade®. Para usar los datos no estructurados, las empresas necesitan almacenamiento, más poder de procesamiento y mejor consolidación de varios tipos de datos.
Obtenga más información sobre datos estructurados frente a no estructurados.
El ciclo de vida de big data puede incluir, entre otros, lo siguiente:
Hay varios usos interesantes y efectivos para big data. Su valor yace en la innovación empresarial que los conocimientos sobre big data pueden ayudar a generar. Los objetivos y las aplicaciones de big data por lo general incluyen:
Ver más aplicaciones y casos de uso de big data específicos a la industria.
Big data tiene demandas únicas, en especial en términos de almacenamiento de datos. Se escriben prácticamente de forma constante a una base de datos (como es el caso de los datos de transmisión en tiempo real) y contienen una gran variedad de formatos. Como resultado, big data se almacena de mejor modo en un entorno sin esquema (no estructurado) para comenzar en un sistema de archivos distribuidos de tal manera que pueda darse el procesamiento en paralelo a través de conjuntos de datos masivos. Esto lo hace excelente para una plataforma de almacenamiento no estructurado que pueda unificar los archivos y datos de objetos.
Obtenga más información sobre la diferencia entre hub de datos y data lake.
El surgimiento de internet de las cosas (IoT) generó un incremento en el volumen de los datos que debe administrarse a través de flotas de los dispositivos distribuidos.
En lugar de esperar a que los datos de IoT se transfieran o procesen de forma remota en una ubicación centralizada como el data center, la computación frontera es una topología de computación distribuida en que la información es procesada de forma local en la “frontera”: la intersección entre las personas y los dispositivos, donde se crean nuevos datos.
La computación frontera no solo ahorra dinero y banda ancha de las empresas, también les permite desarrollar aplicaciones más eficientes y en tiempo real que ofrezcan una experiencia de usuario superior para sus clientes. Esta tendencia solo se acelerará en los próximos años con el lanzamiento de las nuevas tecnologías inalámbricas, como el 5G.
Como cada vez más dispositivos están conectados a internet, se espera un aumento en la cantidad de datos que se debe procesar en tiempo real y en la frontera. Entonces, ¿cómo proporciona almacenamiento de datos lo suficientemente distribuido y ágil como para cumplir con las crecientes demandas de almacenamiento de datos de la computación frontera? La respuesta corta es almacenamiento de datos nativo en contenedores.
Cuando observamos plataformas frontera existentes, como AWS Snowball, Microsoft Azure Stack y Google Anthos, vemos que están todas basadas en Kubernetes, una plataforma de organización de contenedores popular. Los Kubernetes permiten que estos entornos ejecuten cargas de trabajo para la incorporación de datos, el almacenamiento, el procesamiento, las técnicas de análisis y el aprendizaje automático en la frontera.
Un clúster de Kubernetes multinodo que se ejecute en la frontera necesita de un motor de almacenamiento nativo en contenedores eficiente que se encargue de las necesidades específicas de las cargas de trabajo centradas en los datos. En otras palabras, las aplicaciones en contenedor que se ejecutan en la frontera requieren de la administración de almacenamiento granular en contenedores. Portworx® es una plataforma de servicios de datos que ofrece una estructura sin pérdida de estado para administrar volúmenes de datos que tienen en cuenta el SLA de los contenedores.
Obtenga más información sobre la relación entre big data e IoT.
Los beneficios de alojar big data en matrices basadas íntegramente en tecnología flash incluyen:
El volumen, la variedad y la velocidad relativos de big data cambian de forma constante. Si desea mantener grandes cantidades de datos, y que sean rápidos, deberá asegurarse de invertir sistemáticamente en las nuevas tecnologías de almacenamiento. Los avances en la memoria flash han permitido ofrecer soluciones personalizadas de almacenamiento basado íntegramente en tecnología flash para todos sus niveles de datos. A continuación, le mostramos cómo Pure puede ayudar a impulsar sus procesos de técnicas de análisis de big data:
Almacenamiento flash de escalabilidad horizontal, rápida y eficiente, con FlashBlade.
¿Tiene alguna pregunta o comentario sobre los productos o las certificaciones de Pure? Estamos aquí para ayudar.
Programe una demostración en vivo y compruebe usted mismo cómo Pure puede ayudarlo a transformar sus datos en potentes resultados.
Llámenos: 800-976-6494
Medios de comunicación: pr@purestorage.com
Pure Storage, Inc.
2555 Augustine Dr.
Santa Clara, CA 95054
800-379-7873 (información general)