Una canalización de datos (o pipeline de datos) es el medio que permite que los datos viajen desde una ubicación a otra dentro del stack tecnológico de una organización. Puede incluir cualquier bloque de creación o de procesamiento que ayude a que los datos se muevan de un extremo a otro.
Las canalizaciones de datos suelen estar formadas por:
Los casos de uso típicos de las canalizaciones de datos son:
Los pipelines de datos pueden crearse internamente, pero actualmente lo más habitual es desarrollarlas en la nube, debido a la elasticidad y la flexibilidad que esta proporciona.
Un pipeline de datos permite que las organizaciones optimicen sus datos y maximicen su valor, al manipularlos de un modo que beneficia a la empresa. Por ejemplo, una empresa que desarrolle y venda una aplicación para automatizar los semáforos de las grandes ciudades podrá usar su pipeline de datos para que sus conjuntos de datos se entrenen para el aprendizaje automático con el fin de que la aplicación funcione de manera óptima en las ciudades y permita que los semáforos regulen eficientemente el tráfico en las calles.
Los beneficios principales de un pipeline de datos son:
La automatización y la orquestación son dos aspectos críticos de las canalizaciones de datos. La automatización de la canalización de datos es la capacidad para ejecutar cualquier componente de una canalización de datos en el momento y a la velocidad en los que necesita que se ejecuten. La orquestación de la canalización de datos es el proceso de ejecutar todos los componentes de manera coordinada.
La automatización completa del pipeline de datos permite que las organizaciones integren perfectamente los datos procedentes de diversas fuentes para impulsar las aplicaciones de la empresa y los análisis de datos, procesar rápidamente los datos en tiempo real para tomar mejores decisiones empresariales y escalar fácilmente las soluciones basadas en la nube.
La orquestación permite que los equipos de DataOps centralicen la administración y el control de los pipelines de datos de un extremo a otro. Gracias a ello, estos equipos pueden realizar sus tareas de supervisión y creación de informes y obtener avisos proactivos.
Al igual que los pipelines de datos, los sistemas de extracción, transformación y carga (ETL por sus siglas en inglés), también conocidos como pipelines ETL, llevan los datos de un lugar a otro.
Sin embargo, a diferencia de los pipelines de datos, los pipelines ETL, por definición:
Los sistemas ETL suelen ser (aunque no siempre) un subgrupo del pipeline de datos.
Un pipeline de datos tiene la misma eficiencia y eficacia de sus componentes. Un solo enlace débil o roto puede romper toda la canalización y generar una gran pérdida de inversiones y de tiempo.
Por eso, las empresas actuales buscan soluciones que les permitan sacar el máximo provecho de sus datos sin aumentar de manera significativa los costes.
Una solución de almacenamiento de datos como una plataforma de almacenamiento rápido y unificado de archivos y objetos (UFFO) consolida todos los datos —tanto estructurados como no estructurados— en una capa de datos accesible central. A diferencia de un almacén de datos, puede manejar datos operativos y, al contrario que un lago de datos, puede servir datos en múltiples formatos.
Una plataforma de almacenamiento UFFO también puede consolidar los data lakes y los almacenes de datos en una única capa de acceso y proporcionar la gobernanza de datos necesaria para optimizar la compartición de datos entre un conjunto variado de puntos finales. Con un hub de datos, el procesamiento de los datos queda oculto, lo que permite que su organización disponga de un lugar centralizado del que extraer la información de la inteligencia empresarial.
FlashBlade® de Pure Storage® es la plataforma de almacenamiento UFFO líder del sector. FlashBlade no solo puede manejar las cargas de trabajo de analíticas y de creación de informes de un almacén de datos, sino que además proporciona:
Introducción a FlashBlade.
No hardware, no setup, no cost—no problem. Experience a self-service instance of Pure1® to manage Pure FlashBlade™, the industry's most advanced solution delivering native scale-out file and object storage.