Un pipeline de données assure le transport des données d’un endroit à un autre au sein de la pile technologique d’une organisation. Il peut inclure toutes sortes de blocs de construction ou de traitement facilitant le déplacement des données d’une extrémité à l’autre.
Un pipeline de données se compose généralement de plusieurs éléments :
Les pipelines de données sont le plus souvent utilisés pour :
Les pipelines de données peuvent être créés localement mais sont de plus en plus établis dans le cloud du fait de l’élasticité et de la flexibilité qu’il offre.
Avec un pipeline de données, les organisations peuvent optimiser leurs données et maximiser leur valeur en les manipulant de façon à en faire profiter l’entreprise. Imaginons par exemple une société qui développe et vend une application destinée à automatiser les feux rouges dans les grandes villes. Avec son pipeline de données, elle pourra entraîner ses jeux de données pour l’apprentissage machine afin d’optimiser le fonctionnement de l’application et donc la synchronisation des feux rouges et améliorer la circulation dans la ville.
Un pipeline de données présente de nombreux avantages, notamment :
L’automatisation et l’orchestration sont deux aspects essentiels des pipelines de données. L’automatisation du pipeline de données est la capacité à exécuter chacun des composants du pipeline au moment et à la vitesse voulus. L’orchestration du pipeline de données est le processus consistant à exécuter l’ensemble des composants de manière coordonnée.
L’automatisation complète du pipeline de données permet aux organisations d’intégrer de façon harmonieuse les données provenant de différentes sources pour alimenter les applications métier et l’analytique, traiter rapidement les données en temps réel pour améliorer les résultats de l’entreprise et faciliter l’évolution des solutions basées sur le cloud.
L’orchestration permet aux équipes DataOps de centraliser la gestion et le contrôle de l’intégralité des pipelines de données. Elle leur permet également d’assurer la surveillance, d’établir des rapports et d’obtenir des alertes préventives.
Comme les pipelines de données, les systèmes ETL (Extract, Transform, Load), également appelés pipelines ETL, déplacent les données d’un endroit à un autre.
Mais par définition, les pipelines ETL, contrairement aux pipelines de données :
Les systèmes ETL sont souvent, mais pas systématiquement, intégrés à un pipeline de données.
L’efficacité et la performance d’un pipeline dépendent de celles de ses composants. Il suffit d’une liaison défectueuse ou rompue pour que le pipeline entier soit interrompu et entraîne des pertes importantes en investissements et en temps.
Cela explique que les entreprises actuelles recherchent des solutions qui les aident à tirer le meilleur parti de leurs données sans trop augmenter leurs dépenses.
Une solution de stockage de données, par exemple une plateforme de stockage de fichiers et d’objets rapide et unifié (UFFO), permet de rassembler toutes les données, qu’elles soient structurées ou non, dans une couche de données centralisée et accessible. Contrairement à un data warehouse, cette plateforme est capable de gérer les données opérationnelles, et contrairement à un data lake, elle peut proposer des données dans différents formats.
Une plateforme de stockage UFFO peut également regrouper des data lakes et des data warehouses sur une même couche d’accès et assurer la gouvernance des données afin de simplifier le partage de données entre des points de terminaison très variés. Avec un data hub, le traitement de données est déplacé, ce qui permet à l’entreprise de bénéficier d’un emplacement centralisé d’où seront extraites les informations stratégiques de Business Intelligence (BI).
Pure Storage® FlashBlade® est la plateforme de stockage UFFO leader du marché. En plus de gérer les charges de travail d’analytique et de reporting d’un data warehouse, FlashBlade offre :
Démarrer avec FlashBlade.
Zéro matériel, zéro configuration, zéro frais = zéro problème. Essayez une instance de Pure1® en libre-service pour gérer Pure FlashBlade™, la solution native scale-out la plus avancée du secteur pour le stockage de fichiers et d’objets.
Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ? Nous sommes là pour vous aider.
Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données.
Tél. : +33 1 89 96 04 00
Services Médias : pr@purestorage.com
Pure Storage France
32 rue Guersant
75017 Paris