Les entreprises modernes recueillent d’immenses quantités de données provenant de diverses sources, qu’elles doivent souvent analyser en temps réel. Le concept de Big Data renvoie aux données trop volumineuses, trop rapides ou trop complexes pour pouvoir être traitées à l’aide de techniques traditionnelles. Mais il induit également de nombreuses technologies et stratégies rendues possibles par ce volume de données, notamment en matière d’extraction d’informations : analytique prédictive, Internet des Objets, intelligence artificielle, et bien plus encore.
Selon Research and Markets, le marché mondial du Big Data devrait atteindre une valeur de 156 milliards de dollars d’ici 2026 — et que les entreprises ont de nombreuses raisons de participer à l’aventure. Découvrez ce qu’est le Big Data, d’où il vient, comment il peut être utilisé, et comment les entreprises peuvent préparer leurs infrastructures informatiques à en tirer le meilleur parti.
Bien que le concept de Big Data existe depuis longtemps, c’est l’analyste Doug Laney qui, en 2001, a été le premier à évoquer les trois V du Big Data. En voici la liste :
Certains experts des données élargissent cette définition à quatre ou cinq V, voire davantage. Les quatrième et cinquième V sont les suivants :
Et cette liste peut s’allonger jusqu’à 42 V. Quoi qu’il en soit, les cinq évoqués ci-dessus sont les plus couramment employés dans la définition du Big Data.
D’autre part, il existe deux catégories de Big Data, qui se distinguent par leur mode de traitement et par les questions et requêtes auxquelles ils permettent de répondre.
En savoir plus sur la différence entre le Big Data et les données classiques.
La notion de Big Data décrit l’ensemble des données non structurées collectées aujourd’hui, et la manière dont on en extrait des informations stratégiques fines. Elles proviennent de diverses sources :
En fonction de leur type, les données appellent différents modes de stockage. C’est le cas pour les données structurées et non structurées, qui nécessitent des bases de données, des outils de traitement, des supports de stockage et des outils d’analyse différents.
Les données structurées correspondent aux données classiques, qui s’intègrent parfaitement à des tableaux. Il est souvent facile de les classifier et de les formater en valeurs standard : prix, dates, périodes, etc.
Les données non structurées sont des données modernes, qu’il n’est pas si simple d’insérer dans un tableau. De nos jours, le terme est souvent synonyme de Big Data. On estime qu’elles constitueront 80 % des données dans les prochaines années. Toutes les données générées par les réseaux sociaux, l’IdO, les créateurs de contenus, le matériel de surveillance, etc., en font partie. Il peut s’agir de texte, d’images, de son ou de vidéo. Ces données constituent le moteur des nouvelles générations de stockage, tel que le stockage de fichier et d’objet rapide et unifié FlashBlade®. Pour utiliser leurs données non structurées, les entreprises doivent pouvoir s’appuyer sur une capacité de stockage plus importante, une puissance de traitement supérieure et une consolidation plus poussée des nombreux types de données.
En savoir plus sur les données structurées et non structurées.
Les étapes du cycle de vie du Big Data sont les suivantes (liste non exhaustive) :
Les usages professionnels sont nombreux et prometteurs. La valeur du Big Data réside dans les innovations qu’il peut aider à développer. Parmi les objectifs et applications possibles, on peut citer :
Le Big Data entraîne des besoins uniques, notamment en termes de stockage. Il est presque systématiquement intégré à une base de données (comme les données de streaming en temps réel), et comporte souvent une grande variété de formats. Il s’ensuit que la meilleure option de stockage est souvent un environnement sans schéma (non structuré), exécuté sur un système de fichiers distribué afin que le traitement puisse se faire en parallèle sur des ensembles de données considérables. Le Big Data est donc particulièrement adapté aux plateformes de stockage non structuré capables d’unifier les données en mode fichier et objet.
En savoir plus sur la différence entre un hub de données et un data lake.
L’essor de l’Internet des Objets (IdO) a entraîné une augmentation du volume de données à gérer sur toute une flotte de périphériques non distribués.
Au lieu d’attendre que les données d’IdO soient transférées et traitées à distance sur un site centralisé, par exemple un datacenter, l’informatique à la périphérie est une topologie distribuée dans laquelle les informations sont traitées localement, soit au point de contact entre les personnes et les appareils, là où les nouvelles données sont créées.
En plus de générer des économies d’argent et de bande passante, l’informatique à la périphérie permet aux entreprises de développer des applications plus efficaces, en temps réel, qui offrent une expérience utilisateur de grande qualité à leurs clients. Cette tendance est appelée à s’accentuer dans les années qui viennent, avec le déploiement de nouvelles technologies sans fil, par exemple la 5G.
Étant donné le nombre croissant d’appareils connectés à Internet, le volume de données à traiter en temps réel et à la périphérie ne fera qu’augmenter. Dans ces circonstances, comment proposer un stockage suffisamment distribué et agile pour répondre à la demande ? La réponse tient en quelques mots : le stockage natif dans des conteneurs.
Les plateformes d’informatique à la périphérie qui existent aujourd’hui, telles qu’AWS Snowball, Microsoft Azure Stack, ou Google Anthos, sont toutes basées sur Kubernetes, une plateforme d’orchestration en conteneur très appréciée. Grâce à Kubernetes, ces environnements sont capables d’exécuter des charges de travail d’ingestion de données, de stockage, de traitement, d’analyse et d’apprentissage automatique à la périphérie.
Un cluster Kubernetes multi-nœud exécuté en périphérie a besoin d’un moteur de stockage natif en conteneurs efficace, capable de répondre aux besoins de charges de travail centrées sur les données. En d’autres termes, les applications conteneurisées exécutées à la périphérie nécessitent une gestion du stockage granulaire. La plateforme de services de données Portworx® propose une structure « stateful » permettant de gérer des volumes de données compatibles avec les SLA des conteneurs.
Les avantages d’héberger le Big Data sur des baies 100 % flash sont les suivants :
Le volume relatif, la variété et la vitesse du Big Data ne cessent d’évoluer. Si vous tenez à préserver le volume et la rapidité de vos données, vous devez investir régulièrement dans les technologies de stockage dernier cri. Au vu des avancées réalisées dans le domaine des mémoires flash, il est devenu possible de produire des solutions de stockage 100 % flash personnalisées, parfaitement adaptées à tous vos niveaux de données. Découvrez ici comment Pure Storage® peut vous aider à optimiser votre pipeline d’analyse du Big Data :
Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ? Nous sommes là pour vous aider.
Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données.
Tél. : +33 1 89 96 04 00
Services Médias : pr@purestorage.com
Pure Storage France
32 rue Guersant
75017 Paris