Le Big Data offre des opportunités colossales aux entreprises : des informations plus pertinentes sur les comportements des clients, des prévisions plus précises de l’activité du marché et une meilleure efficacité globale.
Chaque année, les personnes et les organisations génèrent un nombre croissant de données. D’après un rapport IDC, 1,2 zettaoctets de données (soit 1,2 trillions de gigaoctets) ont été créées en 2010. D’ici 2025, ce chiffre pourrait atteindre 175 zettaoctets (175 trillions de gigaoctets), voire davantage1.
À mesure que les entreprises exploitent cette ressource florissante via de outils d’analyse prédictive et d’exploration des données, le marché du Big Data s’étoffera. Une étude menée par Statista prévoit que la valeur de ce marché sera multipliée par deux entre 2018 et 2027, passant de 169 milliards de dollars à 274 milliards de dollars.
Mais quelles sont les principales différences entre le Big Data et les données classiques ? Et quelles en sont les conséquences pour les technologies de stockage, de traitement et d’analyse actuelles ? Nous allons présenter les utilisations des différents types de données, en insistant sur l’intérêt d’une stratégie de réussite basée à la fois sur le Big Data et les données classiques.
Les données classiques correspondent aux données structurées et relationnelles que les entreprises stockent et traitent depuis des dizaines d’années. Actuellement, elles représentent encore la majorité des données dans le monde.
Les entreprises peuvent utiliser ces données classiques pour assurer un suivi de leurs ventes ou gérer leurs relations clients et leurs flux métier. Elles sont souvent plus faciles à manipuler et peuvent être gérées à l’aide de logiciels de traitement conventionnels. Cela dit, elles fournissent généralement des informations moins sophistiquées et offrent des avantages plus restreints que le Big Data.
La notion de Big Data désigne à la fois un ensemble considérable et complexe de données, et les méthodes utilisées pour les traiter. Le Big Data présente quatre caractéristiques principales, souvent appelées « les 4 V » :
Pour distinguer le Big Data des données classiques, on s’appuie sur plusieurs caractéristiques, notamment :
Les volumes de données classiques sont généralement mesurés en gigaoctets, voire en téraoctets. Elles peuvent donc être rassemblées dans un stockage centralisée, parfois même sur un seul serveur.
Pour le Big Data, en revanche, les notions de quantité et de volume sont définitoires. On le mesure généralement en pétaoctets, en zettaoctets ou en exaoctets. Le volume de plus en plus conséquent des ensembles de Big Data est l’un des principaux facteurs expliquant la croissance de la demande en solutions de stockage haute capacité basées sur le cloud.
Les données classiques, structurées, sont organisées sous forme de dossiers, de fichiers et de tableaux. Les champs des ensembles de telles données sont relationnels, de sorte qu’il est possible d’identifier des liens entre elles et de les gérer en fonction de ces éléments. Les bases de données classiques, telles que SQL, Oracle DB et MySQL, utilisent un schéma fixe, statique et préconfiguré.
Le Big Data, quant à lui, utilise un schéma dynamique. Les données contenues dans le système de stockage sont brutes et non structurées. Pour accéder au Big Data, ce schéma dynamique est appliqué aux données brutes. Des bases de données modernes, non relationnelles ou NoSQL, comme Cassandra et MongoDB, conviennent parfaitement aux données non structurées en raison de leur manière de stocker les données dans les fichiers.
Les données classiques sont généralement gérées via une architecture centralisée, qui peut se révéler plus abordable et plus sûre pour des ensembles de données structurées plus restreints.
Généralement, un système centralisé est constitué d’un ou plusieurs nœuds clients (ordinateurs ou appareils mobiles, par exemple) reliés à un nœud central (p. ex. un serveur). Ce serveur central contrôle le réseau et garantit sa sécurité.
En raison de son volume et de sa complexité, il n’est pas possible de gérer le Big Data de manière centralisée. Il nécessite une architecture distribuée.
Les systèmes distribués associent plusieurs serveurs ou ordinateurs au sein d’un réseau, tous étant traités comme des nœuds de même niveau. Ils peuvent s’étendre de manière horizontale (« scale-out ») et continuent de fonctionner en cas de défaillance de l’un des nœuds. Il est possible d’utiliser du matériel de commodité afin de limiter les coûts.
Généralement, les données classiques proviennent de logiciels de planification des ressources d’entreprise (ERP), de gestion des relations client (CRM), ou encore de transactions en ligne et autres sources au niveau de l’entreprise.
Le Big Data, lui, provient d’une plus grande variété de sources, dans l’entreprise et en dehors, notamment des informations issues des réseaux sociaux, générées par des appareils ou des capteurs, ou encore des données audiovisuelles. Ces sources sont dynamiques, évolutive, et se multiplient chaque jour.
Les fichiers texte, vidéo, image et audio peuvent également constituer des sources de données non structurées. Elles ne peuvent pas être exploitées à partir des colonnes et des lignes des bases de données classiques. Dans la mesure où la quantité de données non structurées va croissant, de même que le nombre de leurs sources, des méthodes d’analyse du Big Data sont nécessaire pour en tirer toute la valeur ajoutée.
L’analyse des données classiques se fait de manière incrémentale. Un événement se produit, des données sont générées, puis elles sont analysées. Cette analyse peut permettre aux entreprises de comprendre les impacts de stratégies ou de changements donnés, sur un certain nombre de métriques, pour une période donnée.
L’analyse du Big Data, elle, peut se faire en temps réel. Dans la mesure où ces données sont générées à chaque seconde, la collecte et l’analyse peuvent être simultanées. L’analyse du Big Data donne aux entreprises une vision plus dynamique et globale de leurs besoins et de leurs stratégies.
Imaginons une entreprise qui a investi dans un programme de formation de son personnel, et souhaite en évaluer l’impact.
Avec un modèle d’analyse classique, elle pourra identifier cet impact sur un pan précis de ses opérations, par exemple les ventes. Pour cela, elle note le volume des ventes avant en après la formation, en excluant tout facteur extérieur. Elle constatera ainsi, en théorie, le degré d’augmentation des ventes suite à la formation.
Avec une analyse du Big Data, l’entreprise peut mettre de côté la question de l’incidence de cette formation sur un aspect donné de ses activités. En revanche, en observant la masse de données recueillies en temps réel dans l’ensemble de l’organisation, elle pourra identifier les domaines qui ont été touchés : ventes, service client, relations publiques, etc.
Le Big Data et les données classiques servent des objectifs différents, mais connexes. Si le Big Data peut sembler présenter un potentiel de bénéfice plus important, il n’est pas adapté (ni nécessaire) à toutes les circonstances. Le Big Data :
L’essor du Big Data n’implique pas la disparition des données classiques. Celles-ci :
La question, tout bien considéré, n’est pas de choisir entre le Big Data et les données classiques. À mesure que les entreprises seront de plus en plus nombreuses à générer de grands ensembles de données non structurées, elles auront besoin de mettre en place les bons outils. Comprendre comment utiliser et gérer les deux modèles fait partie intégrante de l’élaboration d’une stratégie d’avenir.
1https://www.forbes.com/sites/gilpress/2020/01/06/6-predictions-about-data-in-2020-and-the-coming-decade/?sh=44e375c74fc3
Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ? Nous sommes là pour vous aider.
Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données.
Tél. : +33 1 89 96 04 00
Services Médias : pr@purestorage.com
Pure Storage France
32 rue Guersant
75017 Paris