Guide du Big Data pour les débutants

Big Data vs. données classiques

Le Big Data offre des opportunités colossales aux entreprises : des informations plus pertinentes sur les comportements des clients, des prévisions plus précises de l’activité du marché et une meilleure efficacité globale.

Chaque année, les personnes et les organisations génèrent un nombre croissant de données. D’après un rapport IDC, 1,2 zettaoctets de données (soit 1,2 trillions de gigaoctets) ont été créées en 2010. D’ici 2025, ce chiffre pourrait atteindre 175 zettaoctets (175 trillions de gigaoctets), voire davantage1.

À mesure que les entreprises exploitent cette ressource florissante via de outils d’analyse prédictive et d’exploration des données, le marché du Big Data s’étoffera. Une étude menée par Statista prévoit que la valeur de ce marché sera multipliée par deux entre 2018 et 2027, passant de 169 milliards de dollars à 274 milliards de dollars.

Mais quelles sont les principales différences entre le Big Data et les données classiques ? Et quelles en sont les conséquences pour les technologies de stockage, de traitement et d’analyse actuelles ? Nous allons présenter les utilisations des différents types de données, en insistant sur l’intérêt d’une stratégie de réussite basée à la fois sur le Big Data et les données classiques.

 

Que sont les données classiques ?

Les données classiques correspondent aux données structurées et relationnelles que les entreprises stockent et traitent depuis des dizaines d’années. Actuellement, elles représentent encore la majorité des données dans le monde.

Les entreprises peuvent utiliser ces données classiques pour assurer un suivi de leurs ventes ou gérer leurs relations clients et leurs flux métier. Elles sont souvent plus faciles à manipuler et peuvent être gérées à l’aide de logiciels de traitement conventionnels. Cela dit, elles fournissent généralement des informations moins sophistiquées et offrent des avantages plus restreints que le Big Data.

 

Qu’est-ce que le Big Data ?

La notion de Big Data désigne à la fois un ensemble considérable et complexe de données, et les méthodes utilisées pour les traiter. Le Big Data présente quatre caractéristiques principales, souvent appelées « les 4 V » :

  • Volume : Le Big Data, comme son nom l’indique, est volumineux. Ce n’est pas sa seule caractéristique, mais c’est un élément constitutif.
  • Variété : Un ensemble de Big Data contient généralement des données structurées, semi-structurées et non structurées.
  • Vitesse : Le Big Data est généré rapidement, et souvent traité en temps réel.
  • Véracité : Le Big Data n’est pas fondamentalement de meilleure qualité que les données classique, mais il est extrêmement précis. Les anomalies, les biais et les bruits peuvent affecter considérablement sa qualité.

 

Différences entre le Big Data et les données classiques

Pour distinguer le Big Data des données classiques, on s’appuie sur plusieurs caractéristiques, notamment :

  • le volume de données
  • la manière dont elles sont organisées
  • l’architecture requise pour les gérer
  • les sources dont elles proviennent
  • les méthodes utilisées pour les analyser.

Volume

Les volumes de données classiques sont généralement mesurés en gigaoctets, voire en téraoctets. Elles peuvent donc être rassemblées dans un stockage centralisée, parfois même sur un seul serveur.

Pour le Big Data, en revanche, les notions de quantité et de volume sont définitoires. On le mesure généralement en pétaoctets, en zettaoctets ou en exaoctets. Le volume de plus en plus conséquent des ensembles de Big Data est l’un des principaux facteurs expliquant la croissance de la demande en solutions de stockage haute capacité basées sur le cloud.

Organisation

Les données classiques, structurées, sont organisées sous forme de dossiers, de fichiers et de tableaux. Les champs des ensembles de telles données sont relationnels, de sorte qu’il est possible d’identifier des liens entre elles et de les gérer en fonction de ces éléments. Les bases de données classiques, telles que SQL, Oracle DB et MySQL, utilisent un schéma fixe, statique et préconfiguré.

Le Big Data, quant à lui, utilise un schéma dynamique. Les données contenues dans le système de stockage sont brutes et non structurées. Pour accéder au Big Data, ce schéma dynamique est appliqué aux données brutes. Des bases de données modernes, non relationnelles ou NoSQL, comme Cassandra et MongoDB, conviennent parfaitement aux données non structurées en raison de leur manière de stocker les données dans les fichiers.

Architecture

Les données classiques sont généralement gérées via une architecture centralisée, qui peut se révéler plus abordable et plus sûre pour des ensembles de données structurées plus restreints.

Généralement, un système centralisé est constitué d’un ou plusieurs nœuds clients (ordinateurs ou appareils mobiles, par exemple) reliés à un nœud central (p. ex. un serveur). Ce serveur central contrôle le réseau et garantit sa sécurité.

En raison de son volume et de sa complexité, il n’est pas possible de gérer le Big Data de manière centralisée. Il nécessite une architecture distribuée.

Les systèmes distribués associent plusieurs serveurs ou ordinateurs au sein d’un réseau, tous étant traités comme des nœuds de même niveau. Ils peuvent s’étendre de manière horizontale (« scale-out ») et continuent de fonctionner en cas de défaillance de l’un des nœuds. Il est possible d’utiliser du matériel de commodité afin de limiter les coûts.

Sources

Généralement, les données classiques proviennent de logiciels de planification des ressources d’entreprise (ERP), de gestion des relations client (CRM), ou encore de transactions en ligne et autres sources au niveau de l’entreprise.

Le Big Data, lui, provient d’une plus grande variété de sources, dans l’entreprise et en dehors, notamment des informations issues des réseaux sociaux, générées par des appareils ou des capteurs, ou encore des données audiovisuelles. Ces sources sont dynamiques, évolutive, et se multiplient chaque jour.

Les fichiers texte, vidéo, image et audio peuvent également constituer des sources de données non structurées. Elles ne peuvent pas être exploitées à partir des colonnes et des lignes des bases de données classiques. Dans la mesure où la quantité de données non structurées va croissant, de même que le nombre de leurs sources, des méthodes d’analyse du Big Data sont nécessaire pour en tirer toute la valeur ajoutée.

Analyse

L’analyse des données classiques se fait de manière incrémentale. Un événement se produit, des données sont générées, puis elles sont analysées. Cette analyse peut permettre aux entreprises de comprendre les impacts de stratégies ou de changements donnés, sur un certain nombre de métriques, pour une période donnée.

L’analyse du Big Data, elle, peut se faire en temps réel. Dans la mesure où ces données sont générées à chaque seconde, la collecte et l’analyse peuvent être simultanées. L’analyse du Big Data donne aux entreprises une vision plus dynamique et globale de leurs besoins et de leurs stratégies.

Imaginons une entreprise qui a investi dans un programme de formation de son personnel, et souhaite en évaluer l’impact.

Avec un modèle d’analyse classique, elle pourra identifier cet impact sur un pan précis de ses opérations, par exemple les ventes. Pour cela, elle note le volume des ventes avant en après la formation, en excluant tout facteur extérieur. Elle constatera ainsi, en théorie, le degré d’augmentation des ventes suite à la formation.

Avec une analyse du Big Data, l’entreprise peut mettre de côté la question de l’incidence de cette formation sur un aspect donné de ses activités. En revanche, en observant la masse de données recueillies en temps réel dans l’ensemble de l’organisation, elle pourra identifier les domaines qui ont été touchés : ventes, service client, relations publiques, etc.

 

Big Data vs. données classiques : considérations d’avenir

Le Big Data et les données classiques servent des objectifs différents, mais connexes. Si le Big Data peut sembler présenter un potentiel de bénéfice plus important, il n’est pas adapté (ni nécessaire) à toutes les circonstances. Le Big Data :

  • peut permettre d’analyser plus finement les tendances du marché et le comportement des consommateurs. L’analyse des données classiques peut se révéler trop restreinte pour fournir les mêmes informations stratégiques.
  • fournit plus rapidement des informations stratégiques. Les entreprises en tirent un enseignement en temps réel. Grâce aux analyses du Big Data, elles peuvent ainsi gagner un avantage concurrentiel.
  • sont plus efficaces. Dans une société de plus en plus numérique, les personnes et les organisations génèrent des quantités considérables de données chaque jour, chaque minute. Le Big Data permet d’en tirer parti et de les interpréter de manière pertinente.
  • nécessite une bonne préparation. Pour exploiter ces avantages, les entreprises doivent se préparer, à travers des protocoles de sécurité, des étapes de configuration, et une puissance de traitement disponibles supérieure.

L’essor du Big Data n’implique pas la disparition des données classiques. Celles-ci :

  • sont plus faciles à sécuriser, et donc potentiellement mieux adaptées à des ensembles de données hautement sensibles, à caractère personnel ou confidentiel. En effet, elles sont moins volumineuses. Elles ne requièrent donc pas une architecture distribuée et sont moins susceptible de nécessiter un stockage tiers.
  • peuvent être traitées par des logiciels traditionnels avec une configuration de système normale. Le traitement du Big Data nécessite une configuration plus avancée, ce qui augmente l’utilisation des ressources et les frais. Tout cela n’est pas nécessaire lorsque des méthodes classiques suffisent.
  • sont plus faciles à manipuler et à interpréter. Les données classiques étant par nature plus simples et relationnelles, elles peuvent être traitées à l’aide de fonctions normales, voire être accessibles à des non-experts.

La question, tout bien considéré, n’est pas de choisir entre le Big Data et les données classiques. À mesure que les entreprises seront de plus en plus nombreuses à générer de grands ensembles de données non structurées, elles auront besoin de mettre en place les bons outils. Comprendre comment utiliser et gérer les deux modèles fait partie intégrante de l’élaboration d’une stratégie d’avenir.

 

Autres chapitres du Guide sur le Big Data

  1. Données structurées vs. données non structurées
  2. 5 atouts du Big Data qui aident les entreprises à distancer la concurrence
  3. La relation entre l’IdO et le Big Data

1https://www.forbes.com/sites/gilpress/2020/01/06/6-predictions-about-data-in-2020-and-the-coming-decade/?sh=44e375c74fc3

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387