Guide

Guide du Big Data pour les débutants

Guide du Big Data pour les débutants
Qu’est-ce que le Big Data et comment fonctionne-t-il ? Approfondissez avec nous votre compréhension du Big Data et des technologies nécessaires pour en extraire des informations stratégiques exploitables pour votre entreprise.

Qu’est-ce que le Big Data ?

Les entreprises modernes recueillent d’immenses quantités de données provenant de diverses sources, qu’elles doivent souvent analyser en temps réel. Le concept de Big Data renvoie aux données trop volumineuses, trop rapides ou trop complexes pour pouvoir être traitées à l’aide de techniques traditionnelles. Mais il induit également de nombreuses technologies et stratégies rendues possibles par ce volume de données, notamment en matière d’extraction d’informations : analytique prédictive, Internet des Objets, intelligence artificielle, et bien plus encore.

Selon Research and Markets, le marché mondial du Big Data devrait atteindre une valeur de 156 milliards de dollars d’ici 2026 — et que les entreprises ont de nombreuses raisons de participer à l’aventure. Découvrez ce qu’est le Big Data, d’où il vient, comment il peut être utilisé, et comment les entreprises peuvent préparer leurs infrastructures informatiques à en tirer le meilleur parti.

Les trois « V » du Big Data

Bien que le concept de Big Data existe depuis longtemps, c’est l’analyste Doug Laney qui, en 2001, a été le premier à évoquer les trois V du Big Data. En voici la liste :

  • Volume : quantité de données à traiter (généralement de l’ordre du gigaoctet, de l’exaoctet, voire plus)
  • Variété : diversité des types de données (structurées et non structurées) qui circulent depuis de nombreuses sources différentes
  • Vitesse : rapidité à laquelle les nouvelles données parviennent jusqu’à votre système

Certains experts des données élargissent cette définition à quatre ou cinq V, voire davantage. Les quatrième et cinquième V sont les suivants :

  • Véracité : qualité des données en termes d’exactitude, de précision et de fiabilité
  • Valeur : valeur ajoutée que procurent les données (qu’apportent-elles à votre entreprise ?)

Et cette liste peut s’allonger jusqu’à 42 V. Quoi qu’il en soit, les cinq évoqués ci-dessus sont les plus couramment employés dans la définition du Big Data.

D’autre part, il existe deux catégories de Big Data, qui se distinguent par leur mode de traitement et par les questions et requêtes auxquelles ils permettent de répondre.

  • Le traitement par lot est généralement appliqué à de grandes quantités de données d’historique stockées, afin d’élaborer des stratégies à long terme ou de répondre à des questions importantes. Imaginez des quantités considérables de données soumises à une analyse complexe et approfondie.
  • Le streaming de données consiste moins à répondre à des questions qu’à obtenir des informations en temps réel, pour répondre à des objectifs immédiats - par exemple, garantir la précision d’un processus de fabrication. Il est généralement appliqué à de grandes quantité de données qui transitent rapidement. Imaginez des quantités considérables de données ultra rapides, soumises à des analyses moins complexes mais effectuées à toute vitesse.

En savoir plus sur la différence entre le Big Data et les données classiques.

D’où vient le Big Data ?

La notion de Big Data décrit l’ensemble des données non structurées collectées aujourd’hui, et la manière dont on en extrait des informations stratégiques fines. Elles proviennent de diverses sources :

  • l’Internet des Objets, et les données émises par des milliards de périphériques et de capteurs
  • les journaux générés automatiquement, utilisés pour analyse
  • les logiciels, plateformes et applications d'entreprise
  • les personnes : réseaux sociaux, transactions, clics en ligne, dossiers médicaux, consommation de ressources naturelles, etc.
  • les recherches de la communauté scientifique et d’autres organisations.

Les types de Big Data : structuré et non structuré

En fonction de leur type, les données appellent différents modes de stockage. C’est le cas pour les données structurées et non structurées, qui nécessitent des bases de données, des outils de traitement, des supports de stockage et des outils d’analyse différents.

Les données structurées correspondent aux données classiques, qui s’intègrent parfaitement à des tableaux. Il est souvent facile de les classifier et de les formater en valeurs standard : prix, dates, périodes, etc.

Les données non structurées sont des données modernes, qu’il n’est pas si simple d’insérer dans un tableau. De nos jours, le terme est souvent synonyme de Big Data. On estime qu’elles constitueront 80 % des données dans les prochaines années. Toutes les données générées par les réseaux sociaux, l’IdO, les créateurs de contenus, le matériel de surveillance, etc., en font partie. Il peut s’agir de texte, d’images, de son ou de vidéo. Ces données constituent le moteur des nouvelles générations de stockage, tel que le stockage de fichier et d’objet rapide et unifié FlashBlade®. Pour utiliser leurs données non structurées, les entreprises doivent pouvoir s’appuyer sur une capacité de stockage plus importante, une puissance de traitement supérieure et une consolidation plus poussée des nombreux types de données.

En savoir plus sur les données structurées et non structurées.

Quel est le cycle de vie du Big Data ?

Les étapes du cycle de vie du Big Data sont les suivantes (liste non exhaustive) :

  1. Les données sont extraites et collectées. Elles peuvent provenir de diverses sources, notamment des systèmes de planification des ressources des entreprises, des capteurs d’IdO, des logiciels de marketing ou des applications de point de vente, des données de streaming via des API, etc. Les résultats obtenus sont variables, d’où l’importance de l’étape suivante - l’ingestion. Ainsi, les données de la bourse seront très différentes des données issues des journaux de systèmes internes.
  2. Les données sont ingérées. Des canaux ETL (extraction, transformation, chargement) les convertissent au format voulu. En effet, qu’elles soient destinées à une base de données SQL ou à un outil de visualisation, elles doivent devenir lisibles. Ainsi, il arrive que le format des noms ne sont pas cohérent. À ce stade, les données sont prêtes pour analyse.
  3. Les données sont chargées dans le système de stockage pour être traitées. Elles peuvent être stockées n’importe où, du data warehouse dans le cloud au système sur site. Cette opération peut se faire selon différentes modalités, selon que les données sont chargées en lot ou en streaming continu basé sur des événements. (Il est à noter que cette étape peut intervenir avant la transformation, suivant les besoins de l’entreprise.)

    En savoir plus : Qu’est-ce qu’un data warehouse ?

  4. Les données font l’objet de requêtes et d’analyses. Les outils de calcul, de traitement et de stockage modernes dans le cloud exercent une influence considérable sur l’évolution du cycle de vie du Big Data. (Remarque : Certains outils modernes, tels qu’Amazon Redshift, peuvent outrepasser les processus ETL pour vous permettre de lancer vos requêtes plus rapidement.) 
  5. Les données sont archivées. Qu’elles soient conservées à long terme dans un stockage à froid ou conservées « au chaud » dans un système plus accessible, les données périssables qui ont été utilisées sont archivées. Lorsqu’il n’est plus besoin de conserver un accès direct, le stockage à froid constitue une méthode économique et compacte - en particulier lorsqu’il faut satisfaire à des exigences de conformité ou alimenter un processus décisionnel stratégique à long terme. Il limite également de conserver plusieurs pétaoctets de données inutilisées sur des serveurs contenant également des données « chaudes », ce qui a un impact sur les performances.

Comment les entreprises peuvent-elles exploiter le Big Data ?

Les usages professionnels sont nombreux et prometteurs. La valeur du Big Data réside dans les innovations qu’il peut aider à développer. Parmi les objectifs et applications possibles, on peut citer :

  • l’utilisation d’informations stratégiques en temps réel, issues d’analyses de streaming de données, pour déclencher des alertes et identifier des anomalies
  • l’analytique prédictive
  • la Business Intelligence
  • l’apprentissage machine
  • l’analyse des risques, afin de prévenir les fraudes et les violations et de réduire les risques de sécurité
  • l’intelligence artificielle, notamment les outils de reconnaissance d’image, de traitement du langage naturel et de réseaux neuronaux
  • l’amélioration de l’expérience utilisateur et des interactions avec les clients à travers des moteurs de recommandation et des outils de support prédictif
  • la réduction des coûts et des problèmes d’efficacité des processus (internes, de fabrication, etc.)
  • l’alimentation des stratégies de marketing et de communication, à travers l’analyse en temps réel de millions de points de données sur les réseaux sociaux, créés par les consommateurs ou la publicité numérique

Découvrir davantage de scénarios d’utilisation et d’applications du Big Data propres aux différents secteurs.

Comment le Big Data est-il stocké ?

Le Big Data entraîne des besoins uniques, notamment en termes de stockage. Il est presque systématiquement intégré à une base de données (comme les données de streaming en temps réel), et comporte souvent une grande variété de formats. Il s’ensuit que la meilleure option de stockage est souvent un environnement sans schéma (non structuré), exécuté sur un système de fichiers distribué afin que le traitement puisse se faire en parallèle sur des ensembles de données considérables. Le Big Data est donc particulièrement adapté aux plateformes de stockage non structuré capables d’unifier les données en mode fichier et objet.

En savoir plus sur la différence entre un hub de données et un data lake.

L’informatique à la périphérie fait exploser la demande en Big Data

L’essor de l’Internet des Objets (IdO) a entraîné une augmentation du volume de données à gérer sur toute une flotte de périphériques non distribués. 

Au lieu d’attendre que les données d’IdO soient transférées et traitées à distance sur un site centralisé, par exemple un datacenter, l’informatique à la périphérie est une topologie distribuée dans laquelle les informations sont traitées localement, soit au point de contact entre les personnes et les appareils, là où les nouvelles données sont créées. 

En plus de générer des économies d’argent et de bande passante, l’informatique à la périphérie permet aux entreprises de développer des applications plus efficaces, en temps réel, qui offrent une expérience utilisateur de grande qualité à leurs clients. Cette tendance est appelée à s’accentuer dans les années qui viennent, avec le déploiement de nouvelles technologies sans fil, par exemple la 5G.

Étant donné le nombre croissant d’appareils connectés à Internet, le volume de données à traiter en temps réel et à la périphérie ne fera qu’augmenter. Dans ces circonstances, comment proposer un stockage suffisamment distribué et agile pour répondre à la demande ? La réponse tient en quelques mots : le stockage natif dans des conteneurs. 

Les plateformes d’informatique à la périphérie qui existent aujourd’hui, telles qu’AWS Snowball, Microsoft Azure Stack, ou Google Anthos, sont toutes basées sur Kubernetes, une plateforme d’orchestration en conteneur très appréciée. Grâce à Kubernetes, ces environnements sont capables d’exécuter des charges de travail d’ingestion de données, de stockage, de traitement, d’analyse et d’apprentissage automatique à la périphérie. 

Un cluster Kubernetes multi-nœud exécuté en périphérie a besoin d’un moteur de stockage natif en conteneurs efficace, capable de répondre aux besoins de charges de travail centrées sur les données. En d’autres termes, les applications conteneurisées exécutées à la périphérie nécessitent une gestion du stockage granulaire. La plateforme de services de données Portworx® propose une structure « stateful » permettant de gérer des volumes de données compatibles avec les SLA des conteneurs.

En savoir plus sur la relation entre le Big Data et l’IdO.

Un stockage de données 100% flash évolutif pour répondre à tous vos besoins de Big Data

Les avantages d’héberger le Big Data sur des baies 100 % flash sont les suivants :

  • Vitesses améliorées (55-180 IOPS pour des disques durs contre 3 000-40 000 IOPS avec des SSD)
  • Parallélisme élevé avec plus de 64 K de files d’attente pour les opérations E/S
  • Performance et fiabilité NVMe

Pourquoi choisir Pure Storage® pour vos besoins de Big Data ?

Le volume relatif, la variété et la vitesse du Big Data ne cessent d’évoluer. Si vous tenez à préserver le volume et la rapidité de vos données, vous devez investir régulièrement dans les technologies de stockage dernier cri. Au vu des avancées réalisées dans le domaine des mémoires flash, il est devenu possible de produire des solutions de stockage 100 % flash personnalisées, parfaitement adaptées à tous vos niveaux de données. Découvrez ici comment Pure Storage® peut vous aider à optimiser votre pipeline d’analyse du Big Data :

  • Tous les avantages des baies 100 % flash
  • Consolidation dans un data hub unifié et performant, capable de traiter les flux de données à haut débit provenant de diverses sources
  • Mises à niveau sans interruption, temps d’arrêt ni migration de données dans le cadre du programme Evergreen™
  • Système de gestion des données simplifié qui combine l’avantage économique du cloud au contrôle et à l’efficacité sur site

Stockage flash évolutif rapide et efficace avec FlashBlade

800-379-7873 +44 2039741869 +43 720882474 +32 (0) 7 84 80 560 +33 1 83 76 42 54 +49 89 12089253 +353 1 485 4307 +39 02 9475 9422 +31 202457440 +46850541356 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 43 505 28 17 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387 +48 22 343 36 49
Votre navigateur n’est plus pris en charge !

Les anciens navigateurs présentent souvent des risques de sécurité. Pour profiter de la meilleure expérience possible sur notre site, passez à la dernière version de l’un des navigateurs suivants.