Guide du Big Data pour les débutants

Données structurées vs. données non structurées

Ces dix dernières années, notre définition et notre compréhension des données a considérablement évolué — notamment grâce aux outils, toujours plus nombreux, qui permettent de lire, stocker et analyser des données non structurées.

Par le passé, les données non structurées étaient souvent sous-utilisées, en raison des difficultés d’interprétation associées. Ces nouvelles technologie ont permis non seulement de mieux comprendre cette précieuse masse de données, mais aussi d’en extraire des informations stratégiques.

Selon IDC, le volume total de données créées, capturées, copiées et consommer dans le monde d’ici 2024 dépassera 149 zettaoctets par an — la majorité d’entre elles étant non structurées. Toutes les entreprises auront à gagner à développer leurs capacités d’analyse de ces données non structurées. La première étape consiste à bien distinguer les données structurées et non structurées.

Voici un tableau récapitulatif rapide des différences, suivi d’explications plus détaillées.

Caractéristiques

Données structurées

Données non structurées

Nature des données

Généralement quantitatives

Généralement qualitatives

Modèle de données

Prédéfinies ; une fois le modèle défini et quelques données stockées, il est difficile de le modifié

Aucun schéma particulier, le modèle de données est très flexible

Format des données

Nombre de formats disponibles limité

Grande variété de formats disponibles

Base de données

Bases de données relationnelles basées sur SQL

Bases de données NoSQL, sans schéma spécifique

Recherche

Recherche aisée dans la base de données ou l’ensemble de données

Recherche de données particulières très difficile en raison de leur nature non structurée

Analyse

Analyse très simple, étant donnée la nature quantitative des données

Analyse très complexe, même avec les outils logiciels existants

Méthode de stockage

Data warehouses

Data lakes

Que sont les données structurées ?

Les données structurées présentent un schéma bien défini, dans lequel les informations sont mises en forme. Pour schématiser, les données susceptibles d’être présentées dans des tableurs tels que Google Sheets ou Microsoft Excel sont des données structurées.

Selon cet exemple, les données peuvent être synthétisées sous forme de lignes et de colonnes. Chaque colonne représente un attribut, et chaque ligne permet d’associer ou non un élément de données précis avec les différents attributs. Ces lignes et colonnes forment un tableau très facile à utiliser.

Il est possible de relier différents tableaux — à condition qu’ils aient des colonnes communes.

Plusieurs tableaux associés, successivement ou par combinaison, forment une base de données relationnelle. Ainsi, les données client, commerciales et d’inventaire d’une boutique peuvent être considérées comme une base de données relationnelle.

  • Chaque client dispose d’un ID client, ainsi que de champs contenant son nom, son numéro de téléphone, son numéro de carte de crédit, son adresse, etc.
  • La base de données clients peut être reliée à la base de données commerciale à partir d’attributs tels que la date d’achat, la référence des articles achetés, le montant total dépensé, l’ID client, etc. Généralement, les deux tableaux sont reliés par l’attribut commun d’ID client.
  • Enfin, la base de données commerciale peut être reliée à la base de données d’inventaire via l’attribut commun du code d’article, de sorte que les trois tableaux sont intégrés à une seule et même base de données relationnelle.

Ces données structurées sont généralement stockées dans des systèmes de gestion de base de données relationnelle (RDBMS). Ces bases de données peuvent être modifiées, consultées et manipulées à l’aide du langage SQL (Structured Query Language), développé par IBM dans les années 1970 pour prendre en charge ses bases de données centrales. Ce langage s’appelait alors Sequence English Query Language, ou SEQUEL, car il se lisait presque comme la langue anglaise. Dans sa forme actuelle, SQL a été popularisé par Relational Software, Inc. (aujourd’hui appelée Oracle).

Que sont les données non structurées ?

Toutes les données qui ne sont pas structurées peuvent être catégorisées comme non structurées. On estime que d’ici 2025, 80 % des données que nous utilisons - que ce soit sous forme de texte, de son, d’image ou de vidéo - seront non structurées1.

En somme, les données non structurées représentent l’avenir. Elles sont souvent :

  • d’origine numérique et imprévisibles
  • en création et en mouvement constants
  • mélangées, multimodales et interopérables
  • géodistribuées pour une meilleure protection

Les données non structurées sont associées à des métadonnées qui peuvent, quant à elles, être structurées. Ainsi, une vidéo a des métadonnées qui correspondent à la résolution, au débit binaire, au nombre d’images par seconde, au propriétaire, etc. Mais la vidéo en elle-même est non structurée. Des données non structurées associées à des métadonnées structurées sont généralement appelées « données semi-structurées ».

Si l’on prend l’exemple d’une vidéo YouTube, celle-ci présente des métadonnées - notamment l’heure de chargement, la date de chargement, le nombre de vue (partiel ou total), le nombre de « j’aime » et de « je n’aime pas », etc. Cependant, le titre de la vidéo, sa description et la vidéo en elle-même sont non structurés. Ils ont un aspect qualitatif qui ne peut être exprimé seulement par des nombres.

Pour les données non structurées, on utilise généralement des bases de données NoSQL. NoSQL signifie « pas seulement SQL », ce qui indique que la base de données est capable de prendre en charge une plus large gamme de données que les bases de données SQL. Les bases de données NoSQL n’ont pas de structure schématique ou tabulaire ; il s’agit juste d’un ensemble de données regroupées.

 

Stockage de données non structurées avec UFFO

Si les données non structurées sont susceptible de fournir des informations stratégiques dotées d’un vrai potentiel de transformation, elles ne sont pas simples à maîtriser. La solution de stockage avancée UFFO de Pure, Pure Storage® FlashBlade®, garantit la vitesse de la technologie flash, associée à la possibilité de dimensionner n’importe quelle architecture de manière agile. Si vous souhaitez en savoir plus, Pure propose un essai gratuit de Pure FlashBlade. Vous pourrez ainsi tester la solution sans engagement.

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

800-379-7873 +44 20 3870 2633 +43 720882474 +32 (0) 7 84 80 560 +33 9 75 18 86 78 +49 89 12089 253 +353 1 485 4307 +39 02 9475 9422 +31 (0) 20 201 49 65 +46-101 38 93 22 +45 2856 6610 +47 2195 4481 +351 210 006 108 +966112118066 +27 87551 7857 +34 51 889 8963 +41 31 52 80 624 +90 850 390 21 64 +971 4 5513176 +7 916 716 7308 +65 3158 0960 +603 2298 7123 +66 (0) 2624 0641 +84 43267 3630 +62 21235 84628 +852 3750 7835 +82 2 6001-3330 +886 2 8729 2111 +61 1800 983 289 +64 21 536 736 +55 11 2655-7370 +52 55 9171-1375 +56 2 2368-4581 +57 1 383-2387