Skip to Content
Guide du Big Data pour les débutants

Données structurées vs. données non structurées

Ces dix dernières années, notre définition et notre compréhension des données a considérablement évolué — notamment grâce aux outils, toujours plus nombreux, qui permettent de lire, stocker et analyser des données non structurées.

Par le passé, les données non structurées étaient souvent sous-utilisées, en raison des difficultés d’interprétation associées. Ces nouvelles technologie ont permis non seulement de mieux comprendre cette précieuse masse de données, mais aussi d’en extraire des informations stratégiques.

Selon IDC, le volume total de données créées, capturées, copiées et consommer dans le monde d’ici 2024 dépassera 149 zettaoctets par an — la majorité d’entre elles étant non structurées. Toutes les entreprises auront à gagner à développer leurs capacités d’analyse de ces données non structurées. La première étape consiste à bien distinguer les données structurées et non structurées.

Voici un tableau récapitulatif rapide des différences, suivi d’explications plus détaillées.

Caractéristiques

Données structurées

Données non structurées

Nature des données

Généralement quantitatives

Généralement qualitatives

Modèle de données

Prédéfinies ; une fois le modèle défini et quelques données stockées, il est difficile de le modifié

Aucun schéma particulier, le modèle de données est très flexible

Format des données

Nombre de formats disponibles limité

Grande variété de formats disponibles

Base de données

Bases de données relationnelles basées sur SQL

Bases de données NoSQL, sans schéma spécifique

Recherche

Recherche aisée dans la base de données ou l’ensemble de données

Recherche de données particulières très difficile en raison de leur nature non structurée

Analyse

Analyse très simple, étant donnée la nature quantitative des données

Analyse très complexe, même avec les outils logiciels existants

Méthode de stockage

Data warehouses

Data lakes

Slide

Que sont les données structurées ?

Les données structurées présentent un schéma bien défini, dans lequel les informations sont mises en forme. Pour schématiser, les données susceptibles d’être présentées dans des tableurs tels que Google Sheets ou Microsoft Excel sont des données structurées.

Selon cet exemple, les données peuvent être synthétisées sous forme de lignes et de colonnes. Chaque colonne représente un attribut, et chaque ligne permet d’associer ou non un élément de données précis avec les différents attributs. Ces lignes et colonnes forment un tableau très facile à utiliser.

Il est possible de relier différents tableaux — à condition qu’ils aient des colonnes communes.

Plusieurs tableaux associés, successivement ou par combinaison, forment une base de données relationnelle. Ainsi, les données client, commerciales et d’inventaire d’une boutique peuvent être considérées comme une base de données relationnelle.

  • Chaque client dispose d’un ID client, ainsi que de champs contenant son nom, son numéro de téléphone, son numéro de carte de crédit, son adresse, etc.
  • La base de données clients peut être reliée à la base de données commerciale à partir d’attributs tels que la date d’achat, la référence des articles achetés, le montant total dépensé, l’ID client, etc. Généralement, les deux tableaux sont reliés par l’attribut commun d’ID client.
  • Enfin, la base de données commerciale peut être reliée à la base de données d’inventaire via l’attribut commun du code d’article, de sorte que les trois tableaux sont intégrés à une seule et même base de données relationnelle.

Ces données structurées sont généralement stockées dans des systèmes de gestion de base de données relationnelle (RDBMS). Ces bases de données peuvent être modifiées, consultées et manipulées à l’aide du langage SQL (Structured Query Language), développé par IBM dans les années 1970 pour prendre en charge ses bases de données centrales. Ce langage s’appelait alors Sequence English Query Language, ou SEQUEL, car il se lisait presque comme la langue anglaise. Dans sa forme actuelle, SQL a été popularisé par Relational Software, Inc. (aujourd’hui appelée Oracle).

Que sont les données non structurées ?

Toutes les données qui ne sont pas structurées peuvent être catégorisées comme non structurées. On estime que d’ici 2025, 80 % des données que nous utilisons - que ce soit sous forme de texte, de son, d’image ou de vidéo - seront non structurées1.

En somme, les données non structurées représentent l’avenir. Elles sont souvent :

  • d’origine numérique et imprévisibles
  • en création et en mouvement constants
  • mélangées, multimodales et interopérables
  • géodistribuées pour une meilleure protection

Les données non structurées sont associées à des métadonnées qui peuvent, quant à elles, être structurées. Ainsi, une vidéo a des métadonnées qui correspondent à la résolution, au débit binaire, au nombre d’images par seconde, au propriétaire, etc. Mais la vidéo en elle-même est non structurée. Des données non structurées associées à des métadonnées structurées sont généralement appelées « données semi-structurées ».

Si l’on prend l’exemple d’une vidéo YouTube, celle-ci présente des métadonnées - notamment l’heure de chargement, la date de chargement, le nombre de vue (partiel ou total), le nombre de « j’aime » et de « je n’aime pas », etc. Cependant, le titre de la vidéo, sa description et la vidéo en elle-même sont non structurés. Ils ont un aspect qualitatif qui ne peut être exprimé seulement par des nombres.

Pour les données non structurées, on utilise généralement des bases de données NoSQL. NoSQL signifie « pas seulement SQL », ce qui indique que la base de données est capable de prendre en charge une plus large gamme de données que les bases de données SQL. Les bases de données NoSQL n’ont pas de structure schématique ou tabulaire ; il s’agit juste d’un ensemble de données regroupées.

 

Stockage de données non structurées avec UFFO

Si les données non structurées sont susceptible de fournir des informations stratégiques dotées d’un vrai potentiel de transformation, elles ne sont pas simples à maîtriser. La solution de stockage avancée UFFO de Pure, Pure Storage® FlashBlade®, garantit la vitesse de la technologie flash, associée à la possibilité de dimensionner n’importe quelle architecture de manière agile. Si vous souhaitez en savoir plus, Pure propose un essai gratuit de Pure FlashBlade. Vous pourrez ainsi tester la solution sans engagement.

Produits et solutions associés

Solution
Analytique de données

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

09/2024
FlashBlade for Genomics
Implement next-generation sequencing with Pure Storage
Fiche technique
2 pages
CONTACTEZ-NOUS
Des questions, des commentaires ?

Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ?  Nous sommes là pour vous aider.

Planifier une démo

Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données. 

Tél. : +33 1 89 96 04 00

Services Médias : pr@purestorage.com

 

Pure Storage France

32 rue Guersant

75017 Paris

info@purestorage.com

 

FERMER
Votre navigateur n’est plus pris en charge !

Les anciens navigateurs présentent souvent des risques de sécurité. Pour profiter de la meilleure expérience possible sur notre site, passez à la dernière version de l’un des navigateurs suivants.