Ces dix dernières années, notre définition et notre compréhension des données a considérablement évolué — notamment grâce aux outils, toujours plus nombreux, qui permettent de lire, stocker et analyser des données non structurées.
Par le passé, les données non structurées étaient souvent sous-utilisées, en raison des difficultés d’interprétation associées. Ces nouvelles technologie ont permis non seulement de mieux comprendre cette précieuse masse de données, mais aussi d’en extraire des informations stratégiques.
Selon IDC, le volume total de données créées, capturées, copiées et consommer dans le monde d’ici 2024 dépassera 149 zettaoctets par an — la majorité d’entre elles étant non structurées. Toutes les entreprises auront à gagner à développer leurs capacités d’analyse de ces données non structurées. La première étape consiste à bien distinguer les données structurées et non structurées.
Voici un tableau récapitulatif rapide des différences, suivi d’explications plus détaillées.
Caractéristiques |
Données structurées |
Données non structurées |
Nature des données |
Généralement quantitatives |
Généralement qualitatives |
Modèle de données |
Prédéfinies ; une fois le modèle défini et quelques données stockées, il est difficile de le modifié |
Aucun schéma particulier, le modèle de données est très flexible |
Format des données |
Nombre de formats disponibles limité |
Grande variété de formats disponibles |
Base de données |
Bases de données relationnelles basées sur SQL |
Bases de données NoSQL, sans schéma spécifique |
Recherche |
Recherche aisée dans la base de données ou l’ensemble de données |
Recherche de données particulières très difficile en raison de leur nature non structurée |
Analyse |
Analyse très simple, étant donnée la nature quantitative des données |
Analyse très complexe, même avec les outils logiciels existants |
Méthode de stockage |
Data warehouses |
Data lakes |
Les données structurées présentent un schéma bien défini, dans lequel les informations sont mises en forme. Pour schématiser, les données susceptibles d’être présentées dans des tableurs tels que Google Sheets ou Microsoft Excel sont des données structurées.
Selon cet exemple, les données peuvent être synthétisées sous forme de lignes et de colonnes. Chaque colonne représente un attribut, et chaque ligne permet d’associer ou non un élément de données précis avec les différents attributs. Ces lignes et colonnes forment un tableau très facile à utiliser.
Il est possible de relier différents tableaux — à condition qu’ils aient des colonnes communes.
Plusieurs tableaux associés, successivement ou par combinaison, forment une base de données relationnelle. Ainsi, les données client, commerciales et d’inventaire d’une boutique peuvent être considérées comme une base de données relationnelle.
Ces données structurées sont généralement stockées dans des systèmes de gestion de base de données relationnelle (RDBMS). Ces bases de données peuvent être modifiées, consultées et manipulées à l’aide du langage SQL (Structured Query Language), développé par IBM dans les années 1970 pour prendre en charge ses bases de données centrales. Ce langage s’appelait alors Sequence English Query Language, ou SEQUEL, car il se lisait presque comme la langue anglaise. Dans sa forme actuelle, SQL a été popularisé par Relational Software, Inc. (aujourd’hui appelée Oracle).
Toutes les données qui ne sont pas structurées peuvent être catégorisées comme non structurées. On estime que d’ici 2025, 80 % des données que nous utilisons - que ce soit sous forme de texte, de son, d’image ou de vidéo - seront non structurées1.
En somme, les données non structurées représentent l’avenir. Elles sont souvent :
Les données non structurées sont associées à des métadonnées qui peuvent, quant à elles, être structurées. Ainsi, une vidéo a des métadonnées qui correspondent à la résolution, au débit binaire, au nombre d’images par seconde, au propriétaire, etc. Mais la vidéo en elle-même est non structurée. Des données non structurées associées à des métadonnées structurées sont généralement appelées « données semi-structurées ».
Si l’on prend l’exemple d’une vidéo YouTube, celle-ci présente des métadonnées - notamment l’heure de chargement, la date de chargement, le nombre de vue (partiel ou total), le nombre de « j’aime » et de « je n’aime pas », etc. Cependant, le titre de la vidéo, sa description et la vidéo en elle-même sont non structurés. Ils ont un aspect qualitatif qui ne peut être exprimé seulement par des nombres.
Pour les données non structurées, on utilise généralement des bases de données NoSQL. NoSQL signifie « pas seulement SQL », ce qui indique que la base de données est capable de prendre en charge une plus large gamme de données que les bases de données SQL. Les bases de données NoSQL n’ont pas de structure schématique ou tabulaire ; il s’agit juste d’un ensemble de données regroupées.
Si les données non structurées sont susceptible de fournir des informations stratégiques dotées d’un vrai potentiel de transformation, elles ne sont pas simples à maîtriser. La solution de stockage avancée UFFO de Pure, Pure Storage® FlashBlade®, garantit la vitesse de la technologie flash, associée à la possibilité de dimensionner n’importe quelle architecture de manière agile. Si vous souhaitez en savoir plus, Pure propose un essai gratuit de Pure FlashBlade. Vous pourrez ainsi tester la solution sans engagement.
1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html
Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ? Nous sommes là pour vous aider.
Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données.
Tél. : +33 1 89 96 04 00
Services Médias : pr@purestorage.com
Pure Storage France
32 rue Guersant
75017 Paris