What Is Traditional Data?

Traditional data is structured, relational data organizations have been storing and processing for decades. Traditional data still accounts for the majority of the world’s data. Businesses can use traditional data for tracking sales or managing customer relations or workflows. Traditional data is often easier to manipulate and can be managed with conventional data processing software. However, it generally provides less sophisticated insights and more limited benefits than big data.

Big data can refer to both a large and complex data set, as well as the methods used to process this type of data. Big data has four main characteristics, often known as “the four Vs”: Volume: Big data is...big. While big data isn’t only distinguishable by its size, it’s also typically very high volume in nature. Variety: A big data set typically contains structured, semi-structured, and unstructured data. Velocity: Big data generates quickly and is often processed in real time. Veracity: Big data isn’t inherently better quality than traditional data, but its veracity (accuracy) is extremely important. Anomalies, biases, and noise can significantly impact the quality of big data.

The Differences between Big Data and Traditional Data

Several characteristics are used to distinguish between big data and traditional data. These include: The size of the data How the data is organized The architecture required to manage the data The sources from which the data derives The methods used to analyze the data Size Traditional data sets tend to be measured in gigabytes and terabytes. As a result, their size can allow for centralized storage, even on one server. Big data is distinguished not only by its size but also by its volume. Big data is usually measured in petabytes, zettabytes, or exabytes. The increasingly large size of big data sets is one of the main drivers behind the demand for more modern, high-capacity, cloud-based data storage solutions. Organization Traditional data is normally structured data that’s organized in records, files, and tables. Fields in traditional data sets are relational, so it’s possible to work out their relationship and manipulate the data accordingly. Traditional databases, such as SQL, Oracle DB, and MySQL, use a fixed schema that is static and preconfigured. Big data uses a dynamic schema. In storage, big data is raw and unstructured. When big data is accessed, the dynamic schema is applied to the raw data. Modern non-relational or NoSQL databases like Cassandra and MongoDB are ideal for unstructured data, given the way they store data in files. Architecture Traditional data is typically managed using a centralized architecture, which can be more cost-effective and secure for smaller, structured data sets. In general, a centralized system consists of one or more client nodes (e.g., computers or mobile devices) connected to a central node (e.g., a server). The central server controls the network and monitors its security. Because of its scale and complexity, it isn’t possible to manage big data centrally. It requires a distributed architecture. Distributed systems link multiple servers or computers over a network, operating as co-equal nodes. The architecture can scale horizontally (scale “out”) and will continue functioning even if an individual node fails. Distributed systems can leverage commodity hardware to reduce costs. Sources Traditional data typically derives from enterprise resource planning (ERP), customer relationship management (CRM), online transactions, and other enterprise-level data. Big data derives from a broader range of enterprise and non-enterprise-level data, which can include information scraped from social media, device and sensor data, and audiovisual data. These source types are dynamic, evolving, and growing every day. Unstructured data sources can also include text, video, image, and audio files. Leveraging this type of data isn’t possible using the columns and rows of traditional databases. Because an increasingly significant amount of data is unstructured and comes from multiple sources, big data analysis methods are required to extract value from it. Analysis Traditional data analysis occurs incrementally: An event occurs, data is generated, and the analysis of this data takes place after the event. Traditional data analysis can help businesses understand the impacts of given strategies or changes on a limited range of metrics over a specific period. Big data analysis can occur in real time. Because big data generates on a second-by-second basis, analysis can occur as data is being collected. Big data analysis offers businesses a more dynamic and holistic understanding of their needs and strategies. For example, suppose a business has invested in a training program for its staff and wants to measure its impact. Under a traditional model of data analysis, the business might set out to determine the impact of the training program on a particular area of its operations, such as sales. The business notes the sales volume before and after the training and excludes any extraneous factors. It can, in theory, see how much sales have increased as a result of the training. Under a big data model of analysis, the business can set aside questions regarding how the training program has impacted any particular aspect of its operations. Instead, by analyzing a mass of data collected in real time across the whole business, it can identify the specific areas that have been impacted, such as sales, customer service, public relations, and more.

Guide du Big Data pour les débutants

Big Data vs. données classiques

Le Big Data offre des opportunités colossales aux entreprises : des informations plus pertinentes sur les comportements des clients, des prévisions plus précises de l’activité du marché et une meilleure efficacité globale.

Chaque année, les personnes et les organisations génèrent un nombre croissant de données. D’après un rapport IDC, 1,2 zettaoctets de données (soit 1,2 trillions de gigaoctets) ont été créées en 2010. D’ici 2025, ce chiffre pourrait atteindre 175 zettaoctets (175 trillions de gigaoctets), voire davantage¹.

À mesure que les entreprises exploitent cette ressource florissante via de outils d’analyse prédictive et d’exploration des données, le marché du Big Data s’étoffera. Une étude menée par Statista prévoit que la valeur de ce marché sera multipliée par deux entre 2018 et 2027, passant de 169 milliards de dollars à 274 milliards de dollars.

Mais quelles sont les principales différences entre le Big Data et les données classiques ? Et quelles en sont les conséquences pour les technologies de stockage, de traitement et d’analyse actuelles ? Nous allons présenter les utilisations des différents types de données, en insistant sur l’intérêt d’une stratégie de réussite basée à la fois sur le Big Data et les données classiques.

Que sont les données classiques ?

Les données classiques correspondent aux données structurées et relationnelles que les entreprises stockent et traitent depuis des dizaines d’années. Actuellement, elles représentent encore la majorité des données dans le monde.

Les entreprises peuvent utiliser ces données classiques pour assurer un suivi de leurs ventes ou gérer leurs relations clients et leurs flux métier. Elles sont souvent plus faciles à manipuler et peuvent être gérées à l’aide de logiciels de traitement conventionnels. Cela dit, elles fournissent généralement des informations moins sophistiquées et offrent des avantages plus restreints que le Big Data.

Qu’est-ce que le Big Data ?

La notion de Big Data désigne à la fois un ensemble considérable et complexe de données, et les méthodes utilisées pour les traiter. Le Big Data présente quatre caractéristiques principales, souvent appelées « les 4 V » :

Volume : Le Big Data, comme son nom l’indique, est volumineux. Ce n’est pas sa seule caractéristique, mais c’est un élément constitutif.
Variété : Un ensemble de Big Data contient généralement des données structurées, semi-structurées et non structurées.
Vitesse : Le Big Data est généré rapidement, et souvent traité en temps réel.
Véracité : Le Big Data n’est pas fondamentalement de meilleure qualité que les données classique, mais il est extrêmement précis. Les anomalies, les biais et les bruits peuvent affecter considérablement sa qualité.

Différences entre le Big Data et les données classiques

Pour distinguer le Big Data des données classiques, on s’appuie sur plusieurs caractéristiques, notamment :

le volume de données
la manière dont elles sont organisées
l’architecture requise pour les gérer
les sources dont elles proviennent
les méthodes utilisées pour les analyser.

Volume

Les volumes de données classiques sont généralement mesurés en gigaoctets, voire en téraoctets. Elles peuvent donc être rassemblées dans un stockage centralisée, parfois même sur un seul serveur.

Pour le Big Data, en revanche, les notions de quantité et de volume sont définitoires. On le mesure généralement en pétaoctets, en zettaoctets ou en exaoctets. Le volume de plus en plus conséquent des ensembles de Big Data est l’un des principaux facteurs expliquant la croissance de la demande en solutions de stockage haute capacité basées sur le cloud.

Organisation

Les données classiques, structurées, sont organisées sous forme de dossiers, de fichiers et de tableaux. Les champs des ensembles de telles données sont relationnels, de sorte qu’il est possible d’identifier des liens entre elles et de les gérer en fonction de ces éléments. Les bases de données classiques, telles que SQL, Oracle DB et MySQL, utilisent un schéma fixe, statique et préconfiguré.

Le Big Data, quant à lui, utilise un schéma dynamique. Les données contenues dans le système de stockage sont brutes et non structurées. Pour accéder au Big Data, ce schéma dynamique est appliqué aux données brutes. Des bases de données modernes, non relationnelles ou NoSQL, comme Cassandra et MongoDB, conviennent parfaitement aux données non structurées en raison de leur manière de stocker les données dans les fichiers.

Architecture

Les données classiques sont généralement gérées via une architecture centralisée, qui peut se révéler plus abordable et plus sûre pour des ensembles de données structurées plus restreints.

Généralement, un système centralisé est constitué d’un ou plusieurs nœuds clients (ordinateurs ou appareils mobiles, par exemple) reliés à un nœud central (p. ex. un serveur). Ce serveur central contrôle le réseau et garantit sa sécurité.

En raison de son volume et de sa complexité, il n’est pas possible de gérer le Big Data de manière centralisée. Il nécessite une architecture distribuée.

Les systèmes distribués associent plusieurs serveurs ou ordinateurs au sein d’un réseau, tous étant traités comme des nœuds de même niveau. Ils peuvent s’étendre de manière horizontale (« scale-out ») et continuent de fonctionner en cas de défaillance de l’un des nœuds. Il est possible d’utiliser du matériel de commodité afin de limiter les coûts.

Sources

Généralement, les données classiques proviennent de logiciels de planification des ressources d’entreprise (ERP), de gestion des relations client (CRM), ou encore de transactions en ligne et autres sources au niveau de l’entreprise.

Le Big Data, lui, provient d’une plus grande variété de sources, dans l’entreprise et en dehors, notamment des informations issues des réseaux sociaux, générées par des appareils ou des capteurs, ou encore des données audiovisuelles. Ces sources sont dynamiques, évolutive, et se multiplient chaque jour.

Les fichiers texte, vidéo, image et audio peuvent également constituer des sources de données non structurées. Elles ne peuvent pas être exploitées à partir des colonnes et des lignes des bases de données classiques. Dans la mesure où la quantité de données non structurées va croissant, de même que le nombre de leurs sources, des méthodes d’analyse du Big Data sont nécessaire pour en tirer toute la valeur ajoutée.

Analyse

L’analyse des données classiques se fait de manière incrémentale. Un événement se produit, des données sont générées, puis elles sont analysées. Cette analyse peut permettre aux entreprises de comprendre les impacts de stratégies ou de changements donnés, sur un certain nombre de métriques, pour une période donnée.

L’analyse du Big Data, elle, peut se faire en temps réel. Dans la mesure où ces données sont générées à chaque seconde, la collecte et l’analyse peuvent être simultanées. L’analyse du Big Data donne aux entreprises une vision plus dynamique et globale de leurs besoins et de leurs stratégies.

Imaginons une entreprise qui a investi dans un programme de formation de son personnel, et souhaite en évaluer l’impact.

Avec un modèle d’analyse classique, elle pourra identifier cet impact sur un pan précis de ses opérations, par exemple les ventes. Pour cela, elle note le volume des ventes avant en après la formation, en excluant tout facteur extérieur. Elle constatera ainsi, en théorie, le degré d’augmentation des ventes suite à la formation.

Avec une analyse du Big Data, l’entreprise peut mettre de côté la question de l’incidence de cette formation sur un aspect donné de ses activités. En revanche, en observant la masse de données recueillies en temps réel dans l’ensemble de l’organisation, elle pourra identifier les domaines qui ont été touchés : ventes, service client, relations publiques, etc.

Big Data vs. données classiques : considérations d’avenir

Le Big Data et les données classiques servent des objectifs différents, mais connexes. Si le Big Data peut sembler présenter un potentiel de bénéfice plus important, il n’est pas adapté (ni nécessaire) à toutes les circonstances. Le Big Data :

peut permettre d’analyser plus finement les tendances du marché et le comportement des consommateurs. L’analyse des données classiques peut se révéler trop restreinte pour fournir les mêmes informations stratégiques.
fournit plus rapidement des informations stratégiques. Les entreprises en tirent un enseignement en temps réel. Grâce aux analyses du Big Data, elles peuvent ainsi gagner un avantage concurrentiel.
sont plus efficaces. Dans une société de plus en plus numérique, les personnes et les organisations génèrent des quantités considérables de données chaque jour, chaque minute. Le Big Data permet d’en tirer parti et de les interpréter de manière pertinente.
nécessite une bonne préparation. Pour exploiter ces avantages, les entreprises doivent se préparer, à travers des protocoles de sécurité, des étapes de configuration, et une puissance de traitement disponibles supérieure.

L’essor du Big Data n’implique pas la disparition des données classiques. Celles-ci :

sont plus faciles à sécuriser, et donc potentiellement mieux adaptées à des ensembles de données hautement sensibles, à caractère personnel ou confidentiel. En effet, elles sont moins volumineuses. Elles ne requièrent donc pas une architecture distribuée et sont moins susceptible de nécessiter un stockage tiers.
peuvent être traitées par des logiciels traditionnels avec une configuration de système normale. Le traitement du Big Data nécessite une configuration plus avancée, ce qui augmente l’utilisation des ressources et les frais. Tout cela n’est pas nécessaire lorsque des méthodes classiques suffisent.
sont plus faciles à manipuler et à interpréter. Les données classiques étant par nature plus simples et relationnelles, elles peuvent être traitées à l’aide de fonctions normales, voire être accessibles à des non-experts.

La question, tout bien considéré, n’est pas de choisir entre le Big Data et les données classiques. À mesure que les entreprises seront de plus en plus nombreuses à générer de grands ensembles de données non structurées, elles auront besoin de mettre en place les bons outils. Comprendre comment utiliser et gérer les deux modèles fait partie intégrante de l’élaboration d’une stratégie d’avenir.