Skip to Content
Dismiss
Innovation
Une vision de l’IA pour tous

Une base unifiée et automatisée pour transformer les données en intelligence à grande échelle.

En savoir plus
Dismiss
Du 16 au 18 juin, Las Vegas
Pure//Accelerate® 2026

Découvrez comment exploiter la véritable valeur de vos données. 

S’inscrire maintenant
Dismiss
Rapport Gartner® Magic Quadrant™ 2025
En tête dans les catégories Exécution et Vision

Everpure s’est classé parmi les leaders dans le Gartner® Magic Quadrant™ 2025 pour les plateformes de stockage d’entreprise et se positionne en tête dans les catégories Exécution et Vision.

Obtenir le rapport

Qu’est-ce que la dérive de données ? Démystification du modèle

Dans le monde de l’AI d’entreprise, la dérive des données est devenue une préoccupation majeure et inévitable. Il est essentiel de comprendre et de gérer la dérive des données pour préserver la pertinence et la fiabilité des flux de travail et des projets d’AI afin de s’assurer qu’ils fournissent des informations précieuses face à l’évolution rapide des données réelles. Une bonne gestion de la dérive des données permet de maintenir des modèles d’AI dynamiques qui s’adaptent facilement à votre environnement commercial en constante évolution et permettent aux entreprises de garder une longueur d’avance, ainsi qu’à leurs concurrents. 

Cet article examine ce qu’est la dérive des données, pourquoi elle est importante, la différence entre la dérive des données et la dérive des concepts, l’importance des modèles dynamiques et comment le fait de disposer d’une infrastructure de stockage de données compatible avec l’AI permet d’éviter la dérive des données. 

Qu’est-ce que la dérive de données ?

La dérive de données désigne le phénomène où les propriétés statistiques des données d’entrée utilisées pour entraîner un modèle d’apprentissage machine changent au fil du temps. En termes simples, les données sur lesquelles le modèle a été initialement entraîné, les données d’entrée, ne représentent plus précisément les nouvelles données rencontrées par le modèle. Ce changement peut être progressif ou brutal et peut résulter de divers facteurs tels que des changements dans le comportement des clients, des changements dans les conditions environnementales ou des modifications dans les méthodes de collecte de données.

Exemples de dérive de données dans des scénarios concrets

Finance

Dans le trading algorithmique, un modèle entraîné sur les données historiques du marché peut subir une dérive des données à mesure que les conditions du marché évoluent. Des événements économiques soudains ou des changements de politique peuvent entraîner des variations des cours des actions et des schémas de négociation, ce qui a un impact sur la précision prédictive du modèle.

Santé

Un modèle prédictif entraîné sur les données des patients pour identifier les risques de la maladie peut entraîner une dérive des données en cas de changement dans les données démographiques, les modes de vie ou les pratiques de santé au fil du temps. Ces changements peuvent affecter la capacité du modèle à faire des prédictions précises, ce qui pourrait avoir un impact sur le traitement et les résultats du traitement. 

E-commerce

Un système de recommandation e-commerce reposant sur le comportement des utilisateurs peut faire face à une dérive des données en cas de modification des préférences des consommateurs, des habitudes d’achat ou de la disponibilité des produits. De nouvelles tendances ou des changements dans les préférences du client peuvent avoir un impact sur l’efficacité du modèle de recommandation et, en fin de compte, sur l’expérience client. 

Surveillance du climat

Les modèles qui prédisent les schémas météorologiques ou les changements climatiques peuvent subir une dérive des données en raison d’altérations des conditions environnementales. Des facteurs tels que la déforestation, l’urbanisation ou le changement climatique mondial peuvent entraîner des changements dans les schémas de données qui affectent la précision des prévisions du modèle.

Cybersécurité

Un système de détection des intrusions peut subir une dérive des données en cas de changement dans les tactiques et techniques utilisées par les cyberattaques. À mesure que le paysage des menaces évolue, le modèle doit s’adapter à de nouveaux schémas de comportements malveillants pour maintenir son efficacité.

Pourquoi la dérive des données est-elle importante ? 

En termes simples, la dérive des données complique les performances des modèles d’AI. Il s’agit de « déchets entrants, déchets sortants ». Lorsque les modèles d’AI utilisent des données obsolètes, ils produisent des décisions obsolètes. Dans un monde où  2,5 billions d’octets de données sont créés chaque jour, les organisations ne peuvent pas se permettre de travailler sur des données obsolètes. 

Des décisions erronées, basées sur des modèles d’AI, peuvent entraîner des erreurs coûteuses dans les applications réelles. Par exemple, un modèle de prévision des ventes peut mal évaluer la demande s’il n’envisage pas de modifier les préférences des clients. Comme indiqué précédemment, les modèles obsolètes ou obsolètes dus à la dérive des données peuvent également entraîner des pertes financières, une diminution de la satisfaction client et des opportunités manquées.

Dérive conceptuelle et importance des modèles dynamiques

La création de modèles d’AI vise à trouver la fonction F qui mappe les données d’entrée x à une sortie y (la prédiction, la décision ou l’action) via le mode, y=F(x). Mais les modèles ne peuvent pas rester statiques dans un monde très dynamique au sein d’un environnement opérationnel d’entreprise en constante évolution. 

Lorsque la dérive des données implique l’évolution des données métier d’entrée x, la dérive du concept implique l’évolution des résultats y (le résultat métier souhaité en cours de modélisation). Dans les deux cas, le modèle F doit changer de manière dynamique à mesure que des dérives se produisent dans les entrées et/ou les résultats. 

La dérive du concept peut avoir un impact significatif sur les performances des modèles d’apprentissage machine en provoquant :

Dégradation du modèle

À mesure que la distribution des données sous-jacente évolue, le modèle peut devenir moins précis au fil du temps. Les schémas et relations initiaux appris pendant l’entraînement peuvent ne plus tenir, entraînant une baisse des performances prédictives.

Réduction de la généralisation

Les modèles connaissant une dérive du concept peuvent avoir du mal à se généraliser correctement à de nouvelles données invisibles. Les connaissances acquises pendant l’entraînement peuvent devenir moins applicables, car le modèle rencontre des fonctionnalités d’entrée qui diffèrent de celles observées pendant la phase d’entraînement.

Augmentation des faux positifs/négatifs

La dérive du concept peut entraîner des erreurs de classification, entraînant des taux plus élevés de faux positifs ou de faux négatifs. Cela est particulièrement problématique dans les applications telles que la santé ou la finance, où des prédictions précises sont cruciales.

Difficultés d’adaptation

Les modèles doivent s’adapter à l’évolution des schémas de données pour maintenir l’efficacité. L’incapacité à s’adapter rapidement à la dérive des concepts peut entraîner des modèles obsolètes qui fournissent des prévisions inexactes, ce qui peut entraîner une mauvaise prise de décision.

Utilisation intensive des ressources

La résolution de la dérive des concepts peut nécessiter des ressources informatiques supplémentaires et des efforts de réentraînement. Des mises à jour régulières du modèle et un réétalonnage peuvent être nécessaires pour suivre l’évolution des modèles de données, ce qui augmente les besoins globaux en ressources.

Risque d’obsolescence du modèle

Si la dérive du concept n’est pas gérée de manière adéquate, les modèles peuvent devenir obsolètes et perdre leur efficacité. Cela est particulièrement préoccupant dans les applications où des prévisions précises et opportunes sont cruciales, comme la détection des fraudes ou les systèmes autonomes.

Impact sur la prise de décision

Dans les scénarios où les modèles d’apprentissage machine éclairent les décisions critiques, la dérive des concepts peut conduire à des prédictions peu fiables, entraînant potentiellement des choix et des résultats sous-optimaux.

Pour éviter que les modèles d’AI ne soient affectés par l’un ou l’autre type de dérive, les modèles eux-mêmes doivent être dynamiques. 

Imaginez que vous élaboriez un modèle d’apprentissage machine pour prédire le prix des actions ou le comportement des clients. Vous l’entraînez sur certaines données, et cela fonctionne bien. Ensuite, l’environnement dans lequel votre modèle fonctionne change. Les préférences des clients évoluent, la dynamique du marché évolue, et soudain, votre modèle peut ne pas être aussi précis qu’auparavant.

C’est là que les défis entrent en jeu. Les modèles statiques, qui ne s’adaptent pas aux changements de leur environnement, luttent dans des environnements dynamiques. C’est comme essayer d’utiliser une carte qui n’est jamais mise à jour, ce qui n’est pas très utile lorsque le paysage est en constante évolution.

Les conséquences ? Les résultats des modèles obsolètes désignent des prédictions qui ne sont plus exactes, ce qui peut entraîner tous les problèmes mentionnés ci-dessus. Si vous vous fiez à ces prévisions pour prendre des décisions, vous pourriez vous retrouver à faire des choix basés sur des informations obsolètes. Imaginez des prévisions météorologiques qui ne tiennent jamais compte de l’évolution du climat, et qui ne sont pas très fiables.

Des sorties erronées peuvent également créer des problèmes. Si votre modèle interprète mal les schémas changeants des données, c’est comme si vous aviez un GPS qui vous demandait de tourner à gauche dans un lac, car il ne sait pas que la route a changé. Ce n'est pas seulement gênant, mais peut avoir de réelles conséquences.

L’enseignement à retenir ici est que les modèles doivent être aussi dynamiques que le monde dans lequel ils opèrent. Des mises à jour régulières, une surveillance constante et peut-être une touche de magie de l’apprentissage machine peuvent les aider à rester en phase avec le paysage des données en constante évolution. Dans un monde dynamique, vos modèles doivent également être dynamiques.

Détection des dérives de données et de concepts

Détecter la dérive des données et des concepts revient à donner à vos modèles d’AI une paire de lunettes pour voir les changements dans leur environnement. 

Pourquoi une détection rapide est-elle si cruciale ? 

Imaginez que vous dirigez un navire à travers des mers en constante évolution. Si vous ne remarquez pas de changement dans les conditions météorologiques actuelles, vous risquez de vous désorienter. Il en va de même pour les modèles d’apprentissage machine qui naviguent dans l’évolution des données.

Détecter les dérives dans les données d’entrée et de sortie revient à avoir un radar pour les modifications. Il ne s’agit pas seulement de repenser au chemin parcouru, mais également de surveiller l’horizon de l’avenir.

Alors, comment faire ? Pour la dérive des données d’entrée, les méthodes statistiques telles que les tests Kolmogorov-Smirnov ou les méthodes plus avancées telles que le test Page-Hinkley peuvent être semblables à des prévisions météorologiques de données. Ils vous aident à repérer le moment où les schémas de vos données d’entrée commencent à changer, ce qui vous donne un aperçu.

En matière de données de sortie, la surveillance des changements de précision des prédictions ou des taux d’erreur peut être un signe révélateur. Si votre modèle était hier, mais commence soudainement à se faufiler, c'est un signal d'alerte.

Et n’oubliez pas le rôle des algorithmes d’apprentissage machine. Elles ne servent pas seulement à faire des prédictions, elles peuvent également être des gardiens contre la dérive. Les méthodes d’ensemble, qui combinent plusieurs modèles, peuvent agir comme un conseil d’anciens avisés, chacun apportant son point de vue sur les changements de données.

L’apprentissage en ligne est un autre super-héros de ce conte. C’est comme avoir un modèle qui ne se contente pas d’apprendre de son passé, mais qui s’adapte à la volée, et qui reste net face à l’évolution des paysages de données.

Il existe également des outils spécialement conçus pour la détection des dérives. Considérez-les comme des écueils du machine learning, équipés d’algorithmes pour déclencher l’alarme lorsque quelque chose change dans l’atmosphère des données.

En résumé, la détection des dérives ne consiste pas seulement à regarder en arrière et à dire : « Oh, les choses ont changé. » Il s’agit d’équiper les modèles de capteurs et d’outils pour anticiper ces changements et s’assurer qu’ils restent sur la bonne voie dans les océans de données en constante évolution. 

Comment adapter les modèles à la dérive

Considérez la dérive des données comme une danse complexe à laquelle vos modèles doivent constamment s’adapter. Lorsque les données dérivent ou que le concept s’envole vers un nouveau rythme, vos modèles d’AI doivent faire plus que suivre le rythme ; ils doivent ajuster leurs mouvements pour rester synchronisés.

Les stratégies d’adaptation à la dérive des données sont comme avoir un instructeur de danse ou un chorégraphe pour vos modèles. Un changement stratégique consiste à réentraîner, c’est-à-dire à renvoyer vos modèles à un cours de danse avec de nouvelles données afin qu’ils puissent apprendre les dernières étapes. Les mises à jour régulières les aident à rester nettes et à s’adapter aux rythmes changeants.

Ensuite, il y a l’apprentissage en ligne, qui consiste à ajuster vos mouvements en temps réel. Les modèles qui utilisent l’apprentissage en ligne peuvent s’adapter à la volée, tout en restant agiles face à l’évolution de la dynamique des données.

Mais il faut aussi penser à l’équilibre. Imaginez-le comme s’il était à la tête d’un navire. Vous ne voulez pas secouer la roue toutes les secondes, mais vous ne voulez pas non plus naviguer directement dans un iceberg parce que vous refusez de vous adapter. C'est une danse délicate.

L’équilibre entre stabilité et flexibilité implique des ajustements réfléchis. Les méthodes d’ensemble, où plusieurs modèles unissent leurs forces, peuvent ressembler à une troupe de danse, chaque membre offrant son propre style, mais créant ensemble une performance harmonieuse.

En résumé, adapter les modèles à la dérive ne consiste pas seulement à être réactif, mais aussi à être des danseurs proactifs dans la salle de réception des données en constante évolution. Il s’agit de trouver le rythme, d’ajuster les pas et de s’assurer que les modèles restent fluides, en glissant gracieusement dans les rythmes changeants du monde des données.

Pourquoi Pure Storage vous offre un avantage pour la dérive de données 

La dérive des données oblige toutes les équipes impliquées dans les données, mais en particulier les développeurs et les analystes, à rester très concentrées. Le problème est que la dérive des données implique souvent des mouvements de données très coûteux. Le déplacement des données prend du temps, utilise beaucoup de ressources et nécessite beaucoup d’espace. Ces processus échouent ou se rompent souvent et peuvent avoir un impact sur la capacité d’une entreprise à générer des rapports ou à analyser ses données, ce qui a généralement des implications financières. 

N’oubliez pas que l’environnement d’entrepôt de données est généralement le plus grand environnement d’une entreprise. Pour la plupart des entreprises, il est difficile d’avoir un environnement de test/développement adapté à la production, à la fois logistiquement et financièrement. Même si vous disposez d’environnements de test adaptés à la production, les difficultés logistiques empêchent souvent de les synchroniser avec les données actuelles. Elles ne sont souvent mises à jour qu’une ou deux fois par an, avec des arrêts de données déplacés vers des environnements plus bas, si nécessaire. Cela crée une dérive des données, qui entraîne généralement un déplacement constant des données vers et depuis un environnement de test pour identifier les problèmes de signalement. 

Pure Storage déplace les données rapidement, efficacement et gratuitement, car les copies de données sont gratuites. Pure Storage ® FlashBlade ® peut accélérer les requêtes analytiques, tandis que FlashArray ™ assure la gestion des données copiées. Lorsque vous déplacez vos données vers Pure Storage , les processus qui prenaient des heures pour déplacer les données le font désormais en quelques millisecondes. C’est un énorme avantage en matière de gestion de la dérive des données. 

En savoir plus sur FlashBlade et FlashArray .

Nous vous recommandons également…

10/2023
Driving AI Analytics and Future Business Expansion | Everpure
NavInfo (Europe) uses Kubernetes on the AIRI architecture to make the AI platform transparent and easy to use. The company’s large models and data sets put high demands on data storage because tasks can run on many different servers and may be moved between them.
Études de cas clients
2 pages

Parcourez les ressources clés et les événements

VIDÉO
À voir : Avantages d’Enterprise Data Cloud

Charlie Giancarno : l’avenir dépend de la gestion des données, pas du stockage Découvrez comment une approche unifiée peut transformer les opérations informatiques au sein de l’entreprise

Regarder maintenant
RESSOURCE
Le stockage traditionnel ne peut pas alimenter l’avenir.

Les charges de travail modernes exigent des vitesses, des mesures de sécurité et une évolutivité adaptées à l’IA. Votre pile est-elle prête ?

Lancer l’évaluation
PURE360-DEMOS
Pure Storage erkunden, kennenlernen und erleben.

Überzeugen Sie sich mit On-Demand-Videos und -Demos von den Möglichkeiten von Pure Storage.

Demos ansehen
LEADERSHIP ÉCLAIRÉ
La course à l’innovation

Les dernières informations stratégiques et perspectives fournies par des leaders du secteur, pionniers de l’innovation en matière de stockage.

En savoir plus
Votre navigateur n’est plus pris en charge !

Les anciens navigateurs présentent souvent des risques de sécurité. Pour profiter de la meilleure expérience possible sur notre site, passez à la dernière version de l’un des navigateurs suivants.

Personalize for Me
Steps Complete!
1
2
3
Personalize your Everpure experience
Select a challenge, or skip and build your own use case.
Stratégies de virtualisation pérennes

Des options de stockage adaptées à tous vos besoins.

Favorisez les projets d’IA à n’importe quelle échelle

Stockage haute performance pour les pipelines de données, l’entraînement et l’inférence.

Prévenir la perte de données

Des solutions de cyber-résilience qui réduisent vos risques.

Réduire le coût des opérations cloud

Stockage économique pour Azure, AWS et les clouds privés.

Accélérer les performances des applications et des bases de données

Stockage à faible latence pour accélérer les performances des applications.

Réduire la consommation d’énergie et d’espace du datacenter

Stockage efficace en ressources pour améliorer l’utilisation du datacenter.

Confirm your outcome priorities
Your scenario prioritizes the selected outcomes. You can modify or choose next to confirm.
Primary
Reduce My Storage Costs
Lower hardware and operational spend.
Primary
Strengthen Cyber Resilience
Detect, protect against, and recover from ransomware.
Primary
Simplify Governance and Compliance
Easy-to-use policy rules, settings, and templates.
Primary
Deliver Workflow Automation
Eliminate error-prone manual tasks.
Primary
Use Less Power and Space
Smaller footprint, lower power consumption.
Primary
Boost Performance and Scale
Predictability and low latency at any size.
What’s your role and industry?
We've inferred your role based on your scenario. Modify or confirm and select your industry.
Select your industry
Financial services
Government
Healthcare
Education
Telecommunications
Automotive
Hyperscaler
Electronic design automation
Retail
Service provider
Transportation
Which team are you on?
Technical leadership team
Defines the strategy and the decision making process
Infrastructure and Ops team
Manages IT infrastructure operations and the technical evaluations
Business leadership team
Responsible for achieving business outcomes
Security team
Owns the policies for security, incident management, and recovery
Application team
Owns the business applications and application SLAs
Describe your ideal environment
Tell us about your infrastructure and workload needs. We chose a few based on your scenario.
Select your preferred deployment
Hosted
Dedicated off-prem
On-prem
Your data center + edge
Public cloud
Public cloud only
Hybrid
Mix of on-prem and cloud
Select the workloads you need
Databases
Oracle, SQL Server, SAP HANA, open-source

Key benefits:

  • Instant, space-efficient snapshots

  • Near-zero-RPO protection and rapid restore

  • Consistent, low-latency performance

 

AI/ML and analytics
Training, inference, data lakes, HPC

Key benefits:

  • Predictable throughput for faster training and ingest

  • One data layer for pipelines from ingest to serve

  • Optimized GPU utilization and scale
Data protection and recovery
Backups, disaster recovery, and ransomware-safe restore

Key benefits:

  • Immutable snapshots and isolated recovery points

  • Clean, rapid restore with SafeMode™

  • Detection and policy-driven response

 

Containers and Kubernetes
Kubernetes, containers, microservices

Key benefits:

  • Reliable, persistent volumes for stateful apps

  • Fast, space-efficient clones for CI/CD

  • Multi-cloud portability and consistent ops
Cloud
AWS, Azure

Key benefits:

  • Consistent data services across clouds

  • Simple mobility for apps and datasets

  • Flexible, pay-as-you-use economics

 

Virtualization
VMs, vSphere, VCF, vSAN replacement

Key benefits:

  • Higher VM density with predictable latency

  • Non-disruptive, always-on upgrades

  • Fast ransomware recovery with SafeMode™

 

Data storage
Block, file, and object

Key benefits:

  • Consolidate workloads on one platform

  • Unified services, policy, and governance

  • Eliminate silos and redundant copies

 

What other vendors are you considering or using?
Thinking...
Your personalized, guided path
Get started with resources based on your selections.