Qu’est-ce que la dérive de données ? Démystification du modèle

Dans le monde de l’AI d’entreprise, la dérive des données est devenue une préoccupation majeure et inévitable. Il est essentiel de comprendre et de gérer la dérive des données pour préserver la pertinence et la fiabilité des flux de travail et des projets d’AI afin de s’assurer qu’ils fournissent des informations précieuses face à l’évolution rapide des données réelles. Une bonne gestion de la dérive des données permet de maintenir des modèles d’AI dynamiques qui s’adaptent facilement à votre environnement commercial en constante évolution et permettent aux entreprises de garder une longueur d’avance, ainsi qu’à leurs concurrents.

Cet article examine ce qu’est la dérive des données, pourquoi elle est importante, la différence entre la dérive des données et la dérive des concepts, l’importance des modèles dynamiques et comment le fait de disposer d’une infrastructure de stockage de données compatible avec l’AI permet d’éviter la dérive des données.

Qu’est-ce que la dérive de données ?

La dérive de données désigne le phénomène où les propriétés statistiques des données d’entrée utilisées pour entraîner un modèle d’apprentissage machine changent au fil du temps. En termes simples, les données sur lesquelles le modèle a été initialement entraîné, les données d’entrée, ne représentent plus précisément les nouvelles données rencontrées par le modèle. Ce changement peut être progressif ou brutal et peut résulter de divers facteurs tels que des changements dans le comportement des clients, des changements dans les conditions environnementales ou des modifications dans les méthodes de collecte de données.

Exemples de dérive de données dans des scénarios concrets

Finance

Dans le trading algorithmique, un modèle entraîné sur les données historiques du marché peut subir une dérive des données à mesure que les conditions du marché évoluent. Des événements économiques soudains ou des changements de politique peuvent entraîner des variations des cours des actions et des schémas de négociation, ce qui a un impact sur la précision prédictive du modèle.

Santé

Un modèle prédictif entraîné sur les données des patients pour identifier les risques de la maladie peut entraîner une dérive des données en cas de changement dans les données démographiques, les modes de vie ou les pratiques de santé au fil du temps. Ces changements peuvent affecter la capacité du modèle à faire des prédictions précises, ce qui pourrait avoir un impact sur le traitement et les résultats du traitement.

E-commerce

Un système de recommandation e-commerce reposant sur le comportement des utilisateurs peut faire face à une dérive des données en cas de modification des préférences des consommateurs, des habitudes d’achat ou de la disponibilité des produits. De nouvelles tendances ou des changements dans les préférences du client peuvent avoir un impact sur l’efficacité du modèle de recommandation et, en fin de compte, sur l’expérience client.

Surveillance du climat

Les modèles qui prédisent les schémas météorologiques ou les changements climatiques peuvent subir une dérive des données en raison d’altérations des conditions environnementales. Des facteurs tels que la déforestation, l’urbanisation ou le changement climatique mondial peuvent entraîner des changements dans les schémas de données qui affectent la précision des prévisions du modèle.

Cybersécurité

Un système de détection des intrusions peut subir une dérive des données en cas de changement dans les tactiques et techniques utilisées par les cyberattaques. À mesure que le paysage des menaces évolue, le modèle doit s’adapter à de nouveaux schémas de comportements malveillants pour maintenir son efficacité.

Pourquoi la dérive des données est-elle importante ?

En termes simples, la dérive des données complique les performances des modèles d’AI. Il s’agit de « déchets entrants, déchets sortants ». Lorsque les modèles d’AI utilisent des données obsolètes, ils produisent des décisions obsolètes. Dans un monde où 2,5 billions d’octets de données sont créés chaque jour, les organisations ne peuvent pas se permettre de travailler sur des données obsolètes.

Des décisions erronées, basées sur des modèles d’AI, peuvent entraîner des erreurs coûteuses dans les applications réelles. Par exemple, un modèle de prévision des ventes peut mal évaluer la demande s’il n’envisage pas de modifier les préférences des clients. Comme indiqué précédemment, les modèles obsolètes ou obsolètes dus à la dérive des données peuvent également entraîner des pertes financières, une diminution de la satisfaction client et des opportunités manquées.

Dérive conceptuelle et importance des modèles dynamiques

La création de modèles d’AI vise à trouver la fonction F qui mappe les données d’entrée x à une sortie y (la prédiction, la décision ou l’action) via le mode, y=F(x). Mais les modèles ne peuvent pas rester statiques dans un monde très dynamique au sein d’un environnement opérationnel d’entreprise en constante évolution.

Lorsque la dérive des données implique l’évolution des données métier d’entrée x, la dérive du concept implique l’évolution des résultats y (le résultat métier souhaité en cours de modélisation). Dans les deux cas, le modèle F doit changer de manière dynamique à mesure que des dérives se produisent dans les entrées et/ou les résultats.

La dérive du concept peut avoir un impact significatif sur les performances des modèles d’apprentissage machine en provoquant :

Dégradation du modèle

À mesure que la distribution des données sous-jacente évolue, le modèle peut devenir moins précis au fil du temps. Les schémas et relations initiaux appris pendant l’entraînement peuvent ne plus tenir, entraînant une baisse des performances prédictives.

Réduction de la généralisation

Les modèles connaissant une dérive du concept peuvent avoir du mal à se généraliser correctement à de nouvelles données invisibles. Les connaissances acquises pendant l’entraînement peuvent devenir moins applicables, car le modèle rencontre des fonctionnalités d’entrée qui diffèrent de celles observées pendant la phase d’entraînement.

Augmentation des faux positifs/négatifs

La dérive du concept peut entraîner des erreurs de classification, entraînant des taux plus élevés de faux positifs ou de faux négatifs. Cela est particulièrement problématique dans les applications telles que la santé ou la finance, où des prédictions précises sont cruciales.

Difficultés d’adaptation

Les modèles doivent s’adapter à l’évolution des schémas de données pour maintenir l’efficacité. L’incapacité à s’adapter rapidement à la dérive des concepts peut entraîner des modèles obsolètes qui fournissent des prévisions inexactes, ce qui peut entraîner une mauvaise prise de décision.

Utilisation intensive des ressources

La résolution de la dérive des concepts peut nécessiter des ressources informatiques supplémentaires et des efforts de réentraînement. Des mises à jour régulières du modèle et un réétalonnage peuvent être nécessaires pour suivre l’évolution des modèles de données, ce qui augmente les besoins globaux en ressources.

Risque d’obsolescence du modèle

Si la dérive du concept n’est pas gérée de manière adéquate, les modèles peuvent devenir obsolètes et perdre leur efficacité. Cela est particulièrement préoccupant dans les applications où des prévisions précises et opportunes sont cruciales, comme la détection des fraudes ou les systèmes autonomes.

Impact sur la prise de décision

Dans les scénarios où les modèles d’apprentissage machine éclairent les décisions critiques, la dérive des concepts peut conduire à des prédictions peu fiables, entraînant potentiellement des choix et des résultats sous-optimaux.

Pour éviter que les modèles d’AI ne soient affectés par l’un ou l’autre type de dérive, les modèles eux-mêmes doivent être dynamiques.

Imaginez que vous élaboriez un modèle d’apprentissage machine pour prédire le prix des actions ou le comportement des clients. Vous l’entraînez sur certaines données, et cela fonctionne bien. Ensuite, l’environnement dans lequel votre modèle fonctionne change. Les préférences des clients évoluent, la dynamique du marché évolue, et soudain, votre modèle peut ne pas être aussi précis qu’auparavant.

C’est là que les défis entrent en jeu. Les modèles statiques, qui ne s’adaptent pas aux changements de leur environnement, luttent dans des environnements dynamiques. C’est comme essayer d’utiliser une carte qui n’est jamais mise à jour, ce qui n’est pas très utile lorsque le paysage est en constante évolution.

Les conséquences ? Les résultats des modèles obsolètes désignent des prédictions qui ne sont plus exactes, ce qui peut entraîner tous les problèmes mentionnés ci-dessus. Si vous vous fiez à ces prévisions pour prendre des décisions, vous pourriez vous retrouver à faire des choix basés sur des informations obsolètes. Imaginez des prévisions météorologiques qui ne tiennent jamais compte de l’évolution du climat, et qui ne sont pas très fiables.

Des sorties erronées peuvent également créer des problèmes. Si votre modèle interprète mal les schémas changeants des données, c’est comme si vous aviez un GPS qui vous demandait de tourner à gauche dans un lac, car il ne sait pas que la route a changé. Ce n'est pas seulement gênant, mais peut avoir de réelles conséquences.

L’enseignement à retenir ici est que les modèles doivent être aussi dynamiques que le monde dans lequel ils opèrent. Des mises à jour régulières, une surveillance constante et peut-être une touche de magie de l’apprentissage machine peuvent les aider à rester en phase avec le paysage des données en constante évolution. Dans un monde dynamique, vos modèles doivent également être dynamiques.

Détection des dérives de données et de concepts

Détecter la dérive des données et des concepts revient à donner à vos modèles d’AI une paire de lunettes pour voir les changements dans leur environnement.

Pourquoi une détection rapide est-elle si cruciale ?

Imaginez que vous dirigez un navire à travers des mers en constante évolution. Si vous ne remarquez pas de changement dans les conditions météorologiques actuelles, vous risquez de vous désorienter. Il en va de même pour les modèles d’apprentissage machine qui naviguent dans l’évolution des données.

Détecter les dérives dans les données d’entrée et de sortie revient à avoir un radar pour les modifications. Il ne s’agit pas seulement de repenser au chemin parcouru, mais également de surveiller l’horizon de l’avenir.

Alors, comment faire ? Pour la dérive des données d’entrée, les méthodes statistiques telles que les tests Kolmogorov-Smirnov ou les méthodes plus avancées telles que le test Page-Hinkley peuvent être semblables à des prévisions météorologiques de données. Ils vous aident à repérer le moment où les schémas de vos données d’entrée commencent à changer, ce qui vous donne un aperçu.

En matière de données de sortie, la surveillance des changements de précision des prédictions ou des taux d’erreur peut être un signe révélateur. Si votre modèle était hier, mais commence soudainement à se faufiler, c'est un signal d'alerte.

Et n’oubliez pas le rôle des algorithmes d’apprentissage machine. Elles ne servent pas seulement à faire des prédictions, elles peuvent également être des gardiens contre la dérive. Les méthodes d’ensemble, qui combinent plusieurs modèles, peuvent agir comme un conseil d’anciens avisés, chacun apportant son point de vue sur les changements de données.

L’apprentissage en ligne est un autre super-héros de ce conte. C’est comme avoir un modèle qui ne se contente pas d’apprendre de son passé, mais qui s’adapte à la volée, et qui reste net face à l’évolution des paysages de données.

Il existe également des outils spécialement conçus pour la détection des dérives. Considérez-les comme des écueils du machine learning, équipés d’algorithmes pour déclencher l’alarme lorsque quelque chose change dans l’atmosphère des données.

En résumé, la détection des dérives ne consiste pas seulement à regarder en arrière et à dire : « Oh, les choses ont changé. » Il s’agit d’équiper les modèles de capteurs et d’outils pour anticiper ces changements et s’assurer qu’ils restent sur la bonne voie dans les océans de données en constante évolution.

Comment adapter les modèles à la dérive

Considérez la dérive des données comme une danse complexe à laquelle vos modèles doivent constamment s’adapter. Lorsque les données dérivent ou que le concept s’envole vers un nouveau rythme, vos modèles d’AI doivent faire plus que suivre le rythme ; ils doivent ajuster leurs mouvements pour rester synchronisés.

Les stratégies d’adaptation à la dérive des données sont comme avoir un instructeur de danse ou un chorégraphe pour vos modèles. Un changement stratégique consiste à réentraîner, c’est-à-dire à renvoyer vos modèles à un cours de danse avec de nouvelles données afin qu’ils puissent apprendre les dernières étapes. Les mises à jour régulières les aident à rester nettes et à s’adapter aux rythmes changeants.

Ensuite, il y a l’apprentissage en ligne, qui consiste à ajuster vos mouvements en temps réel. Les modèles qui utilisent l’apprentissage en ligne peuvent s’adapter à la volée, tout en restant agiles face à l’évolution de la dynamique des données.

Mais il faut aussi penser à l’équilibre. Imaginez-le comme s’il était à la tête d’un navire. Vous ne voulez pas secouer la roue toutes les secondes, mais vous ne voulez pas non plus naviguer directement dans un iceberg parce que vous refusez de vous adapter. C'est une danse délicate.

L’équilibre entre stabilité et flexibilité implique des ajustements réfléchis. Les méthodes d’ensemble, où plusieurs modèles unissent leurs forces, peuvent ressembler à une troupe de danse, chaque membre offrant son propre style, mais créant ensemble une performance harmonieuse.

En résumé, adapter les modèles à la dérive ne consiste pas seulement à être réactif, mais aussi à être des danseurs proactifs dans la salle de réception des données en constante évolution. Il s’agit de trouver le rythme, d’ajuster les pas et de s’assurer que les modèles restent fluides, en glissant gracieusement dans les rythmes changeants du monde des données.

Pourquoi Pure Storage vous offre un avantage pour la dérive de données

La dérive des données oblige toutes les équipes impliquées dans les données, mais en particulier les développeurs et les analystes, à rester très concentrées. Le problème est que la dérive des données implique souvent des mouvements de données très coûteux. Le déplacement des données prend du temps, utilise beaucoup de ressources et nécessite beaucoup d’espace. Ces processus échouent ou se rompent souvent et peuvent avoir un impact sur la capacité d’une entreprise à générer des rapports ou à analyser ses données, ce qui a généralement des implications financières.

N’oubliez pas que l’environnement d’entrepôt de données est généralement le plus grand environnement d’une entreprise. Pour la plupart des entreprises, il est difficile d’avoir un environnement de test/développement adapté à la production, à la fois logistiquement et financièrement. Même si vous disposez d’environnements de test adaptés à la production, les difficultés logistiques empêchent souvent de les synchroniser avec les données actuelles. Elles ne sont souvent mises à jour qu’une ou deux fois par an, avec des arrêts de données déplacés vers des environnements plus bas, si nécessaire. Cela crée une dérive des données, qui entraîne généralement un déplacement constant des données vers et depuis un environnement de test pour identifier les problèmes de signalement.

Pure Storage déplace les données rapidement, efficacement et gratuitement, car les copies de données sont gratuites. Pure Storage ® FlashBlade ® peut accélérer les requêtes analytiques, tandis que FlashArray ™ assure la gestion des données copiées. Lorsque vous déplacez vos données vers Pure Storage , les processus qui prenaient des heures pour déplacer les données le font désormais en quelques millisecondes. C’est un énorme avantage en matière de gestion de la dérive des données.

En savoir plus sur FlashBlade et FlashArray .