Qu’est-ce qu’une unité de traitement neuronal (NPU) ?

L’intelligence artificielle et l’apprentissage machine (AI/ML) sont des technologies passionnantes qui font d’énormes promesses, mais nous atteignons collectivement la limite de nos capacités à les atteindre. Dans l’ensemble, nos objectifs en matière d’AI et nos ambitions en matière d’ML approchent rapidement des limites de ce qui est réellement possible. Si l’AI et l’ML sont futurs, les unités de traitement neuronal (NPU) sont la clé.

Pour les organisations qui s’intéressent sérieusement aux charges de travail d’AI à grande échelle, comprendre ce qu’est un NPU, son fonctionnement et ses capacités vous aidera à prendre la bonne décision sur la manière de créer vos pipelines. La bonne solution de stockage sera essentielle, car la plupart des processeurs NPU ne peuvent pas suivre la vitesse.

Qu’est-ce qu’une unité de traitement neuronal ?

Une unité de traitement neuronal est un matériel spécialisé conçu pour accélérer les calculs du réseau neuronal. Grâce à leur conception, les NPU améliorent considérablement la vitesse et l’efficacité des systèmes d’AI.

Ne confondez pas les NPU avec une technologie familière mise à niveau : Les NPU représentent un énorme bond en avant pour le traitement AI/ML. Optimisées pour exécuter les algorithmes qui rendent possible l’AI et l’ML, les processeurs NPU sont particulièrement efficaces pour des tâches telles que la reconnaissance d’images et le traitement du langage naturel, qui nécessitent un traitement rapide d’énormes quantités de données multimédias.

Les NPU ne rivalisent pas nécessairement avec leurs homologues les plus reconnaissables, les processeurs centraux (unités de traitement centrales) et les processeurs graphiques (unités de traitement graphique). Les NPU sont plutôt complémentaires à eux et à leurs rôles.

Les processeurs, même les plus performants, ne sont encore que des moteurs de calcul à usage général. Les processeurs sont capables de gérer un large éventail de tâches, mais ne disposent pas d’une optimisation spécialisée pour un certain nombre de tâches. Les processeurs graphiques, quant à eux, sont spécialisés dans le traitement parallèle, et ils sont particulièrement efficaces pour les calculs complexes dans les graphiques. Grâce à l’exploration des devises numériques, les processeurs graphiques se sont forgé une réputation dans le traitement des charges de travail d’apprentissage machine, mais ils ont besoin de circuits spéciaux pour être particulièrement efficaces dans ces tâches.

Comment fonctionne une unité de traitement neuronal ?

Les NPU sont spécialement conçus pour traiter les algorithmes d’apprentissage machine. Bien que les processeurs graphiques soient très performants dans le traitement des données parallèles, les processeurs NPU sont spécialement conçus pour les calculs nécessaires à l’exécution des réseaux neuronaux responsables des processus d’AI/ML.

Les algorithmes d’apprentissage machine sont la base et l’échafaudage sur lesquels reposent les applications d’AI. Alors que les réseaux neuronaux et les calculs d’apprentissage machine sont devenus de plus en plus complexes, il est devenu nécessaire d’avoir une solution personnalisée.

Les NPU accélèrent les algorithmes d’deep learning en exécutant nativement un grand nombre des opérations dont les réseaux neuronaux spécifiques ont besoin. Plutôt que de créer un cadre pour exécuter ces opérations ou des environnements qui permettent ces calculs avancés, les NPU sont conçus sur mesure pour exécuter efficacement les opérations d’AI/ML.

Les NPU et leur capacité intégrée de calcul haute performance ont un impact considérable sur les performances de l’AI. Les multiplications et les convolutions matricielles sont des tâches spécialisées sur lesquelles dépendent les processus d’AI et les NPU. La reconnaissance d’images et le traitement du langage sont les domaines où les processeurs NPU transforment actuellement le secteur, avec des temps d’inférence plus rapides et une consommation d’énergie plus faible, ce qui peut avoir un impact sur les résultats d’une organisation.

Applications des unités de traitement neuronal

L’application d’unités de traitement neuronal s’étend à tous les secteurs d’activité ou domaines nécessitant un traitement rapide, efficace et évolutif des charges de travail d’AI/ML. Les NPU sont déployés dans le traitement du langage naturel pour l’analyse des sentiments, la traduction, la synthèse du texte et les chatbots. Lorsqu’ils sont utilisés dans la cybersécurité, les NPU traitent d’énormes quantités de données et permettent la détection des menaces, des anomalies et des intrusions. Les NPU sont nettement meilleurs pour analyser les données visuelles et sont utilisés dans les véhicules autonomes et la santé, deux domaines qui nécessitent une analyse rapide des images.

Le monde où les NPU s’ouvrent à nous reste largement inexploré. Au niveau du consommateur, les NPU (qui sont déjà largement intégrés dans les smartphones et les SoC) brouillent les arrière-plans des appels vidéo et génèrent des images d’AI à la volée. Mais il reste encore à révéler l’étendue réelle des capacités des NPU.

Avantages et limites des unités de traitement neuronal

Les NPU accélèrent les vitesses d’inférence et les tâches d’inférence dans les modèles d’deep learning. Lorsque les calculs du réseau neuronal sont déchargés sur des NPU, la latence est réduite et l’expérience utilisateur peut être améliorée. Les NPU sont de plus en plus déployés dans les périphériques Edge et IoT, car ils sont beaucoup plus économes en énergie que leurs homologues GPU et CPU.

Mais les NPU présentent un inconvénient : Elles peuvent être trop rapides. Des systèmes de stockage de données composés de lacs de données et d’entrepôts de données ont été développés en réponse aux limitations physiques et dures des vitesses de traitement des données. La vitesse des NPU peut surcharger les systèmes de stockage traditionnels.

Pour être correctement utilisés à grande échelle, les NPU ont besoin d’une solution de stockage holistique suffisamment rapide pour suivre le rythme. Au niveau de l’entreprise, le stockage doit être spécialement conçu pour l’AI Prenons l'exemple de Pure Storage FlashBlade//S™, une architecture de transfert, partagée et évolutive capable de gérer des pipelines d'AI/ML à grande échelle.

Il existe également une AIRI – AI-Ready Infrastructure. Conçue pour transformer les inconvénients potentiels des vitesses de cloquage des NPU en un actif, AIRI ® est une solution complète qui simplifie le déploiement de l’AI et évolue rapidement et efficacement.

Unités de traitement neuronal et unités de traitement graphique

Comme indiqué ci-dessus, les NPU et les GPU diffèrent considérablement en termes d’architecture, de performances et d’applications. Les NPU et les GPU sont des composants matériels différents, chacun optimisé pour ce qu’il fait le mieux : NPU pour les tâches d’AI/ML et GPU pour le rendu graphique.

Les NPU étant du matériel spécialisé conçu spécifiquement pour accélérer les calculs sur les réseaux neuronaux, leur architecture est conçue sur mesure pour les tâches d’deep learning. En revanche, les processeurs graphiques doivent être réutilisés pour les tâches de deep learning et sont beaucoup plus puissants dans le rendu graphique. Les processeurs graphiques ont une architecture généralisée avec des milliers de cœurs. Les NPU présentent une conception plus rationalisée avec du matériel dédié pour des tâches telles que les multiplications et les convolutions de matrice.

Les processeurs NPU ont tendance à surpasser les processeurs graphiques dans les tâches d’inférence en temps réel sur les périphériques périphériques, où une latence et une efficacité énergétique faibles sont essentielles. Les NPU sont également préférables dans les applications qui nécessitent un traitement AI sur l’appareil, comme les véhicules autonomes et les appareils IoT. Et les processeurs NPU surpassent les GPU pour la vitesse des charges de travail d’AI dans les environnements à ressources limitées.

Conclusion

Quel que soit le projet, il existe un compromis constant entre disposer du bon outil pour chaque partie du travail et la simplicité d’avoir un seul outil généralisé. C’est pourquoi, par exemple, les bûcherons amateurs n’investissent pas dans une scie circulaire, une scie à miettes, une scie à queue, une scie à table, une scie à ruban, une scie rotative et une scie à chaîne jusqu’à ce qu’ils en aient besoin pour le projet sur lequel ils travaillent. De la même manière, jusqu’à récemment, le monde de l’AI/ML ne s’est pas contenté des GPU.

Les unités de traitement neuronal sont de puissants outils personnalisés pour l’intelligence artificielle et les algorithmes d’apprentissage machine. Les NPU pourraient très bien révolutionner le visage des charges de travail AI/ML. Et il est logique que de plus en plus de réseaux et d’entreprises investissent dans eux : L’AI et l’ML sont sur le point de refaçonner notre culture, nos technologies et même notre art.

Exploiter toute la puissance et l’efficacité des NPU à grande échelle nécessite de réinventer ce qui est possible du côté du stockage de la maison. Mais il ne s’agit pas seulement de réinventer les possibilités de AI/ML, mais aussi de réinventer vos réseaux de stockage, hybrides ou cloud pour vous assurer que pendant que vos NPU collectent et traitent rapidement d’énormes quantités de données, vous disposez d’une solution de stockage capable de suivre le rythme.