Le calcul haute performance (HPC) désigne la capacité à exécuter des calculs de manière synchronisée sur un grand nombre d’ordinateurs connectés en réseau. Le HPC permet d’exécuter des calculs trop volumineux pour des ordinateurs standard, en réduisant le délai nécessaire au traitement d’opérations de grande envergure. Les ordinateurs HPC sont aussi communément appelés « superordinateurs » ou « supercalculateurs ».
Le HPC est particulièrement important de nos jours, à l’heure où de nouvelles données sont générées à un rythme sans précédent. Selon les estimations, les appareils IoT devraient produire à eux seuls près de 80 zettaoctets de données d’ici 2025. Une simple usine équipée d’appareils IoT pourrait générer chaque jour plusieurs centaines de téraoctets de données. Il serait tout simplement impensable de traiter un tel volume de données sur un seul ordinateur. Le HPC, en revanche, est capable de traiter d’énormes datasets en répartissant les opérations entre plusieurs ordinateurs avec l’aide de fonctionnalités logicielles et réseau.
Voyons maintenant en quoi le HPC est important et de quelle manière il est utilisé.
Le HPC permet de simuler ou d’analyser de gigantesques volumes de données que de simples ordinateurs standard ne pourraient pas prendre en charge. Cette technologie de pointe contribue à réaliser des avancées majeures dans certains domaines, comme la recherche scientifique, où le recours au HPC a conduit à de multiples innovations révolutionnaires, du traitement de certains cancers jusqu’aux vaccins contre la COVID-19.
Un superordinateur se compose d’un groupe d’ordinateurs appelé « cluster ». Chaque ordinateur d’un cluster représente un « nœud ». Chaque nœud dispose d’un système d’exploitation, comprenant un processeur à plusieurs cœurs, un stockage et des capacités réseau qui permettent aux nœuds de communiquer entre eux. Un petit cluster, par exemple, peut contenir 16 nœuds à 64 cœurs, soit quatre cœurs par processeur qui, combinés à des capacités réseau, permettent au superordinateur d’exécuter des calculs bien plus rapidement qu’un ordinateur classique.
Le HPC est actuellement utilisé dans divers secteurs d’activité. À terme, il est fort probable que la quasi-totalité des industries se tourne vers le HPC pour gérer de vastes volumes de données. L’adoption du HPC s’est révélée particulièrement intense dans les secteurs qui ont besoin d’analyser rapidement des datasets volumineux, notamment :
Les temps d’arrêt ne sont pas envisageables. Avec Pure, vous savez que vous pourrez toujours répondre à vos demandes de capacité.
Quatre facteurs influencent particulièrement l’utilisation de la technologie HPC :
Pour dire les choses simplement, un seul processeur ne pourrait pas délivrer la bande passante nécessaire au traitement d’immenses volumes de données. Dans un modèle HPC, en revanche, plusieurs centres de traitement fonctionnent en parallèle pour produire des résultats. N’oubliez pas que, dans ce modèle :
Par exemple, un cluster à 16 nœuds comprenant chacun quatre cœurs forme un cluster extrêmement petit, qui représente au total 64 cœurs fonctionnant en parallèle.
Aujourd’hui, dans la plupart des cas d’usage du HPC, plusieurs milliers de cœurs fonctionnent en parallèle pour exécuter des processus donnés en un minimum de temps. Les fournisseurs de solutions IaaS (Infrastructure-as-a-service) offrent aux utilisateurs la possibilité d’exploiter un grand nombre de nœuds chaque fois qu’ils en ont besoin et de diminuer ensuite en capacité dès que leur charge de travail s’allège. Les utilisateurs ne sont facturés que pour la puissance de traitement dont ils ont besoin, sans avoir à engager les dépenses d’investissement (CAPEX) nécessaires au développement d’une infrastructure. Les utilisateurs de solutions IaaS ont aussi généralement la possibilité, si besoin, de définir des configurations de nœuds adaptées à des applications spécifiques.
Les systèmes d’exploitation servent d’interface entre les composants matériels et logiciels utilisés dans le HPC. Linux et Windows sont les deux principaux systèmes d’exploitation utilisés dans les environnements HPC. Linux est généralement employé pour le calcul haute performance proprement dit, tandis que Windows n’est utilisé que lorsque l’environnement nécessite des applications spécifiques à Windows.
Dans un environnement HPC, le réseau sert à connecter le matériel de calcul, les ressources de stockage et l’utilisateur. Le matériel de calcul est connecté par l’intermédiaire de réseaux capables de traiter d’énormes bandes passantes de données. Pour pouvoir supporter des transferts de données plus rapides, les réseaux doivent également afficher une latence faible. Les transmissions de données et l’administration des clusters sont gérées par des gestionnaires de clusters, des services de gestion ou des planificateurs.
Le gestionnaire de clusters exécute la charge de travail entre les ressources de calcul distribuées (CPU, FPGA, GPU, disques, etc.). Toutes les ressources doivent être connectées au même réseau pour permettre au gestionnaire de clusters de gérer les ressources. Dans le cadre des services proposés par un fournisseur de solutions IaaS, toutes les installations nécessaires à la gestion de l’infrastructure sont automatiquement appliquées par le fournisseur.
Pour finir, les données destinées à être traitées par le HPC doivent être stockées dans un vaste référentiel de données. Comme les données peuvent se présenter sous différentes formes (structurées, semi-structurées, non structurées), leur stockage peut exiger de recourir à différents types de bases de données.
Les données dans leur(s) format(s) brut(s) sont stockées dans un data lake. Ces données peuvent être difficiles à traiter car aucune application précise ne leur a encore été attribuée. Les data warehouses sont utilisés pour stocker les données après leur traitement, une fois qu’elles ont été nettoyées pour remplir leur mission spécifique.
Le stockage constitue une partie critique de l’architecture ; et pourtant, il demeure bien souvent négligé dans un grand nombre de scénarios HPC. Le calcul haute performance est utilisé dans les applications qui exigent de traiter en parallèle d’énormes volumes de données. Ses performances, cependant, varient selon que l’ensemble des composants de son architecture sont capables ou non de s’adapter les uns aux autres.
Les solutions de stockage traditionnelles ne sont généralement pas capables de répondre aux besoins d’un scénario HPC ; pire encore, elles risquent de créer des goulets d’étranglement et de ralentir ses performances. Le stockage de données doit être capable d’évoluer au rythme de la puissance de traitement de l’installation, ce qui explique pourquoi les architectures HPC utilisent un stockage UFFO (Unified Fast File and Object) .
Evergreen//One™ offre un stockage UFFO rapide et fiable, avec tous les avantages d’un modèle de paiement à l’utilisation (PaYG). Utilisable on-premises et dans des environnements de cloud hybride, cette solution est idéale pour les environnements HPC qui exigent une bonne évolutivité sans transiger sur les performances.
Découvrez Evergreen//One dès maintenant. Tous nos nouveaux clients bénéficient d’un service gratuit les trois premiers mois.
Vous avez des questions ou des commentaires concernant des produits ou certifications Pure ? Nous sommes là pour vous aider.
Planifiez une démo en direct et découvrez comment Pure peut vous aider à transformer vos données.
Tél. : +33 1 89 96 04 00
Services Médias : pr@purestorage.com
Pure Storage France
32 rue Guersant
75017 Paris