Gabriel HAUTREUX, Responsable du département Calcul Intensif du CINES, a proposé son retour d’expérience "Architectures exascales HPC et IA au service de la communauté scientifique nationale" lors de la matinale HPC organisée le 16 janvier 2024.
Quelles sont les missions du CINES ?
Le CINES est le Centre Informatique National de l’Enseignement Supérieur. Nous avons 3 missions stratégiques ; la première, bien sûr, c'est le HPC, le calcul intensif, où nous offrons des services à plusieurs centaines de projets de recherche en HPC au profit de la communauté de recherche scientifique française, publique ou privée, sous réserve de la publication des résultats de recherche.
Notre deuxième mission est de faire de l'archivage numérique. C'est le CINES, par exemple, qui héberge sur le long terme toutes les thèses françaises numériques. Enfin, nous sommes aussi un centre d'hébergement national. À ce titre, nous hébergeons des serveurs de certaines entités nationales.
Qu’est-ce qu’Adastra, et d’où vient son nom ?
Ce nom est extrait de la locution latine complète « Ad astra per aspera », que l’on pourrait traduire par « Vers les étoiles, par les chemins difficiles ». Mais finalement, on a choisi de ne garder que « Ad astra » (rires).
Adastra, c'est une machine qui est basée sur l'architecture la plus puissante au monde actuellement. En juin 2022, elle était classée 10ème au classement Top 500. Mais ce n’est pas tout, Adastra est également 3ème du classement Green 500, c’est-à-dire la 3ème machine la plus énergétiquement efficace. Adastra est un calculateur d’une densité extrêmement importante : tout tient dans seulement 5 armoires de calcul. Le refroidissement est intégralement réalisé avec de l’eau, ce qui fait que nous n’utilisons aucun ventilateur sur ces machines. C'est aussi l’une des raisons pour lesquelles c’est une des machines les plus sobres au monde actuellement.
Quelle est la configuration d’ADASTRA ?
Pour répondre, je vais devoir rentrer un peu plus dans la technologie ! Adastra est une machine HPE CRAY EX, munie de processeurs CPU et GPU d’AMD. C’est une machine convergée, avec une architecture hybride, composée d’une partition scalaire avec des serveurs CPU traditionnels, et une partition accélérée avec des GPU.
La partition scalaire compte aujourd'hui 536 serveurs CPU AMD Genoa, ce qui nous permet d'avoir plus de 100.000 cœurs de calcul CPU en parallèle. Les 532 processeurs bi-socket AMD hébergent chacun 192 cœurs, ce qui au total représente plus de 100.000 cœurs Zen4 ! La performance de pointe est de 3,9 Pflops, soit légèrement plus que les 3,5 Pflops de notre calculateur précédent, mais avec seulement le tiers de sa consommation énergétique.
Et sur la partition accélérée, nous avons 352 serveurs GPU AMD MI250X contenant 64 cœurs CPU et 4 GPU MI250X, avec 173 To de mémoire agrégée. La performance de pointe est de 71,13 Pflops. L’interconnexion entre la machine et ses systèmes de fichiers et ses noeuds de visualisation permet d'échanger 200 gigabits de données par seconde et par lien.
Pour parler un peu de stockage, nous avons 2 Po de stockage rapide sur lesquels on peut écrire à plus de 1 To par seconde. Sur la machine, nous avons aussi plusieurs dizaines de Po de stockage plus lent permettant à nos utilisateurs de péréniser, voire archiver, leurs données de simulation.
Pour tirer le maximum de toute cette puissance, il faut que les codes soient vraiment optimisés. Comment faire ?
Nous avons mis en place un programme de portage et d'optimisation d'application en parallèle de l’achat de la machine Adastra. On a choisi 5 applications majeures, représentatives de notre communauté scientifique, et sur lesquelles nous avons travaillé durant un an en rassemblant les experts du CINES, d’HPE- CRAY et aussi d’AMD. Grâce à ce travail d’optimisation du code, nous avons atteint des accélérations entre des nœuds GPU et des nœuds CPU de l'ordre de fois 5, c'est à dire que nos applications sont capables de s'exécuter 5 fois plus vite sur les GPU que sur les CPU. Et le deuxième effet Kiss Cool, c’est que lorsqu’on s'exécute plus vite, on consomme aussi beaucoup moins d'énergie !
L’optimisation du code nécessite une vraie expérience. Aujourd'hui, les efforts de partage et d'optimisation pour les architectures GPU représentent plus de 50% de nos activités. C'est vraiment un tournant dans notre travail au quotidien, puisque précédemment sur les machines qui n’utilisaient que du CPU, cela représentait moins de 10 % de notre activité. Ce savoir-faire, nous le mettons au service des communautés scientifiques pour mieux utiliser les machines de calcul Exascale.
Début février nous organisons un hackhaton de portage GPU à Montpellier dont l'objectif va être d'optimiser les performances de code HPC sur la plateforme Adastra.
Peut-on concilier très haute performance de calcul et sobriété énergétique ?
Adastra embarque tout un système de télémétrie qui permet de connaître l'énergie du plus bas composant – le CPU – jusqu'à l'ensemble de l'infrastructure. Nous éditons des tableaux qui affichent la consommation instantanée de la machine, et de chacune des armoires de calcul. Ces données sont partagées avec notre communauté d’utilisateurs, qui disposent ainsi de métriques énergétiques sur leur simulation numérique.
Très clairement, notre objectif est de continuer à travailler dans ce sens. Le but n’est pas forcément de réduire notre consommation énergétique totale, mais plutôt d'augmenter ce que j’appellerais la quantité de science par Watt que l'on est capable de produire sur la machine. Et n’oublions pas qu’avec son refroidissement à eau, Adastra consomme largement moins d’énergie que ses concurrentes, refroidies par des dispositifs de ventilation par air froid et de climatisation classiques.
C’est quoi le futur d’ADASTRA ?
Cela fait maintenant un an et demi que la machine est en opération, nous avons produit des codes de calcul qui fonctionnent très bien sur CPU, et d’autres sur GPU. Nous avons lancé une campagne de grands défis scientifiques, incitant des chercheurs de différents secteurs d’activité à venir faire de grandes simulations chez nous. Parmi les sujets, on pense par exemple au design de nouveau médicaments, ou encore à l’optimisation d’un parc éolien offshore.
Avec l’arrivée de nouveaux projets, étendre la capacité d’Adastra sera très simple. Il suffira d’ajouter de nouveaux racks de calcul, de rajouter des serveurs de calcul intérieur. Ensuite on amène un tuyau d’arrivée d’eau à 30°C pour refroidir, un câble d’alimentation pour l'électricité, des câbles pour se relier au réseau, et le tour est joué !
Nous avons aussi en ligne de mire les nouveaux processeurs APU (Accelerated Processing Unit) et d’AMD qui mêleront à la fois CPU et GPU. Nous recevrons 112 accélérateurs de ce type au premier semestre 2024. Avec cette technologie on estime que les performances en IA seront multipliées par 8, et pour une consommation énergétique équivalente à celle des générations de machine actuelles. Donc, on va pouvoir faire 8 fois plus de sciences par watt en IA ! La question sur l’on se pose désormais est : « L’APU incarne-t-il le futur du HPC ? »
Autres articles sur le même thème
Le retour d'expérience du mois
Stratégie cloud : quel modèle de gouvernance et assistant IA ?
Thomas Berger, CTO de La Centrale
Mag #20
Lire l'article
Le retour d'expérience du mois
Transformation du réseau mondial d’Elis basé sur des liaisons MPLS vers un réseau SDWAN sécurisé
Mag #19
Lire l'article
Le retour d'expérience du mois
Projet C'zam : l'outil ITSM de France Travail vers une vision ESM