Aller au contenu principal
shapes shapes
Le retour d'expérience du mois

HPC et maîtrise énergétique : challenge réussi chez EDF

image hero
Cyril BAUDRY est architecte Système d’Information Scientifique et expert groupe pour le « High Performance Computing » chez EDF. Lors de la matinale HPC du 23 janvier 2025, Cyril a présenté l’importance du HPC pour le groupe EDF et les puissances de calcul à disposition en interne. Il a évoqué également les moyens d’optimiser l’empreinte énergétique des activités numériques utilisant le HPC, les espoirs placés dans les technologies GPU, ARM, ou l’utilisation du quantique.
 

Quelle est la place du HPC au sein d’EDF ?

La R&D est au service des objectifs de l’ensemble du groupe EDF, ce qui se traduit dans les 3 axes suivants : améliorer la performance dans tous ses projets actuels, préparer les scénarios énergétiques du futur en travaillant sur les technologies de rupture, et enfin, réaliser des recherches pour des commanditaires externes dans le cadre de partenariats ou de commandes. Pour réaliser ses objectifs, la R&D s’appuie sur ses équipes, de plus de 2100 personnes en 2023, en France et à l’étranger, réparties sur 9 centres de recherche, dont 3 en France.

La R&D a été pionnière pour le groupe dans l’utilisation des moyens de calcul HPC depuis plus de 30 ans. L’utilisation de ces moyens de calculs s’est aujourd’hui diffusée dans l’ensemble des activités du groupe, et nous disposons de plus de 11 petaflops de puissance de calcul. Les activités autour de la production d’électricité représentent plus de 80 % de nos traitements HPC, avec une grande partie du calcul dédié à la production nucléaire. Nous réalisons des simulations sur à peu près tous les organes d’une centrale nucléaire, et le HPC nous est, par exemple, nécessaire pour explorer de très nombreux scénarios sur des maillages de plus en plus fins. L’expérimentation numérique, en complément de l’approche expérimentale, est indispensable à nos activités.
De nouveaux usages du HPC se développent autour de la data science, de l’open data ou encore de l’IA. Avec un volume de données croissant à gérer, nous avons besoin de plus en plus de puissance de calcul, et nous voyons se rapprocher de plus en plus les mondes HPC et Big Data.
 

De quelles ressources HPC disposez-vous en interne ?

En interne, EDF dispose de 2 gros clusters de calcul, baptisés Cronos et Gaïa. Cronos développe une puissance de 4,3 pétaflops, grâce à 95.000 cœurs répartis sur 2.000 nœuds de calcul. Sa consommation énergétique s’élève à 1,3 MW.  La plateforme Gaïa est un peu plus ancienne. Elle développe une puissance de 2 pétaflops, grâce à 42.000 cœurs répartis sur 1.200 nœuds de calcul. La consommation énergétique de GAIA s’élève à 0,6 MW. Gaïa sera remplacée au 2ème semestre 2025 par la nouvelle plateforme Selena, d’une puissance de l’ordre de 7 pétaflops pour une consommation électrique de l’ordre de 1.5 MW, elle disposera de 106.000 cœurs de calcul répartis sur 1.600 nœuds, et 1,5 MW de consommation). Ces 3 machines sont principalement constituées de nœuds CPU x86.

Les machines sont hébergées dans nos propres datacenters et administrées par des équipes internes et des prestataires. La puissance électrique a tendance à augmenter d’une génération à l’autre, ce qui représente un enjeu, même pour l’EDF !
En même temps que nous achetons des ressources dédiées au HPC, nous acquérons également des infrastructures plus adaptées à l’IA et prospectives pour le portage de nos codes existants vers les GPU avec des infrastructures DGX de Nvidia : deux H100 et un A100.
 

Qu’est-ce que le HPC rend désormais possible ?

La puissance de calcul permet de réaliser des calculs en un temps extrêmement court par rapport aux moyens de traitement classiques. Je voudrais juste donner l’exemple d’une étude menée sur les systèmes insulaires dans 5 DOM-TOM.

Nous devions lancer environ 2 millions de calculs, ce qui totalisait 900 000 heures de calcul dans un environnement IT classique non parallélisé, soit un peu plus d’un siècle de calcul !
En imaginant un scénario de parallélisation, nous avons réussi à boucler les calculs en 38 heures, et ce en mobilisant seulement le quart de la puissance de calcul de la machine Cronos. Cet exemple montre que la capacité HPC permet de réaliser dans des délais raisonnables de études pour nos métiers, inaccessibles sans ces infrastructures informatiques.
 

Quelles actions menez-vous pour réduire la consommation énergétique ?

Il faut savoir qu’EDF développe en interne une grande partie de ses codes de calcul. Pour tout nouveau projet, nous travaillons sur l’écodesign des codes. Pour les codes plus anciens, c’est un peu plus compliqué à réaliser. Nous travaillons sur des méthodologies d’études moins énergivores d’une part, et d’autre part sur la sensibilisation des utilisateurs à l’impact environnemental de leurs activités numériques.

Sur le sujet de l’hébergement, nous avons un Datacenter qui est ISO 50001 depuis 2015. Cette certification implique une démarche d’optimisation de la consommation énergétique. Pour le HPC, cela se traduit par des choix technologiques pour optimiser le PUE des calculateurs qu’on renouvelle. Nous faisons évoluer nos modes de refroidissement, en passant par exemple de « cold corridors » et de portes froides, à des technologies de refroidissement à cœur des moyens de calcul (Direct Liquid Cooling). Ce type de technologie permet de passer d’un PUE de 1,7 à un PUE compris entre 1.10 et 1,15.  Pour aller encore plus loin, nous nous intéressons également aux technologies de refroidissement par immersion, qui pourraient encore faire baisser le PUE.
Nous sommes très vigilants sur l’intégration des nouvelles technologies moins énergivores, en termes de puissance informatique par Watt consommé, comme par exemple les GPU, ou encore les processeurs ARM.
 

Quels espoirs mettez-vous dans les technologies GPU, ARM, mémoire ?

Vis-à-vis des GPU, si nous voulons aller vers l’exascale, Il nous faut rester à l’état de l’art sur nos codes. Cela implique un gros travail de portage des codes CPU vers les GPU, mais ce n’est pas la seule chose à regarder. Il faut identifier les situations dans lesquelles le GPU est un facteur d’amélioration, quels codes sont éligibles, et pour quelles études spécifiques. Ensuite il y a un travail de design du nombre de GPU par nœud dont il faut disposer, et de la taille des problèmes maximums que l’on peut résoudre sur un GPU.

Si nous avons acquis au fil du temps une grande expérience sur l’usage des processeurs x86, en revanche, sur la technologie GPU encore assez récente, nous nous posons encore de nombreuses questions. Par exemple, tous nos calculs dits classiques se font en double précision. Mais les GPU nous poussent de plus en plus vers de la mixte précision, qui peut être suffisante pour certaines opérations.

Sur les processeurs, ARM apporte une meilleure efficacité énergétique, et présente l’avantage de ne pas nécessiter de réécriture profonde de nos codes comme pour les GPU. L’effort se porte principalement sur l’enjeu de la qualification des codes sur cet environnement. Nous avons participé à plusieurs hackathon avec TERATEC, ARM et AWS sur le portage et l’optimisation de nos codes open source sur processeurs ARM.
Enfin, pour évoquer l’aspect mémoire, nous nous intéressons aux nouvelles technologies, comme la mémoire unifiée avec Nvidia Grace Hopper Superchip, ou bien la mémoire HBM, par exemple avec Intel. Les gains en termes de performances sont à évaluer et à mettre en regard des coûts liés à l’acquisition et des impacts éventuels sur les codes.
 

Vous intéressez-vous à des solutions HPC dans le cloud public ?

Evidemment, tous les calculs HPC chez EDF ne sont pas éligibles au Cloud public ! Cependant, nous avons lancé un PoC avec AWS dès 2020, en travaillant avec notre partenaire UCit. La réussite de ce PoC a ouvert la porte à de nouveaux projets. En septembre 2023, un service a été ouvert au profit des utilisateurs R&D qui travaillaient sur des données à faible confidentialité.
Le HPC sur le cloud nous permet de tester de nouvelles technologies comme le GPU, les processeurs ARM, d’autres solutions de stockage, sans être obligé de les acquérir. Ce qui nous intéresse, c’est par exemple la probable convergence entre les besoins du HPC et les besoins de l’IA. Les pratiques et les usages des data scientistes et des profils purement HPC étant assez différents, nous avons de très intéressants challenges devant nous.
 

Quel est votre attente vis-à-vis du Quantum Computing ?

Nous nous impliquons dans le quantique, même si ce n’est pas un sujet totalement cœur de métier aujourd’hui. Nous pensons que le Quantum Computing peut être un « game changer », mais cela va avoir un énorme impact sur les codes de calcul. Dans un environnement quantique, il faut totalement repenser la façon de coder et d’appréhender les problèmes que nous cherchons à résoudre. La complexité de raisonner dans le monde quantique n’a rien à voir avec les efforts à fournir pour transposer un code CPU vers des GPU. Nous devons former nos équipes à travailler et développer des applications embarquant des accélérateurs quantiques pour répondre à nos enjeux industriels. ​
Nous avons déjà identifié un certain nombre de cas d’usage industriels pour lesquels le Quantum Computing pourrait apporter des solutions disruptives. De plus, la France bénéficie d’un grand nombre d’acteurs qui forment un d’ores et déjà un écosystème reconnu dans le domaine du quantique, et dans lequel EDF s’inscrit.

Autres articles sur le même thème

image
Le retour d'expérience du mois
Modern Management : OPmobility gère ses postes de travail dans le cloud
Anthony Piccolo, Architecte Modern Workplace chez OPmobility
Mag #22
Lire l'article
image
Le retour d'expérience du mois
Comment ont été gérés les flux des 206 délégations ayant participé aux JOP ?
Olivier MERCIER, Chef du pôle Innovation de la DSI du Groupe Aéroports de Paris
Mag #21
Lire l'article
image
Le retour d'expérience du mois
Stratégie cloud : quel modèle de gouvernance et assistant IA ?
Thomas Berger, CTO de La Centrale
Mag #20
Lire l'article
image
Le retour d'expérience du mois
Transformation du réseau mondial d’Elis basé sur des liaisons MPLS vers un réseau SDWAN sécurisé
Mag #19
Lire l'article