-
Le contexte canadien du calcul haute performance
La part du Canada de la capacité informatique mondiale mesurée en pétaflops (10^15 acronyme de l'anglais « floating-point operations per second » ou « opérations en virgule flottante par seconde en français ») n’est que de 0,7 pour cent. Bien que cette valeur soit inférieure à celle des nations qui possèdent de grands investissements en matière de superinformatique, l’adoption continue de prendre de l’ampleur au Canada.
-
Principaux défis opérationnels d’un cluster ou grappe HPC
Au fur et à mesure que le cluster ou grappe s’agrandit et devient plus complexe, il devient plus difficile de s’assurer que le tout reste écoénergétique. Cette situation peut entraîner des coûts plus élevés pour l’installation et même perturber la performance. Comprenons ces défis en détail.
-
Une nouvelle ère dans la gestion des infrastructures de calcul haute performance (HPC)
Les organisations qui possèdent des investissements en calcul haute performance (HPC) actuels ou à venir doivent se concentrer sur cinq priorités fondamentales pour améliorer l’efficacité énergétique et le rendement des grappes de serveurs.
-
Bâtir les clusters HPC, ou clusters de calcul haute performance de demain avec CDW
Les experts de CDW sont conscients des obstacles auxquels les organisations sont confrontées avant de pouvoir donner vie à leur cluster HPC, ou cluster de calcul haute performance. C’est pourquoi nous avons créé un service calcul haute performance (HCP) complet qui répond aux besoins variés en matière de HPC en une seule offre.
18 octobre 2024
Comment CDW construit les clusters HPC, ou cluster de calcul haute performance écoénergétiques de demain
Dans ce blogue, les experts en calcul haute performance (HPC) de CDW discutent de l’essor du calcul de haute performance au Canada et de la façon dont les organisations peuvent construire, exploiter et maintenir des clusters ou grappes HPC écoénergétiques de demain.
Le contexte canadien du calcul haute performance
Le Canada abrite deux des superordinateurs les plus puissants au monde portant les noms des scientifiques canadiens Anne Barbara Underhill et André Robert.
Pourtant, la part du Canada de la capacité informatique mondiale mesurée en pétaflops (1015 opérations à virgule flottante par seconde) n’est que de 0,7 pour cent. Bien que cette valeur soit inférieure à celle des nations qui possèdent de grands investissements en matière de superinformatique, l’adoption continue de prendre de l’ampleur au Canada.
Principaux facteurs de calcul haute performance (HPC)
Le Canada dispose d’une communauté en pleine croissance d’experts qualifiés en IA et d’un écosystème d’entreprises en démarrage en plein essor qui continue de faire progresser le potentiel d’innovation du pays. Selon Crunchbase, le Canada compte plus de 1500 sociétés d’IA inscrites sur la plateforme représentant un investissement net de 8,3 milliards de dollars.
Le rapport canadien sur le nuage hybride 2024 de CDW a également révélé que 55 pour cent des organisations interrogées prévoient d’investir dans l’IA au cours des prochains 12 mois. Le secteur des services financiers ouvre la voie avec 70 pour cent des organisations investissant dans l’IA, suivi par les soins de santé à 61 pour cent.
Pour répondre aux exigences d’infrastructure et d’innovation qu’implique cette adoption rapide de l’IA, une hausse égale des investissements dans le calcul haute performance (HPC) est également attendue.
Les initiatives d’IA stimulent la demande pour les grappes de serveurs basées sur le processeur graphique
Un autre développement intéressant est la demande croissante de grappes basées sur le processeur graphique qui offrent des capacités de traitement parallèle de haute performance. Ces grappes sont bien adaptées aux charges de travail d’IA et d’apprentissage profond avec des applications dans les secteurs des services financiers, des soins de santé et de l’énergie.
De plus en plus d’organisations se procurent des grappes de serveurs basées sur un processeur graphique pour des initiatives d’IA, lesquelles consomment de 0,5 à 4 mégawatts d’énergie, semblable à une configuration de calcul haute performance à échelle en péta. Cette tendance est susceptible de faire augmenter davantage la demande pour les architectures informatiques à haute densité de type HPC à des niveaux locaux.
Principaux défis opérationnels d’un cluster ou grappe HPC
Une installation classique de HPC de milieu de gamme située dans un institut de recherche peut contenir de 600 à 1000 serveurs. Elle nécessite une forte alimentation électrique pour faire fonctionner les serveurs, les garder au frais et gérer leur entretien.
Au fur et à mesure que le cluster ou grappe s’agrandit et devient plus complexe, il devient plus difficile de s’assurer que le tout reste écoénergétique. Cette situation peut entraîner des coûts plus élevés pour l’installation et même perturber la performance. Comprenons ces défis en détail.
Gestion des mégawatts de puissance
La gestion de l’efficacité énergétique et de l’alimentation d’un cluster ou grappe HPC est difficile en raison des exigences informatiques et de l’interaction complexe entre le matériel, le refroidissement et l’optimisation logicielle.
Une configuration de calcul haute performance typique peut consommer de cinq à 20 mégawatts de puissance; assez pour illuminer 20 000 maisons. Elles sont également livrées avec des densités de puissance élevées pouvant atteindre 12 kW par pied carré.
De plus, l’équilibrage des charges de travail sur un système aussi important visant à minimiser la consommation d’énergie en attente nécessite une ingénierie électrique complexe.
La nature interconnectée de ces systèmes, où les nœuds de stockage, de réseautage et de calcul doivent fonctionner en harmonie, complique davantage la gestion de l’énergie, car les inefficacités dans une zone peuvent se propager dans l’ensemble de la grappe de serveurs.
Gestion de la chaleur excessive
Les systèmes de calcul haute performance (HPC) sont composés de milliers d’UCT et de processeurs graphiques haute performance, qui peuvent chacun consommer des centaines de watts, générant de grandes quantités de chaleur.
Il est difficile de refroidir efficacement ces composants sans utiliser une grande quantité d’énergie. Le refroidissement à l’air classique peut s’avérer inefficace à une telle échelle et des méthodes de refroidissement plus avancées comme l’immersion liquide ou le refroidissement par liquide direct sont nécessaires.
La conception structurale et les conditions climatiques de l’installation influencent également le type d’options de refroidissement qui peuvent être facilement exploitées. Cela peut augmenter davantage les frais généraux d’énergie de refroidissement et rendre difficile la réduction des coûts de refroidissement.
La mise à l’échelle est une lutte difficile
La mise à niveau et la mise à l’échelle d’une configuration de calcul haute performance représentent un défi, non seulement en raison de la compatibilité du matériel et de l’intégration du système, mais aussi en raison de limitations physiques comme les charges au sol.
Les systèmes de calcul haute performance (HPC) nécessitent des bâtis de serveurs lourds et denses, qui peuvent chacun peser plus de 450 kg (1000 lb) lorsqu’ils sont entièrement remplis. L’expansion d’un cluster ou grappe HPC signifie l’ajout de plus de bâtis, dépassant potentiellement les limites structurales du plancher du centre de données, qui n’est pas toujours conçu pour supporter une telle concentration de poids.
De plus, de nouveaux composants matériels, comme des processeurs et des processeurs graphiques plus avancés, peuvent ne pas s’intégrer de façon transparente à l’ancienne infrastructure, ce qui entraîne des déséquilibres de performance et des goulots d’étranglement potentiels.
Une nouvelle ère dans la gestion des cluster ou grappe HPC
Les organisations qui possèdent des investissements en calculs haute performance (HPC) actuels ou à venir doivent se concentrer sur cinq priorités fondamentales pour améliorer l’efficacité énergétique et le la performance des grappes de serveurs :
- Conception d’une architecture compatible avec l’IA
- Méthodes de refroidissement améliorées moins d’énergivores
- Gestion systématique de l’alimentation pouvant équilibrer la charge
- Algorithmes avancés destinés à optimiser les charges de travail
- Conception de processeur de nouvelle génération
Nous explorons les dernières avancées techniques dans l’ensemble de ces priorités qui promettent de meilleurs résultats pour les propriétaires d’installation de calcul haute performance (HPC).
Solutions de HPC prêtes pour l’IA
Au fond, toute organisation qui souhaite construire un cluster ou grappe HPC pour les projets d’IA doit s’assurer que les serveurs, les logiciels d’exploitation et les processeurs peuvent travailler ensemble pour gérer les charges de travail complexes de l’IA.
Les clusters ou grappes HPC modernes sont désormais dotés de capacités prêtes pour l’IA leur permettant de traiter de grandes quantités de données et de prendre en charge les outils d’apprentissage automatique afin d’aider au développement de l’IA. Ces grappes simplifient les tâches de calcul exigeantes, par exemple l'entraînement d’un grand modèle de langage à partir de zéro, tout en contrôlant la consommation d’énergie.
En intégrant des éléments de conception prêts pour l’IA, même des projets ambitieux peuvent être réalisés dans les limites du budget, de la consommation d’énergie et de l’infrastructure.
Nos partenaires chez Dell Technologies offrent des architectures de stockage de HPC évolutives qui peuvent simplifier les complexités associées aux projets d’IA. Leurs conceptions validées pour le stockage de HPC offrent les avantages suivants :
- Surveillance et gestion simplifiées : déployer un stockage de calculs haute performance (HPC) évolutif pour les projets exigeants en données grâce à une architecture de stockage plus facile à entretenir et à exploiter
- Stockage hautement disponible : améliorer la disponibilité du stockage de HPC grâce à l’intégration des serveurs Dell EMC qui répondent aux exigences de redondance et d’interopérabilité tout en évitant un point de défaillance unique
- Atteindre l’efficacité de stockage : utiliser des méthodes de consolidation et de conservation des données pouvant améliorer l'efficacité du stockage des systèmes de HPC, ce qui peut réduire les coûts tout en améliorant la performance
Hewlett Packard Enterprise (HPE) s’associe également à CDW pour offrir des solutions de HPC évolutives et flexibles grâce à ses plateformes ProLiant Compute, conçues pour améliorer le débit et l’efficacité de la charge de travail de l’IA.
Ces plateformes sont soutenues par des décennies d’expertise de HPE et un vaste écosystème de partenaires, offrant un soutien complet de la conception à l’implémentation en passant par la gestion. Cela est particulièrement avantageux pour les clients ne pouvant compter que sur des ressources internes limitées en matière d’IA, en comblant efficacement les lacunes en matière de compétences et de connaissances.
- Les serveurs ProLiant Gen11, Gen10 Plus et Gen10 de HPE offrent une performance, une sécurité et une charge de travail améliorées. Ces serveurs répondent aux besoins de divers secteurs, notamment les services financiers, la fabrication, les soins de santé, les sciences de la vie et la vente au détail.
- La solution informatique d’entreprise de HPE pour l’IA générative est optimisée pour les déploiements de périphéries de réseau et de centre de données. Elle présente une architecture hautement évolutive et des applications GPU permettant de maximiser les résultats de l’IA et les performances de déduction.
Refroidissement par liquide
Contrairement aux méthodes classiques de refroidissement par air, le refroidissement par liquide peut être beaucoup plus efficace pour dissiper la chaleur.
Cette technique consiste à utiliser des liquides, souvent de l’eau ou des liquides de refroidissement spécialisés, pour absorber la chaleur directement des composants, réduisant ainsi l’énergie nécessaire au refroidissement et améliorant l’efficacité globale.
Les technologies comme le refroidissement direct sur puce et le refroidissement par immersion sont de plus en plus populaires dans les centres de données de HPC en raison de leur capacité à gérer des charges de chaleur élevées en consommant moins d’énergie.
Gestion dynamique de l’alimentation
Les solutions logicielles avancées peuvent permettre de gérer dynamiquement la consommation d’énergie en ajustant la tension et la fréquence des processeurs en fonction de la demande de charge de travail.
Cela se fait au moyen d’un processus connu sous le nom de mise à l’échelle dynamique de la tension et de la fréquence (dynamic voltage and frequency scaling , DVFS). En réduisant la consommation d’énergie pendant les périodes de faible calcul, les pertes énergétiques sont minimisées sans affecter considérablement la performance.
Optimisation de la charge de travail par IA
Les algorithmes d’IA peuvent être utilisés pour prédire les modèles de charge de travail et optimiser l’allocation des ressources, en veillant à ce que les ressources informatiques ne soient pas surapprovisionnées. Ces systèmes peuvent automatiquement régler la consommation d’énergie en identifiant les états de faible énergie ou en déplaçant les charges de travail vers des ressources sous-utilisées afin d’améliorer l’efficacité globale.
Intel s’associe à CDW pour diverses solutions de calcul haute performance (HPC), y compris les processeurs évolutifs Intel Xeon de 5e génération, équipés des moteurs HPC d’Intel. Ces processeurs permettent d’optimiser la performance de la grappe de serveurs en intégrant des accélérateurs spécialement conçus à cet effet. Grâce à leur conception optimisée pour le calcul haute performance (HPC), ils peuvent améliorer la performance et l’efficacité énergétique pour diverses charges de travail de HPC, par exemple la simulation et la modélisation.
Ces accélérateurs aident à résoudre les goulots d’étranglement des E/S, à traiter plus rapidement des charges de travail spécifiques et à décharger des tâches de l’UCT, préservant ainsi la marge de manœuvre pour des calculs plus exigeants.
Les moteurs de HPC d’Intel comprennent également les extensions Intel Advanced Vector 512 (Intel AVX-512), qui condensent et fusionnent les opérations informatiques communes en moins d’étapes, accélérant les systèmes informatiques en général, le traitement de l’IA et les charges de travail de HPC mathématiquement intenses. Cela rend le HPC plus accessible et plus rentable, permettant à un plus grand nombre d'organisations de mobiliser les ressources de superinformatique en vue de la découverte scientifique, des simulations d'ingénierie et de la modélisation de systèmes complexes.
Processeurs écoénergétiques
Les nouvelles générations de processeurs, d’UCT et de puces d’IA spécialisées sont conçues pour être plus écoénergétiques que les architectures classiques. Ces puces sont optimisées pour les tâches informatiques parallèles courantes des configurations de calcul haute performance et consomment moins d’énergie par unité de calcul, ce qui les rend idéales pour les déploiements à grande échelle.
AMD, nos partenaires technologiques en HPC, offrent des processeurs qui peuvent aider à atteindre les objectifs d’alimentation et de refroidissement. Leur architecture Zen 4c, qui utilise des processeurs EPYC, est conçue pour la densité et l’efficacité, permettant jusqu’à 128 cœurs sur un seul processeur.
Cette conception améliore la performance par watt de puissance, permettant à des industries comme les soins de santé et les sciences de la vie d’obtenir une plus grande puissance de calcul par bâti de serveur sans augmenter la consommation d’énergie ou les coûts de refroidissement. La gestion thermique efficace de ces cœurs permet d’améliorer l’efficacité énergétique, ce qui peut réduire considérablement les coûts d’électricité pour l’exécution et le refroidissement des serveurs, un facteur majeur dans le coût total de possession des centres de traitement des données.
De plus, les processeurs AMD EPYC de 4e génération, compatibles avec la plateforme Socket SP5, offrent une solution évolutive pour les initiatives numériques modernes telles que les applications de l’IA génératives.
Bâtir les clusters HPC, ou clusters de calcul haute performance de demain avec CDW
Construire un cluster ou grappe HPC représente une tâche énorme, mais complexe. Il ne s’agit pas que de trouver la bonne technologie; une sophistication extrême est nécessaire pour que toutes ses pièces mobiles fonctionnent en parfaite harmonie. Il est question de milliers de cœurs de processeur et de centaines de serveurs dans une installation.
Les experts de CDW sont conscients des obstacles auxquels les organisations sont confrontées avant de pouvoir donner vie à leur cluster HPC, ou cluster de calcul haute performance. C’est pourquoi nous avons créé un service calcul haute performance (HCP) complet qui répond aux besoins variés en matière de HPC en une seule offre.
Grâce à nos succès antérieurs dans les industries canadiennes de la recherche, de l’éducation et des soins de santé, nous avons soutenu les organisations à divers niveaux :
- Ingénieurs experts en solutions de calcul haute performance (HPC) pour la conception et l'architecture de bout en bout des clusters ou grappes HPC
- Installation de HPC pratique, de la configuration des bâtis de serveurs aux prises de courant
- Accès aux meilleurs fournisseurs de technologie de calcul haute performance (HPC) du Canada grâce aux offres d’entreprise
- Consultation et conseils provenant d’un vaste écosystème de partenaires de HPC
- Recommandations et soutien à la conception pour mettre en œuvre les meilleures pratiques et assurer la conformité aux réglementations
Cela positionne CDW de manière unique non seulement pour répondre aux exigences matérielles de votre cluster ou grappe HPC, mais aussi pour collaborer avec vous en vue d’une construction et d’une installation à partir de zéro. Nos capacités peuvent vous aider à simplifier l’approvisionnement, à accéder au soutien technique et à profiter d’une solution évolutive dès le début.