|
|
|
|
| ..:: Dossiers » Dossiers archivés » Dossiers 2007 » Juin 2007
::..
|
|
|
Dossier Supercalculateurs
|
 |
|
p.1p.2p.3
Les solutions de calcul haute performance se démocratisent Par Bertrand Garé - Copyright L'Informaticien, tous droits réservés
Longtemps cantonnées aux très grandes entreprises et aux centres de recherche, les architectures en « cluster » abaissent considérablement le « ticket d’entrée » des solutions de calcul haute performance, les rendant désormais accessibles aux PME.
Inabordable. Tel est certainement le premier qualificatif qui vient à l’esprit lorsque l’on évoque les solutions de calcul intensif. Ceci reste vrai si l’on souhaite atteindre des puissances de calcul très importantes et être présent dans le classement bi-annuel du Top 500, qui recense les cinq cents calculateurs les plus puissants dans le monde (www.top500.org). Dans ce tableau, les grandes entreprises – EDF, Total et des institutions bancaires, pour ne mentionner que quelques sociétés françaises – côtoient des centres de recherche comme la NASA ou le CEA. Évidemment, ce classement véhicule une image certes positive mais également élitiste du calcul haute performance, ou « HPC ».
Pourtant, avec la baisse du coût d’accès au calcul haute performance, ce marché s’ouvre très nettement vers les entreprises de tailles moyennes. « Aujourd’hui, il est possible de disposer d’un système de calcul haute performance pour quinze mille euros », assure Alain Ledoux, directeur général de Transtec, fournisseur spécialisé dans ce marché. « Cela ouvre de nouveaux horizons pour les PME. Elles peuvent mettre en œuvre les fonctions de simulation disponibles dans les logiciels de conception. »
Le recours à cette fonction revêt une grande importance. La simulation est utilisée pour réduire le temps et le coût de conception des nouveaux produits. Ce « ticket d’entrée » en forte baisse modifie également la diffusion du HPC dans les grands groupes. « Les solutions de calcul intensif connaissent un phénomène de décentralisation, se rapprochant un peu plus des utilisateurs finaux », assure Benoît Hallez, responsable des activités HPC de Bull. « C’est notamment le cas dans les secteurs pharmaceutique et bancaire. »
Toutefois, pour Jean-Yves Migeon, responsable marketing produits serveurs chez Sun Microsystems France, « le coût lié à l’exploitation des solutions HPC fait que le phénomène restera limité à des secteurs d’activités particuliers. » Reste que personne ne nie la baisse du coût d’accès aux solutions de calcul haute performance. Plusieurs facteurs expliquent ce succès rapide.
Les clusters représentent plus de 70 % du marché
Pour commencer, l’architecture interne des serveurs de calcul haute performance s’est totalement transformée depuis une dizaine d’années. Au début des années 2000, les gros systèmes de type SMP, ou massivement parallèles, représentaient plus de 70 % du marché contre 10 % pour les architectures clusters (serveurs organisés en grappes). « Actuellement, le rapport de force s’est totalement inversé », confie Alain Ledoux. « Les clusters représentent maintenant plus de 70 % du marché. » Pour réussir un tel tour de force, les serveurs en grappes ont tiré profit de la complexité à maintenir les serveurs SMP et massivement parallèles, tout en les faisant évoluer en conservant un rapport performance/prix intéressant. Si la prise de pouvoir des clusters est récente dans le monde du calcul intensif, il faut remonter à 1994 pour voir apparaître les premières machines reposant sur cette architecture. Cette année-là, Thomas Sterling et Don Becker, tous deux issus du centre d’excellence de la NASA, jettent les bases des serveurs en grappes Beowulf. Le principe consiste à utiliser des ordinateurs classiques, fabriqués en série et donc peu onéreux, sur lesquels seront répartis les traitements. Ces ordinateurs sont reliés entre eux au travers d’un réseau dédié à haute vitesse et faible latence. Ce réseau sert à synchroniser les traitements entre les différents ordinateurs, appelés couramment « nœuds ».
Tera 10, un supercalculcalteur au service du nucléaire
Souvenez-vous. En 1996, Jacques Chirac, président de la République, annonce que la France va signer le traité d’interdiction des essais nucléaires Option Zéro (CTBT). Si cette déclaration impliquait la fin des essais réels pour les armes nucléaires, elle n’annonçait en aucun cas l’arrêt de la recherche dans ce secteur. Les nouveaux développements allaient s’effectuer uniquement sur ordinateur et faire appel à des outils de simulation. Cette délicate mission est confiée au Commissariat à l’Énergie Atomique / Direction des Applications Militaires – CEA / DAM. Pour disposer de la puissance de calcul suffisante pour mener à bien sa mission, tout en conservant un coût raisonnable, le CEA a bâtit sa solution de calcul intensif autour de serveurs NovaScale de Bull. Ces derniers sont tous dotés de huit processeurs Intel Itanium II à double cœur, soit l’équivalent de 16 processeurs classiques par serveur. L’ensemble représente 8 704 processeurs, une mémoire vive de 30 To, répartie dans les serveurs et une puissance de calcul supérieure à 50 Téraflop, soit plus de 50 000 milliards d’opérations par seconde.
Un investissement de 4 000 euros
À ce changement d’architecture s’ajoute un second facteur tout aussi important : la loi de Moore. Cette dernière stipule que le nombre de transistors contenus dans un processeur double tous les deux ans, tout en gardant un prix constant. Résultat : les serveurs classiques aujourd’hui affichent des capacités de traitement impressionnantes. En 1991, pour disposer d’une puissance de calcul d’environ 10 Gflops, il fallait se tourner vers un serveur embarquant seize processeurs et 4 Go de Ram, le tout coûtant entre trente et quarante millions d’euros. En 2006, un serveur d’entrée de gamme équipé de deux processeurs double cœur et 8 Go de Ram suffisait. Mais surtout, cette configuration coûtait moins de quatre mille euros. Ce qui était encore réservé à quelques très grands centres de recherche il y a quinze ans devient accessible à toutes les entreprises, même les plus petites. Et cette monté en puissance des processeurs n’est pas prêt de s’arrêter. Les fondeurs – AMD, IBM, Intel et Sun Microsystems en tête – se livrent à une course effrénée en annonçant régulièrement des produits embarquant de plus en plus de « cœurs » dans une seule puce.
Et cette fuite en avant se traduit au niveau du matériel par l’augmentation de la densité. L’arrivée des serveurs lames en est l’une des illustrations. « Actuellement, il est possible de mettre quatre processeurs bi-cœurs dans un serveur 1U », rappelle Lionel Nouzarede, responsable des ventes Grid et HPC chez IBM France. « La puissance de calcul disponible dans ces équipements est donc considérable, même s’ils n’ont pas été initialement conçus pour effectuer des calculs haute performance », confie Alain Ledoux. Il n’est pas rare de voir des entreprises acheter des racks de serveurs blades et de les dédier, entièrement ou en partie, au calcul intensif. Ce dispositif assure une granularité très fine dans l’affectation des ressources pour les calculs. En plus du très bon rapport prix/performance, les possibilités d’extension constituent un excellent argument pour les budgets de départ plutôt modestes pour les solutions HPC.
Ainsi, l’administrateur peut allouer chaque année une partie de son budget pour acheter le matériel supplémentaire, sans avoir à réduire notablement les autres investissements. Mieux, il pourra également fédérer la puissance de plusieurs clusters pour bâtir une grille de calcul. Certes, cette approche reste pour le moment cantonnée à quelques centres de recherche, dont le CERN. Ce concept, qui vise à fédérer des ressources disparates et dispatchées dans l’entreprise, a pour le moment, du mal à passer à l’ère industrielle et donc à séduire les grandes entreprises. « Les spécifications qui visent à définir un middleware pour le Grid sont encore en cours de finalisation », explique Martin Waker, responsable des centres de calculs pour HP. Cette couche logicielle vise à définir les règles pour gérer une grille de calcul : comment enregistrer les ressources disponibles, comment les attribuer à l’utilisateur qui le demande, assurer la sécurité des tâches, etc. « Ces spécifications devraient être terminées dans un an ; il faudra attendre 2009 pour les voir implantées par les grands constructeurs avant d’être intégrées, à terme, directement dans les systèmes d’exploitation », précise Martin Walker. « Lorsque cette étape sera atteinte, tout le monde va utiliser le Grid sans même s’en rendre compte. »
Améliorer la parallélisation des programmes
L’architecture « serveur en grappes » a donc de beaux jours devant elle. Son adoption qui s’accompagne de la multiplication des processeurs entraîne de nouveaux défis. Le plus important consiste certainement à garantir autant que possible une augmentation linéaire de la performance lors de l’ajout de nouveaux nœuds. Or, le gain de performances obtenu dépend directement de la proportion du code du programme exécuté pouvant être parallélisée sur les différents nœuds de calcul, tout en gardant la cohérence dans les traitements. Avec la multiplication du nombre de nœuds et de processeurs, les fournisseurs vont devoir améliorer le degré de parallélisation des programmes. Pour cela, il est possible de développer les applications en utilisant des langages spécifiquement conçus pour cela, comme Occam. Reste que cette approche paraît peu viable au regard des coûts supplémentaires qu’elle engendre. L’autre possibilité consiste à rendre les applications « communiquantes ». Cette approche repose sur le modèle théorique, dit de Processus séquentiels communiquant. Pour cela, les fournisseurs s’appuient sur l’interface de programmation standardisée Massage Passing Interface (MPI) dont l’implémentation MPICH2 de l’Argonne National Laboratory se trouve être la référence. Cette couche intermédiaire assure la synchronisation et le transfert des données entre les nœuds grâce à l’envoi de messages. Sans surprise, les constructeurs de solutions HPC travaillent tous ardemment sur le sujet.
|
Des distributions Linux pour réduire les coûts
Ensuite, la diminution drastique des coûts du matériel ne doit pas masquer les investissements nécessaires en termes de services et de logiciels pour la mise en œuvre d’une solution de calcul intensif. D’ailleurs, la valeur ajoutée se déplace vers le logiciel et le service, pôles qui peuvent représenter jusqu’à deux tiers de l’investissement total d’un cluster. Afin d’alléger autant que possible cette facture, les fournisseurs s’appuient désormais sur des versions de distributions Linux spécialement préparées pour le calcul intensif. « Ce choix est avant tout dicté par des raisons économiques », rappelle Marc Triboulet, directeur général de Non Stop Systems, société de service spécialisée dans les architectures sécurisées et à haute disponibilité. Avant de poursuivre : « Lorsqu’un cluster HPC se compose de plusieurs centaines de nœuds, les économies sur les licences deviennent significatives. » Les fournisseurs complètent le système d’exploitation avec une suite de produits propres aux HPC, comme l’ordonnanceur de tâches. Ce choix stratégique convient parfaitement pour adresser le marché historique du calcul haute performance. Néanmoins, les entreprises nouvellement intéressées ne disposent pas toutes des compétences techniques nécessaires pour mettre en place ces solutions. Si tel est le cas, deux solutions s’offrent à elles. La première consiste à se rapprocher d’un fournisseur qui propose un contrat de gestion, d’administration et de maintenance clés en main. L’entreprise ne s’occupe de rien. L’autre possibilité consiste à choisir la solution Windows CCS de Microsoft, spécialement conçue pour répondre à des besoins de calcul intensif. Cette dernière a été lancée dans le courant du second trimestre 2006.
« Nous sommes partis d’un constat bien connu », explique Éric Nataf, directeur marketing pour l’offre HPC chez Microsoft : « Les PME n’osent pas s’aventurer dans le HPC par crainte d’un ticket d’entrée trop élevé et de devoir effectuer une montée en compétence importante sur les environnements Linux. C’est en tenant compte de l’ensemble de ces éléments que nous avons développé notre offre. »
Les traders veulent un résultat immédiat
Pour réussir son pari, Microsoft s’est associé aux principaux fournisseurs matériels de solutions HPC, dont Bull, Dell, Fujitsu Siemens, HP, IBM, Nec ou encore SGI. À en croire Éric Nataf, Microsoft a réussi une percée dans les banques et plus particulièrement les banques d’affaires. En effet, ces dernières ont besoin d’une puissance de traitement importante pour effectuer leurs calculs de risques, ou encore pour que les traders puissent simuler l’évolution de leur portefeuille. Ces organismes sont d’autant plus intéressés qu’auparavant ces opérations s’effectuaient sur les mainframes. Les tâches s’exécutaient la nuit, période creuse pour ces machines. Or, cette approche arrivait à ses limites. D’une part, les traders souhaitent disposer le plus vite possible du résultat des simulations afin d’être en mesure de prendre une décision rapidement. Enfin, le coût des calculs sur les mainframes devenait trop important. La généralisation des serveurs x86 qui s’accompagnent de l’accroissement de leur puissance de traitement arrive au bon moment pour accélérer la démocratisation des solutions HPC.
La simulation pour prédire l’avenir chez EDF R & D
EDF R & D se dote d’une solution de calcul haute performance de tout premier plan. Composée de plus de 4 000 processeurs Power de IBM, elle occupe le 61e rang des machines les plus puissantes au monde d’après le dernier classement du TOP 500 (www.top500.org). Cette configuration se classe en deuxième position en Europe dans la catégorie industriel. D’une puissance de 11,4 Teraflops, elle dispose d’une architecture originale permettant de mettre le calcul parallèle massif au service des simulations les plus avancées sur le fonctionnement et la durée de vie des outils de production d’énergie, la gestion du combustible ou encore l’optimisation technico-économiques de nos actifs.
Cette machine complète la panoplie des moyens calculs de EDF R & D, qui jusqu’alors se composait de clusters départementaux, soit huit machines de seize à quatre cents processeurs en 2006 et des machines du centre de calcul CCRT que EDF partage avec d’autres industriels et le CEA. La machine scalaire du CCRT, qui sera installée en 2007, atteindra la puissance de 43 Teraflops, dont près de 25 % seront réservés aux applications EDF. La nouvelle machine – Blue Gene/L de IBM – est dédiée à la réalisation de simulations afin, d’une part, de s’attaquer à des défis industriels hors de portée des capacités de calculs classiques et, d’autre part, de préparer les environnements de simulation aux futurs moyens de calcul qui à l’horizon 2010-2015 atteindront pour EDF le Petaflops.
L’architecture cluster
Un cluster HPC se compose d’un ensemble de machines – de plus en plus souvent des serveurs lames – dotées de processeurs Intel/AMD x86, x64, Intel Itanium ou encore IBM PowerPC, sur lesquelles sont répartis les traitements à effectuer. Le système de calcul intensif se compose d’un ou plusieurs nœuds principaux et de plusieurs nœuds dédiés au calcul. Dans certaines configurations « haut de gamme », il est possible de trouver des serveurs dédiés pour la gestion des entrées/sorties lorsque la quantité de données à manipuler est très importante.
|
Un supercalculateur au service de l’Université
Suite à la réussite d’un premier projet de calcul intensif, l’Université de Reims poursuit sur cette voie avec la mise en œuvre d’une seconde solution. Celle-ci est plus ouverte sur l’Université ainsi que sur les industriels de la région.
La rencontre de l’Université de Reims avec le calcul intensif date de la fin 2000, début 2001. À cette époque, déjà, les chercheurs avaient besoin d’avoir régulièrement recours à la simulation afin de mener à bien leurs travaux. De plus, pour pouvoir publier le fruit de leurs recherches, ils doivent être en mesure de présenter le détail des calculs de leurs travaux. L’enjeu était donc d’importance, notamment pour le rayonnement de l’Université. Ne disposant pas des ressources ad hoc en interne, l’établissement se tournait vers l’IDRIS. Or, cet institut, pour faire face à l’afflux de demande, privilégiait les organismes qui disposaient d’une première expérience. « Pour lever ce frein, la décision fut prise de mettre en place sur le campus un système de calcul intensif de taille intermédiaire », explique Michael Krajecki, professeur et responsable du projet de calcul intensif ROMEO. De plus, victime de son succès, l’IDRIS attribue généralement des créneaux inférieurs à ceux désirés. « Nous devions donc les exploiter à leur maximum », explique Mickael Krajecki : « La plate-forme de calcul interne a permis de préparer les opérations que nous allions mener sur les ressources de l’institut. » Fin 2004, lorsque l’heure du bilan a sonné, les conclusions furent très positives. « Huit thèses de doctorat ont bénéficié de nos moyens de calcul, sans oublier les publications scientifiques que nous avons pu effectuer », dévoile Michael Krajecki ; « Nous avons donc décidé de renouveler la solution. »
Un appel d’offres fonctionnel
Cette première expérience fut également bénéfique pour définir la nouvelle solution cible. Les chercheurs connaissaient précisément leurs besoins. Les physiciens souhaitaient disposer de beaucoup de mémoire vive, les chimistes de disques rapides au niveau des nœuds pour gérer la grande quantité de données nécessaires aux simulations. Enfin, les informaticiens voulaient un grand nombre de nœuds et de processeurs. « Les contraintes techniques que nous avons fixées correspondent à la synthèse de ces besoins », explique Michael Krajecki. À partir de cette base, l’Université de Reims a défini un appel d’offres principalement fonctionnel. Les contraintes techniques fixées découlaient de ce premier volet, mis à part le taille minimale d’un nœud, le ratio mémoire/puissance processeur, la puissance crête ou encore le débit minimal du réseau d’interconnexion. Enfin, l’Université de Reims a également décidé d’associer l’Université de Technologie de Troyes au projet ROMEO II. Cette université dispose localement d’un nœud de calcul. Pour accéder à l’ensemble des ressources, l’établissement se connecte en utilisant le réseau haut débit mis en place par la Région Champagne-Ardenne.
52 processeurs Itanium 2
Après une étude détaillée des offres reçues, l’Université de Reims a retenu la proposition de Bull. « Le constructeur français a proposé une solution très équilibrée, tant sur le plan technique que financier », confie Michael Krajecki. D’une puissance de 500 Gigaflops, soit l’équivalent de 500 milliards d’opérations à la seconde, le calculateur Novascale retenu repose sur 52 processeurs Itanium 2 double cœurs et dotés de 4 Mo de mémoire cache. Cette solution affiche une puissance crête de 600 Gflops. « Si nous avons besoin de plus de puissance, nous faisons une demande à l’IDRIS, comme c’était le cas auparavant », précise Michael Krajecki. Un réseau de stockage fibre channel est adjoint au calculateur pour faire face à la volumétrie des données générées par les calculs. « Nous avons déjà sauvegardé plus de 12 To depuis l’installation de notre calculateur », poursuit Michael Krajecki. « Cela devrait augmenter rapidement, au fur et à mesure de la montée en puissance du calculateur. » En effet, les applications qui permettent de réaliser ces calculs sont basculées progressivement vers le nouveau calculateur. Chaque « migration » s’accompagne d’une phase de tests très poussés afin de s’assurer qu’il n’y a pas de divergence dans les résultats. « Nous sommes en plein dans cette phase délicate, longue et crucial pour la suite de ROMEO II », ajoute Michael Krajecki. Ce projet se destine à fournir en priorité la puissance de calcul requise à l’ensemble de la communauté scientifique de l’Université. Et de nombreux domaines sont concernés, qu’il s’agisse d’optimiser les performances des combinaisons utilisées par les champions de natation, d’améliorer la compréhension de certains mécanismes biologiques fondamentaux, ou de résoudre des problèmes combinatoires et d’ordonnancement. La puissance calcul est utilisée aussi pour la modélisation de systèmes moléculaires complexes, la compréhension des mécanismes biologiques, protéines et dynamique moléculaires ou encore pour la modélisation des matériaux pour l’emballage et le conditionnement. Si la mise à disposition de la puissance de calcul au service de l’université constitue la première étape de ROMEO II, l’Université de Reims compte ouvrir, à terme, son centre de calcul aux industriels de la région. Si l’attention est louable, elle se trouve confrontée à la réticence des industriels eux-mêmes. « Je crois que ces derniers ont une image faussée du milieu universitaire », regrette Michael Krajecki. « Ils craignent, entre autres, pour la sécurité et la confidentialité de leur données, alors que nous avons mis en place toutes les garanties possibles à ce niveau. C’est donc à nous de les rassurer sur ce point et de leur démontrer notre compétence en la matière. » Les équipes de Michael Krajecki vont tout faire pour lever les doutes sur ce point. Cette plate-forme de calcul intensif pourra alors pleinement jouer son rôle : accélérer la recherche universitaire et donner aux entreprises de la région un accès à des moyens de calculs importants pour renforcer leur compétitivité.
Attention aux imprévus
Pour accueillir le calculateur et faire face aux contraintes environnementales – notamment l’alimentation électrique et le refroidissement – l’Université de Reims décide de construire une nouvelle salle blanche taillée sur mesure. Et aussi surprenant que cela puisse paraître, cette étape a peut-être été la plus délicate à gérer. La livraison de la nouvelle salle va prendre du retard, ce qui touchera l’ensemble du projet. « En fait, nous avons très nettement sous-estimé les délais nécessaire à la construction d’une telle salle », explique Michael Krajecki. « Notre nouvelle salle blanche a été livrée avec six à neuf mois de retard par rapport à la date initiale. » Si cela parait anodin à première vue, ce délai a eu des répercussions importantes sur la solution technique. « Neuf mois, cela représente presque une génération de processeurs », poursuit Michael Krajecki. « Nous nous sommes donc retournés vers Bull afin de voir comment il était possible de disposer des innovations introduite entre temps. » L’emplacement de cette nouvelle salle a été choisi pour pouvoir disposer, dans les meilleures conditions, de l’accès à RENATER, le réseau haut débit français pour la recherche.
|
|
|
|
|
|
|
|
|
| DotNetNuke® is copyright 2002-2008 by Perpetual Motion Interactive Systems Inc. |
|