Title: Programme Simulation et PetaFlops du 2911
1Programme Simulation et PetaFlops du 29/11
- 9 H 30 Expérience cluster CEA
- Code de sismologie D. Rodrigues
- Code SPASM JB Maillet
- Code de physique statistique
Guillaume GREGOIRE - Code d'océanographie dynamique
Olivier MARTI - 10 H 50 PAUSE
- 11 H 00 Expérience cluster CEA (suite)
- Code de thermohydraulique TRIO_U
Christophe CALVIN - Expérience cluster en biologie
Jacky HUSSER - Réseaux SCI / Myrinet P. BLAISE
- 12 H 00 REPAS
- 13 H 45 Bilan coût / performance
- Le bilan coût / performance d'OCRE
Arnauld LESERVOT - Cluster de PC CERFACS 2001
Nicolas MONNIER - 14 H 45 Collaboration université/ industriels
- La collaboration Paderborn / Siemens Axel
KELLER - La collaboration HP / IMAG
Philippe AUGERAT - 15 H 45 PAUSE
- 16 H 00 Vision industriels / CEA
- Utilisation à la CGG Jean-Yves BLANC
- Utilisation future des clusters linux au CEA
Jacques DAVID - 17 H 00 FIN
2Projet OCRE bilan coût / performance
3Configuration du réseau
P Ocre
G Ocre
Stations
- 5 directions DSM DEN DAM DTI DSV
- 70 comptes ouverts
- 15 utilisateurs actifs
- 4 stagiaires en été
4Installation et utilisation
Sept 00 génèse du projet Nov 00 achats des
clusters Dec 00 recette des clusters (hors
Myrinet) Fev 01 installation des deux
clusters Mars 01 ouverture aux utilisateurs Mai
01 livraison de Myrinet Juin 01 recette
Myrinet (6 mois de retard) Juillet
01 fonctionnement 24h/24h, 7j/7j, PBS Août
01 SCI 8 nuds, disques 300 Go, 1 P4 Octobre
01 Fonctionnement en pré-production
82
5Les problèmes rencontrés
- Pb d instabilité réseau sur Gocre mi-avril /
fin mai - apparus dès mi-avril après transferts de gros
fichiers sur le NAS - débuts des sauvegardes transferts FTP des
utilisateurs - plantage aléatoire des nuds, mais fréquence
faible à moyenne - problème difficilement détectable
- corrigé fin mai avec installation nouveau pilote
de carte 3COM - le driver dans la RPM 2.2.19 générait des
problèmes aléatoires - recherche d un driver sur site NASA
- Configuration du batch PBS
- logiciel ardu à configurer
- nécessité de développer des scripts (prologue,
épilogue) - problème de gestion des
6Les problèmes rencontrés (suite !)
- Problèmes de température liés aux mémoires
- Pb d instabilité USB
- cause option USB activées dans les BIOS des
noeuds - plantage régulier des nuds (très difficile de
travailler) - Myrinet pb installation de drivers lancement
jobs - SCI
- kernel 2.2.19, pas de driver SCI stable pour 2.4
- pas de driver TCP/IP
7Activités du support système
8Temps de support par catégorie
9Performances maximale du cluster numérique GOcre
- Cluster Numérique
- TeraSystemes
- 32 nuds bi-processeurs
- Linux RH 6.2
- PIII _at_ 733 MHz, 1 Go SDRAM, DD 20 Go
- Carte MSI 694 D Pro (VIA Appolo Pro 133 A)
- Interconnexion
- ethernet 100 Mbps
- Myrinet 2 Gbps switché (carte 2 Mo Serial Link)
- GCC 30 Mflops SP
- Pgf90 -Mvectsse
- 150 Mflops SP
- 1 job / noeud
- 58 Mflops SP
- 2 jobs / nuds
- débit mémoire soutenu SDRAM PC133
- 600 Mo/s
- 80 Mflops DP max pour des codes débit mémoire 1
opérande / opération (160 MF SP)
10Performances de noyaux (B. Meltz)
11Performance des codes
Comparaison des performances / IXIA ES40 EV68 _at_
833 MHz
Attention séquentiel x 2 en bi-processeur pour
codes débit mémoire ! Compilateur PGI
indispensable avec -Mvectsse
12Critères de coût
- Critères de coût d un cluster (comparaison Gocre
/ Pocre) - taille des problèmes spécifiques apparaissent
(FTP, Myrinet) - multi-utilisateurs gestion des homes sur NAS,
pbs de connexions à distance et des contraintes
de sécurité, pbs réseau - multi -applications chaque application peut
nécessiter l installation de plusieurs produits,
ainsi que la mise à jour du système (gt peut
rendre le système instable pour d autres
applications) - La mise en uvre d un gros cluster linux type
Gocre, n a rien à voir avec celle d un petit
cluster (8 nuds) mono-application dédié à une
équipe.
13Modèle de coût de possession (TCO)
- Achat chez un spécialiste plus intéressante
- Des clusters basés sur des PIV sont très
compétitifs - Mesure juste Opérande traitée
14Abaisser les coûts recyclage et postes noeuds
- Recyclage pour des postes pour développeurs
- Facteurs favorables
- nuds non rackés
- vrai PC (pas de double carte mère dans un
nud) - nuds monoprocesseurs
- Facteurs défavorables
- enlever carte réseau rapide
- rajouter carte graphique
- tester et déployer
- achat de clavier, souris, écran
- pas de sociétés de services assurant vente
cluster recyclage - parc de stations hétérogène !
- Poste développeur nuds gt pas de nuds
interactif sur cluster
15Abaisser les coûts des services à distance
- Besoin de les mutualiser pour gérer un ensemble
de clusters - Service de surveillance et d administration
système à distance - Service de suivi des jobs batch à distance
- Service de support applicatif (call center)
- Comptabilité
- Location de temps calcul ? Attention
- confidentialité des données
- débit réseau pour rapatrier les données