Programme Simulation et PetaFlops du 2911 - PowerPoint PPT Presentation

1 / 15
About This Presentation
Title:

Programme Simulation et PetaFlops du 2911

Description:

Code de physique statistique Guillaume GREGOIRE. Code d'oc anographie ... Service de support applicatif (call center) Comptabilit . Location de temps calcul ? ... – PowerPoint PPT presentation

Number of Views:26
Avg rating:3.0/5.0
Slides: 16
Provided by: CEA92
Category:

less

Transcript and Presenter's Notes

Title: Programme Simulation et PetaFlops du 2911


1
Programme Simulation et PetaFlops du 29/11
  • 9 H 30 Expérience cluster CEA
  • Code de sismologie D. Rodrigues
  • Code SPASM JB Maillet
  • Code de physique statistique
    Guillaume GREGOIRE
  • Code d'océanographie dynamique
    Olivier MARTI
  • 10 H 50 PAUSE
  • 11 H 00 Expérience cluster CEA (suite)
  • Code de thermohydraulique TRIO_U
    Christophe CALVIN
  • Expérience cluster en biologie
    Jacky HUSSER
  • Réseaux SCI / Myrinet P. BLAISE
  • 12 H 00 REPAS
  • 13 H 45 Bilan coût / performance
  • Le bilan coût / performance d'OCRE
    Arnauld LESERVOT
  • Cluster de PC CERFACS 2001
    Nicolas MONNIER
  • 14 H 45 Collaboration université/ industriels
  • La collaboration Paderborn / Siemens Axel
    KELLER
  • La collaboration HP / IMAG
    Philippe AUGERAT
  • 15 H 45 PAUSE
  • 16 H 00 Vision industriels / CEA
  • Utilisation à la CGG Jean-Yves BLANC
  • Utilisation future des clusters linux au CEA
    Jacques DAVID
  • 17 H 00 FIN

2
Projet OCRE bilan coût / performance
3
Configuration du réseau
P Ocre
G Ocre
Stations
  • 5 directions DSM DEN DAM DTI DSV
  • 70 comptes ouverts
  • 15 utilisateurs actifs
  • 4 stagiaires en été

4
Installation et utilisation
Sept 00 génèse du projet Nov 00 achats des
clusters Dec 00 recette des clusters (hors
Myrinet) Fev 01 installation des deux
clusters Mars 01 ouverture aux utilisateurs Mai
01 livraison de Myrinet Juin 01 recette
Myrinet (6 mois de retard) Juillet
01 fonctionnement 24h/24h, 7j/7j, PBS Août
01 SCI 8 nuds, disques 300 Go, 1 P4 Octobre
01 Fonctionnement en pré-production
82
5
Les problèmes rencontrés
  • Pb d instabilité réseau sur Gocre mi-avril /
    fin mai
  • apparus dès mi-avril après transferts de gros
    fichiers sur le NAS
  • débuts des sauvegardes transferts FTP des
    utilisateurs
  • plantage aléatoire des nuds, mais fréquence
    faible à moyenne
  • problème difficilement détectable
  • corrigé fin mai avec installation nouveau pilote
    de carte 3COM
  • le driver dans la RPM 2.2.19 générait des
    problèmes aléatoires
  • recherche d un driver sur site NASA
  • Configuration du batch PBS
  • logiciel ardu à configurer
  • nécessité de développer des scripts (prologue,
    épilogue)
  • problème de gestion des

6
Les problèmes rencontrés (suite !)
  • Problèmes de température liés aux mémoires
  • Pb d instabilité USB
  • cause option USB activées dans les BIOS des
    noeuds
  • plantage régulier des nuds (très difficile de
    travailler)
  • Myrinet pb installation de drivers lancement
    jobs
  • SCI
  • kernel 2.2.19, pas de driver SCI stable pour 2.4
  • pas de driver TCP/IP

7
Activités du support système
8
Temps de support par catégorie
9
Performances maximale du cluster numérique GOcre
  • Cluster Numérique
  • TeraSystemes
  • 32 nuds bi-processeurs
  • Linux RH 6.2
  • PIII _at_ 733 MHz, 1 Go SDRAM, DD 20 Go
  • Carte MSI 694 D Pro (VIA Appolo Pro 133 A)
  • Interconnexion
  • ethernet 100 Mbps
  • Myrinet 2 Gbps switché (carte 2 Mo Serial Link)
  • GCC 30 Mflops SP
  • Pgf90 -Mvectsse
  • 150 Mflops SP
  • 1 job / noeud
  • 58 Mflops SP
  • 2 jobs / nuds
  • débit mémoire soutenu SDRAM PC133
  • 600 Mo/s
  • 80 Mflops DP max pour des codes débit mémoire 1
    opérande / opération (160 MF SP)

10
Performances de noyaux (B. Meltz)
11
Performance des codes
Comparaison des performances / IXIA ES40 EV68 _at_
833 MHz
Attention séquentiel x 2 en bi-processeur pour
codes débit mémoire ! Compilateur PGI
indispensable avec -Mvectsse
12
Critères de coût
  • Critères de coût d un cluster (comparaison Gocre
    / Pocre)
  • taille des problèmes spécifiques apparaissent
    (FTP, Myrinet)
  • multi-utilisateurs gestion des homes sur NAS,
    pbs de connexions à distance et des contraintes
    de sécurité, pbs réseau
  • multi -applications chaque application peut
    nécessiter l installation de plusieurs produits,
    ainsi que la mise à jour du système (gt peut
    rendre le système instable pour d autres
    applications)
  • La mise en uvre d un gros cluster linux type
    Gocre, n a rien à voir avec celle d un petit
    cluster (8 nuds) mono-application dédié à une
    équipe.

13
Modèle de coût de possession (TCO)
  • Achat chez un  spécialiste  plus intéressante
  • Des clusters basés sur des PIV sont très
    compétitifs
  • Mesure juste  Opérande traitée 

14
Abaisser les coûts recyclage et postes noeuds
  • Recyclage pour des postes pour développeurs
  • Facteurs favorables
  • nuds non rackés
  •  vrai PC  (pas de double carte mère dans un
    nud)
  • nuds monoprocesseurs
  • Facteurs défavorables
  • enlever carte réseau rapide
  • rajouter carte graphique
  • tester et déployer
  • achat de clavier, souris, écran
  • pas de sociétés de services assurant vente
    cluster recyclage
  • parc de stations hétérogène !
  • Poste développeur nuds gt pas de nuds
    interactif sur cluster

15
Abaisser les coûts des services à distance
  • Besoin de les mutualiser pour gérer un ensemble
    de clusters
  • Service de surveillance et d administration
    système à distance
  • Service de suivi des jobs batch à distance
  • Service de support applicatif (call center)
  • Comptabilité
  • Location de temps calcul ? Attention
  • confidentialité des données
  • débit réseau pour rapatrier les données
Write a Comment
User Comments (0)
About PowerShow.com