Title: Runion com' AIS 0902
1Réalisation et Utilisation dune Grille de calcul
pour la BioInformatique
Ministère de la RechercheDépartement
Bio-Ingénierie (DTA2) - Réseau GenHommeAction
Génomique et Innovations Médicales 2002
http//rugbi.in2p3.fr
2Objectifs de RUGBI
- Apporter un soutien aux PME/PMI de biotechnologie
par laccès à des ressources importantes de
calcul et de stockage - Déployer une grille inter-régionale de type
industriel pour la bioinformatique - Créer une communauté de biologistes dans un
environnement de grille
3Collaboration pluridisciplinaire de partenaires
académiques et industriels
- Biopôle de Clermont Limagne
- IN2P3-LPC, équipe Physique Corpusculaire pour les
Sciences du Vivant - Centre de Calcul de lIN2P3 Lyon
- Institut de Biologie et Chimie des Protéines
(IBCP) - Ecole Centrale Paris - Mathématiques Appliquées
aux Systèmes (MAS) - CS-DAIS Département Applications Industrielles et
Scientifiques
4Biopôle de Clermont Limagne
- Technopole entièrement dédiée à laccueil et au
développement des entreprises spécialisées dans
les sciences du vivant - AVIDIS est une société spécialisée dans
lingénierie des protéines recombinantes. - METABLIC EXPLORER est une société de
Biotechnologies consacrée au développement de
solutions innovantes à travers lexploration et
la conception de voies métaboliques - GREENTECH est une société de production
dingrédients et de matières premières à partir
de plantes et de micro-organismes
www.avidis.fr
www.metabolic-explorer.com
www.greentech.fr
5Besoins en bioinformatique du biopôle de
Clermont-Limagne
- Accès aux bases de données TrEMBL, Swissprot,
KEGG, PDB, EMBL, avec des outils permettant de
les interroger et d'en extraire de l'information.
- Outils communs dalignement.
- Outils de prédiction de structure secondaire de
protéines. - Outils de dynamique moléculaire et de
visualisation. - Aide à la parallélisation sur des programmes
propriétaires
6Besoins en bioinformatique du biopôle de
Clermont-Limagne
- Confidentialité sur les données échangées et sur
laccès par requête aux bases de données - Réduction du coûts des licences par mutualisation
- Puissance de calcul ponctuelle ou non, sur outils
libres ou propriétaires - Espace de stockage pour archivage essentiellement
- Utilisation simple et transparente de la grille,
de type Web, adapté au mode de travail du
biologiste
7Répartition des sous-projets par partenaire
- Infrastructure de grille CS CCIN2P3
- Architecture, Déploiement, Administration,
Sécurité, Confidentialité - Gestion des services bioinformatiques LPC
- Système dinformation et gestion des activités
- Applications bioinformatiques
- Outils de prédiction de structure secondaire de
protéine IBCP - Identification de réseaux de gènes ECP
- Annotation - Alignement - Dynamique moléculaire
et visualisation CS - Portails applicatifs de Grille
- Portail Rugbi, applications bio-informatiques
CS - Portail SecProt, prédiction de structure
secondaire de protéine IBCP - Administration du projet CS
- Gestion du projet, Coordination, Assurance
Qualité, Formation, Dissémination
8Architecture multi-couches de RUGBI
Utilisateur invité par portail
Utilisateur enregistré par portail
Administrateur de groupe dutilisateurs
Administrateur de nud de la grille
A P P L I C A T I O N S
INTERFACE UTILISATEUR
SERVICES BIOINFORMATIQUES Système dinformation
Gestion des activités
MIDDLEWARE (services web)
RESSOURCES PHYSIQUES DISTRIBUEES disque, CPU,
programme, donnée, bases de donnée
SGBD
9Architecture réseau de RUGBI
10Middleware de la grille de RUGBI
- Basé sur des mécanismes standards de Grille /
Services Web - Interopérabilité (OS, langages)
- Sécurité homogène et fiable
- Soumission en mode confidentiel
- Client léger (java RMI, CoG,)
- Composants interchangeables, notification, cycle
de vie - Services manquants
- Gestion de collection de jobs (Monitoring,
gestion de la vie des jobs, ) - Implémentation modulaire selon les besoins des
utilisateurs et les caractéristiques des sites
(sélection de sites dexécution) - Accès aux banques de données de biologie
- Outils dadministration
- Gestion de workflow
11Système dinformation de RUGBI
- Contrôler et assurer la sécurité, la cohérence,
la disponibilité des services - Vue centralisée et homogène du système
- 2 types dinformations
- Informations dynamiques (disponibilité)
fournies par le middleware - Informations statiques (droits, applications)
fournies par les gestionnaires utilisateurs et de
ressources
12Gestion des utilisateurs
- 5 types dutilisateur
- invité
- Enregistré
- Responsable de groupe
- Responsable de site
- Responsable de la grille
- Un groupe peut être une organisation, ou le
département dune organisation - Il existe un groupe All qui donne accès à
toutes les ressources publiques
13Gestion des ressources
- Ressources distribuées potentielles
- Disques (Storage Element).
- CPU (Computing Element).
- Base de donnée.
- Donnée.
- Programme.
- Autre Service (Administration)
- Actions ou contraintes
- Droit (RWX, période).
- Licence.
- Quota.
- Historique.
- Version.
- Demande
14Les services bioinformatiques de RUGBI
- Disponibilité de bases de données publiques et
outils en protéomique - Mise à jour régulière des bases de données
- Maintenance
- Manipulation aisée dobjets bioinformatiques
- Programmes
- Bases de données
- Expériences
15Gestion des programmes
- Ressource distribuée localisation,
mutualisation de la licence - Programmes libres ou propriétaires
- Informations pour lexécution (OS, lib)
- Versions
- Paramètres par défaut ou personnalisés
- Recherche par mots clefs, par métiers
Catégorie
Info_exe
0..n
1..n
0..n
1
Programme
1..n
0..n
1..n
1..n
Mots clefs
Paramètre
0..n
Instance_para
16Gestion des tâches
- Tolérance aux fautes
- Gestion par transaction
- Contrôle de concurrence
(écriture/lecture multiple d une donnée) - Généricité des entrées/sorties
(lors d une exécution série) - Gestion des lots de jobs
- Traçabilité
- Persistance des données
(sauvegarde temporaire des résultats)
17Gestion des bases de données et des données
personnelles
- Gestion des bases de données
- Ressource distribuée localisation, réplication,
mutualisation de la licence - Mises à jour, intègre et synchrone
- Stockage temporaires des anciennes versions
- Accessibilité par requête
- Multi-formats
-
- Gestion des données personnelles
- Espace sécurisé et privé
18Gestion de projets et dexpériences
- Appartenance à des projets donnant accès à des
expériences - Concevoir et stocker ses propres expériences avec
paramètres à partir de lenchaînement de
programmes, de bases de données et de données
personnelles - Traçabilité, stockage des résultats
intermédiaires, recherche par mots clefs
19Confidentialité et sécurité dans RUGBI
- 3 modes dutilisation
- Ouvert pas de certification de confidentialité
- Non altérable certification que la donnée ne
sera pas modifiée - Confidentiel entièrement sécurisé mais mode
plus lent - Niveaux de sécurité
- Portail autorisation par certificat
- Couche de services autorisation selon les
droits - Sites de la grille ACL, cryptage, charte de
confidentialité - Réseaux cryptage
20Interface utilisateur de RUGBI
- Services de prédiction de structure secondaire de
protéine - Identification de réseaux de gènes
- Annotation Alignement
- Outils de modélisation moléculaire
- Accès à des bases de données
- Gestionnaire dexpériences bioinformatiques
- Atelier de parallélisation
- Espace privé et sécurisé sur la grille
21SecProt, une interface de la grille pour la
prédiction de structure secondaire de protéine
22(No Transcript)
23(No Transcript)
24Roadmap
- 03/2004 1er prototype
- Basé sur GT2
- Portail Rugbi et SecProt MPI-blast, Predator,
Simpa 96, Gor IV - 06/2004 2ème prototype
- Portail Rugbi et SecProt ajout des outils
dannotation - Système dinformation intégré
- 01/2005 mise en service de la grille Rugbi
- 2005 finalisation, déploiement
25Contacts
http//rugbi.in2p3.fr Steve.langlois_at_c-s.fr
jacq_at_clermont.in2p3.fr