DataGRAAL DataGRid pour Animation et Applications

1 / 36
About This Presentation
Title:

DataGRAAL DataGRid pour Animation et Applications

Description:

ACI DataGraal 10/01/03. 2. Pourquoi s'interesser aux donn es ? ... Connaissance approfondie des architectures de SGBD. LISI. Syst mes d'information large ... –

Number of Views:33
Avg rating:3.0/5.0
Slides: 37
Provided by: yvesden
Category:

less

Transcript and Presenter's Notes

Title: DataGRAAL DataGRid pour Animation et Applications


1
DataGRAALDataGRid pour Animation et
Applications à Large échelle
  • Yves Denneulin IMAG-ID
  • Pierre Sens LIP6 - INRIA

2
Pourquoi sinteresser aux données ?
Préambule
  • Croissance des capacité de stockage gt croissance
    des processeurs
  • Nécessité dadapter les supports

Moores Law vs. storage improvements vs. optical
improvements. Graph from Scientific American
(Jan-2001) by Cleo Vilett, source Vined Khoslan,
Kleiner, Caufield and Perkins.
3
Plan
  • Partenaires
  • Problèmatique
  • Objectifs
  • Complémentarité
  • Axes de recherches
  • Echéancier

4
Partenaires
  • Communauté bases de données
  • PRISM SMIS (INRIA Univ. Versailles St
    Quentin)
  • LIRMM (Univ. Montpellier)
  • LSR-IMAG (Grenoble)
  • LISI (INSA Lyon)
  • Communauté système
  • PARIS (IRISA)
  • LRI - Equipe Cluster (Université Paris 11)
  • REMAP (LIP - ENS Lyon)
  • LIP6 (Université Paris 6)
  • Apache ID IMAG
  • HP Labs
  • Applications
  • CERS
  • IN2P3

5
Contexte
Problématique
Caractéristiques des nœuds
Grands sites de calcul, Clusters
  • lt1000
  • Stables
  • Identification
  • individuelle
  • Confiance

Les Grilles de calcul ou  GRID 
2 types de grands systèmes distribués
Les systèmes distribués à grande échelle
  • 100 000
  • Volatiles
  • Pas dident
  • individuelle
  • Pas de
  • confiance

PC
Les systèmes de Calcul Global
Les systèmes Pair à Pair
6
Impact de la très grande échelle
Problématique
  • Nombre de ressources
  • Dynamicité
  • panne, déconnexion, charge
  • Eloignement
  • asynchronisme
  • Hétérogénéité
  • des architectures, des systèmes
  • Comportement malveillant

7
Les Grilles
Problématique
  • Plates-formes
  • Globus, NetSolve (Univ. Tennessee), Ninf (Univ.
    Tsukuba), DIET (ENS-Lyon/INRIA)
  • Stockage
  • GridFTP(Argonne), OceanStore (Univ. Berkeley),
    IBP (Univ. Tennessee)

8
Les systèmes Pair-à-Pair
Problématique
  • Lié à des applications
  • Napster, Kazaa, Edonkey, FreeNet
  • Plates-formes de routages (DHT)
  • Chord (MIT), CAN, Pastry (Rice), Tapestry
    (Berkeley)...
  • Stockage de données
  • Non modifiables PAST (Rice), CFS (MIT)
  • Modifiables FarSite (Microsoft), Ivy (MIT)
  • Distribution de codes
  • XtremWeb (LRI)
  • Plate-forme générique
  • JXTA (Sun)

9
Problèmes ouverts dans la gestion des données
Problématique
  • Qualité de service dans laccès aux données
  • Efficacité des accès
  • Disponibilité
  • Tolérance aux fautes
  • Hétérogénéité des sources
  • Persistance
  • Modèles de partage
  • Ecritures multiples
  • Protocoles de cohérence

10
DataGraal Les objectifs
Objectifs
  • Gestion des données à très large échellegt
    exploratoire
  • Multi-communautaire Profiter/confronter les
    expériences des BD, système, applicationsgt
    animation
  • Identification de thématiques/concepts communs
  • Maquettes dexpérimentation

11
DataGraal les applications
Objectifs
  • Stockage
  • Grande quantité
  • Dispersion des données
  • Hétérogénéité

12
Coopération entre communautés
Complémentarité
  • Communauté système
  • Issus des expérience des systèmes répartis et
    pair-a-pair
  • Protocole de localisation
  • Placement, déploiement
  • Protocole de cohérence
  • Détection et gestion des fautes
  • Communauté bases de données
  • Gestion de grandes quantités de données
  • Hétérogénéité
  • Mobilité
  • Médiation
  • traditionnellement, architecture faiblement
    distribué

13
Coopération (2)
Complémentarité
  • Applications
  • physique des particules
  • physique des plasmas
  • simulation de grands systèmes physiques
  • Idée de la coopération
  • faire se rencontrer des communautés différentes
  • contexte stockage distribué de grandes
    quantités de données

14
Atouts des partenaires
Complémentarité
  • PRiSM/INRIA
  • langage de requêtes, fouille de données
  • exploitation de grandes quantités de données
  • LSR
  • Eclatement d un SGBD en un ensemble de services
    (persistance, duplication, )
  • Connaissance approfondie des architectures de
    SGBD
  • LISI
  • Systèmes dinformation à large échelle
  • LIRMM
  • médiation, exploitation de résultats venant de
    nombreuses sources

BD
15
Atouts des partenaires (2)
Complémentarité
  • IRISA / PARIS
  • Maîtrise des mémoires partagées
  • Partage de mémoire pair-è-pair
  • Expérimentations avec JXTA
  • LRI
  • Calcul haute performance sur P2P
  • Tolérance aux fautes
  • LIP6
  • Modèle de cohérence hiérarchiques
  • Gestion des fautes dans environnement asynchrone
  • Systèmes multi-agents
  • LIP Remap
  • Environnement de type grille
  • Traitement de grande masses de données
  • Redistribution dynamique des données et tolérance
    aux pertes

Système
16
Atouts des partenaires (3)
Complémentarité
  • HP labs
  • environnement de grappe virtuelle
  • forte volatilité
  • Laboratoire ID
  • expérience architecture grande grappes
  • administration, gestion
  • déploiement efficace d applications sur un grand
    nombre de nœuds

Infrastructures
17
Atouts des partenaires (4)
Complémentarité
  • IN2P3
  • expérience dans la gestion de grandes quantités
    de données
  • élément central de Datagrid
  • CESR
  • fusion de plusieurs grandes bases en une seule
  • requêtes hétérogènes à traiter, stockage réparti
  • CEA
  • expériences grandeur nature
  • modélisation du climat, de la terre
  • forte complexité des données
  • grand nombre de sites

Applications
18
Atout du projet
Complémentarité
  • Complémentarité
  • expériences diverses
  • vaste domaine de compétences
  • domaine des bases de données
  • système distribué
  • expériences acquises
  • applications (CEA, IN2P3, CESR)
  • système grande échelle

19
Identification des tâches (provisoire)
Axes
  • Tâche 1 Besoins applicatifs (Tâche
    transversale)
  • Moteurs CEA / CESR / IN2P3
  • Tâche 2 Déploiement de données
  • Moteurs LRI / LIP / LIP6 / LISI
  • Tâche 3 Accès efficace aux données
  • Moteurs PRISM, LIRMM, LIP
  • Tâche 4 Partage de données
  • Moteurs IRISA / LIP / LIP6 / PRISM
  • Tâche 5 Modèle de cohérence
  • Moteurs IRISA/ LIP6 / PRISM
  • Tâche 6 Tolérance aux fautes
  • Moteurs LIP6 / LRI /
  • Tâche 7 Apport des approches multi-agents
  • Moteurs LIP6 / IRISA

20
Tâche 1 Besoin applicatif
Axes
  • CEA , CESR , IN2P3
  •  Retour  dexpérience de DataGrid
  • Capacité de stockage
  • 5-8 PetaOctect / année
  • 10 PetaOctect de disque
  • Puissance de calcul
  • 200 000 PC rapides
  • Répartition du volume ? Grain.
  • Quelles disponibilités, persistance ?
  • Mode de partage ?

21
Tâche 2 Déploiement
Axes
  • LRI
  • XtremWeb
  • LISI
  • Technique de cache Web
  • LIP6
  • Algorithmes de placement de données / observation
  • LIP
  • DIETIBP - Redistribution, Placement

22
Tâche 2 déploiement (2)
Axes
  • Constat Placement de données très statique
  • Exploration 1 vers plus de dynamicité
  • Nécessité de contrôler lenvironnement
  • Ressources disponibles
  • Détection de fautes en environnement asynchrone
    (pb algorithmique)
  • Transport dinformation de contrôle à large
    échelle (filtrage, propagation épidemique)
  • Accumulation de données pertinentes (vision
    partielle)
  • Prise de décision
  • Problème de validité des informations
  • Exploration 2 Lien avec le placement des tâches

23
Tâche 3 Accès
  • PRISM
  • Accès efficace en fonction du profil
  • LIRMM
  • Adaptation dynamique des vues
  • LIP
  • Distribution de requêtes
  • Co-ordonnancement

24
Tâche 4 Partage
Axes
  • PRISM
  • Mode de partage transactionnelle
  • IRISA / LIP6 / LISI
  • Partage à grain fin (page / objet)
  • LIP
  • Gestion de versions de données immutables

25
Tâche 4 partage (2)
Axes
  • Versionning vs. données modifiable
  • Limite du partage en lecture dans P2P
  • Approche de partage  volontaire  limitée
  • Le partage avec de nombreux écrivains
  • Augmenter la complexité - Quelles applications ?
  • Des tendances récentes 
  • Partage (en lecture) forcé (ex. Edonkey)
  • Partage avec une nombre réduit décrivains (Ivy
    )

26
Tâche 5 Cohérence
Axes
  • Modèle de cohérence sur mémoire partagée répartie
    (IRISA / LIP6 / LISI)
  • LISI
  • DosMos
  • IRISA
  • Cohérence au relachement
  • Cohérence multi-thread (DSM-PM2)
  • LIP6
  • Modèle hiérarchique (CLRC)

27
Tâche 5 Cohérence (2)
Axes
  • Avenir des mémoires partagées réparties ?
  • Application à large échelle
  • Travail coopératif, couplage de code
  • Hétérogénéité
  • Tolérance aux fautes

28
Tâche 6 Tolérance aux fautes
Axes
  • PRISM
  • Redondance dynamique
  • LIP6
  • Détection de fautes hiérarchique (RTT-FD)
  • Réplication dynamique (DARX)
  • LRI
  • Journalisation de messages mémoire de canal
    MPICH-V
  • LIP
  • Code redondant
  • Reconstruction dynamique

29
Tâche 6 Tolérance aux fautes (2)
Axes
  • Gestion de lincertitude des informations
  • vers un système  indulgent  ?
  • Choisir la bonne stratégies (types de
    réplication, point de reprise, journalisation) en
    fonction de plusieurs critères
  • Applicatif (type de fautes, nombre de fautes,
    temps de recouvrement)
  • Environnemental surcoût, charge des machine et
    du réseau, MTBF .

30
Tâche 7 Approche multi-agent
Axes
  • LIP6
  • Plate-forme DARX http//www-src.lip6.fr/darx
  • Fiabilité des agents, réplication
  • Dynamicité
  • IRISA/LIP6
  • Service de partage de mémoire sur DARX

31
Tâche 7 Approche multi-agent (2)
Axes
  • Un agent est une entité physique ou virtuelle
  • capable dagir sur elle-même et sur son
    environnement,
  • capable de percevoir son environnement, mais ne
    dispose que dune représentation partielle de cet
    environnement (et parfois aucune),
  • peut communiquer avec dautres agents,
  • poursuit un objectif individuel,
  • qui possède des compétences et peut offrir des
    services,
  • Propriétés dun agent autonomie, proactivité,
    adaptabilité, sociabilité, mobilité,
  • Agent une alternative pour le large échelle ?

32
Support dexpérimentation
Axes
  • Plate-forme GDX GriD eXplorer
  • F. Cappello, O. Richard , P. Sens
  • 1000 noeuds
  • Objectif Emulation dinternet
  • Nombre de sites, Éloignement
  • Différent type dexpériences réseau, calcul,
    système
  • Intégré dans projet GRID 5000

33
GDX
Axes
INRIA
VTHD
CEA
IMAG
LRI
34
Organisation
Organisation
  • Réunions régulières
  • Plénières (2 par an)
  • Par tâche (5 par an)
  • Site Web datagraal.lip6.fr
  • Suivi des réunions (transparents)
  • Lien vers les projets du domaine
  • Mailing list datagraal_at_imag.fr

35
Déroulement
Organisation
  • Première réunion plénière (15/11/02 - IMAG)
  • Présentation des travaux des différentes équipes
  • Transparents disponibles sur le site
  • Réunion davancement (4/12/02 Aussois)
  • Ebauche des groupes de travail
  • Séminaire de deux jours (30-31/01/03)
  • séminaire technique
  • définition de topiques de travail responsables
  • Rencontres trimestrielles
  • une rencontre un topique

36
Déroulement
Organisation
  • Fin de l action
  • Ecriture d un document commun
  • Ecole DGRID sur la gestion de données à grande
    échelle

Bretagne (Port aux Rocs)
Write a Comment
User Comments (0)
About PowerShow.com