Title: D
1Détection de défaillances et algorithmes répartis
pour les GRIDs
Thèmes SRC Laboratoire d'Informatique de Paris
6 Université Pierre Marie Curie
2Contexte
Introduction
- Développement des GRIDs
- Grand nombre de sites
- Organisé hiérarchique
- Niveau local ? cluster
- Niveau Global ? Inter-cluster
- Dissymétrie des communications
- cluster Fiables et rapides
- Inter-cluster
3Détection de défaillances
Introduction
- Impossibilité de résoudre le consensus dans un
système asynchrone FLP85 - Caractéristiques
- Fournissent une liste non fiable des processus
suspectés dêtre défaillants - Complétude Un processus défaillant doit être
considéré comme défaillant par les autres - Justesse Un processus correct ne doit pas être
considéré défaillant - Modèle partiellement synchrone (GTS)
4Techniques de détection
Introduction
- Applicatif (refus de services)
- Pinging
- Heatbeat
p
q
D
p up
p up
Détecteur sur q
p down
p
q
D
p up
p up
Détecteur sur q
p down
5Qualité de service
Introduction
- Métriques
- Temps de détection
- Temps entre deux erreurs (TMR)
- Durée des erreurs (TM)
DF
TM
TMR
Processus p
up
6Détecteurs de défaillances
- Fonctionnement hearbeat
- Défaillances
- crash / recovery
- perte de messages
- Adaptable
- Estimations dynamiques
- Intervalle démission
- Permet le transport dinformation
7Organisation
Organisation Hiérarchique
- Organisation hiérarchique
- Communication
- IP-Multicast au niveau local
- UDP au niveau global
cluster 1
cluster 2
cluster 3
8Niveaux Hiérarchiques
Organisation Hiérarchique
- Visions
- Niveau Local
- Liste des sites du cluster
- Niveau global
- Liste des clusters
- Qualité de service différentes
9Comportement
Organisation Hiérarchique
cluster 2
S1.5
cluster 1
S2.1
S1.1
S1.5
S1.4
S1.5
S1.2
S1.2
S3.5
S1.5
S1.4
S1.3
LENT
S1.5
cluster 3
10Avantages / Désavantages
Organisation Hiérarchique
- Avantages
- Nombre de messages (n nb sites, k nb groupes)
- Système plat n (n -1)
- Hiérarchique n2 / k k2 k 1
- Si n gt k2 un leader gère moins de messages
- Partitionnement des informations
- Mise en place de mécanisme
- Élection de leader
11Election de leader
Organisation Hiérarchique
- Sur le principe de ?
- Liste triée de leaders non suspectés
(Trusted_Process) - Leader 1er de Trusted_Process
- Objectifs
- Temps de recouvrement court
- Avoir au moins un leader
12Architecture
- Emission de message I-am-alive
- Estimation de base
- Compromis entre le temps de détection et le
nombre de fausses détection - Fournit
- Liste de sites suspects
- Informations sur la détection
- Adaptation de lintervalle démission
Application 1
Application 2
Liste de suspects
QoS 1
Liste de suspects
QoS 2
Couche dadaptation 1
Couche dadaptation 2
?i 2
?i 1
Liste de sites suspects Intervalle
démission Marge de détection QoS observée
Couche de base
Blackboard
13Architecture
- Spécifique à lapplication
- Adapte la QoS
- Différents algorithmes
- Adaptation de linterface
- Pop ou Push
- Permet différentes vision du système
Application 1
Application 2
Liste de suspects
QoS 1
Liste de suspects
QoS 2
Couche dadaptation 1
Couche dadaptation 2
?i 2
?i 1
Liste de sites suspects Intervalle
démission Marge de détection QoS observée
Couche de base
Blackboard
14Architecture
Application 1
Application 2
- Représente lutilisateur des détecteurs de
défaillance - Service de nommage
- Fournir le besoin en QoS local
- Utilise la liste des sites suspects
Liste de suspects
QoS 1
Liste de suspects
QoS 2
Couche dadaptation 1
Couche dadaptation 2
?i 2
?i 1
Liste de sites suspects Intervalle
démission Marge de détection QoS observée
Couche de base
Blackboard
15Couche de baseFonctionnement
Architecture
?i
hi-1
hi
hi1
hi2
Processus p
Processus q
Ai
?to
?i
?i1
?i2
Freshness points
?i-1
FD de q
16Couche de baseEstimation de la date darrivée
Architecture
- Calcul de la date butoir
- Timeout (?k1) date théorique (EAk1) marge
dynamique (?k1) - Date théorique estimation de Chen
- Marge dynamique (algorithme de jacobson)
17Adaptation du délai démission
Architecture
- Motivation
- Besoins variables des applications
- Etat du réseau
- Négocier entre récepteurs et lémetteur
18Performance
Performances couche de base
Dynamique RTT Chen
Nb fausses détections 24 54 29
Durée erreurs (ms) 31,6 25,23 36,61
Temps de détection (ms) 5131,7 5081,79 5672,53
- Adaptation
- Court terme (Marge)
- Moyen terme (Estimation date)
- Conclusion
- Bon compromis entre temps de détection et le
nombre de fausses détections
19Plateforme de test
Performances couche dadaptation
- Utilisation de dummynet (simulateur reseau)
- Introduction de délai de propagation
- Variation du délai de propagation
- Introduction de perte de messages
Group 1 Paris
Délai 50ms /- 10ms Perte de messages 1.2
Délai 10ms /- 4ms Perte de messages 0.5
Group 2 San Francisco
Group 3 Toulouse
Délai 150ms /- 25ms Perte de messages 3
20Organisation
Performances couche dadaptation
Nb de sites 4 6 9 12 16
Nb de sites par groupe local 2 3 3 4 4
Nb de groupes local 2 2 3 3 4
21Conclusion
- Service de détection de défaillances
- Scalable
- Partagé
- Adaptable
- Fournissant une QoS locale