Title: Quelques contributions
1Quelques contributions à la résistance au facteur
déchelle dans les réseaux de communication
- C. Pham
- Soutenance dHDR
- Mardi 16 décembre 2003
- ENS Lyon
2Brève présentation de mon parcours
- Juil. 1997 Thèse en informatique à Paris 6,
Laboratoire LIP6, sous la direction du Pr. Serge
Fdida - Sep. 1997 Année post-doctorale à UCLA, sous la
direction du Pr. Rajive Bagrodia - Oct. 1998 MCF à U. Lyon 1 dans l'équipe de
Bernard Tourancheau - Jan. 1999 Création de la JE UCBL RESAM et membre
permanent de cette structure - Sep. 1999 Création de l'action RESO de L'INRIA
Rhône-Alpes et membre de l'action - Juil. 2000 Déménagement dans les locaux de lENS
3Enseignement
- Responsable du DESS IIR Réseaux, UCBL
- Depuis 1999, responsable pédagogique dune
formation professionnalisante dans le domaine
pointu des réseaux définitions des
enseignements, gestion des intervenants, des
plannings - Cours 3ème cycle
- DEA DIF, DEA DISIC, DESS CCI, DESS IIR
- Cours 2ème cycle
- Maitrise informatique, MIM, MIAG
- Encadrement détudiants maitrise, master, DEA,
DESS
4Le visage de lInternet
Le big-bang
1969
2003 environ 200 millions de machines
5www.explosion-du-web.org
6Les changements technologiques et déchelle
- Généralisation de la fibre optique (DWDM)
- Débit dans le cœur du réseau de plusieurs
dizaines de Gbits/s!
Link Speed
Packet processing Power
From McKeown
7Performances de bout-en-bout?
200km/h
100km/h
50km/h
DWDM, Myrinet, 10GE, Infiniband
Système de communication traditionnel
180km/h
170km/h
Comment y arriver?
8Le tout-IP
Transparent de Jim Kurose
9Les difficultés liées à la taille
Comment connaître/prendre en compte létat global
du système? Exemples Routage Déploiement de
protocoles Contrôle de congestion
10Les difficultés liées à la taille
Aggrégation du trafic comment supporter
la charge? Exemples Sites web
populaires Feedbacks
11Les difficultés liées à la taille
Comment étudier le système? Exemples Validation
de protocoles Etude de performances Simulations Ex
périmentations
EMC2
12Résistance au facteur déchelle
- Dans les méthodes dévaluation
- Dans les protocoles de communication
- Dans la conception des systèmes de communication
13Quelle taille pour quelle complexité
1969
Transparent emprunté à Jim Kurose
14Rajouter de lintelligence!
- Aggréger nest pas suffisant, il faut aussi une
distribution de lintelligence où, quand et
comment?
100 à 1000 Mbits/s
x Gbits/s
100 à 1000 Mbits/s
protocoles de haut niveau
15Mes 3 thèmes de recherches
Simulations parallèles sur grappes de PCs
Multicast fiable actif
Optimisation sous-systèmes de comm.
www.robust.com
RESISTANCE AU FACTEUR DECHELLE
16Les étudiants contributeurs
- Thèse DEA
- M. Maimour
- E. Lemoine
- Maîtrise
- F. Goffinet, S. Oranger
- L. Cavallin
- J. Mazuy (encadré par M. Maimour)
- X. Prost
- Master
- C. Albrecht
- R. Asthana
17Simulations parallèles sur grappesMulticast
fiable actifOptimisation de sous-systèmes de
comm.
18Simuler des systèmes complexes 100 minutes pour
convaincre!
- Réseaux Gbits/s
- 200 routeurs
- 1000 sources de trafic, 100Mbits/s
- Simulation au niveau du packet (500 octets),
- 1 évènement par paquet
Plus de 30 millions dévènements à simuler pour
1s de temps réel. 12h pour simuler 72s
(event20us)
- capacité des liens ? temps de simulation ?
- généralement, plus d 1 événement par paquet
19Simulation parallèle de réseaux
20CSAM
travaux de thèse
- CSAM Conservative Simulator for ATM network
Model - Simulation au niveau de la cellule
- Approche conservative (aucune faute temporelle)
- Fonctionne sur CM-5, Cray T3E
- Exploite le lookahead des liens de communication
usage transparent
21Modèle de base 78 comm. ATM
Routage avec fonctions de coût dynamiques Contrôle
dadmission
travaux de thèse
22La suite MPI-BIP/BIP-SMP/BIP
- Projet BIP Prylli, Tourancheau librairie de
communication optimisée pour Myrinet - MPI-BIP, BIP-SMP Westrelin, Geoffray,
Tourancheau
MPI-BIP
BIP
BIP-SMP
les NICs programmables changent la
distribution spatiale traditionnelle des tâches.
Myrinet physical layer
23Machines parallèles vs grappes
Station de travail
Cluster SUN/e-Toile
- Facilement upgradés
- Facilement intégrés
- Perf. interconnexion ?
- Chères
- Vite dépassés
- Peu accessibles
24Les clusters dans le TOP 500
16 Nov. 2003 7 clusters dans le TOP 10!
25Les grappes sous Myrinet
- Commutateur
- full crossbar
- Routage wormhole
- faible latence
- NIC
- processeur RISC
- programmable
- mémoire locale
- plusieurs DMA
Dernières caractéristiques Processeur jusquà
333 Mhz Mémoire jusquà 8MB Bus 64 bit PCI
PCI-X Lien à 2Gbit/s full duplex
26Simulations // avec BIP MPI/BIP
(Obsolètes)
27Pourquoi peut-on aggréger?
- Le simulateur alterne phase de traitement et
phase de récupération de messages - Encadrement de C. Albrecht, Univ. Luebeck
Événements à traiter avant den récupérer
dautres
28Aggréger dans CSAM
- Aggrégation 1 buffer/récepteur
- Etude de la taille daggrégationprise en compte
des perf. de BIP/MPI-BIP
29Machine multi-processeurs
- Travaux effectués avec P. Geoffray, utilisation
de BIP-SMP - Aggrégation sur des CLUters of Multi-Processors
(CLUMPs)
Performances assymmétriques
30Gain de laggrégation assymmétrique
Dual Pentium Pro 450MHz
aggr. x-y xdistant, yinterne
31Comparaison de différentes stratégiesTravaux
avec C. Albrecht, R. Westrelin
Sender initiated
Receiver initiated
32Simulations parallèles sur grappesMulticast
fiable actifOptimisation de sous-systèmes de
comm.
33Thèse de Moufida Maimour
- 1ère thèse encadrée (encadrant HDR Pascale
Vicat-Blanc Primet) - Conception, Analyse et Validation de Protocoles
de Multicast Fiables à Assistance des Routeurs ,
soutenue le 25 nov. 2003, ENS Lyon
Source
data
data
data
data
data
data
Receiver
Receiver
Receiver
34Exemple visio-conférence
Vue de lusager
224.34.7.12
Adresse de groupe multicast 224.34.7.12
35Ce quil y a derrière
224.34.7.12
domain
Point de peering
Routeur daccès
Routeur de lInternet
36unicast
multicast
?
TCP
37Linternet nest pas (encore) multicast!
3-4 des AS
33
source www.multicasttech.com/status
38En image cela donne
multicast AS
INTERNET
unicast AS
39Les problèmes déchelle liés au multicast fiable
source
NACK4
NACK4
NACK4
Implosion des NACKs!
Grand nombre de récepteurs
NACK4
source
1Mbps
1Mbps
5Mbps
2Mbps
Contrôle du débit?
0.5Mbps
2Mbps
40Protocoles de multicast fiable
- Approches de bout en bout
- avec recouvrement local
- Approche probabiliste SRM
- Approches hiérarchiques statiques RMTP ou
dynamiques TMTP, TRAM - Approches avec assistance de routeurs
- un arbre de recouvrement identique à larbre
physique du multicast avec cache de données au
niveau de nœuds intermédiaires ARM, RMANP, AER - un arbre de recouvrement logique construit avec
lassistance des routeurs LMS, PGM, AIM
41Réseaux actifs/programmables
- Casse la vision dun réseau bête en
autorisant les routeurs à exécuter des codes
spécifiques (services actifs)
42Ex suppression globale des NACKs
43Etude des différentes stratégies
- S1 suppression globale des NACK
- S2 suppression locale des NACK
- S2S subcast à partir de la source
- S3 suppression globale des NACK subcast à
partir des routeurs - S3S subcast à partir de la source
44Analyses préliminaires
45Bénéfices de laggrégation globale
S1
46Impacts de la puissance des routeurs
S3
2
47La proposition DyRAM
- Protocole avec de nouveaux services actifs légers
(autre que le cache) pour résister au passage à
léchelle et permettre de faibles latences
subcast des repair
Suppression Globale NACK
Détection Rapide des pertes
Election Dynamique
Partitionnement Des Récepteurs
Contrôle de Congestion
48Impacts sur la latence
grp 624
4 récepteurs/groupe
A supp. des NACKs
D A Détection des pertes
DyRAM A Election
DPP est très bénéfique à DyRAM
DyRAM DyRAM Détection des pertes
p0.25
grp 624
49Contrôle de congestion AMCA
- AMCA se base sur des services actifs destimation
des RTTs par section - Fournit une compatibilité satisfaisante avec TCP
50Multicast fiable pour la grille
Data replications Code data transfers,
interactive job submissions Data communications
for distributed applications (collective gather
operations, sync. barrier) Databases, directories
services
SDSC IBM SP 1024 procs 5x12x17 1020
224.2.0.1
NCSA Origin Array 256128128 5x12x(422) 480
ENS cluster 48 nodes
Multicast address group 224.2.0.1
51Scénario de déploiement
centre de calcul
campus/entreprise
source
aggrégation subcast détection des pertes
routeur actif
routeur actif
Réseau Gbits/s VTHD
aggrégation subcast élection calcul RTT
routeur actif
Internet Data Center
centre de calcul
52Multicast sur E-Toile (RNTL)
Implémentation de DyRAM Bouhafs Demo 5 juin,
2003
CEA
ROCQ
VTHD
ENS
CERN
source
53La démo sans effet démo!
CERN
ENS
source
ENS
ENS
54Projets
- Abondement ANVAR prototypage de services actifs
sur une plate-forme de réseaux actifs
d'expérimentation - Projet RNTL e-Toile protocoles de multicast
fiable actif pour une grille de calcul active - Projet RNRT VTHD expérimentations du multicast
actif sur un réseau très haut-débit - ACI GRID Services Réseaux et Intelligence pour
la Grille
55Simulations Parallèles sur grappesMulticast
fiable actifOptimisation de sous-systèmes de
comm.
56Thèse de Eric Lemoine
- Stage de DEA Intelligence embarquée dans les
interfaces réseaux - Interaction entre le système d'exploitation et le
système de communication exécuter mieux, et plus
tôt, les tâches liées à la communication - Etude des performances du déport de composantes
logicielles vers les cartes d'interface réseaux,
prototypes avec des applications cibles - Continuation en thèse CIFRE avec SUN Labs, Europe
(encadrement 50 avec L. Lefèvre) - Contribue à lobtention de la performance de
bout-en-bout
57Problème de robustesse
Copies effectuées dans le contexte de
linterruption
CPU1
CPU2
Backlog queue
DRIVER
RINT
DMA
NIC
58Problème de performance
NAPI dans Linux SALIM et al
Mode polling on vide et traite lanneau
entièrement (RINT disabled)
CPU1
CPU2
DRIVER
Device queue
RINT
DMA
NIC
59Exemple serveur web
www.non-robuste.com
- Contenu populaire
- Beaucoup de petites requêtes plusieurs
milliers/min - engendrant des flux lourds en retour.
- Sujet aux attaques de type DOS, DDOS
60Proposition KNET
1 anneau de réception par CPU Classification au
plus tôt Remonté en parallèle de paquets
CPU1
CPU2
Threads réseau
CPU1
CPU2
DRIVER
Device queue
RISR
RINT
DMA
NIC
ip_src (nb_proc-1)
Myrinet
classification
Proposition de nouveaux services à mettre dans
les cartes dinterface
61Premiers résultats
KNETsendfile()
34
KNETsend()
17
NAPIsendfile()
NAPIsend()
62Collaborations et contrats
- SUN Labs
- 3 thèses CIFRE avec SUN Labs, Grenoble (M.
Herbert, E. Lemoine et J. Laganier)
63Perspectives Conclusions
64Perspectives de recherche
- Mieux utiliser les techniques de simulations
parallèles - Reste un énorme travail dingénierie pour le
multicast. Etude de la problématique liée aux
réseaux très haut-débit. - Mécanismes de QoS pour les sous-systèmes de
communications
65Conclusions
- Le métier denseignant-chercheur est formidable!
- 3 axes de recherches qui contribuent à la
résistance au facteur déchelle. - La recherche aussi doit nous permettre de mieux
enseigner.