Title: La m
1La métrologie sur les réseaux enjeux et
quelques problèmes intéressants
- Métropolis
- METROlogie Pour LInternet et les Services
2Projet RNRT
- Labellisation en 2001
- Projet phare du RNRT en 2001
- Projet exploratoire sur 36 mois
- Date de début Novembre 2001
- LIP6 (coordinateur)
- FT RD, GET, INRIA, Eurecom, LAAS, Renater
3Objectifs
- Développer un cadre commun pour la métrologie des
réseaux IP - Mesure de la Qualité de Service
- Développement de modèles réalistes
- Analyse des protocoles et du comportement du
réseau - Dimensionnement des réseaux
4Organisation du projet
- SP 1 Etat de lart sur la métrologie dans les
réseaux - SP 2 Classification et dimensionnement
- SP3 Analyse du réseau
- SP4 Méthodes pour la mesure et échantillonnage
- SP5 Modélisation
- SP6 Tarification et SLA
- SP7 Plate-formes de mesures
5Approche méthodologique
6SP 2 Classification et dimensionnement
- Objectifs
- Effectuer un classification des flots
- Granularité
- Type dapplication
- Protocoles
- Définir des méthodes de dimensionnement et
valider celle ci - Répartition de charge
7Tomographie réseau
8Tomographie réseau
- Inférer lintérieur du réseau par des mesures
marginales - Estimation de matrices de trafic
- Inférence de la topologie du réseau
- Inférence des caractéristiques du réseau
9Dimensionnement du réseau
- Estimation des matrices de trafic
- Determiner la matrice de trafic
- Seul le trafic de chaque lien est connu
- Objectif
- Estimer la matrice de trafic avec des
informations limitées
POPs avec mesures
POP Point of Presence
10Notations
- Xj Demande de trafic pour la paire de POP j
- A matrice de routage
- Yi trafic sur le lien i
- c n (n - 1)
ArxcXc Yr
11Techniques de résolution
Arxc Xc Yr
- est un système linéaire
fortement sous-déterminé - La solution est une optimisation statistique
- Deux directions, 3 techniques
- Approche déterministe
- Programmation linéaire
- Approche Statistique
- Bayesienne
- Approche EM
12Approche EM
- Suppose
- Avec and S
- Estimation MLE de q par Algorithme EM
- Lalgorithme nécessite un bon point de départ (A
priori nécessaire) - Minimum locaux
- Estimation des composants de X par
13Classification de flots
14Classification de flots dans lInternet
- Objectifs de la Classification des flots
- Caractérisation du trafic
- pour comprendre
- Rasoir dOccam
- Ingénierie de trafic
- pour traiter
- Améliorer la QoS
- Surveillance
- Détecter les flots anormaux
- Classification comportementale
- Data mining
- Notre approche
- Caractériser chaque flot par son histogramme
- Classifier en fonction des histogrammes
15Histogrammes ?
16Histogrammes et classification
- Chaque histogramme
- Chaque histogramme est une réalisation dune
distribution aléatoire - La classification se fait à laide dun mélange
de loi de Dirichlet. - où appartient au simplex
- La distribution marginale de chaque bin suit une
distribution béta
17Procédure dinférence
- Mélange de Dirichlet
- Paramètre à estimer
-
- Probabilité a posteriori? probabilité
dappartenance aux classes ? Appartenance au
classe par MAP - Critère de Maximum de vraisemblance
- Maximum da posteriori pour lappartenance aux
classes. - Loptimisation des paramètres de ce mélange
utilise lalgorithme SAEM. - Réduit le problème des minimums locaux
18Méthode SAEM
19Classification sur Internet
- Données brutes
- Volume de trafic dun flot BGP
- Granularité de 5 mins (SNMP)
- Application dans lingénierie de trafic
- Mesure dans un lien OC-48
- Autour de 2600 flots BGP dans le cœur de réseau
- 800 sont négligeables
- Le nombre dobservations est inférieur à 2
- Chaque histogramme est calculée sur une journée
de données - 2412 échantillons
- 20 bins par histogramme
20Comportement de la log-vraisemblance
214 classes
224 classes
Vert 21 des flots 70BP Bleu 20 des flots
17 BP Noir 41 des flots 7 BP Rouge 18 des
flots 6 BP
23Zoologie dInternet
24Stabilité
25SP 3 Analyse du réseau
- Objectifs
- Analyser in vivo le réseaux
- Analyse des flots TCP
- Analyse des délais dans les routeurs
- Etude des attaques
26Caractérisation du trafic Internet
27Diversité du trafic Internet (1)
- Caractéristiques générales du trafic IP
- 2 grandes classes de trafic streaming
(audio/vidéo) et élastique (données) - 3 entités principales de trafic paquets, flots,
sessions - Répartition par protocole
- Prédominance de TCP (gt 95 des octets transférés)
28Diversité du trafic Internet (2)
- Répartition par application
- Prédominance classique de HTTP
- Emergence récente et rapide du trafic Pair à pair
- 80 du trafic dans certains réseaux
29Caractéristiques du trafic IP
- Trois entités de trafic (échelles de temps)
- Paquets unités élémentaires traitées par la
couche IP - Flots suite cohérente de paquets (même instance
dune application donnée) - Trafic streaming Communication téléphonique ou
video - Trafic élastique Fichier, message, objet dune
page HTML, - Sessions "connexions" au niveau usager
- Session Telnet, connexion FTP, e-mail
- Navigation Web ensemble de pages HTML
30Modélisation - Processus paquets
- Trafic au niveau paquets - Introduction sur
lauto-similarité - Processus darrivée extrême variabilité
- Mono- ou multi-fractal, LRD, phénomènes
déchelle,
Trafic IP observé Trafic de Poisson
Débit intégré sur 0.01 s 0.1 s 1 s
31Modèle générique de trafic (TCP)
- Hypothèses du modèle
- Les sessions sont indépendantes, apparaissent
selon un processus de Poisson (un invariant
de lInternet) - Les flots sont générés en série au sein des
sessions - Le partage de la Bande Passante est équitable
entre les flots présents (idéalisation du
contrôle dynamique exercé par TCP) - La performance, en termes de débit moyen de
transfert des flots, est insensible aux
caractéristiques détaillées des flots
32Modélisation - Processus flots (1)
- Processus darrivée des flots
- Dépend des différentes définitions possibles des
flots (Granularité, Time Out de terminaison, ) - Arrivées non conformes à un processus de Poisson
- Possible LRD (dépendances à long terme) ?
33Modélisation - Processus flots (2)
- Distribution de la taille des flots (en paquets,
octets, durée) - Comportement heavy-tailed très bon ajustement
par une loi de Pareto (décroissance sous forme de
fonction puissance) - Extrême variabilité de la taille des flots la
variance, voire la moyenne, de la loi théorique
peuvent être infinies - Phénomène souris/éléphants les flots TCP de
taille supérieure à 10 Mo, 1/1000 en nombre,
contribuent pour 50 de la charge totale en trafic
34Modélisation - Processus sessions
- Trafic au niveau sessions
- Périodes dactivité des utilisateurs
- Arrivées conformes à un processus de Poisson
- Longueur, durée des sessions loi de
distribution heavy-tailed (Pareto)
35Etude du passage du micro au macro
- Les régles de composition des flots
microscopiques et macroscopiques ne sont pas les
mêmes - Comment étudier le passage du ? au ?
- Système de couplage
- Deux problèmes intéressants
- Etude de convergence
- Inférence statistique des paramètres de couplages
36SP 4 Méthodes pour la mesure et échantillonnage
- Objectifs
- Développement dune théorie de léchantillonnage
- Similaire à la théorie classique dans le
traitement de signal - Echantillonnage
- Spatial
- Temporel
- Applicatif
37(No Transcript)
38Mesures actives
- Un agent emet des paquets sur le réseau
- Chaque paquet est une sonde qui simprégne de
létat du réseau en le traversant - A la réception le processus de pertes et de délai
est extrait - Modèle sous-jacent
- Le réseau est ressenti grâce à ces effets
- Les effets sont les pertes et les délais
S(t)
T4D(T4)
T2D(T2)
D(t)
T1D(T1)
T3D(T3)
T1
T2
T3
T4
39Challenges existants
- Développer une théorie de léchantillonnage pour
la mesure dans le réseau - PASTA ou PIZZA ????
- Comment échantillonner dans un graphe
- Quelle est la taille dInternet ?
- Quelle sont les performances dun algorithme de
routage
40SP 5 Modélisation
- Objectifs
- Développer des modèles réalistes du réseau
- Macroscopique
- Modèle de flots
- Microscopique
- Modèles de TCP
- Comment passer du micro au macro
- Vers une théorie macroéconomique du réseau
41Modélisation empirique
42De linterprétation
- Des mesures
- Mais que veulent telle dire ?
- Interprétation?
- Relier les effets aux causes
- Être capable de prédire le comportement
- A différentes échelle de temps
- Pouvoir réagir
- Linterprétation nécessite un a priori
43Approches de modélisation
- Approche descriptive
- Le réseau est un boite noire de structure
inconnue - Décrire les observations par le biais de
paramètres descriptifs statistique - Moyenne, variance, Paramètres de Hurst
multi-fractaux, etc - Approche haut en bas
- On commence par les observations et on calcule
les paramètres descriptifs - Problème
- Cela ne répond pas au pourquoi?
- Cela ne répond pas au what if?
- Il est difficile dinterpréter les résultats de
modèlisation - LInterpretation nécessite des a priori
- Nous nutilisons pas toute linformation
disponible - Nous pouvons utiliser notre a priori sur le
phénomène aboutissant à lobservation
- Approche constructive
- Approche classique
- Utilise un modèle explicatif des processus
internes au réseau - Le réseau est constitué de files dattentes,
routeurs, liens, - Appliquer la simulation ns or des méthodes
analytiques de files dattente ou le network
calculus, etc - Approche de bas en haut
- On commence avec les scenarii dentrée et la
structure du réseau et obtient les mesures de
performances - Problèmes
- La Généralisation est difficile
- Trop de paramètres
- Les résultats de simulation ne ressemblent pas
aux mesures réelles - Lapproche est en boucle ouverte
44Objectifs de modélisation
- Nous avons besoin de modèles pour
- Interpréter les mesures
- Relier les effets aux causes
- Developper des descriptions réalistes de réseaux
réels - Afin de controller la QoS dans les réseaux réels
- Définir des scénarios pour des évaluations
réalistes - En nourissant des modèles avec des paramètres
réalistes calibrés sur des traces empiriques - Il faut mélanger les approches descriptives et
constructives
45La caverne de Platon
- Socrate. - Figure-toi des hommes dans une
demeure souterraine, en forme de caverne, ayant
sur toute sa largeur une entrée ouverte à la
lumièreFigure-toi maintenant le long de ce
petit mur des hommes portant des objets de toute
sorte, qui dépassent le mur, Glaucon Voilà,
s'écria-t-il, un étrange tableau et d'étranges
prisonniers.- Ils nous ressemblent, répondis-je
et d'abord, penses-tu que dans une telle
situation ils aient jamais vu autre chose
d'eux-mêmes et de leurs voisins que les ombres
projetées par le feu sur la paroi de la caverne
qui leur fait face ?
46Cadre de linterprétation
? contexte
Modèle a priori
Y observations
Y
X cachés
- Quelle est la cause cachée (X et ?) qui a abouti
à lobservation de Y - Quelle est ma compréhension du phénomène qui
génère lobservation ? - Le modèle a priori condense cette compréhension
dans YM(X,?)
47Interprétation
- Nous avons à résoudre deux problèmes inverses
- Le problème de modélisation
- Quelles sont les paramètres de contexte ? qui
décrivent le mieux lenvironnement - Le problème dinterprétation
- Connaissant les paramètres ? quelle est la valeur
de lentrée cachée X qui décrit le mieux
lobservation - Beaucoup de problèmes de modélisation peuvent
sexprimer dans ce cadre - Linterprétation de mesures actives
- La tomographie du réseau
48Interprétation de mesures actives
- Mesures actives
- Un agent de mesure envoit des paquets sur le
réseau - Chaque paquet est une sonde qui simprégne des
informations du chemin quil emprunte - A la réception les pertes et le délai sont
extrait et stockés - Modèle sous-jacent
- Les effets du réseau sur le flot de mesure sont
les délais et les pertes
S(t)
T4D(T4)
T2D(T2)
D(t)
T1D(T1)
T3D(T3)
T1
T2
T3
T4
49Mesure active
- Trace obtained between France and US
- 50 msec interval, Pkt size 100 Bytes
50Modèle a priori pour linterprétation
- Nous supposons a priori que le réseau peut être
décrit par un simple goulot détranglement qui
est nourrit par un traffic MMPP - Chaque état de traffic MMPP génère un traffic de
Poisson de débit ? - La matrice de transition suit une chaîne de
Markov de matrice de transition ? - Les paramètres de contexte sont ?(µ ,K, ?i, ?ij)
- Lentrée X est la suite des états de la MMPP
51Problème de modèlisation
- Résultats de la EM
- ?(20, 1.2594,1.07)
- ?(0.03, 0.65, 0.32)
-
52Problème dinterprétation
53Trace simulée
54How to solve it ?
- Problème de modèlisation
- Méthode de maximum de vraisemblanc
- Méthode Bayésienne
- Problème dinterprétation
- Maximul da posteriori
55Conclusion
56Verrous
- Techniques déchantillonnages
- Avancée sur la généralisation
- Avancée sur léchantillonnage temporel
- Modèles réalistes de trafic
- Développement de différentes classes de modèles
- Analyse et compréhension
- Bonne compréhension des différents phénomènes du
réseau - Analyse des attaques
- Dimensionnement
- Travaux sur lestimation des matrices de trafic
- Estimation de limpact du Pair-à-pair sur le
dimensionnement
57Obstacles rencontrés
- Définition de la bonne granularité des mesures
- Passage du microscopique au macroscopique
- Transformation de lexpertise en méthodologie
- Problèmes liées à la confidentialité
58Retombées du projet
- Déploiement dune plateforme de mesure
- A notre connaissance la plus importante hors des
Etats-Unis - Bonne visibilité de la communauté de recherche
française - Nationale AS Métrologie
- Européenne NoE E-Next, EuroNGI, contact avec
Géant et DANTE - Internationale Collaboration ave SPRINT, ATT,
INTEL, etc.. - Organisation de colloques
- IMC 2002, INTIMATE 2003, PAM 2004, IMC 2004
- Nombreuses demandes dexpertise
- Collaboration dans laméliorations de produits
- Rapprochement IPANEMA, QosMos
- Relations avec QosMetrix
59Retombées du projet
- 1 Draft IETF
- Utilisation de RTCP pour effectuer des mesures
(Timur Friedman) - Publications
- 3 revues
- 22 Conférences internationales
- 2004 2 Sigmetrics, 3 PAM, 2 ICC, etc
- 8 conférences francophones
- 7 soumission en cours
- 6 publications communes entres partenaires
- Essaimage
- Nombreuses actions vers la communauté réseau
- 25 tutoriels et interventions invités
60Résultats actuels
- Émergence dune communauté de recherche visible
- Multidisciplinaire
- Nombreuses publications
- Ouverture de nouveaux axes de recherches
- Topologie du réseau
- Surveillance et détection danomalies
- Echantillonage