Title: Les Diffrentes Stratgies de Recherche
1Les Différentes Stratégies de Recherche
2Lespace détats ou lespace de plans
- Graphplan fait une forme de planification
disjonctive chaque niveau représente une
disjonction détats. - Le processus de recherche se passe dans un espace
détats qui est structuré en niveaux. - Il y a dautres planificateurs qui cherchent dans
lespace détats ou dans lespace de plans.
3Recherche dans lespace détats
Même avec une collection dactions dont la taille
est une fonction polynomiale de la taille du
modèle, la taille de lespace de recherche est
exponentielle (2n combinaisons de n
propositions). Chaque action peut apparaître
plusieurs fois.
4Les Heuristiques
- En structurant lespace détats en niveaux
Graphplan peut faire une recherche complète. - En général la recherche doit être guidée par des
mesures heuristiques pour estimer quel état
visiter à la prochaine étape. - La qualité dun état dépend de sa distance à un
autre état qui satisfait les buts. - Lheuristique doit calculer cette distance pour
chaque état.
5Le meilleur dabord
- Étant donné une fonction heuristique, h(s), les
états peuvent être explorés dans lordre de la
valeur de h.
Les nuds bleus sont ouverts. Les nuds noirs
sont fermés.
Les nuds bleus sont visités dans lordre de la
valeur de h. Ils forment la frontière de lespace
de recherche.
6Recherche A
- La fonction h, appliquée à un état s, est définie
comme - h(s) est la distance entre s et létat initial,
et g(s) est le distance approximée entre s et un
état qui satisfait les buts. - Si f(s) satisfait certaines conditions, A est
complet et aussi optimal.
f(s) h(s) g(s)
7Comportement de meilleur dabord
- Dans le pire des cas la recherche par meilleur
dabord explorera tous les états. - Il peut faire un backtrack quand un ancien état a
une valeur meilleure que les valeurs de tous les
nouveaux états. - Dans le meilleur des cas il trouve une solution
très vite. - La qualité dépend de la qualité destimation g(s).
8Calcul de g(s)
- Une approximation très commune est basée sur le
nombre dactions qui convertissent s en un état
but.
h(s)
s
g(s)
but
9Les Plans Relaxés
- On peut relaxer un domaine en ignorant tous les
effets négatifs des actions. - La distance entre un état s et un état but est
donc le nombre dactions relaxées dont il y a
besoin pour convertir s en but. - On peut mesurer le nombre comme
Coût(P,s) ? coût(g,s)
g in P
coût (g,s) 0, g in s min (1
Coût(Pre(a))), otherwise
a in As
10HSPH. Geffner and B. Bonet 1998 Planning as
Heuristic Search New Results in Proceedings of
the European Conference on Planning pp 360-372,
Springer Verlag.
- Le planificateur HSP utilise cette mesure dans
une recherche en avant. - Il choisit le prochain état en mesurant tous les
descendants et sélectionnant aléatoirement parmi
les meilleurs états. - Les mesures de coût sont pessimistes elles
supposent que les buts sont indépendant. - Donc, lestimation peut sur-estimer la distance
au but (ce nest pas admissible).
11Une estimation admissible
- Cette nouvelle estimation est très optimiste.
Elle suppose que les actions peuvent être
partagées pour atteindre les buts et sous-buts. - Lestimation est admissible elle ne peut pas
sur-estimer la distance au état but. - Par contre, lestimation nest pas informative.
Elle naide pas beaucoup pour diriger le
recherche.
Cout(P) max cout(g)
g in P
12Le plan graph relaxéJ. Hoffmann and B. Nebel
2001 The FF Planning System Fast Plan
Generation through Heuristic Search In Journal
of AI Research vol 14.
- Lestimation est calculée par construction dun
plan graph relaxé. - Il ne contient pas les relations mutex (parce que
les actions nont pas deffets négatifs). - Il ny a pas de memos, donc il y a toujours un
plan quand les buts peuvent être atteints
ensemble à un niveau. - Le nombre dactions est compté dans le premier
plan extrait. - Ce nombre donne la mesure de la distance entre
létat à niveau 0 et un état à la fin.
13Estimation de la distance relaxé
A chaque étape, tous les nouveaux nuds générés
sont évalués.
s
but
Les actions rouges sont comprises dans le plan
relaxé entre s et le but. Le nombre dactions est
la mesure de la distance (et, par conséquence, de
la qualité de s).
Les nuds roses sont évalués mais pas choisis.
Les nuds noirs sont choisis. Les nuds bleus ne
sont pas encore complètement évalués.
14Un Exemple
A
A
B
B
C
C
Plan relâché
Unstack A B Stack B C
En général il nest pas si simple de réparer un
plan relaxé la structure peut être très
différente de la structure dun vrai plan.
Unstack A B Stack B C Stack A B
Plan vrai
15Les propriétés des plans relaxés
- Ils ne sont pas admissibles la recherche du
meilleur plan relaxé est NP-complète, donc le
premier plan extrait est le plan qui est utilisé. - Mais le plan relaxé peut fournir une bonne
estimation heuristique. - Les expériences suggèrent que les plans relâchés
fournissent les mesures de distance plus
informatives que les coûts de Geffner et Bonet.