23ème congrès annuel de la Société Française de Recherche Opérationnelle et d'Aide à la Décision

sciencesconf.org:roadef2022:378896

La recherche arborescente Monte-Carlo (Monte-Carlo Tree Search, ou MCTS) a été appliquée avec succès dans de nombreux domaines, en particulier ceux des jeux et des problèmes combinatoires. Elle trouve sa première application dans la conception de programmes jouant au jeu de Go ([1]). Une variante du MCTS, le Nested Rollout Policy Adaptation (ou NRPA) a été introduite en 2011 ([2]). Elle a permis d'obtenir des résultats de meilleure qualité que les algorithmes précédents de recherche arborescente, sur de nombreux jeux (record du monde du Morpion Solitaire) et problèmes combinatoires classiques tels que le voyageur de commerce avec fenêtre de temps, ou les tournées de véhicules. Le NRPA a donné lieu à son tour à une extension nommée Generalized NRPA (ou GNRPA) ([3]). Dans le NRPA, le choix par tirage aléatoire d'un nœud de l'arbre de recherche se fait à partir de la politique de choix apprise au cours de la recherche arborescente. Dans le GNRPA, ce tirage est fait en pondérant la probabilité de chaque nœud par un biais dynamique heuristique, qui tient compte des caractéristiques du nœud lui-même. La valeur du biais sera donc différente d'un nœud à l'autre.

Type :	:	Article
Thématiques	:	Session "Les outils du Machine Learning et leur lien avec les problèmes de tournées" du GT GT2L
Mots-Clés	:	Recherche arborescente Monte ; Carlo ; Simulation imbriquée avec adaptation de la politique ; biais dynamique.

Personnes connectées : 3

Vie privée | Accessibilité