Open Access BASE2009

Différences Temporelles de Kalman

Geist, Matthieu; Pietquin, Olivier; Fricout, Gabriel

Abstract

Cette contribution traite de l'approximation de la fonction de valeur ainsi que de la Q-fonction dans des processus décisionnels de Markov déterministes. Un cadre de travail statistique général inspiré du filtrage de Kalman est introduit. Son principe est d'adopter une représentation paramétrique de la fonction de valeur (ou de la Q-fonction), de modéliser le vecteur de paramètres associé comme une variable aléatoire et de minimiser l'erreur quadratique sur les paramètres conditionnée aux récompenses observées depuis l'origine des temps. De ce paradigme général, que nous nommons Différences Temporelles de Kalman (KTD pour Kalman Temporal Differences), et en utilisant un schéma d'approximation appelé transformation non-parfumée, une famille d'algorithmes est dérivée, à savoir KTD-V, KTD-SARSA et KTD-Q, qui ont respectivement comme objectif l'évaluation de la fonction de valeur pour une politique donnée, l'évaluation de la Q-fonction pour une politique donnée, et l'évaluation de la Q-fonction optimal. Cette approche présente un certain nombre d'avantages tels que la capacité à prendre en compte une paramétrisation non-linéaire, l'efficacité de l'apprentissage en terme d'échantillons observés, la prise en compte d'environnements non-stationnaires ou encore la possibilité d'obtenir une information d'incertitude, que nous utiliserons pour proposer une forme d'apprentissage actif. Ces différents aspects seront discutés et illustrés au travers de plusieurs expériences.

Subjects

Languages

French

Publisher

HAL CCSD

Export Report Issue

Report Issue

Différences Temporelles de Kalman

Abstract

Subjects

Languages

Publisher

Contact

Help