Open Access BASE2013

Classification régularisée par la récompense pour l'Apprentissage par Imitation

Abstract

Cet article traite le problème d'Apprentissage par Démonstrations (AD) dans lequel un agent appelé apprenti cherche à apprendre à partir des démonstrations d'un autre agent appelé expert. Pour aborder ce problème assez général, il est commun d'adopter le paradigme des Processus Décisionnels de Markov (PDM) qui est approprié pour les problèmes de prises de décisions séquentielles. Dans la littérature, il y a principalement deux façons de traiter ce problème (en faisant appel aux PDM) qui sont l'Apprentissage par Imitation (AI) où l'apprenti cherche directement à imiter la politique de l'expert et l'Apprentissage par Renforcement Inverse (ARI) où l'apprenti essaye d'apprendre une récompense qui pourrait expliquer la politique de l'expert. Ici, nous introduisons un paradigme inédit, appelé cadre de travail des politiques d'ensembles ( set-policy framework ), pour lequel il y a un lien naturel entre les méthodes d'AI et d'ARI. Ce paradigme permet de dériver des nouveaux algorithmes qui nécessitent uniquement la connaissance de couples état-action experts et d'exemples de transitions du PDM. Des expériences sont réalisés sur un problème qui fait référence (un simulateur de trafic routier) et sur une tâche plus générique (les Garnets) qui permet une comparaison plus générale des algorithmes. Mots-clés : Apprentissage par Renforcement Inverse, Apprentissage par Imitation.

Problem melden

Wenn Sie Probleme mit dem Zugriff auf einen gefundenen Titel haben, können Sie sich über dieses Formular gern an uns wenden. Schreiben Sie uns hierüber auch gern, wenn Ihnen Fehler in der Titelanzeige aufgefallen sind.