A competitive strategy for function approximation in Q-learning
Estadístiques de LA Referencia / Recolecta
Inclou dades d'ús des de 2022
Cita com:
hdl:2117/14123
Tipus de documentText en actes de congrés
Data publicació2011
Condicions d'accésAccés obert
Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i
industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva
reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets
Abstract
In this work we propose an approach for generalization in continuous domain Reinforcement Learning that, instead of using a single function approximator,
tries many different function approximators
in parallel, each one defined in a different
region of the domain. Associated with each
approximator is a relevance function that locally quantifies the quality of its approximation, so that, at each input point, the approximator with highest relevance can be selected. The relevance function
is defined using parametric estimations of the variance of the q-values and the density of samples in the input space, which are used to quantify the accuracy and the confidence in the approximation, respectively.
These parametric estimations are obtained
from a probability density distribution represented as a Gaussian Mixture Model embedded in the input-output space of each approximator. In our experiments, the proposed approach required a lesser number of experiences for learning and produced
more stable convergence profiles than when
using a single function approximator.
CitacióAgostini, A.G.; Celaya Llover, E. A competitive strategy for function approximation in Q-learning. A: International Joint Conference on Artificial Intelligence. "Proceedings of the 2011 International Joint Conference on Artificial Intelligence". 2011, p. 1146-1151.
Versió de l'editorhttp://ijcai.org/papers11/Papers/IJCAI11-196.pdf
Col·leccions
- IRI - Institut de Robòtica i Informàtica Industrial, CSIC-UPC - Ponències/Comunicacions de congressos [576]
- VIS - Visió Artificial i Sistemes Intel·ligents - Ponències/Comunicacions de congressos [292]
- ROBiri - Grup de Percepció i Manipulació Robotitzada de l'IRI - Ponències/Comunicacions de congressos [252]
Fitxers | Descripció | Mida | Format | Visualitza |
---|---|---|---|---|
1248-A-Competit ... ximation-in-Q-Learning.pdf | 335,3Kb | Visualitza/Obre |