DSpace DSpace UPC
 Català   Castellano   English  

E-prints UPC >
Altres >
Enviament des de DRAC >

Empreu aquest identificador per citar o enllaçar aquest ítem: http://hdl.handle.net/2117/14123

Arxiu Descripció MidaFormat
1248-A-Competitive-Strategy-for-Function-Approximation-in-Q-Learning.pdf335,35 kBAdobe PDFThumbnail
Veure/Obrir

Títol: A competitive strategy for function approximation in Q-learning
Autor: Agostini, Alejandro Gabriel Veure Producció científica UPC; Celaya Llover, Enric Veure Producció científica UPC
Data: 2011
Tipus de document: Conference report
Resum: In this work we propose an approach for generalization in continuous domain Reinforcement Learning that, instead of using a single function approximator, tries many different function approximators in parallel, each one defined in a different region of the domain. Associated with each approximator is a relevance function that locally quantifies the quality of its approximation, so that, at each input point, the approximator with highest relevance can be selected. The relevance function is defined using parametric estimations of the variance of the q-values and the density of samples in the input space, which are used to quantify the accuracy and the confidence in the approximation, respectively. These parametric estimations are obtained from a probability density distribution represented as a Gaussian Mixture Model embedded in the input-output space of each approximator. In our experiments, the proposed approach required a lesser number of experiences for learning and produced more stable convergence profiles than when using a single function approximator.
URI: http://hdl.handle.net/2117/14123
Versió de l'editor: http://ijcai.org/papers11/Papers/IJCAI11-196.pdf
Apareix a les col·leccions:Altres. Enviament des de DRAC
VIS - Visió Artificial i Sistemes Intel.ligents. Ponències/Comunicacions de congressos
Institut de Robòtica i Informàtica Industrial, CSIC-UPC. Ponències/Comunicacions de congressos
ROBiri - Grup de Robòtica de l'IRI. Ponències/Comunicacions de congressos
Comparteix:


Stats Mostra les estadístiques d'aquest ítem

SFX Query

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets.

Per a qualsevol ús que se'n vulgui fer no previst a la llei, dirigiu-vos a: sepi.bupc@upc.edu

 

Valid XHTML 1.0! Programari DSpace Copyright © 2002-2004 MIT and Hewlett-Packard Comentaris
Universitat Politècnica de Catalunya. Servei de Biblioteques, Publicacions i Arxius