Exploiting distributional semantics for content-based and context-aware recommendation

Codina Busquet, Victor

doi:10.5821/dissertation-2117-95430

Visualitza/Obre

TVCB1de1.pdf (2,466Mb)

Veure estadístiques d'ús d'UPCommons

Estadístiques de LA Referencia / Recolecta

Cita com:

Mostra el registre d'ítem complet

Codina Busquet, Victor

Tutor / directorCeccaroni, Luigi

Càtedra / Departament / Institut

Universitat Politècnica de Catalunya. Departament de Llenguatges i Sistemes Informàtics

Tipus de documentTesi

Data de defensa2014-06-13

EditorUniversitat Politècnica de Catalunya

Condicions d'accésAccés obert

Tots els drets reservats. Aquesta obra està protegida pels drets de propietat intel·lectual i industrial corresponents. Sense perjudici de les exempcions legals existents, queda prohibida la seva reproducció, distribució, comunicació pública o transformació sense l'autorització del titular dels drets

Abstract

During the last decade, the use of recommender systems has been increasingly growing to the point that, nowadays, the success of many well-known services depends on these technologies. Recommenders Systems help people to tackle the choice overload problem by effectively presenting new content adapted to the user¿s preferences. However, current recommendation algorithms commonly suffer from data sparsity, which refers to the incapability of producing acceptable recommendations until a minimum amount of users¿ ratings are available for training the prediction models. This thesis investigates how the distributional semantics of concepts describing the entities of the recommendation space can be exploited to mitigate the data-sparsity problem and improve the prediction accuracy with respect to state-of-the-art recommendation techniques. The fundamental idea behind distributional semantics is that concepts repeatedly co-occurring in the same context or usage tend to be related. In this thesis, we propose and evaluate two novel semantically-enhanced prediction models that address the sparsity-related limitations: (1) a content-based approach, which exploits the distributional semantics of item¿s attributes during item and user-profile matching, and (2) a context-aware recommendation approach that exploits the distributional semantics of contextual conditions during context modeling. We demonstrate in an exhaustive experimental evaluation that the proposed algorithms outperform state-of-the-art ones, especially when data are sparse. Finally, this thesis presents a recommendation framework, which extends the widespread machine learning library Apache Mahout, including all the proposed and evaluated recommendation algorithms as well as a tool for offline evaluation and meta-parameter optimization. The framework has been developed to allow other researchers to reproduce the described evaluation experiments and make new progress on the Recommender Systems field easier

Durant l'última dècada, l'ús dels sistemes de recomanació s'ha vist incrementat fins al punt que, actualment, l'èxit de molts dels serveis web més coneguts depèn en aquesta tecnologia. Els Sistemes de Recomanació ajuden als usuaris a trobar els productes o serveis que més s¿adeqüen als seus interessos i preferències. Una gran limitació dels algoritmes de recomanació actuals és el problema de "data-sparsity", que es refereix a la incapacitat d'aquests sistemes de generar recomanacions precises fins que un cert nombre de votacions d'usuari és disponible per entrenar els models de predicció. Per mitigar aquest problema i millorar així la precisió de predicció de les tècniques de recomanació que conformen l'estat de l'art, en aquesta tesi hem investigat diferents maneres d'aprofitar la semàntica distribucional dels conceptes que descriuen les entitats que conformen l'espai del problema de la recomanació, principalment, els objectes a recomanar i la informació contextual. En la semàntica distribucional s'assumeix la següent hipotesi: conceptes que coincideixen repetidament en el mateix context o ús tendeixen a estar semànticament relacionats. Concretament, en aquesta tesi hem proposat i avaluat dos algoritmes de recomanació que fan ús de la semàntica distribucional per mitigar el problem de "data-sparsity": (1) un model basat en contingut que explota les similituds distribucionals dels atributs que representen els objectes a recomanar durant el càlcul de la correspondència entre els perfils d'usuari i dels objectes; (2) un model de recomanació contextual que fa ús de les similituds distribucionals entre condicions contextuals durant la representació del context. Mitjançant una avaluació experimental exhaustiva dels models de recomanació proposats hem demostrat la seva efectivitat en situacions de falta de dades, confirmant que poden millorar la precisió d'algoritmes que conformen l'estat de l'art. Finalment, aquesta tesi presenta una llibreria pel desenvolupament i avaluació d'algoritmes de recomanació com una extensió de la llibreria de "Machine Learning" Apache Mahout, àmpliament utilitzada en el camp del Machine Learning. La nostra extensió inclou tots els algoritmes de recomanació avaluats en aquesta tesi, així com una eina per facilitar l'avaluació experimental dels algoritmes. Hem desenvolupat aquesta llibreria per facilitar a altres investigadors la reproducció dels experiments realitzats i, per tant, el progrés en el camp dels Sistemes de Recomanació.

CitacióCodina Busquet, V. Exploiting distributional semantics for content-based and context-aware recommendation. Tesi doctoral, UPC, Departament de Llenguatges i Sistemes Informàtics, 2014. DOI 10.5821/dissertation-2117-95430. Disponible a: <http://hdl.handle.net/2117/95430>

URIhttp://hdl.handle.net/2117/95430

DOI10.5821/dissertation-2117-95430

Dipòsit legalB 23061-2014

Col·leccions

Veure estadístiques d'ús d'UPCommons

Mostra el registre d'ítem complet

Fitxers	Descripció	Mida	Format	Visualitza
TVCB1de1.pdf		2,466Mb	PDF	Visualitza/Obre

UPCommons. Portal del coneixement obert de la UPC

Exploiting distributional semantics for content-based and context-aware recommendation

Visualitza/Obre

Explora