The unexpected results of reinforcement learning for sequential recommendation

dc.catalogadorpva
dc.contributor.advisorParra Santander, Denis
dc.contributor.advisorToro Icarte, Rodrigo Andrés
dc.contributor.authorLabarca Silva, Álvaro
dc.contributor.otherPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned2024-09-09T16:31:19Z
dc.date.available2024-09-09T16:31:19Z
dc.date.issued2024
dc.descriptionTesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2024
dc.description.abstractEn los ultimos años, el Aprendizaje Reforzado (RL por sus siglas en inglés) ha mostrado un gran potencial en recomendaciones basadas en sesión. Modelos secuenciales que usan RL han alcanzado resultados de estado del arte en la tarea de predicción del siguiente ítem (NIP por sus siglas en inglés). Este resultado es intrigante, ya que la tarea NIP solo evalúa qué tan bien el sistema puede correctamente recomendar el siguiente ítem al usuario, mientras que el objetivo de RL es encontrar una política que optimiza la recompensa en el largo plazo - a veces a costa de un desempeño a corto plazo sub-óptimo. Entonces, ¿Cómo puede RL mejorar el desempeño del sistema en métricas de corto plazo? Este artículo investiga esta pregunta explorando con objetivos de aprendizaje a través de un proxy, que identificamos como objetivos que los modelos de RL podrían estar siguiendo y de esta forma explicar la ganancia en desempeño. Encontramos que RL - al ser usado como pérdida auxiliar - promueve el aprendizaje de embeddings que capturan información acerca de ítems con los que el usuario interactuó previamente. Luego, reemplazamos el objetivo RL con una pérdida auxiliar directa diseñada para predecir el número de ítems con los que el usuario ha interactuado. Esta substitución resulta en una mejora de rendimiento comparable a la de RL. Estos resultados abren el camino para mejorar el desempeño y entendimiento de modelos de RL para sistemas recomendadores.
dc.fechaingreso.objetodigital2024-09-09
dc.format.extentxii, 65 páginas
dc.fuente.origenSRIA
dc.identifier.doi10.7764/tesisUC/ING/87809
dc.identifier.urihttps://doi.org/10.7764/tesisUC/ING/87809
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/87809
dc.information.autorucEscuela de Ingeniería; Parra Santander, Denis; 0000-0001-9878-8761; 1011554
dc.information.autorucEscuela de Ingeniería; Toro Icarte, Rodrigo Andrés; S/I; 170373
dc.information.autorucEscuela de Ingeniería; Labarca Silva, Álvaro; S/I; 1025772
dc.language.isoen
dc.nota.accesocontenido completo
dc.rightsacceso abierto
dc.subjectSistemas de recomendación
dc.subjectAprendizaje reforzado
dc.subjectRecomendación secuencial
dc.subjectObjetivo de aprendizaje proxy
dc.subjectEvaluacion
dc.subject.ddc620
dc.subject.deweyIngenieríaes_ES
dc.titleThe unexpected results of reinforcement learning for sequential recommendation
dc.typetesis de maestría
sipa.codpersvinculados1011554
sipa.codpersvinculados170373
sipa.codpersvinculados1025772
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
TESIS_ALabarca.pdf
Size:
1.33 MB
Format:
Adobe Portable Document Format
Description: