The unexpected results of reinforcement learning for sequential recommendation
dc.catalogador | pva | |
dc.contributor.advisor | Parra Santander, Denis | |
dc.contributor.advisor | Toro Icarte, Rodrigo Andrés | |
dc.contributor.author | Labarca Silva, Álvaro | |
dc.contributor.other | Pontificia Universidad Católica de Chile. Escuela de Ingeniería | |
dc.date.accessioned | 2024-09-09T16:31:19Z | |
dc.date.available | 2024-09-09T16:31:19Z | |
dc.date.issued | 2024 | |
dc.description | Tesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2024 | |
dc.description.abstract | En los ultimos años, el Aprendizaje Reforzado (RL por sus siglas en inglés) ha mostrado un gran potencial en recomendaciones basadas en sesión. Modelos secuenciales que usan RL han alcanzado resultados de estado del arte en la tarea de predicción del siguiente ítem (NIP por sus siglas en inglés). Este resultado es intrigante, ya que la tarea NIP solo evalúa qué tan bien el sistema puede correctamente recomendar el siguiente ítem al usuario, mientras que el objetivo de RL es encontrar una política que optimiza la recompensa en el largo plazo - a veces a costa de un desempeño a corto plazo sub-óptimo. Entonces, ¿Cómo puede RL mejorar el desempeño del sistema en métricas de corto plazo? Este artículo investiga esta pregunta explorando con objetivos de aprendizaje a través de un proxy, que identificamos como objetivos que los modelos de RL podrían estar siguiendo y de esta forma explicar la ganancia en desempeño. Encontramos que RL - al ser usado como pérdida auxiliar - promueve el aprendizaje de embeddings que capturan información acerca de ítems con los que el usuario interactuó previamente. Luego, reemplazamos el objetivo RL con una pérdida auxiliar directa diseñada para predecir el número de ítems con los que el usuario ha interactuado. Esta substitución resulta en una mejora de rendimiento comparable a la de RL. Estos resultados abren el camino para mejorar el desempeño y entendimiento de modelos de RL para sistemas recomendadores. | |
dc.fechaingreso.objetodigital | 2024-09-09 | |
dc.format.extent | xii, 65 páginas | |
dc.fuente.origen | SRIA | |
dc.identifier.doi | 10.7764/tesisUC/ING/87809 | |
dc.identifier.uri | https://doi.org/10.7764/tesisUC/ING/87809 | |
dc.identifier.uri | https://repositorio.uc.cl/handle/11534/87809 | |
dc.information.autoruc | Escuela de Ingeniería; Parra Santander, Denis; 0000-0001-9878-8761; 1011554 | |
dc.information.autoruc | Escuela de Ingeniería; Toro Icarte, Rodrigo Andrés; S/I; 170373 | |
dc.information.autoruc | Escuela de Ingeniería; Labarca Silva, Álvaro; S/I; 1025772 | |
dc.language.iso | en | |
dc.nota.acceso | contenido completo | |
dc.rights | acceso abierto | |
dc.subject | Sistemas de recomendación | |
dc.subject | Aprendizaje reforzado | |
dc.subject | Recomendación secuencial | |
dc.subject | Objetivo de aprendizaje proxy | |
dc.subject | Evaluacion | |
dc.subject.ddc | 620 | |
dc.subject.dewey | Ingeniería | es_ES |
dc.title | The unexpected results of reinforcement learning for sequential recommendation | |
dc.type | tesis de maestría | |
sipa.codpersvinculados | 1011554 | |
sipa.codpersvinculados | 170373 | |
sipa.codpersvinculados | 1025772 |
Files
Original bundle
1 - 1 of 1
Loading...
- Name:
- TESIS_ALabarca.pdf
- Size:
- 1.33 MB
- Format:
- Adobe Portable Document Format
- Description: