DSpace Angular :: Browsing by Author "Parra Santander, Denis"

Browsing by Author "Parra Santander, Denis"

Now showing 1 - 20 of 42

A Survey on Deep Learning and Explainability for Automatic Report Generation from Medical Images
(2022) Messina, Pablo; Pino, Pablo; Parra Santander, Denis; Soto Arriaza, Álvaro Marcelo; Besa, Cecilia; Uribe Arancibia, Sergio A.; Andía Kohnenkampf, Marcelo Edgardo; Tejos Núñez, Cristián Andrés; Prieto Vásquez, Claudia; Capurro, Daniel
Agents vs. Users : visual recommendation of research talks with multiple dimension of relevance
(2016) Verbert, K.; Parra Santander, Denis; Brusilovsky, P.
Algorithmic and HCI Aspects for Explaining Recommendations of Artistic Images
(2020) Domínguez Manquenahuel, Vicente; Donoso Guzmán, Ivania; Messina, Pablo; Parra Santander, Denis
Algorithms for visual art recommendation : leveraging visual features, metadata and implicit feedback
(2019) Messina, Pablo; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
Los Sistemas Recomendadores nos ayudan a lidiar con la sobrecarga de información mediante la sugerencia de ítems relevantes conforme a nuestras preferencias. Si bien hay una gran cantidad de investigación en áreas como películas o música, la recomendación de obras de arte ha recibido comparativamente poca atención, a pesar del continuo crecimiento del mercado de arte. La mayoría de la investigación previa ha dependido de ratings y metadatos, y unos pocos trabajos recientes han aprovechado descriptores visuales extraídos con redes neuronales convolucionales (CNN) para recomendar arte digital. En este trabajo, contribuimos al área de recomendación de pinturas físicas originales mediante el estudio de algoritmos de recomendación basados en diferentes fuentes de información: metadatos, descriptores visuales hechos a mano, descriptores visuales neuronales e información colaborativa de la retroalimentación implícita de los usuarios. Implementamos y evaluamos nuestros algoritmos usando datos transaccionales de UGallery.com, una tienda de arte en línea. Además, proponemos un modelo de red neuronal novedoso para la tarea de recomendación de arte que combina contenido e información colaborativa. Lo llamamos YT-VBPR ya que esta inspirado en ideas del sistema de recomendación de aprendizaje profundo de Youtube y VBPR (un método de recomendación estado del arte que incorpora información visual). Nuestros resultados muestran que entre todos los métodos probados, YT-VBPR alcanza los mejores resultados. Además, una vez entrenado, YT-VBPR sólo necesita imágenes como entrada para recomendar, permitiendo generalizar fácilmente a nuevos usuarios e ítems sin entrenamiento adicional. Nuestra investigación puede proveer observaciones valiosas a investigadores y desarrolladores en el dominio de recomendación de arte en particular, y también a aquellos interesados en métodos de recomendación con contenido visual en general.
Análisis del ausentismo laboral por licencias médicas tipo 1 en una institución pública del estado de Chile, período 2010-2015
(2016) Carrillo Sandrock, Javier Felipe; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
La presente investigación tuvo como foco principal analizar, en términos exploratorios, el Ausentismo Laboral de una Institución Pública del Estado de Chile, tomando como fuente de información el registro histórico de licencias médicas tipo 1 (enfermedad o accidente común) presentadas entre enero de 2010 y diciembre de 2015. Lo anterior teniendo en consideración que este tipo de licencia comprende el 88% del total de licencias médicas existentes. Para ello, se plantearon dos hipótesis de trabajo, las cuales buscaron, por un lado, conocer el comportamiento temporal del ausentismo laboral, así como también discriminar variables organizacionales que pudiesen incidir en la variación anual del ausentismo laboral existente. Desde ese punto de vista, se observó un fenómeno homogéneo con una fuerte estacionalidad, la cual tiene relación con una disminución durante los meses de enero y febrero y un aumento durante los meses de invierno. Del mismo modo, se observó que existen diferencias estadísticas que corroboran diferencias entre hombres y mujeres en lo que al ausentismo laboral se refiere, así como también entre quienes pertenecen a alguna ISAPRE (Instituciones de Salud Previsional) en comparación con quienes pertenecen a FONASA (Fondo Nacional de Salud). Así mismo, las personas que trabajan en atención de público también presentan diferencias en términos estadísticos en comparación con quienes lo hacen en áreas de soporte.
Application of neural language models for research article classification into sustainable development goals
(2022) Flores Villanueva, Daniela; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
La sustentabilidad ha ganado mucha atención recientemente, que se han empezado a evidenciar los efectos del cambio climático y daño al medio ambiente. Esto ha hecho necesario tomar acciones urgentes para poder continuar habitando en el planeta Tierra. Un primer paso en esta dirección es medir la contribución actual de las universidades a los objetivos de Desarrollo Sostenible (ODS). Así, en esta tesis se exploró el uso de modelos de lenguaje basados en Transformers para desarrollar un clasificador de para artículos académicos. Este modelo podría lograr que las instituciones académicas midan su contribución a la sustentabilidad y también promover la colaboración entre investigadores de diferentes áreas para resolver desafíos del mundo actual. Se propone un modelo RoBERTa al que se aplicó fine-tuning que alcanza un f1-score de 73%. Adicionalmente se estudió el uso de dos técnicas de Inteligencia Artificial Explicable (XAI): mecanismos de atención y gradientes integrados, para entender las predicciones generadas por el modelo. Finalmente, se condujo un estudio de usuario para descubrir cuál de los métodos de explicación descritos es mejor, a través del uso de técnicas de visualización de texto. Se concluye que los mecanismos de atención ayudan más que los gradientes integrados a entender las predicciones del modelo, incluso cuando dichas predicciones son erróneas.
Attitudinal effects of data visualizations and illustrations in data stories
(2023) Garretón, Manuela; Morini, Francesca; Celhay, Pablo; Dörk, Marian; Parra Santander, Denis
Journalism has become more data-driven and inherently visual in recent years. Photographs, illustrations, infographics, data visualizations, and general images help convey complex topics to a wide audience. The way that visual artifacts influence how readers form an opinion beyond the text is an important issue to research, but there are few works about this topic. In this context, we research the persuasive, emotional and memorable dimensions of data visualizations and illustrations in journalistic storytelling for long-form articles. We conducted a user study and compared the effects which data visualizations and illustrations have on changing attitude towards a presented topic. While visual representations are usually studied along one dimension, in this experimental study, we explore the effects on readers' attitudes along three: persuasion, emotion, and information retention. By comparing different versions of the same article, we observe how attitudes differ based on the visual stimuli present, and how they are perceived when combined. Results indicate that the narrative using only data visualization elicits a stronger emotional impact than illustration-only visual support, as well as a significant change in the initial attitude about the topic. Our findings contribute to a growing body of literature on how visual artifacts may be used to inform and influence public opinion and debate. We present ideas for future work to generalize the results beyond the domain studied, the water crisis.
Comparación de recomendaciones de arte en ambiente virtual y en ambiente web
(2022) Palma Silva, Isidora; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
La simulación de espacios físicos, también conocida como ambiente inmersivo, ha aumentado en popularidad y se ha aplicado a distintos dominios para poder explorar su potencial. En el área artística también se ha empezado a implementar este tipo de tecnología para facilitar recorridos y para atraer la atención de nuevos visitantes. También se han utilizado los sistemas recomendadores para mejorar la experiencia de los usuarios, porque permiten encontrar items que se ajusten a las preferencias del usuario de forma rápida y eficaz. Algunos trabajos han utilizado recomendaciones para crear recorridos guiados, mientras que varias exposiciones han migrado a una recreación virtual de sus salas. Sin embargo, a la fecha no se ha implementado ningún sistema inmersivo que aplique un recomendador de arte, ni tampoco un estudio cualitativo en esta área. En este trabajo presentamos un sistema recomendador de arte basado en aprendizaje profundo aplicado en un ambiente inmersivo. Para evaluar esta implementación realizamos una comparación cualitativa entre nuestra interfaz y una versión similar en formato Web. Los resultados del estudio mostraron indicios de que el interés de los usuarios en la aplicación no radica en el contenido artístico visual, sino que es intrínseco a la inmersión e innovación de la misma interfaz. A pesar de que la versión inmersiva resultó ser más complicada de usar que la versión Web, se encontró evidencia de que nuestra forma de presentar las recomendaciones provoca que la experiencia sea más disfrutable y que la atención del usuario no siempre tienda a las primeras recomendaciones recibidas. Finalmente, presentamos sugerencias de diseño para este tipo de implementaciones y oportunidades de mejora para explorar en el futuro.
Desarrollo y evaluación de un modelo de diseño de visualizaciones para inteligencia artificial explicable
(2022) Valdivieso López, Hernán Felipe; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
En los últimos años, hemos sido testigos de la rápida adopción de la inteligencia artificial (IA) para automatizar y resolver diferentes tareas. Sin embargo, el uso de sistemas basados en IA a menudo carece de explicabilidad, lo que significa permitir que los usuarios comprendan el fundamento detrás de las predicciones de los sistemas de IA. Este problema ha impulsado el desarrollo de la IA explicable (XAI) y se han propuesto diversos métodos para construir explicaciones. Varios métodos recurren a generar visualizaciones que apoyen la explicación; por lo tanto, XAI no solo implica conocimientos de IA como el sistema que se utilizara o los algoritmos que se explicarán, sino que también se necesitarán conocimientos para diseñar e implementar visualizaciones adecuadas. Aunque existen flujos de trabajo para diseñar aplicaciones de aprendizaje automático interactivo (IML) o XAI, éstos se centran en las etapas del proceso de creación de modelos de aprendizaje automático (ML) y no proporcionan pautas o estrategias para diseñar o analizar las visualizaciones destinadas a aplicaciones de XAI. Por lo tanto, este trabajo propone comenzar desde el espacio de tareas de XAI y conectarlo al modelo anidado de Munzner ampliamente adoptado para diseñar visualización que permitan cerrar esta brecha. De esta forma, en esta tesis se propone el framework VD4XAI (Visualization Design for XAI) para guiar el proceso de análisis y diseño de visualizaciones de XAI para explicaciones locales. Esto también fomentará el desarrollo y la aplicación de enfoques visuales de XAI.
Design and evaluation of an intelligent user interface in evidence based health care
(2017) Donoso Guzmán, Ivania; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
La Medicina Basada en Evidencia (EBHC por sus siglas en inglés) es una importante práctica de la medicina que intenta proporcionar evidencia científica de forma sistemática para responder a preguntas clínicas. En este contexto, Epistemonikos (www.epistemonikos.org) es uno de los primeros y más importantes sistemas en línea en el campo, proporcionando una interfaz que apoya a los usuarios en la búsqueda y filtrado de artículos científicos para practicar EBHC. El sistema hoy en día requiere una gran cantidad de esfuerzo humano, donde cerca de 500 médicos manualmente revisan los artículos para ser utilizados en la plataforma. Con el fin de ampliar la cantidad de datos y para mantener el sistema actualizado, introducimos EpistAid, una interfaz inteligente interactiva que apoya a los médicos en el proceso de encontrar documentos para responder una pregunta médica. Presentamos las características, diseño y algoritmos de nuestra solución, así como una implementación de prototipo y un estudio de usuario para demostrar cómo nuestra solución aborda el problema de sobrecarga de información en esta área.
Design of a framework to build explanaible recommendation systems using visual concepts
(2021) Ossa Guerra, Antonio; Parra Santander, Denis; Löbel Díaz, Hans-Albert; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
Una aplicación importante de inteligencia artificial son los sistemas recomendadores, modelos que intentan predecir las preferencias de las personas, usualmente de manera personalizada. En este contexto, las explicaciones son muy valiosas debido a los conocidos beneficios en satisfacción, integridad, y escrutabilidad. Hoy en día, los sistemas de recomendación visuales son entrenados usando descriptores latentes extraídos con una red de aprendizaje profundo pre-entrenada. Esta solución ha mostrado tener gran desempeño, pero no es interpretable debido a que no pueden generarse explicaciones, tanto para el usuario como para el modelo. En este trabajo, proponemos un framework para desarrollar sistemas de recomendación explicables creando una representación de ítems basada en conceptos, transformando modelos de arquitecturas existentes en modelos explicables. Esta representación es interpretable y puede ser leída como información tabular. Proponemos un algoritmo para crear una representación de ítems basada en conceptos, y luego crear un embedding de conceptos para entrenar modelos de redes de aprendizaje profundo. Luego, usando métodos de atribución de características podemos entregar explicaciones para cualquier salida de un modelo, transformando un sistema de “caja negra” en un sistema explicable. Nuestros resultados muestran que los sistemas de recomendación visuales entrenados usando nuestro embedding de conceptos tienen un desempeño similar al de un sistema entrenado con descriptores latentes. También, pudimos entregar explicaciones en términos de estos conceptos visuales debido a la naturaleza interpretable del input. Nuestra investigación informa el desarrollo de una nueva aproximación a la recomendación explicable, basada en una representación interpretable basada en conceptos, que no requiere el desarrollo de nuevas arquitecturas de modelos.
Enriching Capstone Project-Based Learning Experiences Using a Crowdsourcing Recommender Engine
(IEEE, 2017) Diaz-Mosquera, Juan; Sanabria Quispe, Pablo; Neyem, Andrés; Parra Santander, Denis; Navón Cohen, Jaime
Capstone project-based learning courses generate a suitable space where students can put into action knowledge specific to an area. In the case of Software Engineering (SE), students must apply knowledge at the level of Analysis, Design, Development, Implementation and Management of Software Projects. There is a large number of supportive resources for SE that one can find on the web, however, information overload ends up saturating the students who wish to find resources more accurate depending on their needs. This is why we propose a crowdsourcing recommender engine as part of an educational software platform. This engine based its recommendations on content from StackExchange posts using the project's profile in which a student is currently working. To generate the project's profile, our engine takes advantage of the information stored by students in the aforementioned platform. Content-based algorithms based on Okapi BM25 and Latent Dirichlet Allocation (LDA) are used to provide suitable recommendations. The evaluation of the engine was held with students from the capstone course in SE of the University Catholic of Chile. Results show that Cosine similarity over traditional bag-of-words TF-IDF content vectors yield interesting results, but they are outperformed by the integration of BM25 with LDA.
Evaluación de diversas metodologías para recomendación de libros.
(2019) Schellman Sepúlveda, Jorge Luis; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
En el presente trabajo de tesis se exploraron diferentes tipos de sistemas recomendadores en el dominio de recomendación de libros con el objetivo de averiguar qué algoritmos son los adecuados para este escenario genérico, qué tipos de datos son los convenientes para usar y de qué forma conviene representar ítems y usuarios para obtener los mejores resultados posibles. Para ello se compararon varias estrategias dentro de las tres principales familias de recomendadores: aquellos basados en contenido, basados en filtrado colaborativo e híbridos. Para entrenar algoritmos de filtrado colaborativo se usaron distintos tipos de fuentes de datos como feedback explícito de parte del usuario en forma de ratings hacia los libros (los que son una muestra directa sobre los gustos del usuario), feedback implícito, e información sobre el contexto de las interacciones usuario-libro, como la fecha del consumo y los autores del libro. Adicionalmente se analizó qué metadatos de los libros son los más relevantes al momento de ver similitudes entre ellos con el fin de entregar buenas recomendaciones. Se encontró en estudios offline y online que los métodos basados en contenido entregan recomendaciones más relevantes y diversas que los métodos colaborativos. Estos últimos por su parte mejoran sus resultados al incluir los nombres de los autores como información contextual. También mejoran cuando se alimentan con feedback implícito en vez de explícito. Este estudio provee nuevos resultados al área en el dominio de libros que pueden ayudar a desarrollar subsecuentes sistemas recomendadores para ser usados en producción y plantea nuevas interrogantes que pueden guiar el camino de futuras investigaciones.
Evaluación de técnicas de interacción para comparación de mapas de densidad multiclase
(2019) Svicarovic Rodríguez, Lukas; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
En el presente trabajo de tesis se realiza la evaluación de técnicas de interacción para tareas de comparación entre dos mapas de densidad multiclase y se estudian las variables que pueden influir en el rendimiento. Las técnicas de interacción son cuatro: Juxtapose (JX), Translucent Overlay (TO), Swipe (SW) y Magic Lens (ML). Los datos usados en el estudio de usuario para realizar las tareas de comparación corresponden a robos de vehículos de la Región Metropolitana de Santiago de Chile, pertenecientes a la Asociación de Aseguradoras de Chile (AACh), específicamente tipos de vehículo y marcas de auto. Las tareas de comparación corresponden a la resolución de preguntas de distinta dificultad (fácil, medio y difícil) y cantidad de comunas a comparar (una o dos). A través de encuestas, se recolecta información previa de los usuarios para ver el efecto del conocimiento previo en el estudio.
Exploración de la relación entre rendimiento académico de alumnos de pregrado, consultas de los servicios de biblioteca y multidisciplinariedad, aplicando técnicas de minería de datos.
(2016) Alvarado Acuña, Maribel; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
Se explora la relación entre el rendimiento académico de los alumnos de pregrado de la Pontificia Universidad Católica de Chile, el uso de las colecciones de Bibliotecas UC y la multidisciplinariedad de las consultas, aplicando técnicas de minería de datos. Este estudio es una de las primeras experiencias en Chile para conocer como los factores relacionados con el uso de los servicios de biblioteca influyen en el rendimiento académico de los estudiantes. Se busca identificar y explorar los perfiles de usuarios cuyos préstamos de material de biblioteca reflejan consultas multidisciplinarias, para responder la primera hipótesis del estudio “Menos del 50% de las consultas son multidisciplinarias”. Luego se analiza la relación entre el uso de los servicios de la biblioteca, presencial y electrónica, y el rendimiento de los alumnos, con una evaluación en el tiempo, para responder a la segunda hipótesis de este estudio “Los alumnos con mayor rendimiento son los que usan los servicios de la biblioteca por sobre el promedio”, y aportar a una de las hipótesis del proyecto Fondecyt no. 1131109 en cuanto a determinar “Cuáles son las métricas apropiadas para establecer relaciones entre uso de biblioteca, tecnología de investigación electrónica y resultados de aprendizajes”. Adicionalmente se compara, con una evaluación en el tiempo, las consultas en la biblioteca y a la colección electrónica, con el fin de definir la tercera hipótesis del estudio “Existe relación entre las consultas de la colección electrónica y el uso de la biblioteca presencial”. Se trabajó con datos de las transacciones en los servicios presenciales, entre los años 2010-2014, datos de consulta a la colección electrónica y de rendimiento de los alumnos, entre los años 2012-2014. Se utiliza técnicas de análisis estadístico y se aplican modelos de asociación y clustering. Los resultados indican que, respecto al uso de la colección presencial, se observa una disminución de las transacciones en todas las áreas, con una disminución mayor en aquellas áreas que tradicionalmente presentan mayor cantidad de transacciones. Existe una tendencia a la consulta en una o dos áreas, las consultas multidisciplinarias son menos que las monodisciplinarias. Se observa una débil correlación entre la cantidad de áreas consultadas y el rendimiento académico. No existen usuarios, de carreras ni áreas, que consulten exclusivamente de su área. Se detectó tres grupos de alumnos, el grupo minoritario presenta la mayor cantidad de transacciones y las mejores notas. En general, la correlación entre notas y uso de la biblioteca es positiva: en la medida que suben las transacciones hay mejores notas, entre los usuarios que consultan por sobre el promedio de consultas la mayoría tienen notas sobre el promedio. En relación a las consultas a la colección electrónica se observó que existe una fuerte tendencia a ir aumentando la cantidad de sesiones en el tiempo, en los usuarios de todas las áreas. Hay una correlación positiva entre cantidad de sesiones y uso de la biblioteca, la que ha ido disminuyendo en el tiempo sin llegar a ser negativa. También se detectó tres grupos, el grupo minoritario de alumnos presenta sesiones sobre la media y las mejores notas. Se observa una tendencia a tener mayor cantidad de transacciones en aquellos con mejores notas. Lo mismo sucede con la variable duración de las sesiones. Se observa además una tendencia a tener pocas sesiones y cortas, no existen casos de alumnos con una alta cantidad de sesiones y larga duración. En general, se observa lo mismo que para las transacciones presenciales, entre los usuarios que consultan por sobre el promedio de consultas la mayoría tienen notas sobre el promedio.
Exploring representations of ICD codes for patient readmission prediction
(2021) Covacevich Stipicich, Tamara; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
Los reingresos hospitalarios ocurren con frecuencia, son costosos y son usados como medida de calidad de las instituciones. En el aprendizaje de máquina, la tarea de readmisión tiene como objetivo predecir el riesgo de readmisión de un paciente. Se han propuesto diversas soluciones basadas en datos obtenidos desde sistemas de Historia Clínica Electrónica (HCE). Los datos de HCE tienen toda la información relacionada con una admisión: pruebas de laboratorio, notas de texto libre, datos demográficos y códigos de la Clasificación Internacional de Enfermedades (CIE). CIE es un estándar internacional que define códigos para diagnósticos y procedimientos. Las soluciones iniciales al problema de readmisión utilizaron códigos CIE a través de representaciones categóricas o representaciones aprendidas de su contexto local. Las soluciones recientes ingieren todos los datos de HCE, lo que agrega una complejidad innecesaria. En esta investigación, exploramos nuevas representaciones de códigos CIE. Aprovechamos sus textos descriptivos utilizando técnicas de Procesamiento del Lenguaje Natural y también su representación ontológica a través de algoritmos de grafo. Reportamos resultados de referencia para la tarea de readmisión utilizando un nuevo conjunto de datos de admisión de un hospital chileno, con un marco de evaluación claro, y logramos resultados comparables con el estado del arte. Las representaciones y mapeos CIE generados están disponibles públicamente.
Exploring symbolic music generation techniques using conditional generative adversarial networks
(2021) Cartagena Herrera, Manuel; Parra Santander, Denis; Cádiz Cádiz, Rodrigo Fernando; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
Los modelos generativos se han convertido en un área de gran importancia en los últimos tiempos, debido a su capacidad para aprender una distribución probabilística de los datos de entrada. Actualmente estos modelos han sido explorados para la generación de imágenes, pero no tanto en el ámbito musical, donde la música es rica en información estructurada que puede ser aprendida por estos modelos. En este trabajo presentamos el análisis de dos casos de estudio de modelos generativos basados en redes convolucionales profundas. Estudiamos su capacidad para generar música simbólica para uno o más instrumentos en el formato pianoroll, y si es posible condicionar la salida para mostrar características de diferentes compositores o géneros. También estudiamos hasta qué punto son controlables los resultados generados. Evaluamos ambos modelos utilizando Fréchet Inception Distance (FID), una métrica para modelos generativos de imágenes, además de métricas musicales definidas por nosotros. Uno de estos casos es el uso de Style- GAN2, donde por primera vez se utiliza este tipo de arquitectura en un dominio no visual, adaptándolo a un contexto distinto con resultados interesantes tanto en FID como en términos musicales cualitativos. Además, tiene propiedades que son de interés para el área de la composición musical, como tener un espacio latente desenredado, donde es fácil explorar diferentes ideas musicales, y la entrada condicional para controlar aún más la salida del modelo. Creemos que los resultados que mostramos en este trabajo son un paso adelante en la comprensión de cómo crear mejores modelos generativos en el dominio de la música simbólica, teniendo en cuenta los conceptos de condicionalidad y controlabilidad para desarrollar mejores herramientas para los usuarios finales.
Gaining historical and international relations insights from social media: spatio-temporal real-world news analysis using Twitter
(2017) Parra Santander, Denis; Peña-Araya, Vanessa; Quezada, Mauricio; Poblete, Barbara
Abstract The immense growth of the social Web, which has made a large amount of user data easily and publicly available, has opened a whole new spectrum for research in social behavioral sciences. However, as the volume of social media content increases at a very fast rate, it becomes extremely difficult to systematically obtain high-level information from this data. As a consequence, tasks related to the analysis of historical news events based on social media data have not been explored, which limits any type of comparative historical research, causality analysis, and discovery of knowledge from patterns extracted from aggregated social media event information. In this work, we target this issue by proposing a compact high-level representation of news events using social media information. This representation explicitly includes temporal information about the event and information about locations, in particular of geopolitical entities. We call this a spatio-temporal context-aware event representation. Our hypothesis is that by including social, temporal, and spatial information in the event representation, we are enabling the analysis of historical world news from a social and geopolitical perspective. This facilitates, new information retrieval tasks related to historical event information extraction and international relations analysis. We support our claims by presenting two applications of this idea: the first, a visual tool, named Galean, for retrieval and exploration of historical news events within their geopolitical and temporal context. The second, a quantitative analysis of a 2-year Twitter dataset of news events reported by U.S. and U.K. media, which we explore using data mining techniques on our event representations. We present two case studies of event exploration using Galean and user evaluation of this tool, as well as details of our data mining empirical results.Abstract The immense growth of the social Web, which has made a large amount of user data easily and publicly available, has opened a whole new spectrum for research in social behavioral sciences. However, as the volume of social media content increases at a very fast rate, it becomes extremely difficult to systematically obtain high-level information from this data. As a consequence, tasks related to the analysis of historical news events based on social media data have not been explored, which limits any type of comparative historical research, causality analysis, and discovery of knowledge from patterns extracted from aggregated social media event information. In this work, we target this issue by proposing a compact high-level representation of news events using social media information. This representation explicitly includes temporal information about the event and information about locations, in particular of geopolitical entities. We call this a spatio-temporal context-aware event representation. Our hypothesis is that by including social, temporal, and spatial information in the event representation, we are enabling the analysis of historical world news from a social and geopolitical perspective. This facilitates, new information retrieval tasks related to historical event information extraction and international relations analysis. We support our claims by presenting two applications of this idea: the first, a visual tool, named Galean, for retrieval and exploration of historical news events within their geopolitical and temporal context. The second, a quantitative analysis of a 2-year Twitter dataset of news events reported by U.S. and U.K. media, which we explore using data mining techniques on our event representations. We present two case studies of event exploration using Galean and user evaluation of this tool, as well as details of our data mining empirical results.
Herramientas de analítica visual para modelos de tópicos sobre colecciones de documentos
(2019) Sepúlveda Ramírez, M. Fernanda; Parra Santander, Denis; Pontificia Universidad Católica de Chile. Escuela de Ingeniería
En el presente trabajo de tesis se exploran herramientas para la visualización de tópicos localizados espacialmente, sobre un corpus de documentos de robos de vehículos en Chile, en el contexto del proyecto Fondef ID 16I10222, denominado “Observatorio digital de delincuencia en Chile”, cuyo objetivo es consolidar la información recopilada por la Asociación de Aseguradoras de Chile (AACh) sobre robos de vehículos y con lo anterior realizar un sistema capaz de caracterizar los modi operandi de los delincuentes, así como su evolución, mediante técnicas de minería de datos. Debido a que las aseguradoras tienen datos con muchas dimensiones y carecen del conocimiento y capital humano para procesarlo, el aporte de este trabajo a la resolución de este problema es a través del estudio y desarrollo de herramientas que permitan la identificación de patrones de robos de vehículos, como por ejemplo los portonazos. La herramienta de analítica visual desarrollada permite analizar y descubrir patrones, usando métodos de aprendizaje de máquina no supervisado como modelos de tópicos, además visualizaciones interactivas para analítica visual. A partir de lo anterior se llevó a cabo la implementación de la herramienta con dos alternativas visuales: usando small multiples de gráficos de barras y por otra parte small multiples de gráficos de línea para representar series de tiempo. Ambas interfaces fueron sometidas a una evaluación con usuarios, donde se midió el desempeño en cuanto a tiempo, interacción y rendimiento de cada una al resolver múltiples tareas sobre tendencias, agregación y sobre información puntual. De la evaluación se descubrió que ambas interfaces estudiadas se obtienen un buen desempeño en cuanto a la resolución de las tareas propuestas, con excepción de la tarea enfocada en la comparación de distribuciones, donde la interfaz de barras logra un mejor desempeño, a costa de mayor número de interacciones.
Inferring modes of transportation using mobile phone data
(2018) Graells-Garrido, Eduardo.; Parra Santander, Denis; Caro, Diego.
Abstract Cities are growing at a fast rate, and transportation networks need to adapt accordingly. To design, plan, and manage transportation networks, domain experts need data that reflect how people move from one place to another, at what times, for what purpose, and in what mode(s) of transportation. However, traditional data collection methods are not cost-effective or timely. For instance, travel surveys are very expensive, collected every ten years, a period of time that does not cope with quick city changes, and using a relatively small sample of people. In this paper, we propose an algorithmic pipeline to infer the distribution of mode of transportation usage in a city, using mobile phone network data. Our pipeline is based on a Topic-Supervised Non-Negative Matrix Factorization model, using a Weak-Labeling strategy on user trajectories with data obtained from open datasets, such as GTFS and OpenStreetMap. As a case study, we show results for the city of Santiago, Chile, which has a sophisticated intermodal public transportation system. Importantly, our pipeline delivers coherent results that are explainable, with interpretable parameters at each step. Finally, we discuss the potential applications and implications of such a system in transportation and urban planning.Abstract Cities are growing at a fast rate, and transportation networks need to adapt accordingly. To design, plan, and manage transportation networks, domain experts need data that reflect how people move from one place to another, at what times, for what purpose, and in what mode(s) of transportation. However, traditional data collection methods are not cost-effective or timely. For instance, travel surveys are very expensive, collected every ten years, a period of time that does not cope with quick city changes, and using a relatively small sample of people. In this paper, we propose an algorithmic pipeline to infer the distribution of mode of transportation usage in a city, using mobile phone network data. Our pipeline is based on a Topic-Supervised Non-Negative Matrix Factorization model, using a Weak-Labeling strategy on user trajectories with data obtained from open datasets, such as GTFS and OpenStreetMap. As a case study, we show results for the city of Santiago, Chile, which has a sophisticated intermodal public transportation system. Importantly, our pipeline delivers coherent results that are explainable, with interpretable parameters at each step. Finally, we discuss the potential applications and implications of such a system in transportation and urban planning.Abstract Cities are growing at a fast rate, and transportation networks need to adapt accordingly. To design, plan, and manage transportation networks, domain experts need data that reflect how people move from one place to another, at what times, for what purpose, and in what mode(s) of transportation. However, traditional data collection methods are not cost-effective or timely. For instance, travel surveys are very expensive, collected every ten years, a period of time that does not cope with quick city changes, and using a relatively small sample of people. In this paper, we propose an algorithmic pipeline to infer the distribution of mode of transportation usage in a city, using mobile phone network data. Our pipeline is based on a Topic-Supervised Non-Negative Matrix Factorization model, using a Weak-Labeling strategy on user trajectories with data obtained from open datasets, such as GTFS and OpenStreetMap. As a case study, we show results for the city of Santiago, Chile, which has a sophisticated intermodal public transportation system. Importantly, our pipeline delivers coherent results that are explainable, with interpretable parameters at each step. Finally, we discuss the potential applications and implications of such a system in transportation and urban planning.Abstract Cities are growing at a fast rate, and transportation networks need to adapt accordingly. To design, plan, and manage transportation networks, domain experts need data that reflect how people move from one place to another, at what times, for what purpose, and in what mode(s) of transportation. However, traditional data collection methods are not cost-effective or timely. For instance, travel surveys are very expensive, collected every ten years, a period of time that does not cope with quick city changes, and using a relatively small sample of people. In this paper, we propose an algorithmic pipeline to infer the distribution of mode of transportation usage in a city, using mobile phone network data. Our pipeline is based on a Topic-Supervised Non-Negative Matrix Factorization model, using a Weak-Labeling strategy on user trajectories with data obtained from open datasets, such as GTFS and OpenStreetMap. As a case study, we show results for the city of Santiago, Chile, which has a sophisticated intermodal public transportation system. Importantly, our pipeline delivers coherent results that are explainable, with interpretable parameters at each step. Finally, we discuss the potential applications and implications of such a system in transportation and urban planning.

Browsing by Author "Parra Santander, Denis"

Results Per Page

Sort Options