Browsing by Author "Núñez, Fredy R."
Now showing 1 - 9 of 9
Results Per Page
Sort Options
- ItemDesarrollo de una plantilla léxica para el análisis del comportamiento polisémico del lexema jugar según el modelo del lexicón generativo.(2014) Núñez, Fredy R.; Aguilar, César Antonio; Pontificia Universidad Católica de Chile. Facultad de Letras
- ItemDiseño y desarrollo de un modelo de desambiguación léxica automática para el procesamiento del lenguaje natural(2021) Núñez, Fredy R.; González Vergara, Carlos Eduardo; Pontificia Universidad Católica de Chile. Facultad de LetrasLa presente investigación doctoral tiene como objetivo general desarrollar un modelo más robusto de medida para la similitud y relación semántica que los disponibles actualmente para resolver el problema de la desambiguación léxica automática, aplicado al procesamiento del lenguaje natural (PLN). Para esto, se realizó una revisión del fenómeno lingüístico de la ambigüedad léxica, junto con los métodos para la desambiguación léxica automática más representativos y que han sido aplicados en PLN: de relación semántica, de similitud semántica, y basados en conocimiento contextual. Luego se expuso una panorámica cronológica de la utilización del corpus en el análisis lingüístico, junto con una caracterización de los llamados recursos lingüísticos informatizados. Como aspecto central de la propuesta, se estableció una metodología para la aplicación de los subtipos generales de procesamiento de datos en aprendizaje automático, con sus respectivas tareas de procesamiento. Posteriormente se ejecutó un experimento de desambiguación léxica automática basado en el corpus SENSEVAL-3 (Evaluating Word Sense Disambiguation Systems), utilizando un método de aprendizaje automático supervisado. Este experimento permitió consolidar la metodología para la ejecución un nuevo experimento, diseñado a partir del montaje de un corpus basado en una submuestra de CODICACH (Corpus Dinámico del Castellano de Chile), que consideró unidades léxicas polisémicas seleccionadas desde la base de conocimiento FunGramKB. Posteriormente, se reportaron los resultados de los sistemas de desambiguación basados en aprendizaje automático, junto con las críticas al modelo. Este proceso permitió desarrollar un modelo de desambiguación léxica automática basado en una medida híbrida, y fundamentado tanto lingüística como estadísticamente en la interacción de dos enfoques de exploración taxonómica: distancia entre rutas y contenido de información, a través de la incorporación de FunGramKB como inventario de sentidos. En cuanto a la evaluación, la medida de similitud propuesta logró resultados consistentemente eficientes desde un punto de vista lingüístico en el proceso de desambiguación léxica automática.
- ItemEl colorido caso de la sufijación: estudio exploratorio acerca del uso de la sufijación derivativa para las categorías de color en español(2025) Youlton Bunster, Bárbara; Núñez, Fredy R.; Pontificia Universidad Católica de Chile. Facultad de LetrasLa presente investigación tiene por objetivo principal evaluar la prototipicidad en los sufijos derivativos de las categorías de color en español. Particularmente, se busca observar la relación entre el uso de ciertos sufijos y la percepción que se tiene de la unidad léxica que estos modifican, así como su influencia en los nombres de colores. En otras palabras, se estudia cómo las matizaciones por sufijación influyen en la percepción de los colores en los hablantes, y cómo se construyen, léxicamente, el prototipo y la información cromática de saturación y luminancia. Para esto, se realizaron tres pruebas, dos de evaluación, tanto de tonos como nombres de color, y otra de relaciones. Los resultados demuestran que los sufijos derivativos tienen prototipicidad y se utilizan para informar si un color se acerca o no al centro. A su vez, los resultados dan cuenta de información sobre niveles de saturación y luminancia del tono.
- ItemLectura distante de la producción escrita de estudiantes de pregrado de la Facultad de Educación de la Universidad Nacional del Centro del Perú, entre los años 2015 al 2019(2023) Martel Flores, Angeluz Yesica; Núñez, Fredy R.; Pontificia Universidad Católica de Chile. Escuela de Ingeniería; Pontificia Universidad Católica de Chile. Facultad de LetrasEl principal objetivo es analizar indicadores cuantitativos en corpus de producciones escritas de estudiantes de pregrado de la Facultad de Educación en la Universidad Nacional del Centro del Perú (UNCP) entre 2015 -2019 a través de la técnica de lectura distante. Se realizó el análisis de corpus de 103 producciones escritas (tesis) de seis especialidades (Educación Inicial, Educación Primaria, Educación Ciencias Matemáticas e Informática, Educación Lenguas, Literatura y Comunicación, Educación Filosofía y Relaciones Humanas, Educación Física y Psicomotricidad). Se utilizó la herramienta informática Voyant Tools para el análisis de contenido de corpus de textos. Se concluye que las producciones escritas tienen un número de palabras similares entorno al promedio, deduciendo que el volumen de la producción es bastante homogéneo. La especialidad de Educación Lenguas, Literatura y Comunicación presenta el mayor promedio de densidad léxica, con mayor contenido de variedad de palabras y riqueza léxica en sus producciones escritas. Se obtuvieron palabras relevantes del corpus, observando pocas palabras con peso estadístico significativo. Se propone un promedio de 8,000 palabras para el volumen de la producción.
- ItemMetáfora conceptual y representación de la intensidad emocional en una muestra de literatura infantil(2024) Prieto Sánchez, Eyleen; Núñez, Fredy R.; Pontificia Universidad Católica de Chile. Facultad de LetrasLa presente investigación tiene como objetivo general examinar el sistema metafórico que subyace en la construcción del significado de la intensidad emocional en una selección de lecturas recomendadas por la Unidad de Currículum y Evaluación del Ministerio de Educación de Chile para niños de primero básico. Primero se desarrolló una metodología para la identificación de metáforas conceptuales basada en el procedimiento de Rivano (1999), en el Metaphor Identification Procedure (2007) y en el Metaphor Identification Procedure desarrollado por Vrije Universiteit Amsterdam (2010). A partir de estos modelos se estableció un nuevo modelo de análisis que permitió identificar y agrupar patrones metafóricos asociados a DOMINIOS FUENTE del aspecto de la intensidad emocional como: LA CANTIDAD DE SUSTANCIA EN UN RECIPIENTE, EL IMPACTO Y EL CALOR. De esta manera, los resultados del análisis realizado sugieren que la literatura infantil podría desempeñar un papel importante como un puente entre el lenguaje, la emoción y la cognición, al explorar cómo las narrativas tienen la posibilidad de contribuir al enriquecimiento de la comprensión emocional de los niños. Finalmente, esta investigación propone líneas futuras que aborden la variabilidad cultural de las metáforas emocionales y su análisis en otros géneros narrativos, lo que ofrecería un aporte valioso tanto al ámbito de la lingüística cognitiva como al educativo.
- ItemProcesamiento de lenguaje natural para texto clínico en español: el caso de las listas de espera en Chile(2022) Báez, Pablo; Arancibia, Antonia Paz; Chaparro, Matías Ignacio; Bucarey, Tomás; Núñez, Fredy R.; Dunstan, JocelynLas listas de espera no cubiertas por el Plan de Garantías Explícitas en Salud para nueva consulta de especialidad en Chile se han visto incrementadas por los efectos de la pandemia del coronavirus SARS-CoV-2 (COVID-19). Esto representa un problema debido a la demora en la resolución y priorización de cada caso de derivación al nivel secundario de atención en salud. El objetivo de este artículo es exponer el problema de la lista de espera en el sistema de salud de Chile, y abordarlo como ejemplo de la aplicación de técnicas de Procesamiento del Lenguaje Natural (PLN). Específicamente, se describe una metodología para el reconocimiento de información clave en narrativas médicas. Actualmente, contamos con un conjunto de interconsultas médicas manualmente anotadas en el desarrollo del Corpus de Lista de Espera Chilena, y con una fracción de 2.000 interconsultas en las que las entidades médicas anotadas fueron normalizadas de forma automatizada a los conceptos del Sistema de Lenguaje Médico Unificado empleando el léxico MedLexSp. Este y otros recursos lingüísticos y herramientas de PLN están siendo desarrollados por el grupo de PLN en Medicina del Centro de Modelamiento Matemático de la Universidad de Chile y otros grupos a nivel nacional, los cuales constituyen aportes relevantes que pueden ser transferidos al sistema de salud chileno, con el objetivo de apoyar la gestión del texto clínico en español.
- ItemLa representación léxica en el modelo del Lexicón Generativo de James Pustejovsky(2013) Núñez, Fredy R.
- ItemTraining and intrinsic evaluation of lightweight word embeddings for the clinical domain in Spanish(2022) Chiu, Carolina; Villena, Fabián; Martin, Kinan; Núñez, Fredy R.; Besa Correa, Cecilia; Dunstan, JocelynResources for Natural Language Processing (NLP) are less numerous for languages different from English. In the clinical domain, where these resources are vital for obtaining new knowledge about human health and diseases, creating new resources for the Spanish language is imperative. One of the most common approaches in NLP is word embeddings, which are dense vector representations of a word, considering the word's context. This vector representation is usually the first step in various NLP tasks, such as text classification or information extraction. Therefore, in order to enrich Spanish language NLP tools, we built a Spanish clinical corpus from waiting list diagnostic suspicions, a biomedical corpus from medical journals, and term sequences sampled from the Unified Medical Language System (UMLS). These three corpora can be used to compute word embeddings models from scratch using Word2vec and fastText algorithms. Furthermore, to validate the quality of the calculated embeddings, we adapted several evaluation datasets in English, including some tests that have not been used in Spanish to the best of our knowledge. These translations were validated by two bilingual clinicians following an ad hoc validation standard for the translation. Even though contextualized word embeddings nowadays receive enormous attention, their calculation and deployment require specialized hardware and giant training corpora. Our static embeddings can be used in clinical applications with limited computational resources. The validation of the intrinsic test we present here can help groups working on static and contextualized word embeddings. We are releasing the training corpus and the embeddings within this publication.