Browsing by Author "Pichara Baksai, Karim Elías"
Now showing 1 - 20 of 31
Results Per Page
Sort Options
- ItemA full probabilistic model for yes/no type crowdsourcing in multi-class classification(2017) Saldías Fuentes, Belén Carolina; Pichara Baksai, Karim Elías; Pontificia Universidad Católica de Chile. Escuela de IngenieríaCrowdsourcing se ha convertido en una técnica ampliamente adoptada en escenarios donde los conjuntos de entrenamiento para modelos supervisados son escasos y difíciles de obtener. La mayoría de los modelos de crowdsourcing en la literatura asumen que los anotadores pueden proporcionar respuestas para preguntas completas, éstas se refieren a preguntarle a un anotador que discierna entre todas las clases posibles para un objeto. Desafortunadamente, ese discernimiento no siempre es fácil en escenarios realistas, pueden haber muchas clases donde se desconoce cómo diferenciarlas. En este trabajo, se propone un modelo probabilístico para un tipo más corto y fácil de preguntas. Estas preguntas más simples sólo requieren una respuesta del tipo “sí” o “no”. Este modelo estima una distribución posterior conjunta de matrices relacionadas con las confusiones y errores de los anotadores, además de la probabilidad posterior de la clase de cada objeto. La solución se lleva a cabo mediante inferencia aproximada, se usa en primer lugar muestreo de Monte Carlo y en segundo lugar el método de Inferencia Variacional como Caja Negra (BBVI). Para este último enfoque se provee la derivación de los gradientes necesarios para la aproximación del modelo. Se construyeron dos escenarios web reales de crowdsourcing, donde anotadores fueron invitados a participar. En el primer escenario se muestran series de tiempo astronómicas a ingenieros y astrónomos. El segundo escenario se basa en clasificación de animales mediante la observación de imágenes. Los resultados muestran que es posible lograr resultados comparables con la pregunta completa para clasificación en crowdsourcing. Además, se prueba que tomar muestras de cómo los anotadores se equivocan al responder preguntas es importante para la convergencia del modelo. Finalmente, se deja disponible para la comunidad los dos conjuntos de datos obtenidos desde los experimentos reales generados. Todo el código está públicamente disponible.
- ItemA global data warehouse for astronomy(2018) Machin Matos, Javier Ismael; Pichara Baksai, Karim Elías; Pontificia Universidad Católica de Chile. Escuela de IngenieríaThere have been many attempts to gather and integrate numerous astronomical data sources to create a centralized, organized and consolidated database with visualization and analysis add-on tools. Unfortunately, most of those attempts have been inefficient, mainly, because they lack a holistic scheme that allows for heterogeneous data integration, highlevel pre-processing and visualization capabilities within the same structure. In industry, the same problem was tackled back in 1960, where the concept of the Data Warehouse was introduced as the most promising solution for the majority of the organizations. In this paper, we bring Data Warehousing to astronomy in theory and practice. We develop and implement an integrated astronomical Data Warehouse that allows users to visually process and analyze astronomical data in real time, narrowing down exploratory analyses, and providing an active interaction with data. In the current version, we implement a twolayer- based architecture that provides an interactive and user-friendly environment, with advanced visualization capabilities for data manipulation and data mining applied to time domain astronomy.
- ItemAn Algorithm for the Visualization of Relevant Patterns in Astronomical Light Curves(2019) Pieringer Baeza, Christian Philip; Pichara Baksai, Karim Elías; Catelan, Márcio; Protopapas, Pavlos
- ItemAn improved quasar detection method in EROS-2 and MACHO LMC data sets(2012) Pichara Baksai, Karim Elías; Protopapas, P.; Kim, D.-W.; Marquette, J.-B.; Tisserand, P.
- ItemAn information theory approach on deciding spectroscopic folIow ups(2019) Astudillo Bessi, Javiera; Pichara Baksai, Karim Elías; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLa clasificación y caracterización de estrellas variables y fenómenos transientes son críticos para la astrofísica y cosmología. Estos objetos son estudiados principalmente a través de series de tiempo fotométricas o información espectroscópica. Las series de tiempo son generalmente usadas para el descubrimiento y clasificación de objetos, mientras que la espectroscopía provee un mayor entendimiento, tales como las propiedades físicas. Ambos tipos de datos son valiosos, sin embargo los espectros son mucho más costosos en términos de tiempo de observación. Es por esto último que la mayoría de los proyectos de recolección de datos astronómicos, actuales y futuros, están enfocados en series de tiempos. En este contexto, sería valioso saber cuáles objetos priorizaría para la observación de sus espectros, dado que ya disponemos de sus series de tiempo. Para ello, proponemos una metodología que determina cuales objetos priorizar para la observación de su espectro, por medio de la ganancia de información en un marco probabilístico. En primer lugar, entrenamos dos clasificadores: uno que utiliza solo información fotométrica y otro que usa esta última en conjunto con información espectroscópica. Luego, para cada objeto estimamos los espectros más probables a partir de su serie de tiempo. Combinamos ambos componentes para la elaboración de varias estrategias que guían la selección de objetos a los cuales observar su espectro. La mejor estrategia depende del uso que se le quiera dar. Si seleccionamos un 5% (127) de los objetos a observar, corregimos las clasificaciones de un 37% (47) de los objetos seleccionados, en comparación a un 20% (25) si se seleccionan de acuerdo a una estrategia base. Mejoramos la probabilidad asignada a la clase real de cada objeto en un 0.13, en comparación al 0.11 obtenido por la estrategia base. Por otra parte, detectamos 46% de los objetos cuya clasificación es corregible si se observa el espectro, con la selección de un 4% de los objetos disponibles. Nuestra propuesta provee un marco general para estrategias de seguimiento y puede ser extendida más allá de la clasificación e incluir otras formas de seguimientos distintas de la espectroscopía.
- ItemAn information theory approach on deciding spectroscopic follow UPS(2019) Astudillo Bessi, Javiera Fernanda; Pichara Baksai, Karim Elías; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLa clasificación y caracterización de estrellas variables y fenómenos transientes son críticos para la astrofísica y cosmología. Estos objetos son estudiados principalmente a través de series de tiempo fotométricas o información espectroscópica. Las series de tiempo son generalmente usadas para el descubrimiento y clasificación de objetos, mientras que la espectroscopía provee un mayor entedimiento, tales como las propiedades físicas. Ambos tipos de datos son valiosos, sin embargo los espectros son mucho más costosos en términos de tiempo de observación. Es por esto último que la mayoría de los proyectos de recolección de datos astronómicos, actuales y futuros, están enfocados en series de tiempos. En este contexto, sería valioso saber cuáles objetos priorizar para la observación de sus espectros, dado que ya disponemos de sus series de tiempo. Para ello, proponemos una metodología que determina cuáles objetos priorizar para la observación de su espectro, por medio de la ganancia de información en un marco probabilístico. En primer lugar, entrenamos dos clasificadores: uno que utiliza solo información fotométrica y otro que usa esta última en conjunto con información espectroscópica. Luego, para cada objeto estimamos los espectros más probables a partir de su serie de tiempo. Combinamos ambos componentes para la elaboración de varias estrategias que guian la selección de objetos a los cuales observar su espectro. La mejor estrategia depende del uso que se le quiera dar. Si seleccionamos un 5% (127) de los objetos a observar, corregimos las clasificaciones de un 37% (47) de los objetos seleccionados, en comparación a un 20% (25) si se seleccionan de acuerdo a una estrategia base. Mejoramos la probabilidad asignada a la clase real de cada objeto en un 0.13, en comparación al 0.11 obtenido por la estrategia base. Por otra parte, detectamos 46% de los objetos cuya clasificación es corregible si se observa el espectro, con la selección de un 4% de los objetos disponibles. Nuestra propuesta provee un marco general para estrategias de seguimiento y puede ser extendida más allá de la clasificación e incluir otras formas de seguimientos distintas de la espectroscopía.
- ItemAn Information Theory Approach on Deciding Spectroscopic Follow-ups(2020) Astudillo, J.; Protopapas, P.; Pichara Baksai, Karim Elías; Huijse, P.
- ItemAutomatic classification of poorly sampled variable stars(2016) Castro Leal, Nicolás Pablo; Pichara Baksai, Karim Elías; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLa aplicación de métodos de clasificación automática en catálogos de observación astronómica ha revolucionado el proceso de identificación de estrellas. Hoy en día, muchos estudios generan catálogos conformados por un gran número de series de mediciones, o ”curvas de luz”, que representan los cambios en el brillo de objetos estelares en el tiempo. Desafortunadamente, las observaciones toman varios años en completarse, lo que produce series de tiempo parciales que normalmente no son analizadas hasta que todas las observaciones son completadas. Esto sucede porque los métodos de clasificación más modernos dependen de una variedad de descriptores estadísticos que presentan un grado creciente de dispersión a medida que el número de observaciones decrece, lo que disminuye su precisión. En este trabajo, proponemos método que mejora el rendimiento de los clasificadores automáticos de estrellas variables al incorporar las desviaciones producidas por la escasez de observaciones. Nuestro algoritmo utiliza Procesos Gaussianos de regresión para formar un modelo probabilístico de los valores observados para cada curva de luz. Luego, basado en este modelo, se generan muestras aleatorias de los descriptores de las curvas.Finalmente, a partir de estas muestras, se utiliza una técnica de bagging para incrementar la precisión de la clasificación. El resultado de este modelo, es un vector de clasificación que representa la probabilidad de pertenecer a cada una de las posibles clases de estrellas variables. Realizamos pruebas en los catálogos MACHO y OGLE; los resultados muestran que nuestro método logra mejorar las predicciones de modelos clásicos. Consideramos que estos resultados muestran la importancia de tomar en cuenta el error de los descriptores estimados, al clasificar curvas de luz, y como los procesos de observación los impactan.
- ItemAutomatic classification of variable stars in catalogs with missing data(2013) Pichara Baksai, Karim Elías; Protopapas, Pavlos
- ItemAutomatic identification of spectral lines(2016) Riveros, Andrés A.; Pichara Baksai, Karim Elías; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLa astronomía enfrenta nuevos desafíos en cuanto a cómo analizar big data, y por lo tanto, como buscar o predecir eventos/patrones de interés. Nuevas observaciones en regiones de longitudes de onda previamente inexploradas están disponibles gracias a instrumentos como el Atacama Large Millimeter Array (ALMA). Dada esta creciente cantidad de datos de alta resolución espectral, cualquier análisis no automatizado constituiría un esfuerzo más allá de la capacidad humana. Actualmente, la clasificación de líneas de emisión significa decidir si una línea de emisión pertenece a un isótopo específico. Esta clasificación es principalmente hecha comparando las líneas observadas con líneas de emisión de isótopos conocidas. Un algoritmo de clasificación automático reduciría dramáticamente los esfuerzos humanos para analizar datos espectrales, permitiendo a los astrónomos enfocar sus esfuerzos en análisis más detallados. En este trabajo, proponemos un algoritmo que utiliza un modelo sparse para representar el espectro y automáticamente clasificar líneas de emisión. Para esto, utilizamos conjuntos de datos de líneas espectrales para determinar un set de vectores base que represente la presencia de líneas de emisión teóricas. Luego, para clasificar líneas en un espectro dado, se minimiza la diferencia entre el espectro y una combinación lineal de los vectores base determinados. El output del modelo corresponde a un vector de probabilidad que representa la distribución de la predicción sobre un set de posibles isótopos. Realizamos pruebas de nuestro algoritmo con datos experimentales de Splatalogue y datos simulados del proyecto ASYDO. El resultado del análisis muestra que el algoritmo es capaz de identificar líneas de emisión con una precisión del 90% cuando ni blending ni casos hiperfinos están presentes. En tanto que la separación de longitud de onda entre líneas decrece (menor o igual que 1 MHz) la precisión baja a un 82%. El código fuente del algoritmo, los datos sintéticos y la lista de identificaciones sugerida están públicamente disponibles*.
- ItemAutomatic survey-invariant classification of variable stars(2018) Benavente Escandón, Patricio; Pichara Baksai, Karim Elías; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLas técnicas de aprendizaje de máquina han sido aplicadas con éxito en la clasificación de estrellas variables en sondeos astronómicos bien estudiados. Estos conjuntos de datos han estado disponibles el tiempo suficiente para que los astrónomos analicen en profundidad una serie de fuentes variables y generen catálogos prácticos con estrellas variables identificadas. El producto de estos estudios son datos etiquetados que permiten entrenar modelos supervisados con éxito. Sin embargo, cuando estos modelos son aplicados ciegamente a datos provenientes de nuevos sondeos celestes su desempeño disminuye de manera considerable. Más aún, los datos sin etiqueta son generados a una tasa muchísimo mayor que la de su contraparte etiquetada, ya que el etiquetado es un proceso manual que toma tiempo. Las técnicas de adaptación de dominio apuntan a aprender en un dominio donde hay etiquetas disponibles — el dominio fuente — y mediante alguna adaptación clasificar con éxito en otro dominio—el dominio objetivo. Proponemos un modelo probabilístico completo que representa la distribución conjunta de las características de dos conjuntos de datos distintos, así como una transformación probabilística desde las características de uno de los conjuntos de datos hacia el otro. Esto permite transferir datos etiquetados a un sondeo donde éstos no están disponibles y efectivamente aplicar un modelo de clasificación en un sondeo nuevo. Nuestro modelo representa las características de cada dominio como una mezcla de Gaussianas y modela la transformación como una translación, rotación y escalación de cada componente por separado. Realizamos pruebas usando tres catálogos de variabilidad diferentes: EROS, MACHO y HiTS. Presentamos las diferencias entre ellos, como la cantidad de observaciones por estrella, cadencia, tiempo de observación, y bandas ópticas observadas, entre otros.
- ItemAutomatic Survey-invariant Classification of Variable Stars(2017) Benavente, Patricio; Protopapas, Pavlos; Pichara Baksai, Karim Elías
- ItemCentralized student performance prediction in large courses based on low-cost variables in an institutional context(2018) Sandoval, Augusto; Gonzalez, Carlos; Alarcon, Rosa; Pichara Baksai, Karim Elías; Montenegro, Maximiliano
- ItemClassifying CMB time-ordered data through deep neural networks(2020) Rojas, F.; Maurin, Loïc Benjamin; Dünner Planella, Rolando; Pichara Baksai, Karim Elías
- ItemClustering based feature learning on variable stars(2016) Mackenzie Kiessler, Cristóbal; Pichara Baksai, Karim Elías; Pontificia Universidad Católica de Chile. Escuela de IngenieríaEl éxito de la clasificación automática de estrellas variables depende en gran medida de la representación de la curva de luz. Comúnmente, una curva de luz es representada como un vector de descriptores estadísticos diseñados por astrónomos llamados características. Estas características son costosas de calcular, requieren mucho tiempo de investigación para desarrollar y no garantizan un buen rendimiento de clasificación. Hoy en día la representación de curvas de luz no es automática; los algoritmos deben ser diseñados y ajustados para cada set de datos. La cantidad de datos astronómicos que se generará en el futuro requerirá de procesos de análisis automáticos y escalables. En este trabajo presentamos un algoritmo de aprendizaje de características diseñado para objetos variables. Nuestro método funciona a través de la extracción de un gran número de subsecuencias de curvas de luz, de las cuales se extraen subsecuencias representantes de los patrones más comunes a través de un algoritmo de clustering.Estos representantes son usados para transformar curvas de luz de un conjunto etiquetado a una representación que puede ser usada con un clasificador. El algoritmo propuesto aprende características de datos etiquetados y no etiquetados, lo que elimina el sesgo de usar solo datos etiquetados. Evaluamos nuestro método en las bases de datos MACHO y OGLE; los resultados muestran que nuestro rendimiento de clasificación es tan bueno como y en algunos casos mejor que el rendimiento que se logra usando las características tradicionales, mientras que el costo computacional es significativamente menor. Con estos resultados prometedores, creemos que nuestro método constituye un paso significativo hacia la automatización de los procesos de clasificación de curvas de luz.
- ItemClustering-based feature learning on variable stars(2016) Mackenzie, C.; Pichara Baksai, Karim Elías; Protopapas P.
- ItemDeep embedding of sparse multi-band light curves with missing data(2023) Becker Troncoso, Ignacio; Pichara Baksai, Karim Elías; Pontificia Universidad Católica de Chile. Escuela de IngenieríaLos telescopios, herramientas que los astrónomos usan para captar luz, han experimentado avances sin precedentes en potencia y automatización, presentando nuevos desafíos en el campo de la astronomía. El Vera C. Rubin Observatory Legacy Survey of Space and Time (Rubin/LSST) es un innovador telescopio de 8.4 metros destinado a revolucionar la astronomía al mapear todo el cielo del hemisferio sur cada tres días en seis filtros ópticos, generando 20 TB de datos y 10 millones de alertas cada noche, superando cualquier telescopio operando actualmente. Para manejar este inmenso volumen de datos y focalizar los esfuerzos de investigación, los sistemas de clasificación automatizados se han vuelto indispensables. Los algoritmos de aprendizaje automático, en particular el aprendizaje profundo, se han erigido como herramientas esenciales, permitiendo a los expertos concentrarse en tareas más exigentes. En esta tesis, presentamos algoritmos basados en aprendizaje profundo que aprenden automáticamente representaciones de curvas de luz para clasificación precisa y automática. Proponemos un método de clasificación supervisada basado en Redes Neuronales Recurrentes (RNNs), capaz de manejar series temporales muestreadas de forma irregular. Nuestros modelos se evalúan en tres conjuntos de datos reales de curvas de luz: OGLE-III, Gaia y WISE, compilados y publicados para la comunidad. Nuestro enfoque requiere un preprocesamiento mínimo de datos, exhibe un bajo costo computacional para actualizaciones con nuevas observaciones, y escala eficientemente a grandes conjuntos de datos. Los resultados demuestran que nuestra arquitectura propuesta logra un rendimiento comparable con los clasificadores basados en descriptores estadísticos, mejorando significativamente los tiempos de predicción. Para prepararnos para los datos de Rubin/LSST, extendemos el modelo de una sola banda creando un conjunto de RNNs capaz de manejar datos multibanda y cadencia no uniforme. El modelo puede aprender los comportamientos en cada banda y unificarlo en una única representación. Esta adaptabilidad permite inferencias sin requerir la curva de luz completa, acelerando el proceso. El modelo se prueba en tres conjuntos de datos reales de curvas de luz: Gaia, Pan-STARRS1 y ZTF, para demostrar su capacidad de generalizar en diferentes condiciones de observación. Además, nuestro modelo propuesto demuestra su versatilidad al realizar no solo clasificación sino también regresión de parámetros físicos como temperatura efectiva y radio. El modelo se destaca en escenarios con menos observaciones, convirtiéndolo en una herramienta prometedora para la clasificación temprana para el Rubin/LSST. En general, nuestros resultados resaltan la eficacia y flexibilidad de nuestro modelo, posicionándolo como una herramienta poderosa para futuras proyectos astronómicos.
- ItemDeep multi-survey classification of variable stars(2018) Aguirre Orellana, Carlos Alfonso; Pichara Baksai, Karim Elías; Pontificia Universidad Católica de Chile. Escuela de IngenieríaDurante la última década, se ha realizado una gran cantidad de esfuerzo en clasificar estrellas variables utilizando diferentes técnicas de aprendizaje automático. Típicamente, las curvas de luz se representan como vectores de descriptores estadísticos los cuales se utilizan para entrenar distintos algoritmos. Estos descriptores demandan grandes poderes de cómputo,haciendo imposible crear formas escalables y eficientes de clasificar automáticamente estrellas variables. Además, las curvas de luz de diferentes catálogos no se pueden integrar y analizar juntas de manera inmediata. Por ejemplo, al tener variaciones en la cadencia y filtros, las distribuciones de características se vuelven parciales y requieren costosos modelos de calibración de datos. La gran cantidad de datos que se generarán pronto hacen necesario desarrollar arquitecturas de aprendizaje automático escalables. Estas arquitecturas deben ser capaces de analizar curvas de luz de diferentes catálogos sin costosas técnicas de integración. Las redes neuronales convolucionales han mostrado resultados impresionantes en la clasificación y representación de imágenes. Son capaces de clasificar objetos en imágenes con altos niveles de precisión. En este trabajo, presentamos un novedoso modelo de aprendizaje profundo para la clasificación de curvas de luz, basado principalmente en unidades convolucionales. Nuestra arquitectura recibe como entrada las diferencias entre el tiempo yla magnitud de las curvas de luz. Captura los patrones de clasificación esenciales independientemente de la cadencia y el filtro, y sin la necesidad de calcular ninguna característica estadística. Probamos nuestro método usando tres catálogos diferentes: OGLE-III; Corot; y VVV, que difieren en filtros, cadencia y área del cielo. Mostramos que además del beneficio de la escalabilidad, nuestro modelo obtiene niveles de precisión comparables con el estado del arte en clasificación de estrellas variables.
- ItemDepthwise convolutional neural network for multiband automatic quasars classification in ATLAS(2023) San Martín Jiménez, Astrid Elizabeth; Pichara Baksai, Karim Elías; Barrientos, Luis Felipe; Rojas Henríquez, Felipe Ignacio; Moya Sierralta, Cristóbal AndrésIn recent years, the astronomical scientific community has made significant efforts to automate quasars' detection. Automatic classification of these objects is challenging since they are very distant and appear as point sources, outnumbered by other sources. Thus, performing automatic morphological classification is not straightforward; colour dimension seems better as a key concept. Previous work using machine learning tools has proposed classifiers that use features such as magnitude and colour, working only for quasar representation, which requires high-quality observational data that is not always available. Those features are computationally costly in extensive image surveys like VST ATLAS (Shanks et al. 2015). With the continuous developments in deep-learning architectures, we find a powerful tool to perform automatic classification from images, where capturing information from different bands takes relevance in this kind of approach. In this work, we developed a new quasar selection method that we hope to apply to the complete ATLAS survey in subsequent papers, where the completeness and efficiency of depthwise architecture will be compared to more standard methods such as selection on the colour-colour diagrams and machine-learning feature-based methods. This automatic quasar classification tool uses images in u, g, i, z bands available in ATLAS, heading towards new survey requirements facing the big data era. We propose a deep-learning architecture based on depthwise convolutional units that work directly with ATLAS images, reduced by the VST pipeline. Our model reaches an accuracy of 96.53 per cent with a quasar classification f1-score of 96.49 per cent, a very competitive benchmark compared to previous unscalable approaches....
- ItemLocal feature selection using Gaussian process regression(2014) Pichara Baksai, Karim Elías; Soto Arriaza, Álvaro Marcelo