Output-Linear enumeration for extensions of MSO

dc.catalogadoryvc
dc.contributor.advisorRiveros Jaeger, Cristian
dc.contributor.authorMuñoz Cruces, Martín Alonso
dc.contributor.otherPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned2025-04-21T15:45:05Z
dc.date.available2025-04-21T15:45:05Z
dc.date.issued2025
dc.descriptionTesis (Doctor in Engineering Sciences)--Pontificia Universidad Católica de Chile, 2025
dc.description.abstractEnumeration algorithms for data extraction queries are especially relevant in modern day systems where data reaches extremely large sizes while sometimes having little-to-no organization. This thesis proposes an enumeration framework for queries for data extraction that can be modeled by different formal languages, and in some cases, over compressed data. This is done by the development of an enumeration data structure called Enumerable Compact Set, which provides a set of basic operations over sets, each implementable in constant time, that render a concise representation of the set of results which can then be enumerated efficiently. First, this thesis provides an algorithm for enumerating results of a query that has been modeled by a nested-word automata, over a nested document. This algorithm is built to work in a streaming setting, and requires time that is independent from the data size (constant in data-complexity) per input symbol. Second, we detail three algorithms for enumeration for queries that are modeled by contextfree grammars. We deal with the cases of unambiguous, rigid and determinable grammars, which require cubic, quadratic and linear time over the data, respectively. Third, we show enumeration over compressed documents via an algorithm that receives a regular-language query and a document that is concisely represented as a straight-line program. The enumeration can be done after linear time preprocessing in the size of thecompact representation. This thesis also serves as a proof of concept of the Annotated Automata model. This model properly subsumes Document Spanners efficient reductions, and allows the construction of algorithms that we deem to be more intuitive and easier to implement. Needless to say, all of our results are also applicable to Document Spanners.
dc.description.abstractLos algoritmos de enumeración para consultas de extracción de datos son especialmente relevantes en los sistemas de hoy en día, donde los datos alcanzan tamanos extremadamente grandes y, a veces, tienen poca o ninguna organización. Esta tesis propone un marco teórico de enumeración para consultas de extracción de datos que se pueden modelar mediante diferentes lenguajes formales y, en algunos casos, sobre datos comprimidos. Esto se hace mediante el desarrollo de una estructura de datos de enumeración llamada Enumerable Compact Sets (Conjuntos Comprimidos Enumerables en inglés), que proporciona un conjunto de operaciones basicas sobre conjuntos, cada uno implementable en tiempo constante, cuyo resultado es una representacion concisa del conjunto de resultados que luego se puede enumerar de manera eficiente. En el primer capítulo, esta tesis entrega un algoritmo para enumerar los resultados de una consulta que ha sido modelada por un automata de palabras anidadas, sobre un documento anidado. Este algoritmo esta diseñado para funcionar en un entorno de streaming y requiere un tiempo independiente al tamaño de los datos (constante en data complexity) en cada símbolo de entrada. En el segundo capítulo, detallamos tres algoritmos de enumeración para consultas que se modelan mediante gramáticas libres de contexto. Tratamos los casos de gramáticas no-ambiguas, rígidas y deterministas, que requieren tiempo cubico, cuadrático y lineal sobre los datos, respectivamente. En el tercer capítulo, mostramos la enumeración sobre documentos comprimidos mediante un algoritmo que recibe una consulta en lenguaje regular y un documento que se representaconcisamente como un programa straight-line. La enumeración se puede realizar después del preprocesamiento en tiempo lineal en el tamaño de la representación compacta. Esta tesis también sirve como prueba de concepto del modelo de Annotated Automata (Automatas anotados en inglés). Este modelo considera satisfactoriamente reducciones eficientes desde Document Spanners y permite la construcción de algoritmos que consideramos mas intuitivos y fáciles de implementar. Vale decir que todos nuestros resultados tambien son aplicables a Document Spanners.
dc.fechaingreso.objetodigital2025-04-21
dc.format.extentxi; 194 páginas
dc.fuente.origenSRIA
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/103355
dc.information.autorucEscuela de Ingeniería; Muñoz Cruces, Martín Alonso; S/I; 204015
dc.information.autorucEscuela de Ingeniería; Riveros Jaeger, Cristian; 0000-0003-0832-116X; 131276
dc.language.isoen
dc.nota.accesocontenido completo
dc.rightsacceso abierto
dc.subjectData Structures and Algorithms
dc.subjectFormal Languages and Automata Theory
dc.subjectLogic in Computer Science
dc.subjectEstructuras de datos y algoritmos
dc.subjectLenguajes formales y teoría de autómatas
dc.subjectLógica en ciencias de la computación
dc.subject.ddc620
dc.titleOutput-Linear enumeration for extensions of MSO
dc.typetesis doctoral
sipa.codpersvinculados204015
sipa.codpersvinculados131276
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Muñoz Martin Thesis_v2.pdf
Size:
1.1 MB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.98 KB
Format:
Item-specific license agreed upon to submission
Description: