Rematch: A novel regex engine for finding all matches

dc.catalogadorgjm
dc.contributor.advisorRiveros Jaeger, Cristian
dc.contributor.authorVan Sint Jan Campos, Nicolás Andre
dc.contributor.otherPontificia Universidad Católica de Chile. Escuela de Ingeniería
dc.date.accessioned2024-06-03T13:58:51Z
dc.date.available2024-06-03T13:58:51Z
dc.date.issued2024
dc.descriptionTesis (Master of Science in Engineering)--Pontificia Universidad Católica de Chile, 2024.
dc.description.abstractEn esta tesis presentamos el sistema REmatch para la extraccion de información. REmatch esta basado en un algoritmo de enumeración recientemente propuesto para evaluar expresiones regulares con variables de captura que soportan la semantica de encontrar todos los resultados. Se expone lo necesario para hacer que un algoritmo teóricamente óptimo funcione en la práctica. Como mostraremos, una implementación ingenua del algoritmo original tendría dificultades para lidiar con cargas de trabajo realistas. Dado lo anterior, desarrollamos un nuevo algoritmo y una serie de optimizaciones que hacen que REmatch sea tan o mas rápido que muchos motores RegEx populares, al mismo tiempo que puede devolver todos los resultados, una tarea con la que la mayoría de los otros motores suele tener problemas.
dc.fechaingreso.objetodigital2024-06-03
dc.format.extentx, 57 páginas
dc.fuente.origenSRIA
dc.identifier.doi10.7764/tesisUC/ING/86373
dc.identifier.urihttps://do.org/10.7764/tesisUC/ING/86373
dc.identifier.urihttps://repositorio.uc.cl/handle/11534/86373
dc.information.autorucEscuela de Ingeniería; Riveros Jaeger, Cristian; 0000-0003-0832-116X; 131276
dc.information.autorucEscuela de Ingeniería; Van Sint Jan Campos, Nicolás Andre; S/I; 245289
dc.language.isoen
dc.nota.accesocontenido completo
dc.rightsacceso abierto
dc.subjectExpresiones regulares
dc.subjectDocument spanners
dc.subjectExtracción de información
dc.subjectAlgoritmos de enumeración
dc.subjectSemántica de coincidencia completa
dc.subject.ddc620
dc.subject.deweyIngenieríaes_ES
dc.titleRematch: A novel regex engine for finding all matches
dc.typetesis de maestría
sipa.codpersvinculados131276
sipa.codpersvinculados245289
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
TESIS_NVanSintJan_Firma Final.pdf
Size:
717 KB
Format:
Adobe Portable Document Format
Description:
License bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
license.txt
Size:
1.98 KB
Format:
Item-specific license agreed upon to submission
Description: