FenixEdu™

Dissertação

e-txt2db: Giving structure to unstrutured data EVALUATED

Detalhes: Uma grande quantidade de informação manipulada nas organizações está armazenada na forma de documentos não estruturados ou semi-estruturados (por exemplo, relatórios e mensagens de correio electrónico). Não é fácil, para uma ferramenta da software, utilizar esses dados, o que leva a que muita dessa informação seja ignorada. A área de Extracção de Informação oferece um conjunto de técnicas que permitem extrair segmentos de texto desses documentos de modo a torná-los úteis a um utilizador num dado domínio. Tipicamente, para especificar programas de Extracção de Informação um utilizador pode usar: (i) linguagens de programação com suporte de frameworks de Extracção de Informação; (ii) linguagens declarativas de Extracção de Informação ou (iii) ferramentas ETL (Extraction, Transformation and Loading). Todas estas soluções têm vantagens e desvantagens. Esta tese propõe uma framework para Extracção de Informação chamada E-txt2db, que procura combinar as vantagens das soluções existentes para especificação de programas de Extracção de Informação. O E-txt2db oferece operadores declarativos baseados na semântica das seguintes tarefas de Extracção de Informação: segmentação, classificação, associação, normalização e correferência. O trabalho desta tese foca-se no desenvolvimento do operador de classificação do E-txt2db, sendo proposta a sua formalização, uma API Java para criação, execução e avaliação de modelos de classificação e ainda uma sintaxe estilo SQL para a especificação de programas de classificação.
Keywords: Extracção de Informação, Linguagens Declarativas, Aprendizagem Automática

Discussão: novembro 4, 2009, 12:30