Dissertação

ConnectionLens: Entity and Relationship Extraction from French textual data sources EVALUATED

Como resultado da grande quantidade de dados disponíveis digitalmente hoje em dia, os jornalistas estão a mudar o seu foco para processamento e visualização de dados, numa tarefa denominada jornalismo de dados. No jornalismo de investigação, os dados disponíveis são usados para descobrir conexões entre entidades e analisar a natureza das mesmas. ConnectionLens é um protótipo de software que tenta resolver os problemas do jornalismo de investigação de ter dados de diferentes fontes e com diferentes formatos, permitindo também efetuar queries baseadas em palavras-chave para encontrar conexões. Para obter entidades e conexões em fontes de dados textuais é necessário realizar Reconhecimento de Entidades Mencionadas (REM) e Extração de Relações (ER). Nós propomos o desenvolvimento de uma solução para REM e ER para textos de notícias em Francês que possa ser integrada no ConnectionLens. O nosso objetivo é adaptar e usar ferramentas, mais especificamente bibliotecas, tanto para REM e RE, para criar modelos de aprendizagem automática capazes de extrair entidades mencionadas e relações, respetivamente, de textos franceses. Adicionalmente, efetuar uma avaliação extensiva desses modelos, usando precisão, abrangência e medida F1 para REM, e curvas de precisão-abrangência, área sob a curva (AUC), micro-F1 e Precisão@N para ER. Finalmente, selecionar o modelo com melhor desempenho para cada tarefa, para serem integrados no ConnectionLens. O modelo com melhor desempenho para REM obteve uma medida F1 global de 73.31%, e o modelo com melhor desempenho para ER obteve uma AUC e uma micro-F1 de 97.10% e 91.78%, respetivamente.
Extração de Informação, Processamento de Língua Natural, Reconhecimento de Entidades Mencionadas, Extração de Relações, Aprendizagem Profunda, Supervisão Distante

outubro 16, 2020, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Helena Isabel De Jesus Galhardas

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Ioana Gabriela Manolescu-Goujot

INRIA Saclay - Ecole Polytechnique

Investigador Coordenador