Dissertação

Extraction of bibliographic references to feed institutional repositories EVALUATED

Os repositórios institucionais permitem o armazenamento, gestão e divulgação do produto intelectual criado por uma instituição e os membros da sua comunidade. Apesar da rapidez com que as organizações têm criado repositórios institucionais, diversos estudos revelam que os membros da comunidade em geral não estão particularmente focados no armazenamento de conteúdo. O Instituto Superior Técnico (IST), com o intuito de obter vantagens dos trabalhos publicados por membros de sua comunidade online em fontes digitais, desenvolveu um repositório institucional em que o conceito é a coleta automática dessas obras e dos respectivos metadados, exigindo uma mínima intervenção humana. O ambiente digital é ainda muito complexo fornecendo uma variedade de recursos web com diferentes características, o que torna esta tarefa desafiadora. Neste trabalho, apresentamos um caminho viável para extrair informações de uma fonte de cada vez usando web scraping e técnicas de extração de informação. A nossa solução utiliza uma abordagem semiautomática de coleta de dados explorando a ferramenta web scraping, Firebug, para ajudar os utilizadores a configurar a extração de referências bibliográficas. Depois que o utilizador fornecer exemplos positivos de dados a solução extrai os dados usando o algoritmo simple tree matching.
Repositórios Institucionais, Extracção de Informação, Web Scraping, Fontes Digitais Online, Referências Bibliográficas

novembro 2, 2012, 18:0

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

José Luís Brinquete Borbinha

Departamento de Engenharia Informática (DEI)

Professor Auxiliar