Dissertação

Extração de Informação de Páginas Web EVALUATED

O problema da extração de conteúdo de páginas Web tem sido objeto de estudo desde a expansão da World Wide Web. O seu objetivo é separar o conteúdo principal de uma página, como o texto de uma notícia, do conteúdo irrelevante, como anúncios e links de navegação. A maioria das abordagens de extração de conteúdo opera ao nível do bloco, ou seja, a página Web é segmentada em blocos e, em seguida, cada um desses blocos é determinado como parte do conteúdo principal ou do conteúdo irrelevante da página Web. Nesta tese, tentamos aplicar a extração de conteúdo a um nível mais profundo, ou seja, a elementos HTML. Durante o decorrer da tese, investigamos a noção de conteúdo principal mais de perto, criamos um conjunto de dados de páginas Web cujos elementos foram marcados manualmente como parte do conteúdo principal ou como conteúdo irrelevante e aplicamos Aprendizagem Automática (Machine Learning) a esse conjunto de dados para separar o conteúdo principal do conteúdo irrelevante. Propomos um algoritmo denominado X-CEX para resolver este problema de extração de conteúdo, baseado no Algoritmo Content Extractor. Finalmente, este método e os seus processos são avaliados a usar um conjunto de dados diferente de páginas Web, rotulados manualmente.
Extração de Informação, Páginas Web, Aprendizagem Automática, Aprendizagem Supervisionada, Content Extractor

janeiro 15, 2021, 14:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Manuel Fernando Cabido Peres Lopes

Departamento de Engenharia Informática (DEI)

Professor Associado