FenixEdu™

Dissertação

Extração de Informação de Páginas Web EVALUATED

Detalhes: O problema da extração de conteúdo de páginas Web tem sido objeto de estudo desde a expansão da World Wide Web. O seu objetivo é separar o conteúdo principal de uma página, como o texto de uma notícia, do conteúdo irrelevante, como anúncios e links de navegação. A maioria das abordagens de extração de conteúdo opera ao nível do bloco, ou seja, a página Web é segmentada em blocos e, em seguida, cada um desses blocos é determinado como parte do conteúdo principal ou do conteúdo irrelevante da página Web. Nesta tese, tentamos aplicar a extração de conteúdo a um nível mais profundo, ou seja, a elementos HTML. Durante o decorrer da tese, investigamos a noção de conteúdo principal mais de perto, criamos um conjunto de dados de páginas Web cujos elementos foram marcados manualmente como parte do conteúdo principal ou como conteúdo irrelevante e aplicamos Aprendizagem Automática (Machine Learning) a esse conjunto de dados para separar o conteúdo principal do conteúdo irrelevante. Propomos um algoritmo denominado X-CEX para resolver este problema de extração de conteúdo, baseado no Algoritmo Content Extractor. Finalmente, este método e os seus processos são avaliados a usar um conjunto de dados diferente de páginas Web, rotulados manualmente.
Keywords: Extração de Informação, Páginas Web, Aprendizagem Automática, Aprendizagem Supervisionada, Content Extractor

Discussão: janeiro 15, 2021, 14:30