Dissertação

Census Optimization Using Machine Learning Techniques EVALUATED

O objectivo desta dissertação é fazer uso de dados administrativos dispersos entre várias bases de dados e utilizá-lo para melhorar o método utilizado para a realização de Census no território Português. A utilização destes dados irá reduzir o tempo e o custo necessários para a realização de census, o que, por sua vez, pode permitir que isto aconteça com uma frequência e de forma mais confiável. Para atingir este objetivo, foi desenvolvido um protótipo composto de três componentes: limpeza e normalização de dados, indexação usando standard blocking e classificação usando técnicas de aprendizagem automática. Eu testo várias otimizações usando algoritmos diferentes para aumentar a quantidade de conflitos resolvidos e a confiabilidade dos pares emparelhados. Os resultados obtidos suportam a viabilidade desta metodologia e do software desenvolvido para o emparelhamento de dados administrativos que estão agora ao dispor do INE o que, consequentemente, irá aumentar a cobertura da BPR (Base da População Residente).
Census, Emparelhamento de Strings, Aprendizagem Automática, Classificação, Blocagem, Resolução de Conflito

novembro 7, 2018, 11:30

Publicação

Obra sujeita a Direitos de Autor

Orientação

ORIENTADOR

Pável Pereira Calado

Departamento de Engenharia Informática (DEI)

Professor Associado

ORIENTADOR

Mário Jorge Costa Gaspar da Silva

Departamento de Engenharia Informática (DEI)

Professor Catedrático