Dissertação
Dependência dos Tipos na Detecção de Duplicados em Bases de Dados XML EVALUATED
O problema da detecção de duplicados numa base de dados é o de detectar objectos, que embora não tenham a mesma representação conceptual, representam o mesmo objecto na realidade. Uma grande parte dos métodos de detecção de duplicados existentes, utiliza o conteúdo dos elementos dos tuplos para realizar a detecção. Para comparar este conteúdo são utilizadas métricas de similaridade. Como existem vários tipos de métricas com comportamentos diferentes e os os tuplos de uma base de dados são constituídos normalmente por tipos com características diferentes, importa saber quais as métricas mais adequadas a quais tipos. Neste trabalho, numa primeira fase, demonstramos que o tipo de métricas utilizado em cada tipo de uma base de dados, influência os resultados na detecção de duplicados. Demonstramos ainda que a escolha da métrica a aplicar a cada tipo, depende das características desse tipo e da estrutura da base de dados. Posteriormente, desenvolvemos um método que determina automaticamente uma configuração de métricas para uma determinada base de dados. Esta configuração é conseguida de forma a obter valores de R-Precision óptimos ou quase óptimos. O método é independente do domínio, tendo sido experimentado em bases de dados de dois domínios diferentes. Verificaram-se resultados melhores do que os conseguidos por configurações obtidas manualmente, tendo estes resultados sido obtidos com um número de iterações pequeno, relativamente ao espaço de soluções. O método permite que o esforço para encontrar uma configuração de métricas, seja menor do que o de um processo manual de teste de combinações de métricas.
novembro 17, 2009, 14:45
Documentos da dissertação ainda não disponíveis publicamente