Dissertação

Auditable Data Provenance in Streaming Data Processing EVALUATED

Stream processing tem ganho importância na análise de Big Data devido à necessidade de análise em tempo real de dados ilimitados. Erros no processamento de data em sistemas pode levar a resultados incorretos, criando a necessidade de examinar em detalhe os fluxos de data e transformações. Data provenance é crucial para entender os erros que ocorrem e justificar resultados obtidos em stream processing. No entanto, isto não é linear devido à natureza dinâmica do processo. Soluções existentes são maioritariamente incompletas, faltando fine-grained provenance. Neste trabalho, é realizado um estudo de stream processing e data provenance, que permite propor uma solução que apresenta três pipelines interligados, compostos por módulos Python. Ao testar num ambiente controlado, damos ênfase às métricas de desempenho, mostrando a capacidade do sistema de preservar data provenance e oferecer informação detalhada num cenário semelhante ao mundo real. Os resultados mostram um avanço significativo em data tracing de forma confiável e na gestão simultânea de sistemas de stream processing.
Stream Processing, Data Provenance, Audit, Lineage

novembro 16, 2023, 13:0

Documentos da dissertação ainda não disponíveis publicamente

Orientação

ORIENTADOR

Luís Manuel Antunes Veiga

Departamento de Engenharia Informática (DEI)

Associate Professor

ORIENTADOR

Paulo Jorge Fernandes Carreira

Departamento de Engenharia Informática (DEI)

Associate Professor