Seleção de Atributos de Dados Inconsistentes em ambiente HDF5+Python na cloud INCD

  • João Apolónia Mestrado em Tecnologias e Sistemas Informáticos WEB, Universidade Aberta
  • Luís Cavique
Palavras-chave: Seleção de atributos, HDF5 Python, LAID, INCD

Resumo

O tratamento de conjuntos de dados de grande dimensão é uma questão que é recorrente nos dias de hoje. Uma das abordagens possíveis passa por realizar uma seleção de atributos que permita diminuir, consideravelmente, a dimensão dos dados sem aumentar a inconsistência dos mesmos. A Análise Lógica de Dados Inconsistentes (LAID) é uma metodologia sistematizada, robusta, sendo fácil de interpretar e consegue lidar com dados inconsistentes. O paradigma, relativamente ao manuseamento de grandes volumes de dados, tem-se alterado. Antes, o tratamento dos dados era efetuado num único computador e o acesso era realizado depois do seu carregamento em memória. A tendência atual é aceder aos dados em disco, num ambiente cloud. Este trabalho pretende validar o novo paradigma, com recurso ao sistema de dados HDF5 e ao ambiente remoto disponibilizado pela INCD. Pelo facto de o HDF5 ser o sistema adotado pela comunidade Python para lidar com dados de grande dimensão, esta linguagem foi escolhida para implementação do LAID.

Publicado
2019-12-06
Secção
Artigos