Diferença entre Data Lake e Data Swamp


Muitas pessoas confundem o Data Lake com o armazém citado anteriormente. O Lake armazena dados em seu estado bruto e original.

Muitas pessoas confundem o Data Lake com o armazém citado anteriormente. O Lake armazena dados em seu estado bruto e original. É um repositório vasto que guarda arquivos sem tratamento prévio. Contudo, sem organização, ele pode se tornar um Data Swamp.

Um pântano de dados é um repositório impossível de navegar. Nele, a falta de metadados impede a localização de informações. Por consequência, Fã para Dados o valor dos ativos digitais se perde totalmente. Manter a higiene dos dados é um dever constante dos engenheiros.

Processos de Integração e Modelagem

No cotidiano da engenharia, o termo ETL aparece com frequência. Ele significa Extração, Transformação e Carga de dados em sistemas. Primeiramente, coletamos os dados de diversas fontes externas ou internas. Depois, limpamos e moldamos esses registros conforme as regras.

Finalmente, os dados são carregados no destino final para uso. Recentemente, o modelo ELT ganhou espaço devido à nuvem potente. Nesse caso, a transformação ocorre dentro do próprio destino final. Essa mudança garante maior velocidade no processamento de grandes cargas.