Diferença entre Data Lake e Data Swamp
Muitas pessoas confundem o Data Lake com o armazém citado anteriormente. O Lake armazena dados em seu estado bruto e original.
Muitas pessoas confundem o Data Lake com o armazém citado anteriormente. O Lake armazena dados em seu estado bruto e original. É um repositório vasto que guarda arquivos sem tratamento prévio. Contudo, sem organização, ele pode se tornar um Data Swamp.
Um pântano de dados é um repositório impossível de navegar. Nele, a falta de metadados impede a localização de informações. Por consequência, Fã para Dados o valor dos ativos digitais se perde totalmente. Manter a higiene dos dados é um dever constante dos engenheiros.
Processos de Integração e Modelagem
No cotidiano da engenharia, o termo ETL aparece com frequência. Ele significa Extração, Transformação e Carga de dados em sistemas. Primeiramente, coletamos os dados de diversas fontes externas ou internas. Depois, limpamos e moldamos esses registros conforme as regras.
Finalmente, os dados são carregados no destino final para uso. Recentemente, o modelo ELT ganhou espaço devido à nuvem potente. Nesse caso, a transformação ocorre dentro do próprio destino final. Essa mudança garante maior velocidade no processamento de grandes cargas.