Buscar K
Aparência
Aparência
O processador Inserir no Datawarehouse é o nó mais importante e central de escrita do HorusETL. Ele é o responsável por persistir os dados processados no ambiente do Horus, tornando-os disponíveis para consumo imediato em Dashboards (DataViz) ou armazenando-os para processamento em camadas posteriores.
Este processador oferece flexibilidade total para definir se o dado é um "Produto Final" ou uma "Etapa Intermediária" através de seus modos de operação.
O processador possui dois modos distintos, selecionados na configuração:
| Nome | Descrição |
|---|---|
| Modo | Define o destino do dado: Datawarehouse (Final) ou Datalake (Camadas). |
| Tabela | Seleciona a tabela de destino. Permite escolher uma tabela existente ou criar uma nova tabela diretamente pelo fluxo. |
| Nome da Tabela | (Apenas ao criar) Nome da nova tabela a ser criada. O sistema valida se o nome já existe. |
| Recriar Tabela | Se a estrutura dos dados (colunas/tipos) do fluxo for diferente da tabela existente, o sistema alerta e oferece um botão para recriar a tabela automaticamente ajustada aos novos dados. |
Quando o modo Datawarehouse está ativo, o comportamento de Upsert (inserir ou atualizar) é controlado pela definição da tabela, e não pelo processador.
IMPORTANT
Cargas Incrementais e Upsert no Datawarehouse Para garantir a unicidade dos registros e habilitar o comportamento de Upsert (manter apenas o registro mais recente) no modo Datawarehouse:
ID, CPF).Isso garante que, se o fluxo tentar inserir um registro com um ID já existente, o sistema atualizará o registro antigo com os dados novos, mantendo a integridade sem duplicatas.
TIP
Performance do Upsert: O Horus Lakehouse faz upsert nativo sem custo adicional de performance. Ou seja, uma carga com upsert não é mais lenta do que uma carga comum. Exemplo prático: se um registro teve uma coluna alterada na origem, o SELECT vai trazer esse registro, mas como ele já existe no Lakehouse, o sistema automaticamente atualiza ao invés de duplicar usando as chaves escolhidas.
Quando o modo Datalake está ativo, opções avançadas de gerenciamento de dados são exibidas:
Habilita o recurso de Upsert (Update + Insert). O sistema atualizará registros existentes e inserirá novos, evitando duplicidade.
ID, Codigo, Data). O sistema usa essas chaves para identificar se um registro deve ser atualizado ou inseridoSe a carga não for diferencial (apenas Append ou carga completa), é possível particionar fisicamente os arquivos para otimizar leituras futuras. Disponível quando o fluxo possui varáveis de carga temporal/incremental.
HorusParquet, otimizado para alta volumetria e indexação automática para o DataVizDeltaStore. O uso de Delta Lake garante transações ACID e histórico de versõesvendas_bronze.vendas_bronze, limpa os dados, remove duplicatas e salva usando Inserir no Datawarehouse (Modo Datalake) na tabela vendas_silver.vendas_silver, agrega os totais por mês e salva usando Inserir no Datawarehouse (Modo Datawarehouse) na tabela vendas_gold_bi. vendas_gold_bi no Dashboard, mas o time de dados tem todo o histórico rastreável nas camadas anterioresid_pedidoid_pedido que já existiam são atualizados (status mudou de 'Pendente' para 'Pago'). Pedidos novos são inseridos. Isso mantém o Datalake sempre fiel ao estado atual sem duplicar dados