Blindando dados sensíveis contra vazamentos

Priorização vs importância

O vazamento de processos que correm em segredo de justiça no TJ-SP em na semana passada revela uma lacuna grave na gestão do ciclo de vida da informação. Segundo a Lei Geral de Proteção de Dados Pessoais (LGPD) e o Estatuto da Criança e do Adolescente (ECA), dados de crianças e adolescentes exigem camadas extras de proteção e anonimização. Contudo, a falha técnica do ambiente do TJ-SP permitiu o acesso à estas informações. Isso acaba indicando que o sistema possivelmente precise de controles granulares sobre a origem e o destino das requisições.

Com este cenário, a conformidade legal se torna peça chave que demanda um cuidado técnico profundo. A ausência de um mapa claro do fluxo, desde a origem até o destino dos dados, impede a percepção e disparo de alertas rápidos de comportamentos anômalos como extrações massivas de documentos. Consequentemente, a implementação de ferramentas de governança deixa de ser burocracia e passa a ser considerada requisito de sobrevivência digital.

Por sorte, existem ferramentas e técnicas que podem ajudar a blindar este tipo de problema.

Data Lineage – O mapa fim a fim dos dados

O Data Lineage refere-se ao rastreamento completo do ciclo de vida dos dados. Ele mapeia a jornada da informação desde sua origem (fontes de dados), passando por todas as transformações e manipulações, até seu destino final em relatórios ou modelos de IA. 

Para projetos modernos de Engenharia de Dados, essa visibilidade não deveria ser opcional, já que é peça central para garantir governança. Se um dado chega corrompido ou incorreto ao dashboard executivo, o processo de linhagem permite identificar qual script ou API causou o erro. Além disso, em casos de vazamento, o Data Lineage mostraria exatamente qual usuário ou serviço extraiu os dados e para onde eles foram enviados.

Data Linkage – A conexão entre as entidades

Enquanto a linhagem olha para o fluxo, o Data Linkage foca na conexão entre registros distintos que se referem à mesma entidade. Em bancos de dados governamentais ou corporativos, informações de um mesmo indivíduo ficam espalhadas em lugares diferentes (sistemas de saúde, sistema jurídico, sistema fiscal, etc). O Data Linkage utiliza algoritmos para identificar e unificar esses fragmentos com precisão.

Essa técnica também pode ser central para a segurança, pois evita a fragmentação da identidade. Quando o sistema sabe que o “Registro A” do sistema médico e o “Registro B” do sistema penal pertencem a um mesmo indivíduo, ele aplica políticas de segurança para esse propósito. No caso destes Registros A e B pertencerem à uma criança, a segurança deve ser elevada porque é sistematicamente protegido pelo ECA. Sem essa vinculação correta dos sistemas, uma parte dos dados pode ficar protegida (por exemplo o sistema médico) enquanto a outra permanece exposta por falha na classificação (como o sistema penal).

O saneamento básico não dá voto

Infelizmente, não é raro encontrar gestores que tratam a governança de dados como “saneamento básico”. São essenciais para os projetos e para a empresa, mas é invisível aos olhos dos stakeholders. Como processos de Lineage e Linkage operam no backend e não são customer-facing, eles raramente “dão voto” ou geram “hype” imediato, entrando nessa categoria de saneamento básico.

Isso impacta porque empresas desviam investimentos massivos para interfaces chamativas e novas funcionalidades, ignorando a fundação estrutural. Essa negligência na priorização cria um débito técnico perigoso e silencioso. Enquanto o orçamento flui para o que o cliente vê, os “canos” de dados enferrujam nos bastidores por falta de manutenção e modernização.

O caso do TJ-SP ilustra o preço alto dessa escolha. A “economia” feita na infraestrutura invisível do saneamento básico resulta em danos para as pessoas, e também para a empresa, com exposição incalculáveis quando o vazamento ocorre.

A importância dos dados para o Aprendizado de Máquina

Não canso de falar que modelos de Machine Learning são tão bons quanto os dados que os alimentam. Com isso, Data Lineage e Data Linkage podem ser consideradas a espinha dorsal de iniciativas modernas de projetos corporativos de Inteligência Artificial. Sem rastreabilidade, garantir a reprodutibilidade de um modelo torna-se uma tarefa bem difícil. Se um algoritmo toma uma decisão que pode impactar negativamente alguém, a linhagem permite auditar os dados de treinamento para encontrar a raiz do viés, e corrigir.

Além disso, o Data Linkage garante que o modelo aprenda com perfis completos e não com fragmentos desconexos. Isso aumenta a precisão das predições e reduz limitações estatísticas. Para sistemas com dados sensíveis, isso assegura que o modelo não faça a inferência de identidades que deveriam permanecer anônimas, mantendo a ética e a responsabilidade do projeto.

O custo da negligência

A adoção destes tipos de tecnologias vão além da simples correção de bugs, ela ajuda a priorizar a estratégia de alocação de recursos orçamentários. Desenvolvedores que dominam essas técnicas aumentam a qualidade dos projetos, mas ainda enfrentam o desafio de convencer as áreas de negócios a investir no que não se vê.

O impacto dessa mudança de mentalidade é a redução drástica de riscos sistêmicos. Multas por violação da LGPD podem custar milhões, mas a perda de confiança na marca é irreversível. Por isso que priorizar o “saneamento básico” de dados garante que a “construção do estádio da copa” seja sustentável e que os direitos fundamentais sejam respeitados em um ambiente automatizado.

Caso queira bater um papo sobre isso, marque um horário. Será um prazer entender seus desafios e te ajudar a resolvê-los.

 

Imagem de capa criada com o Google Nano Banana 3, com o prompt: Crie uma imagem com uma balança de equilíbrio, onde no prato esquerdo tem o personagem Sherlok Holmes e o Dr Watson, e no prato direito tem pilhas baixas de moedas de ouro. A balança do direito está mais pesada que do lado esquerdo, fazendo a balança pender para o lado direito. O background deve ser como uma placa de circuito com tons verdes e filamentos amarelos, em formato desfocado. Não deve ter nada escrito na imagem. O estilo deve ser como de um video-game dos anos 90s, com pixels e tons de 16bits de cores.