Arquivos Transformers - Diego Nogare

A IA não é inteligente, e eu te mostro

Diego Nogare — Mon, 12 Jan 2026 11:55:47 +0000

A presença invisível da IA no nosso cotidiano

Você provavelmente interage com algoritmos diversas vezes ao longo do seu dia e as vezes nem se dá conta. Quando o Netflix sugere um filme novo, ele utiliza modelos de Machine Learning clássicos. O sistema analisa seu histórico para prever seu próximo interesse de forma eficiente. Da mesma forma, os bancos utilizam sistemas automáticos para identificar transações suspeitas e evitar fraudes financeiras.

Essas tecnologias operam silenciosamente nos bastidores de grandes aplicativos móveis e sites. Além disso, os filtros de spam do seu e-mail dependem de classificações binárias precisas. Eles rotulam mensagens como seguras ou perigosas baseando-se em características textuais específicas. Veja que a IA tradicional resolve tarefas analíticas fundamentais para a economia moderna.

Considerando isso, esses sistemas focam em problemas de Classificação, onde o objetivo é atribuir categorias a dados. Outro uso comum envolve a Regressão, que prevê valores numéricos contínuos com base em variáveis históricas. Consequentemente, as empresas utilizam essas ferramentas para otimizar preços e prever demandas de estoque sazonais. O algoritmo não “pensa” sobre as vendas, mas apenas calcula tendências estatísticas. Vou repetir, o algoritmo “não pensa” sobre a venda, mas calcula as tendências estatísticas.

A transição para a era da inteligência generativa

Recentemente, o comportamento das máquinas mudou de forma drástica e impressionante. As novas interfaces de chat parecem muito mais “inteligentes” e verdadeiramente “conversacionais” para o usuário comum. Você pode pedir um poema ou um código de programação complexo em segundos. Assim, a sensação de que existe um pensamento por trás da tela se fortaleceu.

Contudo, essa aparência de sabedoria é apenas uma camada de interface refinada. A IA Generativa foca em problemas de Criação de Texto, Resumo e Tradução de idiomas. Ela utiliza vastas bases de dados para tentar reproduzir a linguagem humana com perfeição. Além disso, utilizamos essas ferramentas no cotidiano para redigir e-mails profissionais ou organizar agendas complexas. Quem faz reunião online hoje, quase que por padrão, já ativa uma ferramenta que faz a ata da reunião de forma automatizada.

Só que veja, a escolha da solução depende diretamente do problema que você precisa resolver. Se você quer prever o preço de um imóvel, usará modelos de regressão tradicionais. Mas se precisa criar uma imagem artística, utilizará IA Generativa. Você gostando ou não, o coração de qualquer projeto de tecnologia reside na definição clara do objetivo de negócio. Não na ferramenta ou tecnologia que você quer utilizar. Você precisa começar com o problema, não com a solução.

Por que a inteligência artificial não é inteligente

Agora que já fiz uma introdução ao assunto, quero trazer a provocação inicial deste texto: A IA não é inteligente, e eu te mostro.

Embora os resultados sejam impressionantes, isso já é ponto pacífico e não temos o que discutir, a máquina não compreende o significado das palavras. Ela opera através de probabilidades e vetores numéricos em um espaço multidimensional.

Como os algoritmos de Clustering, que “apenas ” agrupam dados similares sem entender a natureza desses objetos. A detecção de anomalias identifica desvios estatísticos sem saber o motivo real da falha. Consequentemente, o sistema apenas sinaliza que algo está fora do padrão matemático esperado.

Veja, nenhuma destas soluções são inteligentes, apesar de muito boas! O modelo não possui intuição ou julgamento ético sobre os dados que processa. Logo, ele não consegue lidar com situações inéditas que nunca apareceram em seu treinamento.

Nesse sentido, a inteligência humana envolve consciência, propósito e compreensão de causa e efeito. As máquinas, por outro lado, limitam-se a encontrar correlações em grandes volumes de informação digital. Por isso, especialistas como o cientista Miguel Nicolelis trazem pontos expondo que o termo “inteligência” é apenas uma metáfora de marketing muito poderosa… Na prática, estes algoritmos são como funções matemáticas iterativas que buscam minimizar erros de previsão.

A revolução da arquitetura Transformers e o mecanismo de Atenção

A grande mudança tecnológica ocorreu com o surgimento da arquitetura de Transformers em 2017. Pesquisadores do Google apresentaram o conceito de Mecanismo de Atenção em um artigo seminal chamado Attention is all You Need. Esse mecanismo permite que o modelo foque em partes específicas de uma frase para entender o contexto. Além disso, essa inovação possibilitou o processamento paralelo de dados em larga escala. O seu querido ChatGPT, usa essa tecnologia por trás!

Anteriormente à essa tecnologia, os sistemas de linguagem processavam palavras de forma sequencial e lenta. Porém, com os Transformers, a máquina consegue analisar relações entre termos distantes em um mesmo parágrafo. Essa técnica deu origem a modelos famosos como o BERT e o GPT.

O BERT foca na compreensão bidirecional do contexto em tarefas de busca. Em contrapartida, o GPT utiliza uma abordagem autorregressiva para gerar novos conteúdos de forma fluida. O mecanismo de atenção decide quais palavras anteriores são mais relevantes para prever a próxima. Em linhas gerais, o GPT é incrivelmente bom em escolher qual é a próxima palavra na sequência que está escrevendo.

Isso faz com que o texto gerado pareça coeso e gramaticalmente correto para o leitor humano, fazendo assim, a engenharia de software alcançar um padrão ouro nas técnicas de geração de texto (isso ainda sem falar nada da geração de imagem).

Como o GPT funciona na prática matemática

O GPT é a sigla para Generative Pre-trained Transformer, e funciona como um preditor estatístico de alta performance. Ele não consulta um dicionário ou uma enciclopédia para responder suas perguntas difíceis. Em vez disso, o modelo calcula a probabilidade da próxima unidade de texto, chamada de token. Além disso, ele utiliza bilhões de parâmetros para ajustar essas previsões durante o treinamento.

Inclusive, falando em token, transformers e mecanismo de atenção, este site mostra como o cálculo é feito durante o processo de prever a próxima palavra de uma sequência.

Durante o processo de pré-treinamento, o sistema consome quase toda a internet disponível publicamente (e não, não pagam royalties para os autores, deixando uma galera bem insatisfeita com isso!). Ele aprende padrões de linguagem, estilos de escrita e fatos de forma implícita. Portanto, quando você faz uma pergunta, o modelo busca a sequência de palavras mais provável.

Consequentemente, ele pode gerar informações falsas e inventadas, se a probabilidade estatística apontar para esse caminho. Veja que não é por maldade, é como funciona o método estatístico para prever a próxima palavra.

Este fenômeno é conhecido como “alucinação” e prova a falta de inteligência real. O algoritmo não verifica a verdade, mas apenas a coerência da estrutura linguística. Nesse sentido, o GPT é como um espelho sofisticado de todo o conhecimento humano digitalizado. Ele reflete padrões sem entender a essência do que está sendo refletido em sua saída. E se o que você está pedindo para fazer, for algo realmente inédito, ele não saberá qual palavra adicionar na sequência e irá colocar uma que atenda aos critérios estatísticos.

Para quase finalizar

Acredito que a importância desta discussão está diretamente ligada ao impacto direto que a compreensão técnica gera no mercado de tecnologia. Desenvolvedores que entendem as limitações da IA evitam erros catastróficos em implementações críticas de negócios. Além disso, empresas que tratam a IA como uma “mágica inteligente” costumam falhar em suas estratégias. Elas acabam ignorando a necessidade vital de dados de alta qualidade e curadoria humana constante.

Para a sociedade, este contexto é fundamental para mitigar preconceitos algorítmicos e desinformação automatizada. Se aceitarmos que a máquina é apenas um processador estatístico, seremos mais críticos com seus resultados. O potencial impacto desta tendência é uma transição do entusiasmo míope para o uso pragmático e responsável.

No setor corporativo, isso significa investir em governança de dados e transparência algorítmica. Consequentemente, a verdadeira inovação surge quando unimos a capacidade de cálculo da máquina com o discernimento estratégico dos profissionais.

Agora sim, para finalizar

Entender que a inteligência artificial opera através de previsões estatísticas, e não de pensamento consciente, resolve um problema de negócio importante: a alocação ineficiente de recursos em projetos sem propósito claro.

Muitas organizações enfrentam prejuízos ao tentar substituir o julgamento humano por algoritmos em áreas onde a intuição e a ética são indispensáveis. Portanto, ao compreender o papel exato de cada modelo, você se torna capaz de aplicar a tecnologia onde ela realmente gera valor operacional.

A ciência por trás dos modelos GPT e BERT prova que a engenharia superou a ficção, transformando matemática em linguagem fluida. Volto, com isso, à minha provocação inicial: A IA não é inteligente, e eu te mostro! Bom, acreditoq que deu pra ver que ela é apenas um cálculo muito bem executado, né?!

E agora, depois desse texto breve, acha que te mostrei que ela não é inteligente?

Compartilhe este texto com colegas e interessados em entender como a tecnologia realmente funciona nos bastidores… Bons estudos!

A imagem de capa eu fiz com o Google Nano Banana 3, com um prompt que precisei iterar muitas vezes para ficar como eu queria… Não vai rolar compartilhar

O post A IA não é inteligente, e eu te mostro apareceu primeiro em Diego Nogare.

Review do livro “Transformer for natural language processing and computer vision – 3rd Edition”

Diego Nogare — Mon, 29 Apr 2024 20:00:07 +0000

Fiz mais um review de livro, como já tinha feito recentemente de MLOps, Azure Data Factory e algoritmos, mas desta vez foi “Transformer for natural language processing and computer vision – 3rd Edition“. O livro foi escrito por Denis Rothman e publicado pela Packt Pub. Neste livro você irá aprender sobre transformers para texto e visão computacional.

O livro e seus capítulos

Quero compartilhar minhas impressões iniciais, mas já sei que vou ter que ler mais vezes para realmente entender. Para mim esse assunto é novo, e achei difícil, por mais direto e didático que o Denis foi no livro, ainda sinto que é complexo e terei que estudar muito até ter confiança de sair falando de IA Generativa. O livro é uma leitura ampla, explica a arquitetura de transformers para texto e visão computacional. Em suas quase 700 páginas o livro possui 20 capítulos e está separado em três grandes grupos, sendo: Os Fundamentos dos Transformers; A Ascensão da NLP Supra-humana; Visão computacional generativa: uma nova maneira de ver o mundo.

Ao final de cada capítulo, acima de tudo, é possível ver as referências utilizadas para gerar o texto, além de algumas recomendações de leituras futuras para completar o aprendizado. FAlando em aprendizado, contudo, no final de cada capítulo você irá encontrar questões de Verdadeiro ou Falso sobre o que estudou. No final do livro tem o gabarito com as respostas, e algumas delas até tem uma explicação rápida da resposta correta.

Desde a arquitetura básica até aplicações práticas, este livro abrange:

Representações de Linguagem: Entenda como os transformers aprendem representações ricas para palavras e frases.
Tradução Automática: Discute como os transformers são usados para tradução de idiomas.
Visão Computacional: Descubra como aplicar os mesmos princípios aos dados de imagem.

Bom, vamos aos capítulos…

Capítulo 1

O que são transformer? O autor explica, de forma abrangente, o conceito de transformer e os modelos fundamentais. O texto trás a complexidade de tempo O(1) desses modelos, que, segundo o texto, revolucionou diversas áreas. Além disso, destaca como os transformers se tornaram dominantes e trouxeram avanços significativos em várias áreas de pesquisa. Transformers são importantes para texto e também para visão computacional.

Capítulo 2

Iniciando com a arquitetura do modelo transformer explora o contexto do Processamento de Linguagem Natural (NLP) e compreende como as arquiteturas de Redes Neurais Recorrentes (RNNs), Long Short-Term Memory (LSTM) e Redes Neurais Convolucionais (CNNs) foram abandonadas e abriram caminho para a arquitetura transformer. Nesse capítulo, o autor explora a arquitetura original do transformer, publicada no artigo científico Attention Is All You Need, desenvolvida por pesquisadores do Google Research e Google Brain. Além disso, descreve a teoria dos transformers e explora, na prática, como funcionam as subcamadas de múltiplas atenções em Python.

Capítulo 3

Em Tarefas emergentes vs. tarefas downstream: As profundezas invisíveis dos transformers, o autor estabelece uma conexão entre a arquitetura funcional e matemática dos transformers por meio da introdução do conceito de emergência. Em seguida, o autor aborda como medir o desempenho dos transformers antes de explorar diversas tarefas downstream, como o Standard Sentiment TreeBank (SST-2), a aceitabilidade linguística e os esquemas de Winograd.

Não sei como traduzir Downstream, então mantive com o nome original. Se você tiver uma tradução apropriada, me conte e eu atualizo o post

Capítulo 4

Já em Avanços em traduções com Google Trax, Google Translate e Gemini, o texto explora a tradução automática em três etapas. Primeiro, define o que é a tradução automática. Em seguida, explica o pré-processamento de um conjunto de dados do Workshop on
Statistical Machine Translation (WMT) de 2014. Por fim, demonstra como implementar códigos para traduções automáticas em Python.

Capítulo 5

Aprofundando no ajuste fino com BERT discute a arquitetura do transformer original. O Bidirectional Encoder Representations from Transformers (BERT) leva os transformers a uma nova e vasta maneira de perceber o mundo do NLP. Em vez de analisar uma sequência passada para prever uma sequência futura, o BERT analisa a toda a sequência! O autor explora as principais inovações da arquitetura do BERT e, em seguida, ajusta um modelo BERT passo a passo em um notebook do Google Colab.

Capítulo 6

No Pré-treinando um modelo RoBERTa do zero, o texto implementa um modelo de transformer RoBERTa a partir do zero usando PyTorch na Hugging Face. Primeiro, é treinado um tokenizador em um conjunto de dados personalizado. Em seguida, é feito um pré-treino de modelo de suporte ao cliente com IA generativa.

Capítulo 7

No capítulo de A revolução da IA Generativa com o ChatGPT, o autor explora as melhorias significativas e a disseminação dos modelos ChatGPT no cotidiano de desenvolvedores e usuários finais. Inicialmente, é apresentada a arquitetura dos modelos GPT da OpenAI. Em seguida, trabalha com a API do GPT-4 e seus hiper-parâmetros para implementar diversos exemplos de NLP em Python. Por fim, aprendemos como obter melhores resultados com Retrieval Augmented Generation (RAG). No capítulo é implementado um exemplo de RAG com o GPT-4.

Capítulo 8

Ajuste fino de modelos OpenAI GPT, é explorada a técnica de ajuste fino para aprimorar os modelos GPT disponíveis por meio da API. Com o ajuste fino é possível obter resultados de maior qualidade do que apenas com prompts. Além disso, permite treinar o modelo com mais exemplos do que caberia em um prompt e economizar tokens devido a prompts mais curtos. Essa abordagem também reduz a latência das respostas nas solicitações. Os modelos da OpenAI já foram treinados em uma grande quantidade de texto, mas o fine tuning permite adaptá-los para tarefas em áreas de negócios específicas.

Capítulo 9

Desvendando a caixa preta com ferramentas interpretáveis, o autor trás detalhes dos modelos de transformer, interpretando e visualizando suas tarefas. Apresenta o BertViz para visualizar as camadas de atenção, o Language Interpretability Tool (LIT) para rodar uma análise de componentes principais (PCA) e o LIME para visualizar os transformers por meio do aprendizado de dicionário. Além disso, os LLMs da OpenAI vão mais a fundo, permitindo visualizar a atividade de um neurônio em um transformer de forma interativa.

Capítulo 10

Em Investigando o papel dos Tokenizadores na formação de Modelos de transformadores, apresenta inicialmente as práticas recomendadas independentes de tokenizadores para avaliar a qualidade de um tokenizador. Descreve as diretrizes básicas para conjuntos de dados e tokenizadores sob a perspectiva da tokenização. O autor explora a abordagem de tokenizadores de palavras e subpalavras, e demonstra como um tokenizador pode moldar o treinamento e o desempenho de um modelo de transformers.

Capítulo 11

O capítulo com titulo Alavancando os incorporamentos de LLM como alternativa ao ajuste fino, explora por que a busca com incorporamento pode ser, às vezes, uma alternativa eficaz ao ajuste fino. São discutidas as vantagens e limitações dessa abordagem. Além disso, são explicados os fundamentos dos incorporamentos de texto. Para solidificar o aprendizado, implementa um código Python que lê um arquivo, o tokeniza e o incorpora com as bibliotecas Gensim e Word2Vec. Para concluir, você terá trabalhado desde o design de prompts até a engenharia avançada de prompts, utilizando incorporamentos para a RAG.

Capítulo 12

Rumo à rotulagem de papéis semânticos sem sintaxe com o ChatGPT e o GPT-4 explora os conceitos de modelos estocásticos sem sintaxe e não repetitivos. Utilizam o ChatGPT Plus com o GPT-4 para executar amostras de Semantic Role Labeling (SRL), com exemplos simples e complexos. Apresenta como um modelo de propósito geral reage às solicitações de SRL.

Capítulo 13

Em Sumarização com T5 e ChatGPT, o autor explica os conceitos e a arquitetura do modelo de transformer T5. Utiliza o T5 para resumir documentos com modelos da Hugging Face. Os exemplos neste capítulo estão relacionados a áreas jurídicas e médicas, buscando explorar a sumarização em domínios específicos do conhecimento. Também trás uma comparação das abordagens de sumarização entre o T5 e o ChatGPT.

Capítulo 14

Explorando os LLMs de ponta com o Vertex AI e o PaLM 2. Apresenta o Google PaLM 2, um modelo com 540 bilhões de parâmetros. O PaLM 2 é um modelo autoregressivo, com ativação densa e decodificador. Explora como o PaLM 2 pode executar diversas tarefas como chat, classificação e geração de texto. O capítulo implementa a API do PaLM 2 dontro da Vertex AI, para várias tarefas de NLP, incluindo mas não se limitando, à perguntas e respostas e sumarização. FInaliza o capítulo, inclusive, com o processo de ajuste fino no Vertex AI.

Capítulo 15

Em Protegendo os gigantes: mitigando riscos em LLMs, exploram os riscos associados aos Large Language Models (LLMs) e estratégias para tentar mitigar os riscos. Estes são alguns riscos e abordagens de mitigação:

Alucinações: LLMs podem gerar respostas falsas ou incorretas, inegavelmente, levando à desinformação;
Memorização: LLMs podem memorizar exemplos específicos de seus dados de treinamento, reproduzindo-os literalmente;
Comportamento emergente arriscado: LLMs podem exibir comportamento inesperado ou prejudicial devido à sua complexidade;
Desinformação: LLMs podem ocasionalmente gerar conteúdo que dissemina desinformação;
Operações de influência: Atacantes maliciosos podem explorar LLMs para manipular a opinião pública ou enganar os usuários;
Conteúdo prejudicial: LLMs podem produzir saídas sobretudo prejudiciais ou ofensivas, e até criminosas;
Ataques adversários (“Jailbreaks”): LLMs podem ser vulneráveis a manipulações intencional, comprometendo a integridade do conteúdo gerado.

A fim de mitigar esses riscos, empregam técnicas avançadas de engenharia de prompts. Isso inclui a implementação de um modelo de moderação, a manutenção de uma base de conhecimento, a análise de palavras-chave, o uso de pilotos de prompts, a moderação pós-processamento e a alavancagem de incorporamentos, entre outras…

Capítulo 16

O texto Além do texto: transformers de visão no amanhecer da IA revolucionária, explora os modelos de transformers que respeitam a estrutura básica do transformer original, mas fazem algumas extensões significativas. Isso gerou poderosos transformers para visão, como o ViT, CLIP, DALL-E e GPT-4V. O autor implementa transformer de visão em Python, utilizando o GPT-4V, e expande as interações de texto-para-imagem do DALL-3. É importante destacar que os transformers vão além de texto e chegam até visão computacional.

Capítulo 17

Em Transcendendo a fronteira entre imagem e texto com a Stable Difusion, o autor explora os modelos de difusão, apresentando o Stable Vision, que, aliás, criou uma onda incrível de imagens realistas que está se espalhando pelo mercado. Explica os princípios, a matemática e implementa um código de Stable Difusion no Keras. O texto analisa cada um dos principais componentes de um modelo de Stable Difusion e examina os códigos do Keras. Para finalizar, também discute um modelo de de texto-para-vídeo com a Hugging Face e um modelo de vídeo-para-texto com o TimeSformer da Meta.

Capítulo 18

Hugging Face AutoTrain: Treinando modelos de visão sem codificação explora como treinar um transformer de visão usando o AutoTrain da Hugging Face. O autor explica o processo de treinamento automatizado e o autor comenta os problemas imprevisíveis que demonstram por que até o aprendizado de máquina automatizado requer expertise humana. Este capítulo também trás uma discussão e mostra como explorar os limites de um modelo de visão computacional, independentemente de quão sofisticado ele seja.

Este desafio de re-treino automatizado está presente, inclusive, no Machine Learning tradicional. Não é algo exclusivo da IA Generativa

Capítulo 19

No caminho para a IA geral funcional com o HuggingGPT e seus pares demonstra como podemos usar modelos encadeados entre plataformas para resolver problemas complexos de classificação de imagens. O autor compara o HuggingGPT e o Google Cloud Vision no trabalho de identificação de imagens fáceis, difíceis e muito difíceis. Além disso, o capítulo comenta as abordagens clássicas e explora como encadear modelos.

Capítulo 20

Além dos prompts projetados por humanos com ideação generativa explora a ideação generativa, uma abordagem que automatiza a produção de ideias para conteúdo de texto e imagem. A fase de desenvolvimento destas ideações requer especialistas qualificados em IA. Já para o usuário final, a abordagem é uma experiência simples de point and click. O autor discute e nos faz pensar em ideias generativas éticas para empresas sem recursos de marketing, mas não se limita apenas à essa área de atuação.

Minha opinião

Na minha opinião é um material rico para conhecer e aplicar a arquitetura de transformers para texto e visão computacional, codificando com Python. O livro oferece uma visão ampla, porém prática e aplicada, de como a arquitetura funciona e vários detalhes sobre os modelo de linguagem e te visão. É uma leitura densa, e pra mim, vou ter que estudar mais porque achei o assunto complexo. Não é do meu cotidiano trabalhar com GenAI, e por isso quero estudar mais antes de sair falando besteira por ai. As referências e leituras adicionais ajudarão quando eu tiver tempo para aprofundar.

Em linhas gerais recomendo a leitura, principalmente para quem se interessa pelo assunto de Inteligência Artificial. A versão digital está na Amazon por um pouco menos de 250 reais enquanto escrevo esse texto.

Transformers para texto e visão computacional

A atualização do Github contendo os códigos é frequente, inclusive no momento que posto esse texto, a ultima atualização de código foi ontem 29/04/2024.

Bons estudos!

O post Review do livro “Transformer for natural language processing and computer vision – 3rd Edition” apareceu primeiro em Diego Nogare.