<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Arquivos Transformers - Diego Nogare</title>
	<atom:link href="https://diegonogare.net/tags/transformers/feed/" rel="self" type="application/rss+xml" />
	<link>https://diegonogare.net/tags/transformers/</link>
	<description>Consultor Executivo de IA &#38; ML</description>
	<lastBuildDate>Mon, 12 Jan 2026 11:47:20 +0000</lastBuildDate>
	<language>pt-BR</language>
	<sy:updatePeriod>
	hourly	</sy:updatePeriod>
	<sy:updateFrequency>
	1	</sy:updateFrequency>
	<generator>https://wordpress.org/?v=6.9.4</generator>

<image>
	<url>https://i0.wp.com/diegonogare.net/wp-content/uploads/2025/06/cropped-cropped-DN-Black-300x300-1.png?fit=32%2C32&#038;ssl=1</url>
	<title>Arquivos Transformers - Diego Nogare</title>
	<link>https://diegonogare.net/tags/transformers/</link>
	<width>32</width>
	<height>32</height>
</image> 
<site xmlns="com-wordpress:feed-additions:1">247556142</site>	<item>
		<title>A IA não é inteligente, e eu te mostro</title>
		<link>https://diegonogare.net/2026/01/a-ia-nao-e-inteligente-e-eu-te-mostro/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Mon, 12 Jan 2026 11:55:47 +0000</pubDate>
				<category><![CDATA[Inteligência Artificial]]></category>
		<category><![CDATA[Bert]]></category>
		<category><![CDATA[GPT]]></category>
		<category><![CDATA[inteligencia artificial]]></category>
		<category><![CDATA[Inteligência Artificial Generativa]]></category>
		<category><![CDATA[Transformers]]></category>
		<guid isPermaLink="false">https://diegonogare.net/?p=4556</guid>

					<description><![CDATA[<p>A presença invisível da IA no nosso cotidiano Você provavelmente interage com algoritmos diversas vezes ao longo do seu dia e as vezes nem se dá conta. Quando o Netflix sugere um filme novo, ele utiliza modelos de Machine Learning clássicos. O sistema analisa seu histórico para prever seu próximo interesse de forma eficiente. Da...</p>
<p>O post <a href="https://diegonogare.net/2026/01/a-ia-nao-e-inteligente-e-eu-te-mostro/">A IA não é inteligente, e eu te mostro</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<h3>A presença invisível da IA no nosso cotidiano</h3>
<p>Você provavelmente interage com algoritmos <a href="https://diegonogare.net/2020/01/uso-da-inteligencia-artificial-no-cotidiano/">diversas vezes ao longo do seu dia</a> e as vezes nem se dá conta. Quando o Netflix sugere um filme novo, ele utiliza modelos de Machine Learning clássicos. O sistema analisa seu histórico para prever seu próximo interesse de forma eficiente. Da mesma forma, os bancos utilizam sistemas automáticos para identificar transações suspeitas e evitar fraudes financeiras.</p>
<p>Essas tecnologias operam silenciosamente nos bastidores de grandes aplicativos móveis e sites. Além disso, os filtros de spam do seu e-mail dependem de classificações binárias precisas. Eles rotulam mensagens como seguras ou perigosas baseando-se em características textuais específicas. Veja que a IA tradicional resolve tarefas analíticas fundamentais para a economia moderna.</p>
<p>Considerando isso, esses sistemas focam em problemas de Classificação, onde o objetivo é atribuir categorias a dados. Outro uso comum envolve a Regressão, que prevê valores numéricos contínuos com base em variáveis históricas. Consequentemente, as empresas utilizam essas ferramentas para otimizar preços e prever demandas de estoque sazonais. O algoritmo não &#8220;pensa&#8221; sobre as vendas, mas apenas calcula tendências estatísticas. Vou repetir, o algoritmo &#8220;não pensa&#8221; sobre a venda, mas calcula as tendências estatísticas.</p>
<h3>A transição para a era da inteligência generativa</h3>
<p>Recentemente, o comportamento das máquinas mudou de forma drástica e impressionante. As novas interfaces de chat parecem muito mais &#8220;inteligentes&#8221; e verdadeiramente &#8220;conversacionais&#8221; para o usuário comum. Você pode pedir um poema ou um código de programação complexo em segundos. Assim, a sensação de que existe um pensamento por trás da tela se fortaleceu.</p>
<p>Contudo, essa aparência de sabedoria é apenas uma camada de interface refinada. A IA Generativa foca em problemas de Criação de Texto, Resumo e Tradução de idiomas. Ela utiliza vastas bases de dados para tentar reproduzir a linguagem humana com perfeição. Além disso, utilizamos essas ferramentas no cotidiano para redigir e-mails profissionais ou organizar agendas complexas. Quem faz reunião online hoje, quase que por padrão, já ativa uma ferramenta que faz a ata da reunião de forma automatizada.</p>
<p>Só que veja, a escolha da solução depende diretamente do problema que você precisa resolver. Se você quer prever o preço de um imóvel, usará modelos de regressão tradicionais. Mas se precisa criar uma imagem artística, utilizará IA Generativa. Você gostando ou não, o coração de qualquer projeto de tecnologia reside na definição clara do objetivo de negócio. Não na ferramenta ou tecnologia que você quer utilizar. <a href="https://hsmmanagement.com.br/ia-generativa-comece-pelo-problema-nao-pela-solucao/" target="_blank" rel="noopener">Você precisa começar com o problema, não com a solução</a>.</p>
<h3>Por que a inteligência artificial não é inteligente</h3>
<p>Agora que já fiz uma introdução ao assunto, quero trazer a provocação inicial deste texto: <strong>A IA não é inteligente, e eu te mostro</strong>.</p>
<p>Embora os resultados sejam impressionantes, isso já é ponto pacífico e não temos o que discutir, a máquina não compreende o significado das palavras. Ela opera através de probabilidades e vetores numéricos em um espaço multidimensional.</p>
<p>Como os algoritmos de Clustering, que &#8220;apenas &#8221; agrupam dados similares sem entender a natureza desses objetos. A detecção de anomalias identifica desvios estatísticos sem saber o motivo real da falha. Consequentemente, o sistema apenas sinaliza que algo está fora do padrão matemático esperado.</p>
<p>Veja, nenhuma destas soluções são inteligentes, apesar de muito boas! O modelo não possui intuição ou julgamento ético sobre os dados que processa. Logo, ele não consegue lidar com situações inéditas que nunca apareceram em seu treinamento.</p>
<p>Nesse sentido, a inteligência humana envolve consciência, propósito e compreensão de causa e efeito. As máquinas, por outro lado, limitam-se a encontrar correlações em grandes volumes de informação digital. Por isso, especialistas como o cientista Miguel Nicolelis trazem pontos expondo que o termo &#8220;inteligência&#8221; é apenas uma metáfora de marketing muito poderosa&#8230; Na prática, estes algoritmos são como funções matemáticas iterativas que buscam minimizar erros de previsão.</p>
<h3>A revolução da arquitetura Transformers e o mecanismo de Atenção</h3>
<p>A grande mudança tecnológica ocorreu com o surgimento da arquitetura de Transformers em 2017. Pesquisadores do Google apresentaram o conceito de Mecanismo de Atenção em um artigo seminal chamado <a href="https://arxiv.org/abs/1706.03762" target="_blank" rel="noopener">Attention is all You Need</a>. Esse mecanismo permite que o modelo foque em partes específicas de uma frase para entender o contexto. Além disso, essa inovação possibilitou o processamento paralelo de dados em larga escala. O seu querido ChatGPT, usa essa tecnologia por trás!</p>
<p>Anteriormente à essa tecnologia, os sistemas de linguagem processavam palavras de forma sequencial e lenta. Porém, com os Transformers, a máquina consegue analisar relações entre termos distantes em um mesmo parágrafo. Essa técnica deu origem a modelos famosos como o BERT e o GPT.</p>
<p>O BERT foca na compreensão bidirecional do contexto em tarefas de busca. Em contrapartida, o GPT utiliza uma abordagem autorregressiva para gerar novos conteúdos de forma fluida. O mecanismo de atenção decide quais palavras anteriores são mais relevantes para prever a próxima. Em linhas gerais, o GPT é incrivelmente bom em escolher qual é a próxima palavra na sequência que está escrevendo.</p>
<p>Isso faz com que o texto gerado pareça coeso e gramaticalmente correto para o leitor humano, fazendo assim, a engenharia de software alcançar um padrão ouro nas técnicas de geração de texto (isso ainda sem falar nada da geração de imagem).</p>
<h3>Como o GPT funciona na prática matemática</h3>
<p>O GPT é a sigla para <em>Generative Pre-trained Transformer</em>, e funciona como um preditor estatístico de alta performance. Ele não consulta um dicionário ou uma enciclopédia para responder suas perguntas difíceis. Em vez disso, o modelo calcula a probabilidade da próxima unidade de texto, chamada de token. Além disso, ele utiliza bilhões de parâmetros para ajustar essas previsões durante o treinamento.</p>
<p>Inclusive, falando em token, transformers e mecanismo de atenção, <a href="https://poloclub.github.io/transformer-explainer/" target="_blank" rel="noopener">este site mostra como o cálculo é feito durante o processo</a> de prever a próxima palavra de uma sequência.</p>
<p>Durante o processo de pré-treinamento, o sistema consome quase toda a internet disponível publicamente (e não, não pagam royalties para os autores, deixando uma galera bem insatisfeita com isso!). Ele aprende padrões de linguagem, estilos de escrita e fatos de forma implícita. Portanto, quando você faz uma pergunta, o modelo busca a sequência de palavras mais provável.</p>
<p>Consequentemente, ele pode gerar informações falsas e inventadas, se a probabilidade estatística apontar para esse caminho. Veja que não é por maldade, é como funciona o método estatístico para prever a próxima palavra.</p>
<p>Este fenômeno é conhecido como &#8220;alucinação&#8221; e prova a falta de inteligência real. O algoritmo não verifica a verdade, mas apenas a coerência da estrutura linguística. Nesse sentido, o GPT é como um espelho sofisticado de todo o conhecimento humano digitalizado. Ele reflete padrões sem entender a essência do que está sendo refletido em sua saída. E se o que você está pedindo para fazer, for algo realmente inédito, ele não saberá qual palavra adicionar na sequência e irá colocar uma que atenda aos critérios estatísticos.</p>
<h3>Para <del>quase</del> finalizar</h3>
<p>Acredito que a importância desta discussão está diretamente ligada ao impacto direto que a compreensão técnica gera no mercado de tecnologia. Desenvolvedores que entendem as limitações da IA evitam erros catastróficos em implementações críticas de negócios. Além disso, empresas que tratam a IA como uma &#8220;mágica inteligente&#8221; costumam falhar em suas estratégias. Elas acabam ignorando a necessidade vital de dados de alta qualidade e curadoria humana constante.</p>
<p>Para a sociedade, este contexto é fundamental para mitigar preconceitos algorítmicos e desinformação automatizada. Se aceitarmos que a máquina é apenas um processador estatístico, seremos mais críticos com seus resultados. O potencial impacto desta tendência é uma transição do entusiasmo míope para o uso pragmático e responsável.</p>
<p>No setor corporativo, isso significa investir em governança de dados e transparência algorítmica. Consequentemente, a verdadeira inovação surge quando unimos a capacidade de cálculo da máquina com o discernimento estratégico dos profissionais.</p>
<h3>Agora sim, para finalizar</h3>
<p>Entender que a inteligência artificial opera através de previsões estatísticas, e não de pensamento consciente, resolve um problema de negócio importante: a alocação ineficiente de recursos em projetos sem propósito claro.</p>
<p>Muitas organizações enfrentam prejuízos ao tentar substituir o julgamento humano por algoritmos em áreas onde a intuição e a ética são indispensáveis. Portanto, ao compreender o papel exato de cada modelo, você se torna capaz de aplicar a tecnologia onde ela realmente gera valor operacional.</p>
<p>A ciência por trás dos modelos GPT e BERT prova que a engenharia superou a ficção, transformando matemática em linguagem fluida. Volto, com isso, à minha provocação inicial: A IA não é inteligente,  e eu te mostro! Bom, acreditoq que deu pra ver que ela é apenas um cálculo muito bem executado, né?!</p>
<p>E agora, depois desse texto breve, acha que te mostrei que ela não é inteligente?</p>
<p>Compartilhe este texto com colegas e interessados em entender como a tecnologia realmente funciona nos bastidores&#8230; Bons estudos!</p>
<blockquote><p>A imagem de capa eu fiz com o Google Nano Banana 3, com um prompt que precisei iterar muitas vezes para ficar como eu queria&#8230; Não vai rolar compartilhar <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f641.png" alt="🙁" class="wp-smiley" style="height: 1em; max-height: 1em;" /></p></blockquote>
<p>O post <a href="https://diegonogare.net/2026/01/a-ia-nao-e-inteligente-e-eu-te-mostro/">A IA não é inteligente, e eu te mostro</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">4556</post-id>	</item>
		<item>
		<title>Review do livro &#8220;Transformer for natural language processing and computer vision &#8211; 3rd Edition&#8221;</title>
		<link>https://diegonogare.net/2024/04/transformers-para-texto-e-visao-computacional/</link>
		
		<dc:creator><![CDATA[Diego Nogare]]></dc:creator>
		<pubDate>Mon, 29 Apr 2024 20:00:07 +0000</pubDate>
				<category><![CDATA[Review de Livro]]></category>
		<category><![CDATA[IA Generativa]]></category>
		<category><![CDATA[NLP]]></category>
		<category><![CDATA[Processamento de Linguagem Natural]]></category>
		<category><![CDATA[python]]></category>
		<category><![CDATA[Transformers]]></category>
		<category><![CDATA[Visão Computacional]]></category>
		<guid isPermaLink="false">https://diegonogare.net/?p=3872</guid>

					<description><![CDATA[<p>Fiz mais um review de livro, como já tinha feito recentemente de MLOps, Azure Data Factory e algoritmos, mas desta vez foi &#8220;Transformer for natural language processing and computer vision &#8211; 3rd Edition&#8220;. O livro foi escrito por Denis Rothman e publicado pela Packt Pub. Neste livro você irá aprender sobre transformers para texto e...</p>
<p>O post <a href="https://diegonogare.net/2024/04/transformers-para-texto-e-visao-computacional/">Review do livro &#8220;Transformer for natural language processing and computer vision &#8211; 3rd Edition&#8221;</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></description>
										<content:encoded><![CDATA[<p>Fiz mais um review de livro, como já tinha feito recentemente de <a href="https://diegonogare.net/2024/01/review-do-livro-machine-learning-engineering-with-python-mlops-ciclo-vida-modelos/" target="_blank" rel="noopener">MLOps</a>, <a href="https://diegonogare.net/2024/04/review-do-livro-azure-data-factory-cookbook-2nd-edition/" target="_blank" rel="noopener">Azure Data Factory</a> e <a href="https://diegonogare.net/2024/03/50-algoritmos-que-deve-conhecer/" target="_blank" rel="noopener">algoritmos</a>, mas desta vez foi &#8220;<em>Transformer for natural language processing and computer vision &#8211; 3rd Edition</em>&#8220;. O livro foi escrito por Denis Rothman e publicado pela Packt Pub. Neste livro você irá aprender sobre transformers para texto e visão computacional.</p>
<h2>O livro e seus capítulos</h2>
<p>Quero compartilhar minhas impressões iniciais, mas já sei que vou ter que ler mais vezes para realmente entender. Para mim esse assunto é novo, e achei difícil, por mais direto e didático que o Denis foi no livro, ainda sinto que é complexo e terei que estudar muito até ter confiança de sair falando de IA Generativa. O livro é uma leitura ampla, explica a arquitetura de transformers para texto e visão computacional. Em suas quase 700 páginas o livro possui 20 capítulos e está separado em três grandes grupos, sendo: Os Fundamentos dos Transformers; A Ascensão da NLP Supra-humana; Visão computacional generativa: uma nova maneira de ver o mundo.</p>
<p>Ao final de cada capítulo, acima de tudo, é possível ver as referências utilizadas para gerar o texto, além de algumas recomendações de leituras futuras para completar o aprendizado. FAlando em aprendizado, contudo, no final de cada capítulo você irá encontrar questões de Verdadeiro ou Falso sobre o que estudou. No final do livro tem o gabarito com as respostas, e algumas delas até tem uma explicação rápida da resposta correta.</p>
<p>Desde a arquitetura básica até aplicações práticas, este livro abrange:</p>
<div class="content" tabindex="0" aria-description="" aria-label="Enviado por Copilot: [1]: https://link.springer.com/chapter/10.1007/978-3-031-24349-3_6 &quot;&quot; [2]: https://www.goodreads.com/book/show/60114857-natural-language-processing-with-transformers &quot;&quot; [3]: https://www.mdpi.com/2078-2489/14/4/242 &quot;&quot; **Review do livro &quot;Transformer for natural language processing and computer vision - 3rd edition&quot;** Os **Transformers** revolucionaram o campo de Processamento de Linguagem Natural (NLP) e Visão Computacional. Nesta terceira edição do livro &quot;Transformer for natural language processing and computer vision&quot;, você encontrará insights atualizados e técnicas avançadas para dominar esses modelos. Desde a arquitetura básica até aplicações práticas, este livro abrange: - **Representações de Linguagem**: Aprenda como os Transformers aprendem representações ricas para palavras e frases. - **Tradução Automática**: Explore como os Transformers são usados para traduzir entre idiomas. - **Visão Computacional**: Descubra como aplicar os mesmos princípios aos dados de imagem. **Leia este livro e mergulhe no mundo dos Transformers!** **Principais TAGs**: NLP, Visão Computacional, Processamento de Linguagem Natural, Transformers. **Frase-Chave**: &quot;Review Transformers 3rd edition&quot; **Metadescrição**: &quot;Leia o review do livro &quot;Transformer for natural language processing and computer vision - 3rd edition&quot; e domine os Transformers em NLP e Visão Computacional.&quot;">
<div class="ac-container ac-adaptiveCard">
<div class="ac-textBlock">
<ul>
<li><strong>Representações de Linguagem</strong>: Entenda como os transformers aprendem representações ricas para palavras e frases.</li>
<li><strong>Tradução Automática</strong>: Discute como os transformers são usados para tradução de idiomas.</li>
<li><strong>Visão Computacional</strong>: Descubra como aplicar os mesmos princípios aos dados de imagem.</li>
</ul>
</div>
</div>
</div>
<p>Bom, vamos aos capítulos&#8230;</p>
<h3>Capítulo 1</h3>
<p><strong>O que são transformer? </strong>O autor explica, de forma abrangente, o conceito de transformer e os modelos fundamentais. O texto trás a complexidade de tempo <strong>O(1)</strong> desses modelos, que, segundo o texto, revolucionou diversas áreas. Além disso, destaca como os transformers se tornaram dominantes e trouxeram avanços significativos em várias áreas de pesquisa. Transformers são importantes para texto e também para visão computacional.</p>
<h3>Capítulo 2</h3>
<p><strong>Iniciando com a arquitetura do modelo transformer</strong> explora o contexto do Processamento de Linguagem Natural (NLP) e compreende como as arquiteturas de Redes Neurais Recorrentes (RNNs), Long Short-Term Memory (LSTM) e Redes Neurais Convolucionais (CNNs) foram abandonadas e abriram caminho para a arquitetura transformer. Nesse capítulo, o autor explora a arquitetura original do transformer, publicada no artigo científico <strong><a href="https://research.google/pubs/attention-is-all-you-need/" target="_blank" rel="noopener">Attention Is All You Need</a></strong>, desenvolvida por pesquisadores do Google Research e Google Brain. Além disso, descreve a teoria dos transformers e explora, na prática, como funcionam as subcamadas de múltiplas atenções em Python.</p>
<h3>Capítulo 3</h3>
<p>Em <strong>Tarefas emergentes vs. tarefas downstream: As profundezas invisíveis dos transformers</strong>, o autor estabelece uma conexão entre a arquitetura funcional e matemática dos transformers por meio da introdução do conceito de <em>emergência</em>. Em seguida, o autor aborda como medir o desempenho dos transformers antes de explorar diversas tarefas downstream, como o <em>Standard Sentiment TreeBank</em> (SST-2), a aceitabilidade linguística e os esquemas de <em>Winograd</em>.</p>
<blockquote><p>Não sei como traduzir Downstream, então mantive com o nome original. Se você tiver uma tradução apropriada, me conte e eu atualizo o post <img src="https://s.w.org/images/core/emoji/17.0.2/72x72/1f642.png" alt="🙂" class="wp-smiley" style="height: 1em; max-height: 1em;" /></p></blockquote>
<h3>Capítulo 4</h3>
<p>Já em <strong>Avanços em traduções com Google Trax, Google Translate e Gemini</strong>, o texto explora a tradução automática em três etapas. Primeiro, define o que é a tradução automática. Em seguida, explica o pré-processamento de um conjunto de dados do <a href="https://www.statmt.org/wmt14/" target="_blank" rel="noopener">Workshop on</a><br />
Statistical Machine Translation (WMT) de 2014. Por fim, demonstra como implementar códigos para traduções automáticas em Python.</p>
<h3>Capítulo 5</h3>
<p><strong>Aprofundando no ajuste fino com BERT</strong> discute a arquitetura do transformer original. O <em>Bidirectional Encoder Representations from Transformers</em> (BERT) leva os transformers a uma nova e vasta maneira de perceber o mundo do NLP. Em vez de analisar uma sequência passada para prever uma sequência futura, o BERT analisa a toda a sequência! O autor explora as principais inovações da arquitetura do BERT e, em seguida, ajusta um modelo BERT passo a passo em um <a href="https://www.youtube.com/watch?v=hNCRlWgziNk" target="_blank" rel="noopener">notebook do Google Colab</a>.</p>
<h3>Capítulo 6</h3>
<p>No <strong>Pré-treinando um modelo RoBERTa do zero</strong>, o texto implementa um modelo de transformer RoBERTa a partir do zero usando PyTorch na Hugging Face. Primeiro, é treinado um tokenizador em um conjunto de dados personalizado. Em seguida, é feito um pré-treino de modelo de suporte ao cliente com IA generativa.</p>
<h3>Capítulo 7</h3>
<p>No capítulo de <strong>A revolução da IA Generativa com o ChatGPT</strong>, o autor explora as melhorias significativas e a disseminação dos modelos ChatGPT no cotidiano de desenvolvedores e usuários finais. Inicialmente, é apresentada a arquitetura dos modelos GPT da OpenAI. Em seguida, trabalha com a API do GPT-4 e seus hiper-parâmetros para implementar diversos exemplos de NLP em Python. Por fim, aprendemos como obter melhores resultados com <em>Retrieval Augmented Generation</em> (RAG). No capítulo é implementado um exemplo de RAG com o GPT-4.</p>
<h3>Capítulo 8</h3>
<p><strong>Ajuste fino de modelos OpenAI GPT</strong>, é explorada a técnica de ajuste fino para aprimorar os modelos GPT disponíveis por meio da API. Com o ajuste fino é possível obter resultados de maior qualidade do que apenas com prompts. Além disso, permite treinar o modelo com mais exemplos do que caberia em um prompt e economizar tokens devido a prompts mais curtos. Essa abordagem também reduz a latência das respostas nas solicitações. Os modelos da OpenAI já foram treinados em uma grande quantidade de texto, mas o fine tuning permite adaptá-los para tarefas em áreas de negócios específicas.</p>
<h3>Capítulo 9</h3>
<p><strong>Desvendando a caixa preta com ferramentas interpretáveis</strong>, o autor trás detalhes dos modelos de transformer, interpretando e visualizando suas tarefas. Apresenta o <em>BertViz</em> para visualizar as camadas de atenção, o <em>Language Interpretability Tool</em> (LIT) para rodar uma análise de componentes principais (PCA) e o <em>LIME</em> para visualizar os transformers por meio do aprendizado de dicionário. Além disso, os <strong>LLMs da OpenAI</strong> vão mais a fundo, permitindo visualizar a atividade de um neurônio em um transformer de forma interativa.</p>
<h3>Capítulo 10</h3>
<p>Em <strong>Investigando o papel dos Tokenizadores na formação de Modelos de transformadores</strong>, apresenta inicialmente as práticas recomendadas independentes de tokenizadores para avaliar a qualidade de um tokenizador. Descreve as diretrizes básicas para conjuntos de dados e tokenizadores sob a perspectiva da tokenização. O autor explora a abordagem de tokenizadores de palavras e subpalavras, e demonstra como um tokenizador pode moldar o treinamento e o desempenho de um modelo de transformers.</p>
<h3>Capítulo 11</h3>
<p>O capítulo com titulo <strong>Alavancando os incorporamentos de LLM como alternativa ao ajuste fino</strong>, explora por que a busca com incorporamento pode ser, às vezes, uma alternativa eficaz ao ajuste fino. São discutidas as vantagens e limitações dessa abordagem. Além disso, são explicados os fundamentos dos incorporamentos de texto. Para solidificar o aprendizado, implementa um código Python que lê um arquivo, o tokeniza e o incorpora com as bibliotecas <em>Gensim</em> e <em>Word2Vec</em>. Para concluir, você terá trabalhado desde o design de prompts até a engenharia avançada de prompts, utilizando incorporamentos para a RAG.</p>
<h3>Capítulo 12</h3>
<p><strong>Rumo à rotulagem de papéis semânticos sem sintaxe com o ChatGPT e o GPT-4</strong> explora os conceitos de modelos estocásticos sem sintaxe e não repetitivos. Utilizam o ChatGPT Plus com o GPT-4 para executar amostras de <em>Semantic Role Labeling</em> (SRL), com exemplos simples e complexos. Apresenta como um modelo de propósito geral reage às solicitações de SRL.</p>
<h3>Capítulo 13</h3>
<p>Em <strong>Sumarização com T5 e ChatGPT</strong>, o autor explica os conceitos e a arquitetura do modelo de transformer T5. Utiliza o T5 para resumir documentos com modelos da <em>Hugging Face</em>. Os exemplos neste capítulo estão relacionados a áreas jurídicas e médicas, buscando explorar a sumarização em domínios específicos do conhecimento. Também trás uma comparação das abordagens de sumarização entre o T5 e o ChatGPT.</p>
<h3>Capítulo 14</h3>
<p><strong>Explorando os LLMs de ponta com o Vertex AI e o PaLM 2</strong>. Apresenta o <em>Google PaLM 2</em>, um modelo com 540 bilhões de parâmetros. O PaLM 2 é um modelo autoregressivo, com ativação densa e decodificador. Explora como o PaLM 2 pode executar diversas tarefas como chat, classificação e geração de texto. O capítulo implementa a API do PaLM 2 dontro da Vertex AI, para várias tarefas de NLP, incluindo mas não se limitando, à perguntas e respostas e sumarização. FInaliza o capítulo, inclusive, com o processo de ajuste fino no Vertex AI.</p>
<h3>Capítulo 15</h3>
<p>Em <strong>Protegendo os gigantes: mitigando riscos em LLMs</strong>, exploram os riscos associados aos <em>Large Language Models</em> (LLMs) e estratégias para tentar mitigar os riscos. Estes são alguns riscos e abordagens de mitigação:</p>
<ol>
<li><strong>Alucinações</strong>: LLMs podem gerar respostas falsas ou incorretas, inegavelmente, levando à desinformação;</li>
<li><strong>Memorização</strong>: LLMs podem memorizar exemplos específicos de seus dados de treinamento, reproduzindo-os literalmente;</li>
<li><strong>Comportamento emergente arriscado</strong>: LLMs podem exibir comportamento inesperado ou prejudicial devido à sua complexidade;</li>
<li><strong>Desinformação</strong>: LLMs podem ocasionalmente gerar conteúdo que dissemina desinformação;</li>
<li><strong>Operações de influência</strong>: Atacantes maliciosos podem explorar LLMs para manipular a opinião pública ou enganar os usuários;</li>
<li><strong>Conteúdo prejudicial</strong>: LLMs podem produzir saídas sobretudo prejudiciais ou ofensivas, e até criminosas;</li>
<li><strong>Ataques adversários (“Jailbreaks”)</strong>: LLMs podem ser vulneráveis a manipulações intencional, comprometendo a integridade do conteúdo gerado.</li>
</ol>
<p>A fim de mitigar esses riscos, empregam técnicas avançadas de engenharia de prompts. Isso inclui a implementação de um modelo de moderação, a manutenção de uma base de conhecimento, a análise de palavras-chave, o uso de pilotos de prompts, a moderação pós-processamento e a alavancagem de incorporamentos, entre outras&#8230;</p>
<h3>Capítulo 16</h3>
<p>O texto <strong>Além do texto: transformers de visão no amanhecer da IA revolucionária</strong>, explora os modelos de transformers que respeitam a estrutura básica do transformer original, mas fazem algumas extensões significativas. Isso gerou poderosos transformers para visão, como o <strong>ViT</strong>, <strong>CLIP</strong>, <strong>DALL-E</strong> e <strong>GPT-4V</strong>. O autor implementa transformer de visão em Python, utilizando o GPT-4V, e expande as interações de texto-para-imagem do DALL-3. É importante destacar que os transformers vão além de texto e chegam até visão computacional.</p>
<h3>Capítulo 17</h3>
<p>Em <strong>Transcendendo a fronteira entre imagem e texto com a Stable Difusion</strong>, o autor explora os modelos de difusão, apresentando o <em>Stable Vision</em>, que, aliás, criou uma onda incrível de imagens realistas que está se espalhando pelo mercado. Explica os princípios, a matemática e implementa um código de <em>Stable Difusion</em> no Keras. O texto analisa cada um dos principais componentes de um modelo de <em>Stable Difusion</em> e examina os códigos do Keras. Para finalizar, também discute um modelo de de texto-para-vídeo com a <em>Hugging Face</em> e um modelo de vídeo-para-texto com o <em><strong>TimeSformer</strong></em> da Meta.</p>
<h3>Capítulo 18</h3>
<p><strong>Hugging Face AutoTrain: Treinando modelos de visão sem codificação</strong> explora como treinar um transformer de visão usando o <strong>AutoTrain</strong> da Hugging Face. O autor explica o processo de treinamento automatizado e o autor comenta os problemas imprevisíveis que demonstram por que até o aprendizado de máquina automatizado requer expertise humana. Este capítulo também trás uma discussão e mostra como explorar os limites de um modelo de visão computacional, independentemente de quão sofisticado ele seja.</p>
<blockquote><p>Este desafio de re-treino automatizado está presente, inclusive, no Machine Learning tradicional. Não é algo exclusivo da IA Generativa</p></blockquote>
<h3>Capítulo 19</h3>
<p><strong>No caminho para a IA geral funcional com o HuggingGPT e seus pares</strong> demonstra como podemos usar modelos encadeados entre plataformas para resolver problemas complexos de classificação de imagens. O autor compara o <strong>HuggingGPT</strong> e o <strong>Google Cloud Vision</strong> no trabalho de identificação de imagens fáceis, difíceis e muito difíceis. Além disso, o capítulo comenta as abordagens clássicas e explora como encadear modelos.</p>
<h3>Capítulo 20</h3>
<p><strong>Além dos prompts projetados por humanos com ideação generativa</strong> explora a ideação generativa, uma abordagem que automatiza a produção de ideias para conteúdo de texto e imagem. A fase de desenvolvimento destas ideações requer especialistas qualificados em IA. Já para o usuário final, a abordagem é uma experiência simples de <em>point and click</em>. O autor discute e nos faz pensar em ideias generativas éticas para empresas sem recursos de marketing, mas não se limita apenas à essa área de atuação.</p>
<p>&nbsp;</p>
<h2>Minha opinião</h2>
<p>Na minha opinião é um material rico para conhecer e aplicar a arquitetura de transformers para texto e visão computacional, codificando com Python. O livro oferece uma visão ampla, porém prática e aplicada, de como a arquitetura funciona e vários detalhes sobre os modelo de linguagem e te visão. É uma leitura densa, e pra mim, vou ter que estudar mais porque achei o assunto complexo. Não é do meu cotidiano trabalhar com GenAI, e por isso quero estudar mais antes de sair falando besteira por ai. As referências e leituras adicionais ajudarão quando eu tiver tempo para aprofundar.</p>
<p>Em linhas gerais recomendo a leitura, principalmente para quem se interessa pelo assunto de Inteligência Artificial. <a href="https://amzn.to/4bh2tOw" target="_blank" rel="noopener">A versão digital está na Amazon por um pouco menos de 250 reais</a> enquanto escrevo esse texto.</p>
<p>&nbsp;</p>
<h2>Transformers para texto e visão computacional</h2>
<p>A atualização do <a href="https://github.com/Denis2054/Transformers-for-NLP-and-Computer-Vision-3rd-Edition" target="_blank" rel="noopener">Github contendo os códigos</a> é frequente, inclusive no momento que posto esse texto, a ultima atualização de código foi ontem 29/04/2024.</p>
<p>&nbsp;</p>
<p>Bons estudos!</p>
<p>O post <a href="https://diegonogare.net/2024/04/transformers-para-texto-e-visao-computacional/">Review do livro &#8220;Transformer for natural language processing and computer vision &#8211; 3rd Edition&#8221;</a> apareceu primeiro em <a href="https://diegonogare.net">Diego Nogare</a>.</p>
]]></content:encoded>
					
		
		
		<post-id xmlns="com-wordpress:feed-additions:1">3872</post-id>	</item>
	</channel>
</rss>
