Review do Livro “Generative AI with Python and PyTorch – 2nd edition”

Aprenda GenAI com Python e PyTorch

Fiz mais um review de livro da Editora Packt, desta vez foi do Generative AI with Python and PyTorch – 2nd edition, escrito por Joseph Babcock e Raghav Bali. É um livro que trás uma abordagem prática , principalmente, para aprender a usar LLM com Python. O livro cobre a construção de aplicações de IA Generativa, tanto para texto quanto para imagem, além de falar do futuro da IA Generativa.

Pode-se considerar um guia completo, bem como, apresenta desde os fundamentos teóricos até a implementação de projetos práticos e relevantes no cenário atual da IA. Diferente da primeira edição (de 2021) que usava TensorFlow, esta nova versão foi totalmente atualizada para PyTorch, que é um dos frameworks mais populares em pesquisa e desenvolvimento de deep learning.

Aprenda a usar LLM com Python

O livro está dividido em 15 capítulos, e é possível identificar implicitamente (diferente de algumas obras da O’Reilly que são explícitos) os agrupamento sobre os tópicos dos capítulos. Coloquei a minha percepção de separação dos grupos e os capítulos dentro destas partes, mas lembre-se, isso é implícito e eu fiz a partir das vozes da minha cabeça.

Parte 1 – Fundamentos

Capítulo 1: Introduction to Generative AI: Drawing data from models

Este capítulo é a base de tudo. O mais interessante aqui é como os autores distinguem de forma clara os modelos generativos dos discriminativos, não apenas na teoria, mas mostrando o porquê de os modelos generativos serem tão poderosos para tarefas como aumento de dados e criação de conteúdo. Esta base estabelece o cenário para todo o resto do livro.

Capítulo 2: Building blocks of deep neural network

Para quem está assumindo que é um capítulo de NoCode/LowCode, contudo, pode mudar essa expectativa! Este capítulo faz o trabalho de um excelente nivelamento de conteúdo. Trás as Redes Neurais desde lá o princípio, explica a ideia do Perceptron e depois do Multi-Layer Perceptron. O ponto alto é que ele não se limita ao básico, mas avança rapidamente para arquiteturas mais robustas como Redes Neurais Convolucionais (CNNs) para visão computacional, e a arquitetura de Transformers, preparando o leitor com o ferramental teórico necessário para entender os modelos que são explicados nos capítulos seguintes.

Parte 2 – Operações com texto

Capítulo 3: The rise of method for text generation

Aqui a jornada prática na geração de texto começa. O interessante é ver a evolução, partindo das representações de palavras (com BagOfWords e Word2Vec) e chegando, principalmente, às redes LSTMs. O capítulo traz um projeto prático de um modelo de linguagem em nível de caractere, permitindo que o leitor sinta os desafios da geração de texto antes de saltar para os modelos mais complexos.

Capítulo 4: NLP 2.0: Using transformers to generate text

Este é um capítulo que desmistifica a tecnologia por trás dos LLMs. O foco, principalmente, é o mecanismo de atenção (attention) e como ele permitiu a criação da arquitetura Transformers. Explica sobre a arquitetura de Encoding, Decoding e Encoding-Decoding. Além disso apresenta aquela imagem conhecida da árvore de evolução dos modelos de NLP que tem no material de Yang et al. (2024).

Yang, J., Jin, H., Tang, R., Han, X., Feng, Q., Jiang, H., Zhong, S., Yin, B. and Hu, X., 2024. Harnessing the power of llms in practice: A survey on chatgpt and beyond. ACM Transactions on Knowledge Discovery from Data18(6), pp.1-32.

Que pode ser acessado diretamente em https://dl.acm.org/doi/full/10.1145/3649506

Árvore de evolução de LLM
Árvore de evolução de LLM

Tem alguns Hands-On para implementação usando modelos como BERT e GPT.

Parte 3 – Operações com LLMs

Capítulo 5: LLM Foundations

Aqui o livro mergulha nos Large Language Models. O ponto de interesse é a abordagem prática de técnicas de treinamento avançadas, como o Instruction Fine-Tuning e o Reinforcement Learning with Human Feedback (RLHF), que são exatamente os métodos usados para refinar modelos como o ChatGPT, inclusive com hands-on pra estas duas técnicas. Há um projeto prático que mostra como aplicar o RLHF, o que é um diferencial enorme.

Capítulo 6: Open-Source LLMs

Este capítulo é relativamente atual (afinal, o livro é de Março/2025 e eu escrevo esse texto em Julho/2025) e relevante. Ele funciona como um guia prático pelo zoológico de LLMs open-source, como Llama, Mixtral e Falcon. O interessante é que ele não apenas lista os modelos, mas discute suas arquiteturas e pontos fortes, capacitando o leitor a escolher o modelo certo para seu projeto sem depender de APIs pagas.

Parte 3.1 – Técnicas para LLMs

Capítulo 7: Prompt Engineering

Mais do que apenas “como conversar com a IA”, este capítulo aborda a engenharia de prompts como uma disciplina técnica. O destaque vai para a exploração de técnicas avançadas como CoT (Chain-of-Thought – Cadeia de Pensamentos) e ReAct (Reasoning in Action – Raciocínio em Ação), mostrando como estruturar prompts para que os LLMs possam resolver problemas complexos passo a passo.

Capítulo 8: LLM Toolbocx

O ponto alto deste capítulo é a introdução à ferramentas que orbitam os LLMs, principalmente LangChain. Ele ensina DEvs a como construir aplicações complexas que integram LLMs com fontes de dados externas, criando sistemas mais especializados nos seus negócios com o uso de Retrieval-Augmented Generation (RAG).

Capítulo 9: LLM Optimization techniques

Treinar e rodar LLMs é caro (Muito caro! Já falei que treinar um LLM é muito caro?). Mas o grande valor deste capítulo é o foco em soluções práticas para este problema (Lembra, treinar um modelo de LLM é caro!). Ele explora técnicas de otimização de fine-tuning, como Parameter Efficient Fine Tuning (PEFT) e Low-Rank Approximation (LoRA), que permitem adaptar modelos enormes com muito menos recursos computacionais, tornando a tecnologia mais acessível para devs e pequenas empresas.

Parte 4 – Aplicações emergentes em GenAI

Capítulo 10: Emerging applications in Generative AI

Este capítulo começa a olhar para o futuro, contudo, trás uma discussão sobre para onde o esta disciplina está indo, explorando novos usos para os LLMs e os avanços que estão na fronteira da pesquisa. Ele serve como uma fonte de inspiração, mostrando o vasto potencial ainda inexplorado (segundo os autores) da IA Generativa.

Parte 5 – Manipulação de Imagens

Capítulo 11: Neural Networks using VAEs

Mudando o foco de texto para imagens, este capítulo apresenta os Variational Autoencoders (VAEs). O mais fascinante é entender como esses modelos aprendem a comprimir dados (como imagens) em uma representação latente e, em seguida, usam essa representação para gerar novos dados. É a base para muitas tarefas de geração e manipulação de imagens. Ah, não se assuste com a parte matemática, é importante para não achar que é tudo mágica!

Parte 5.1 – Gans

Capítulo 12: Image generation with GANs

As Generative Adversarial Networks (GANs) são uma das ideias mais elegantes em Machine Learning. Principalmente porque este capítulo explica a dinâmica de “competição” entre o gerador e o discriminador. Ele vai além da teoria, mostrando como implementar uma GAN na prática para gerar imagens realistas.

Se quiser ver uma GAN, com dígitos numéricos, dá uma olhada aqui no meu Github.

Capítulo 13: Style transfer with GANs

Este capítulo é interessante, dá pra fazer várias coisas divertidas com transferência de estilos em visão computacional. Os autores mostram, principalmente, uma aplicação com GANs para transferência de estilo. Você conseguirá criar um modelo que pode pegar o conteúdo de uma foto e, do mesmo modo, redesenhá-lo no estilo de um pintor famoso, como Van Gogh, uma demonstração visualmente impressionante do poder desses modelos. Ah, a discussão sobre direitos autorais não entra aqui no jogo!

Capítulo 14: Deep fake with GANs

Apesar do nome remeter à coisas ruins (principalmente por influência dos portais de notícias que vendem caos pra conseguir uns cliques a mais nas matérias), a tecnologia de deepfake tem aplicações legítimas. Este capítulo permite entender a arquitetura por trás da troca de rostos em vídeos. Ele aborda a tecnologia de forma teórica, mas, mostrando como as GANs são usadas para manipulação de imagem em um nível avançado e também discutindo as implicações éticas. Tem parte de código para você reproduzir no seu ambiente com GPUs.

Parte 5.2 – Arquitetura Diffusion

Capítulo 15: Diffusion modelos and AI art

Este capítulo aborda a tecnologia por trás de geradores de imagem como DALL-E 2 e arquitetura Stable Diffusion. Contudo, o mais interessante é desmistificar o processo de difusão, que funciona “destruindo” e depois “reconstruindo” uma imagem. Ele traz a teoria e a prática dos modelos que definem o estado da arte na geração de imagens no período de escrita do livro (publicado em março/2025).

Para encerrar

Minha impressão do livro é grande, principalmente, porque cobre muitas técnicas e apresenta código para reproduzir nos nossos ambiente. Com isso, você aprende a usar LLM com Python.  Apresenta técnicas para texto, bem como, para imagem.

A versão digital deste livro, na Amazon, está um pouco menos de R$200. Mas na Packt, você consegue comprá-lo por volta de R$80.

Bons estudos e que sua jornada de aprendizado seja tão enriquecedora quanto as soluções que você pode criar com IA Generativa!