Arquivos LLM - Diego Nogare

Arquitetura de IA Agêntica – Guia de implementação e Frameworks

Diego Nogare — Mon, 23 Feb 2026 15:45:55 +0000

A Arquitetura de IA Agêntica representa um salto necessário para que empresas transformem modelos de linguagem estáticos em sistemas dinâmicos capazes de executar ações complexas com autonomia. Já cansei de falar disso, mas no cenário atual, onde a tecnologia avança rapidamente, entender essa tendência é ponto central porque ela diferencia o simples processamento de dados da execução estratégica de tarefas operacionais ponta a ponta. Diferente dos sistemas tradicionais, a Arquitetura de IA Agêntica integra planejamento, memória e uso de ferramentas para resolver problemas de negócio sem intervenção humana constante. Neste texto quero lhe apresentar alternativas de frameworks, tanto da Microsoft quanto alternativas de código aberto, para guiar os times de desenvolvedores e gestores na implementação prática dessas IA Agênticas.

A diferença entre Agentes de IA e IA Agêntica

Muitas pessoas confundem o termo Agente de IA com o conceito mais amplo de IA Agêntica, mas conhecer essa distinção técnica é fundamental. Bom, um agente individual é, geralmente, uma implementação de um modelo de linguagem (LLM) configurado com instruções específicas para uma tarefa única (expliquei sobre isso aqui, aqui e aqui). Em contrapartida, a IA Agêntica refere-se ao design de sistemas onde múltiplos agentes trabalham em conjunto e colaboração, planejam e utilizam ferramentas externas de forma orquestrada.

Enquanto o primeiro funciona como um assistente de chat aprimorado, a arquitetura agêntica opera como uma equipe de especialistas digitais coordenados. Essa é a principal diferença. Esses sistemas elaborados possuem ciclos de raciocínio, onde avaliam o resultado de suas próprias ações antes de prosseguirem para o próximo passo. Consequentemente, a robustez dessa abordagem permite que as empresas automatizem processos que exigem julgamento e adaptação em tempo real. Não podemos ser ingênuos em pensar que é só dar controle total para um Agente ou conjunto deles que tudo estará seguro. Não, não está! É preciso monitorar e controlar as ações para que nada saia do controle. Inclusive, em situações mais delicadas como processos financeiros, é recomendado ter uma supervisão humana.

O mercado está migrando rapidamente para essa visão mais sistêmica, pois ela resolve as limitações de contextos curtos e respostas puramente textuais. Para implementar uma Arquitetura de IA Agêntica, deve-se ter um pensamento estruturado sobre como os componentes de software se comunicam entre si. Essa maturidade arquitetural é o que separa um protótipo experimental de uma solução de nível empresarial confiável. E aqui entra um outro risco. Muitas pessoas sem conhecimento de Tecnologia estão fazendo seus produtos com Vibe Coding e acabam abrindo brechas de segurança por desconhecimento da área.

A arquitetura de referência da Microsoft, o Framework AutoGen

Para materializar esses conceitos, a Microsoft Research introduziu o framework AutoGen lá em 2024. Ele se tornou a principal referência acadêmica e prática para sistemas multiagentes. A arquitetura original do AutoGen propõe que os agentes sejam entidades capazes de conversar entre si para resolver desafios específicos. Segundo a documentação oficial da Microsoft, esse modelo permite que desenvolvedores criem fluxos de trabalho onde um agente “programador” escreve código e um agente “revisor” valida a execução.

A implementação dessa solução começa com a definição de funções claras para cada agente dentro do ecossistema corporativo. Você deve configurar um orquestrador que gerencie o histórico da conversa e a transferência de contexto entre as diferentes personas de IA. Além disso, a arquitetura da Microsoft enfatiza a importância de permitir a intervenção humana em pontos críticos, garantindo segurança e supervisão.

Inclusive, mais recentemente, a Microsoft criou o Agent Framework para ser o substituto natural do AutoGen. Eles publicaram um guia completo de migração para ajudar os desenvolvedores nesta jornada.

Implementar o AutoGen (ou o Agent Framework) envolve o uso de Python para definir as capacidades de cada componente, conectando-os a APIs de modelos como os mais modernos da OpenAI. As empresas utilizam essa estrutura para acelerar o desenvolvimento de software e a análise de dados complexos de forma automatizada. Como há uma padronização nesta tarefa, a sacada da Microsoft foi oferecer um caminho seguro para empresas que buscam alta performance com integração nativa no Azure.

Alternativas e o ecossistema Open Source

Embora a Microsoft esteja liderando essas discussões com soluções robustas e integradas nativamente ao Office, o universo de código aberto oferece alternativas poderosas para quem busca flexibilidade e controle total. Frameworks como CrewAI e LangGraph ganharam tração por simplificar a orquestração de agentes em ambientes de produção. O CrewAI, por exemplo, foca na criação de “equipes” onde cada agente possui um papel, um objetivo e uma história de fundo específica. O LangGraph, que faz parte do ecossistema LangChain, permite criar grafos de estado cíclicos, o que é essencial para processos que exigem repetição e refinamento.

Essas ferramentas permitem que os desenvolvedores evitem o lock-in de algum fornecedor, além de personalizar totalmente o comportamento dos sistemas. Ao adotar essas bibliotecas, as equipes técnicas conseguem iterar rapidamente sem depender exclusivamente de infraestruturas proprietárias caras.

A comunidade Open Source também disponibiliza modelos de linguagem menores (Small Language Models – SLM) que podem ser executados localmente para tarefas agênticas específicas. Geralmente os SLM são focados em uma vertical ou nicho, se tornando super especializados naquela tarefa. Essa abordagem reduz custos de API e aumenta a privacidade dos dados sensíveis da organização durante o processamento.

Implementação prática com os desafios de engenharia

Para implementar uma Arquitetura de IA Agêntica com sucesso, a equipe de desenvolvimento deve focar na construção de ferramentas que os agentes possam consumir. Um agente só é útil se ele puder acessar bancos de dados, APIs de terceiros, sistemas de arquivos internos de forma segura, ou outra fonte de dados que possa fazer sentido para o trabalho. O desenvolvimento de “skills”, ou funções bem documentadas, é o que dá poder de execução aos modelos de inteligência artificial. Além disso, o monitoramento e o debugging de sistemas multiagentes apresentam uma complexidade muito superior aos chatbots tradicionais.

É necessário rastrear não apenas a resposta final, mas toda a sequência de interações e raciocínios que levaram a essa conclusão. Sem ferramentas de observabilidade adequadas, os sistemas agênticos podem entrar em loops infinitos de execução ou gerar custos inesperados de processamento. Isso é um risco, uma vez que o custo marginal de uso dos agentes está totalmente conectado à quantidade de tokens utilizados. Outro ponto crítico é o gerenciamento da memória de longo prazo, permitindo que os agentes “lembrem” de interações passadas para melhorar decisões futuras. A integração de bancos de dados vetoriais torna-se indispensável para fornecer esse contexto histórico de forma eficiente e rápida.

O impacto no mercado e na sociedade

Para os desenvolvedores que irão trabalhar em projetos de IA Agêntica, isso significa uma mudança de paradigma. Eles saem do papel de codificadores de lógica explícita para orquestradores de inteligência distribuída. O impacto no mercado de trabalho será profundo, pois tarefas de coordenação rotineira serão delegadas a esses ecossistemas de agentes autônomos. Muita coisa que é burocrática ou que “não é trabalho”, vai passar para esses agentes. Mas o processo intelectual, de pensar no projeto de ponta a ponta, ainda é uma tarefa exclusiva de humanos.

No setor financeiro, por exemplo, sistemas agênticos já realizam análises de risco, auditorias de conformidade e execuções de ordens simultaneamente. Na saúde, eles podem coordenar o histórico do paciente com as últimas pesquisas científicas para sugerir protocolos de tratamento personalizados. Essa capacidade de agir sobre a informação, e não apenas resumi-la, aumenta muito o valor do uso de IA. Mas veja, tanto no setor financeiro quanto na saúde, a supervisão humana para determinadas atividades ainda é fundamental para garantir segurança, auditoria e transparência para os usuários.

Entretanto, esse avanço traz responsabilidades éticas e de segurança cibernética para os times de tecnologia. É desafiador garantir que agentes autônomos não tomem decisões prejudiciais para o cliente ou para o negócio, como também não acessem informações privilegiadas ou sensíveis indevidamente. Este é o novo grande desafio da segunrança/governança de TI.

Comparativo de esforço entre solução proprietária vs. Open Source

A decisão entre utilizar produtos proprietários ou investir em frameworks Open Source passa por uma análise criteriosa de custo total (Total Cost of Ownership – TCO), retorno sobre o investimento (Return on Investment – ROI) e tempo para colocar o produto na rua (Time to Market).

As soluções da Microsoft, que são proprietárias, oferecem um tempo de lançamento mais curto devido à integração pronta com o Office e suporte técnico. O investimento inicial pode ser maior em termos de licenciamento, mas o custo operacional é reduzido pela facilidade de manutenção e escalabilidade automática. Por outro lado, o uso de ferramentas Open Source, como CrewAI ou LangGraph, demandam um time técnico mais sênior e especializado, além de um esforço maior para construir e manter a infraestrutura própria.

O TCO pode parecer menor inicialmente, mas os custos ocultos de integração, segurança e atualizações constantes devem ser considerados no longo prazo. Contudo, o ROI de soluções abertas pode ser superior para empresas que possuem casos de uso altamente específicos e necessitam de personalização extrema. É a aplicação na prática da Estratégia de Make or Buy.

Pra resumir… Se o objetivo é uma implementação rápida e segura em um ambiente corporativo já estabelecido, a Microsoft tem vantagem. Se a prioridade é o controle total da propriedade intelectual e a economia em escala de tokens, o caminho Open Source pode ser o mais indicado. O problema de negócio central hoje não é apenas adotar IA, mas escolher a arquitetura que equilibre agilidade operacional com sustentabilidade financeira para garantir que a inovação não se torne um passivo técnico. Comece pelo problema, não pela solução!

Imagem de capa criado com o Google Nano Banana 3, com o prompt: Faça um diagrama representando a Arquitetura de IA Agêntica em um ambiente corporativo moderno em formato de Doogle. Utilize uma folha de caderno como background e os traços devem ser de caneta esferográfica azul. A composição deve mostrar um diagrama de fluxo sofisticado e minimalista, onde módulos geométricos representam agentes especializados (Planejador, Executor, Revisor). Linhas de dados finas conectam esses módulos a um núcleo central de memória, deve ter a ícones discretos de ferramentas externas (nuvem, bancos de dados, código) desenhados no estilo Doogle. Não devem haver textos além dos agentes especialisados de Planejador, Executor e Revisor. Garanta um estilo de Technical Art, mantendo o rigor científico e técnico do diagrama.

O post Arquitetura de IA Agêntica – Guia de implementação e Frameworks apareceu primeiro em Diego Nogare.

Review do Livro “Generative AI with Python and PyTorch – 2nd edition”

Diego Nogare — Wed, 02 Jul 2025 20:12:49 +0000

Fiz mais um review de livro da Editora Packt, desta vez foi do Generative AI with Python and PyTorch – 2nd edition, escrito por Joseph Babcock e Raghav Bali. É um livro que trás uma abordagem prática , principalmente, para aprender a usar LLM com Python. O livro cobre a construção de aplicações de IA Generativa, tanto para texto quanto para imagem, além de falar do futuro da IA Generativa.

Pode-se considerar um guia completo, bem como, apresenta desde os fundamentos teóricos até a implementação de projetos práticos e relevantes no cenário atual da IA. Diferente da primeira edição (de 2021) que usava TensorFlow, esta nova versão foi totalmente atualizada para PyTorch, que é um dos frameworks mais populares em pesquisa e desenvolvimento de deep learning.

Aprenda a usar LLM com Python

O livro está dividido em 15 capítulos, e é possível identificar implicitamente (diferente de algumas obras da O’Reilly que são explícitos) os agrupamento sobre os tópicos dos capítulos. Coloquei a minha percepção de separação dos grupos e os capítulos dentro destas partes, mas lembre-se, isso é implícito e eu fiz a partir das vozes da minha cabeça.

Parte 1 – Fundamentos

Capítulo 1: Introduction to Generative AI: Drawing data from models

Este capítulo é a base de tudo. O mais interessante aqui é como os autores distinguem de forma clara os modelos generativos dos discriminativos, não apenas na teoria, mas mostrando o porquê de os modelos generativos serem tão poderosos para tarefas como aumento de dados e criação de conteúdo. Esta base estabelece o cenário para todo o resto do livro.

Capítulo 2: Building blocks of deep neural network

Para quem está assumindo que é um capítulo de NoCode/LowCode, contudo, pode mudar essa expectativa! Este capítulo faz o trabalho de um excelente nivelamento de conteúdo. Trás as Redes Neurais desde lá o princípio, explica a ideia do Perceptron e depois do Multi-Layer Perceptron. O ponto alto é que ele não se limita ao básico, mas avança rapidamente para arquiteturas mais robustas como Redes Neurais Convolucionais (CNNs) para visão computacional, e a arquitetura de Transformers, preparando o leitor com o ferramental teórico necessário para entender os modelos que são explicados nos capítulos seguintes.

Parte 2 – Operações com texto

Capítulo 3: The rise of method for text generation

Aqui a jornada prática na geração de texto começa. O interessante é ver a evolução, partindo das representações de palavras (com BagOfWords e Word2Vec) e chegando, principalmente, às redes LSTMs. O capítulo traz um projeto prático de um modelo de linguagem em nível de caractere, permitindo que o leitor sinta os desafios da geração de texto antes de saltar para os modelos mais complexos.

Capítulo 4: NLP 2.0: Using transformers to generate text

Este é um capítulo que desmistifica a tecnologia por trás dos LLMs. O foco, principalmente, é o mecanismo de atenção (attention) e como ele permitiu a criação da arquitetura Transformers. Explica sobre a arquitetura de Encoding, Decoding e Encoding-Decoding. Além disso apresenta aquela imagem conhecida da árvore de evolução dos modelos de NLP que tem no material de Yang et al. (2024).

Yang, J., Jin, H., Tang, R., Han, X., Feng, Q., Jiang, H., Zhong, S., Yin, B. and Hu, X., 2024. Harnessing the power of llms in practice: A survey on chatgpt and beyond. ACM Transactions on Knowledge Discovery from Data, 18(6), pp.1-32.

Que pode ser acessado diretamente em https://dl.acm.org/doi/full/10.1145/3649506

Árvore de evolução de LLM

Tem alguns Hands-On para implementação usando modelos como BERT e GPT.

Parte 3 – Operações com LLMs

Capítulo 5: LLM Foundations

Aqui o livro mergulha nos Large Language Models. O ponto de interesse é a abordagem prática de técnicas de treinamento avançadas, como o Instruction Fine-Tuning e o Reinforcement Learning with Human Feedback (RLHF), que são exatamente os métodos usados para refinar modelos como o ChatGPT, inclusive com hands-on pra estas duas técnicas. Há um projeto prático que mostra como aplicar o RLHF, o que é um diferencial enorme.

Capítulo 6: Open-Source LLMs

Este capítulo é relativamente atual (afinal, o livro é de Março/2025 e eu escrevo esse texto em Julho/2025) e relevante. Ele funciona como um guia prático pelo zoológico de LLMs open-source, como Llama, Mixtral e Falcon. O interessante é que ele não apenas lista os modelos, mas discute suas arquiteturas e pontos fortes, capacitando o leitor a escolher o modelo certo para seu projeto sem depender de APIs pagas.

Parte 3.1 – Técnicas para LLMs

Capítulo 7: Prompt Engineering

Mais do que apenas “como conversar com a IA”, este capítulo aborda a engenharia de prompts como uma disciplina técnica. O destaque vai para a exploração de técnicas avançadas como CoT (Chain-of-Thought – Cadeia de Pensamentos) e ReAct (Reasoning in Action – Raciocínio em Ação), mostrando como estruturar prompts para que os LLMs possam resolver problemas complexos passo a passo.

Capítulo 8: LLM Toolbocx

O ponto alto deste capítulo é a introdução à ferramentas que orbitam os LLMs, principalmente LangChain. Ele ensina DEvs a como construir aplicações complexas que integram LLMs com fontes de dados externas, criando sistemas mais especializados nos seus negócios com o uso de Retrieval-Augmented Generation (RAG).

Capítulo 9: LLM Optimization techniques

Treinar e rodar LLMs é caro (Muito caro! Já falei que treinar um LLM é muito caro?). Mas o grande valor deste capítulo é o foco em soluções práticas para este problema (Lembra, treinar um modelo de LLM é caro!). Ele explora técnicas de otimização de fine-tuning, como Parameter Efficient Fine Tuning (PEFT) e Low-Rank Approximation (LoRA), que permitem adaptar modelos enormes com muito menos recursos computacionais, tornando a tecnologia mais acessível para devs e pequenas empresas.

Parte 4 – Aplicações emergentes em GenAI

Capítulo 10: Emerging applications in Generative AI

Este capítulo começa a olhar para o futuro, contudo, trás uma discussão sobre para onde o esta disciplina está indo, explorando novos usos para os LLMs e os avanços que estão na fronteira da pesquisa. Ele serve como uma fonte de inspiração, mostrando o vasto potencial ainda inexplorado (segundo os autores) da IA Generativa.

Parte 5 – Manipulação de Imagens

Capítulo 11: Neural Networks using VAEs

Mudando o foco de texto para imagens, este capítulo apresenta os Variational Autoencoders (VAEs). O mais fascinante é entender como esses modelos aprendem a comprimir dados (como imagens) em uma representação latente e, em seguida, usam essa representação para gerar novos dados. É a base para muitas tarefas de geração e manipulação de imagens. Ah, não se assuste com a parte matemática, é importante para não achar que é tudo mágica!

Parte 5.1 – Gans

Capítulo 12: Image generation with GANs

As Generative Adversarial Networks (GANs) são uma das ideias mais elegantes em Machine Learning. Principalmente porque este capítulo explica a dinâmica de “competição” entre o gerador e o discriminador. Ele vai além da teoria, mostrando como implementar uma GAN na prática para gerar imagens realistas.

Se quiser ver uma GAN, com dígitos numéricos, dá uma olhada aqui no meu Github.

Capítulo 13: Style transfer with GANs

Este capítulo é interessante, dá pra fazer várias coisas divertidas com transferência de estilos em visão computacional. Os autores mostram, principalmente, uma aplicação com GANs para transferência de estilo. Você conseguirá criar um modelo que pode pegar o conteúdo de uma foto e, do mesmo modo, redesenhá-lo no estilo de um pintor famoso, como Van Gogh, uma demonstração visualmente impressionante do poder desses modelos. Ah, a discussão sobre direitos autorais não entra aqui no jogo!

Capítulo 14: Deep fake with GANs

Apesar do nome remeter à coisas ruins (principalmente por influência dos portais de notícias que vendem caos pra conseguir uns cliques a mais nas matérias), a tecnologia de deepfake tem aplicações legítimas. Este capítulo permite entender a arquitetura por trás da troca de rostos em vídeos. Ele aborda a tecnologia de forma teórica, mas, mostrando como as GANs são usadas para manipulação de imagem em um nível avançado e também discutindo as implicações éticas. Tem parte de código para você reproduzir no seu ambiente com GPUs.

Parte 5.2 – Arquitetura Diffusion

Capítulo 15: Diffusion modelos and AI art

Este capítulo aborda a tecnologia por trás de geradores de imagem como DALL-E 2 e arquitetura Stable Diffusion. Contudo, o mais interessante é desmistificar o processo de difusão, que funciona “destruindo” e depois “reconstruindo” uma imagem. Ele traz a teoria e a prática dos modelos que definem o estado da arte na geração de imagens no período de escrita do livro (publicado em março/2025).

Para encerrar

Minha impressão do livro é grande, principalmente, porque cobre muitas técnicas e apresenta código para reproduzir nos nossos ambiente. Com isso, você aprende a usar LLM com Python. Apresenta técnicas para texto, bem como, para imagem.

A versão digital deste livro, na Amazon, está um pouco menos de R$200. Mas na Packt, você consegue comprá-lo por volta de R$80.

Bons estudos e que sua jornada de aprendizado seja tão enriquecedora quanto as soluções que você pode criar com IA Generativa!

O post Review do Livro “Generative AI with Python and PyTorch – 2nd edition” apareceu primeiro em Diego Nogare.

Avaliação de agentes e sistemas multiagentes de LLM

Diego Nogare — Mon, 03 Feb 2025 02:12:24 +0000

A crescente adoção de Large Language Models (LLMs) está impactando o mercado, todos profissionais de TI que não estivessem presos em uma caverna sem internet nestes últimos meses tendem a concordar com isso. No entanto, a combinação de múltiplos agentes baseados em LLMs levanta desafios únicos, e por sinal, bem complexos! No modelo tradicional de Machine Learning sempre validamos os modelos com métricas de avaliação de performance como a matriz de confusão, mas, como medir a eficiência desses sistemas de agentes ou multiagentes de LLM?

Avaliar um único LLM já exige métricas robustas, porém um sistema multiagente adiciona ainda mais camadas de complexidade. Cada agente pode desempenhar papéis diferentes, interagir de formas variadas e impactar o resultado final do sistema.

Quero explorar, e te apresentar, por que a medição é fundamental, além de comentar sobre os desafios envolvidos e as diferenças entre um LLM isolado e um sistema multiagente, como também, falar das principais métricas de avaliação formais e também dos métodos empíricos.

Por que medir a eficiência de sistemas multiagentes?

Medir o desempenho de sistemas multiagentes baseados em LLMs é peça importante para validar sua eficácia em aplicações reais. Diferente de um único modelo de linguagem, um sistema multiagente pode envolver diversos componentes colaborativos. Contudo, se não forem avaliados corretamente, esses sistemas podem apresentar problemas como redundância, latência e inconsistências nos resultados.

Outro fator crítico é a otimização de recursos computacionais. Sistemas multiagentes podem consumir alto poder computacional, demandando otimização para evitar desperdício de capacidade de processamento, e afinal, jogar dinheiro fora.
O impacto na experiência do usuário também é relevante. Chatbots avançados, assistentes de IA e automação de processos já usam sistemas multiagentes. Se a colaboração entre agentes não for fluida e eficaz, os usuários podem enfrentar respostas incoerentes, atrasos ou falhas no fluxo da interação. Além dos riscos que citei no finalzinho do primeiro parágrafo.

Desafios na avaliação de sistemas multiagentes

Um dos principais desafios é a complexidade das interações entre agentes. Ao contrário de um LLM isolado, um sistema multiagente precisa considerar não apenas a precisão das respostas, mas, também, a fluidez da comunicação entre os agentes. Existem várias estratégias que ajudam a criar sistemas multiagentes.

Outro desafio é a variabilidade dos cenários de teste. Diferentes aplicações exigem diferentes abordagens de avaliação. Por exemplo, a consistência das respostas e capacidade de adaptação ao contexto devem ser testados em sistemas voltados para atendimento ao cliente. Já agentes usados para geração de código precisam ser avaliados pela exatidão e eficiência na colaboração além de entregar código que compila.

A escalabilidade também é um ponto crítico, contudo, a medida que mais agentes são adicionados no fluxo, o desempenho pode ser impactado de maneiras imprevisíveis. Uma medição eficaz precisa metrificar como a escalabilidade afeta latência, uso de memória e qualidade das respostas.

Diferenças entre medir um único LLM e um sistema de multiagentes

A avaliação de um único LLM geralmente se concentra na precisão das respostas, fluência textual e eficiência computacional, contudo, deixa outras métricas de fora. Por exemplo, as métricas tradicionais incluem perplexidade, Bilingual Evaluation Understudy (BLEU) e Metric for Evaluation of Translation with Explicit Ordering (METEOR), que analisam a qualidade do texto gerado. No entanto, esses critérios não são suficientes para um sistema multiagente.

Em um sistema de agentes colaborativos, a interdependência entre agentes deve ser considerada. Isso significa que métricas como tempo de resposta em interações múltiplas, coerência global da conversa e resiliência a falhas se tornam mais importantes. Se um agente falha ou gera uma resposta inconsistente, a avaliação precisa medir como o sistema como um todo reage e compensa essas falhas.
Além disso, o comportamento emergente é um fator relevante. Em sistemas multiagentes, os agentes podem desenvolver padrões de interação que não foram necessariamente previstos. Garantir a adaptabilidade do sistema é essencial para assegurar que as respostas geradas sejam úteis e confiáveis.

Mas afinal, e as métricas de avaliação?!

Principais métricas para avaliação formal

Diferentes métricas são utilizadas para avaliação de sistemas multiagentes de LLM, contudo, algumas das mais relevantes são:

Latência: Mede o tempo de resposta do sistema ao longo de múltiplas interações.
Coerência conversacional: Avalia se as respostas entre diferentes agentes mantêm um fluxo lógico e coerente.
Taxa de erro: Identifica falhas na comunicação e respostas inconsistentes geradas pelos agentes.
Uso de recursos computacionais: Monitora a eficiência em termos de poder computacional, medindo consumo de CPU, GPU, memória, etc.
Capacidade de Escalabilidade: Analisa como o desempenho do sistema se altera conforme novos agentes são adicionados.
Resiliência: Avalia a capacidade do sistema de se adaptar a falhas de agentes individuais.

Métodos para avaliação empírica

As avaliações empíricas consistem principalmente em testes simulados e avaliações em ambientes reais, e em algumas situações pontuais, podem considerar benchmarks específicos de nicho.

Os testes simulados permitem modelar interações entre agentes em cenários controlados, entretanto, esses testes ajudam a identificar falhas antes da implementação prática.

Já a avaliação em ambiente real é usada para validar a aplicabilidade e integração do sistema. Testes com usuários reais, análise de feedback e monitoramento contínuo ajudam a garantir que o desempenho se mantem adequado ao longo do tempo.

Por fim, os benchmarks específicos de nicho oferecem comparações padronizadas entre diferentes soluções de vários outros sistemas, permitindo identificar os pontos fortes e fracos de cada abordagem, possibilitando comparar a avaliação de sistemas multiagentes de LLM que você está fazendo com outros sistemas do mesmo contexto.

Para encerrar

É fundamental lembrar que não existe uma única métrica mágica que resolva tudo! Você tem as métricas formais, como correspondência exata e distâncias de string, que são ótimas para obter medições claras e objetivas, especialmente quando você precisa verificar se uma resposta é factualmente correta ou quão próximos dois textos estão.

Depois, também tem as métricas empíricas, que mergulham nas coisas mais interpretativas, como o quão bem uma IA segue instruções, quão relevantes e coerentes são suas respostas e até mesmo se ela está usando linguagem tóxica.

Como estamos falando de sistemas multiagentes, você pode até mesmo colocar uma IA como jurada para fazer as coisas rapidamente. Mas mesmo assim, é importante estar ciente de que até os agentes de IA podem ter vieses e impactar seu projeto!

Para aprofundar nas coisas que escrevi no texto, recomendo a leitura do capítulo 12 do livro Generative AI on Google Cloud with LangChain; e o Capítulo 3 do livro AI Engineering;

Imagem de capa criada com Grok, a partir do prompt: “Gere uma imagem onde o Agente Smith do filme Matrix está fazendo uma avaliação em um tablet, ele está com expressão de preocupado. Utilize o cenário apropriado, destaque o rosto do agente e dê ênfase para a avaliação que ele está fazendo. Utilize estilo de ilustração digital de cartoon”

O post Avaliação de agentes e sistemas multiagentes de LLM apareceu primeiro em Diego Nogare.

Estratégias de construção de agentes e sistemas multiagentes com LLM

Diego Nogare — Mon, 27 Jan 2025 04:00:25 +0000

A construção de agentes e sistemas multiagentes com LLM tem atraído atenção significativa na indústria de tecnologia. Porém, tão promissores quanto desafiadores, esses sistemas estão dominando as estratégias de grandes empresas para aplicações que vão de assistentes virtuais inteligentes a robôs autônomos em ambientes complexos.

Para criar soluções robustas, é essencial entender as metodologias, ferramentas e frameworks que possibilitam sua implementação. Além disso, é necessário lidar com desafios de coordenação entre agentes, segurança e escalabilidade. Neste texto, trago algumas das principais técnicas, recursos disponíveis no mercado e casos práticos públicos que ilustram o potencial e as dificuldades do desenvolvimento de sistemas de agentes e multiagentes baseados em LLM.

Construção de agentes e sistemas multiagentes

A criação de sistemas de agentes e multiagentes exige técnicas robustas que garantam que vários agentes interajam de forma eficiente e coordenada. Entre as abordagens mais comuns, é possível encontrar:

Aprendizado por Reforço MultiAgente (MARL): Essa técnica permite que os agentes aprendam por meio de interações com o ambiente e uns com os outros. Li (desculpe, não lembro onde foi) que sistemas como o Google DeepMind utilizam MARL para coordenar múltiplos agentes em jogos e simulações.
Planejamento Distribuído: Usado em situações onde os agentes devem trabalhar em conjunto para atingir objetivos comuns. Isso é visto em sistemas como redes de drones, que inclusive são lindos. Se não sabe do que estou falando, veja esse vídeo de um show recente em BH com direito a queijo e cafézin!
Teoria dos Jogos: Frequentemente aplicada para modelar e prever comportamentos de agentes em cenários competitivos ou cooperativos.
NLP Avançado: Modelos como GPT-4, Llama e demais LLMs de mercado facilitam a interação linguística entre agentes, permitindo comunicação clara e compreensão contextual.

Essas técnicas, apesar de algumas não serem exclusivamente pertencentes à sistemas de agentes ou multiagentes, permitem criar projetos que não apenas funcionam de forma independente, mas também colaboram para resolver problemas complexos.

Ferramentas e frameworks populares

O ecossistema de ferramentas para construir sistemas de agentes e multiagentes com LLM é diversificado, existem váriuas opções para estudar, o que incluem:

LangChain: Este framework é amplamente usado para criar cadeias de agentes que processam e interpretam dados com base em LLMs.
Hugging Face: Fornece uma ampla biblioteca de modelos de linguagem prontos para integração em sistemas.
OpenAI API: Acessar modelos como o GPT-4 via API permite desenvolver agentes personalizados com capacidades linguísticas sofisticadas.

Desafios no desenvolvimento de agentes e multi-agentes

Apesar dos avanços, criar agentes ou sistemas multiagentes baseados em LLM ainda apresenta desafios significativos:

Coordenação de agentes: Garantir que os agentes trabalhem em harmonia, sem redundâncias ou conflitos, afinal, é um problema complexo de se resolver.
Custo computacional: O treinamento e a execução de sistemas com LLM exigem recursos computacionais caros, o que, definitivamente, pode ser uma barreira para startups e pequenos desenvolvedores.
Segurança: Agentes mal projetados podem ser vulneráveis a ataques ou mal uso, comprometendo a privacidade e a integridade dos dados e atividades que são planejados para realizar.
Interpretação e transparência: Garantir que as decisões dos agentes sejam compreensíveis é peça chave para aplicações críticas, como as áreas da saúde ou setor financeiro.

Casos práticos de sucesso

Diversos projetos públicos demonstram o potencial dos sistemas multiagentes com LLM:

AlphaStar (DeepMind): Esse sistema multiagente usa LLM e aprendizado por reforço para jogar StarCraft II em nível profissional. Ele destaca o poder da coordenação entre agentes em cenários complexos.
Assistentes Virtuais (Microsoft 365 Copilot): Utilizando sistemas multiagentes para compreender comandos e executar tarefas em aplicativos do pacote office que ajudam a melhorar a produtividade em atividades do cotidiano.
Aplicativos de Saúde (PathAI): Agentes colaboram para analisar dados médicos, auxiliando no diagnóstico de doenças.

Para encerrar

Só pra resumir tudo… primeiramente, a construção de agentes e sistemas multiagentes com LLM representam um dos maiores avanços na automação e inteligência artificial destes últimos tempos, muito influenciado pelas tecnologias de GPT.

Em segundo lugar, ao combinar aprendizado por reforço, ferramentas apropriadas, boas práticas de NLP/LLM e um problema bem definido, é possível superar desafios e criar soluções transformadoras.

No entanto, não podemos deixar de lado aspectos como transparência, segurança e escalabilidade para garantir a adoção ampla e confiável dessas tecnologias.

Quer fazer um Agente usando LangGraph e API da OpenAI? Este link tem um tutorial que ensina o passo-a-passo.

Bons estudos!

Imagem de capa: Fiz um recorte do filme Matrix Reloaded, onde os clones do Agente Smith estão enfrentando o desafio de lutar todos contra Neo

O post Estratégias de construção de agentes e sistemas multiagentes com LLM apareceu primeiro em Diego Nogare.

O que são agentes e sistemas multiagentes de LLM?

Diego Nogare — Mon, 20 Jan 2025 11:30:01 +0000

Os agentes e sistemas multiagentes baseados em LLM (Large Language Models) estão redefinindo a IHC (Interação Humano-Computador). Muito por causa dos avanços significativos em Inteligência Artificial e Machine Learning, esses sistemas estão sendo usados para resolver problemas complexos, desde recomendações personalizadas até a simulação de comportamentos humanos.

Mas o que são, de fato, esses agentes? Em sua essência, agentes são entidades autônomas projetadas para realizar tarefas específicas em um ambiente dinâmico. Quando integrados em sistemas multiagentes, eles colaboram para atingir objetivos mais amplos e complexos. Neste texto, quero compartilhar contigo características desses agentes, como autonomia, reatividade, proatividade e capacidade de socialização, além de destacar aplicações em sistemas de recomendação, simulações, logística e otimização.

Características dos Agentes

Autonomia

A autonomia é uma característica que dá vida aos agentes. Um agente autônomo trabalha de forma independente, tomando decisões sem necessariamente a intervenção humana. Por exemplo, em um sistema de recomendação, o agente pode analisar o histórico do usuário e sugerir conteúdo relevante automaticamente (muito parecido como um modelo a priori, né!). Essa independência não apenas reduz a necessidade de supervisão, mas também aumenta a eficiência, permitindo que o sistema se adapte rapidamente a novas condições.

Talvez esse exemplo da recomendação não tenha sido o melhor, mas imagine um agente trabalhando como um revisor de código em Python. Limite a sua atuação de forma automática para revisar um código que um dev enviou para garantir que segue as regras de codificação da empresa. Ele terá esse, e apenas esse, papel. Nada a mais, nada a menos.

Os modelos de linguagem, com tecnologias de GPT, são outros excelentes exemplos de agentes autônomos. Eles conseguem gerar respostas contextualizadas com base em entradas textuais, sem necessitar de comandos específicos para cada situação. Além disso, a autonomia desses agentes pode ser ajustada para se alinhar a diferentes objetivos de negócios ou necessidades dos usuários.

Reatividade

Reatividade se refere à habilidade do agente de perceber e responder a mudanças em seu ambiente. Isso é fundamental para tarefas que exigem interação em tempo real, como a otimização logística. Imagine um sistema que gerencia o transporte de mercadorias. Um agente reativo pode ajustar rotas com base em trânsito ou condições climáticas em tempo real, otimizando custos e tempo de entrega.

Modelos de LLM podem atuar como agentes reativos ao analisar grandes volumes de dados em tempo real e fornecer insights acionáveis. Por exemplo, em um cenário de simulação de comportamento humano, esses modelos podem ajustar os comportamentos de diferentes entidades virtuais para refletir novas informações ou eventos inesperados.

Proatividade

A proatividade (em contrapartida da reatividade) é a capacidade de um agente de antecipar necessidades ou problemas e agir antes que eles ocorram. Em sistemas de recomendação, por exemplo, a proatividade permite que um agente sugira produtos antes mesmo que o usuário perceba a necessidade. Esse recurso melhora significativamente a experiência do usuário, criando um ambiente mais intuitivo.

No âmbito da IA, a proatividade muitas vezes depende de algoritmos preditivos e análise de dados. Um agente em um sistema logístico pode prever aumentos na demanda e preparar os recursos necessários, evitando atrasos e interrupções.

Capacidade de Socialização

A capacidade de socialização permite que os agentes interajam e colaborem com outros agentes e sistemas, formando redes inteligentes. Essa característica é essencial em sistemas multiagentes, onde o trabalho em equipe pode aumentar a eficiência e resolver problemas mais complexos.

Um exemplo claro está na simulação de comportamentos humanos. Agentes podem interagir de maneira realista, recriando dinâmicas de grupos e comunidades. Isso é útil em estudos de urbanismo, economia e psicologia. Em um nível mais próximo da nossa realidade, LLMs podem ser integrados para facilitar a comunicação entre diferentes sistemas, criando um sistema computacional mais fluído.

A socialização (socialização sistêmica, oi?!), é mais fácil de entender quando estamos pensando em cada agente realizando parte de uma determinada tarefa e passando a demanda para frente, onde outro agente pega aquilo e faz a sua parte. Para exemplificar, pense em um time multidisciplinar que desenvolve modelos. Um agente pode fazer o trabalho de recuperar os dados, outro agente faz o trabalho de preparar os dados, outro faz a exploração… assim segue até um agente colocar o modelo em produção e outro agente ficar monitorando o comportamento do modelo publicado.

Pra fechar!

Os agentes e sistemas multiagentes baseados em LLM estão transformando várias áreas, e, por nossa sorte, não é exclusividade de TI. Características como autonomia, reatividade, proatividade e socialização tornam esses sistemas flexíveis, fluídos e eficazes.

Com avanço de IA e ML, o céu não é mais o limite. No entanto, também é preciso abordar questões éticas e garantir que esses sistemas sejam usados de forma responsável. O futuro dos agentes de LLM promete ser tão fascinante quanto desafiador, exigindo um esforço conjunto entre pesquisadores, desenvolvedores e usuários.

Imagem de capa: Fiz um recorte do filme Matrix, onde os três agentes estão conversando sobre a humanidade com o Morpheus preso no prédio antes de ser resgatado de helicóptero

O post O que são agentes e sistemas multiagentes de LLM? apareceu primeiro em Diego Nogare.

Review do livro “The LLM Engineer’s Handbook”

Diego Nogare — Mon, 30 Dec 2024 14:03:30 +0000

Fiz mais um review, desta vez, do livro “The LLM Engineer’s Handbook” escrito por Paul Iusztin e Maxime Labonne e publicado pela Packt. A obra aborda um assunto que vem crescendo muito nos ultimos meses que é a Engenharia LLM para implementar, otimizar e implantar grandes modelos de linguagem em situações do mundo real. Tem como objetivo fornecer um guia abrangente para as melhores práticas neste campo, cobrindo de ponta a ponta o ciclo de vida de desenvolvimento de IA Generativa, passando desde a aquisição e preparação dos dados à implantação em produção.

Ele também destaca a importância do Machine Learning Operations (MLOps) para gerenciar a complexidade e a escala dos projetos LLM. Para minha surpresa positiva, o livro também fornece uma base inicial nos princípios de MLOps (no apêndice do livro).

O livro foi escrito com uma abordagem prática, desenvolvendo um projeto de ponta a ponta chamado LLM Twin, que é um aplicativo que imita o estilo de escrita e a personalidade de uma pessoa. Este projeto serve como um exemplo do mundo real ao longo do livro para solidificar os principais conceitos e técnicas estudados, além de ter o objetivo fornecer práticas e dicas de especialistas para cada estágio do ciclo de vida do LLM.

Review dos capítulos do livro

São 11 capítulos mais o apêndice, e aqui está um review do livro separado pelo que é abordado em cada capítulo:

O Capítulo 1 apresenta o projeto LLM Twin e primeiramente define a arquitetura FTI (Feature, Train, Inference) para construir sistemas ML escaláveis.
O Capítulo 2 apresenta as ferramentas essenciais para construir aplicativos LLM. Inclui Python, ferramentas MLOps e recursos de nuvem (mas até nos orienta a instalá-los localmente para teste e desenvolvimento).
O Capítulo 3 se concentra na engenharia de dados, embora ensine como implementar um pipeline de coleta de dados de várias fontes. Ele destaca a importância de coletar dados dinâmicos do mundo real.
O Capítulo 4 apresenta os fundamentos da Retrieval-Augmented Generation (RAG), incluindo embeddings, bancos de dados vetoriais e estratégias de otimização.
O Capítulo 5 explora de fato o ajuste fino supervisionado, abrangendo a criação de conjuntos de dados de alta qualidade e técnicas de ajuste fino, como ajuste fino completo, LoRA e QLoRA. Ele também inclui uma demonstração prática usando um modelo Llama 3.1 8B.
O Capítulo 6 se aprofunda no ajuste fino com alinhamento de preferências, focando especificamente na Otimização de Preferência Direta (DPO). Ele inclui como criar conjuntos de dados de preferências personalizados e uma demonstração prática do alinhamento do modelo TwinLlama-3.1-8B.
O Capítulo 7 detalha vários métodos para avaliar o desempenho do LLM, abrangendo avaliações de uso geral e específicas de domínio. Mas também demonstra uma avaliação do modelo Llama 3.1 8B ajustado.
O Capítulo 8 abrange estratégias de otimização de inferência, como decodificação especulativa, paralelismo de modelo e quantização de peso para melhorar a velocidade e reduzir a latência.
O Capítulo 9 explora técnicas avançadas de RAG implementando métodos como, por exemplo, autoconsulta, reclassificação e pesquisa vetorial filtrada.
O Capítulo 10 apresenta estratégias de implantação de ML, incluindo inferência online, assíncrona e em lote. Embora também mostra como implantar o modelo no Sagemaker, construir um microsserviço FastAPI para expor o pipeline de inferência do RAG.
O Capítulo 11 explica o LLMOps, começando com suas raízes no DevOps e MLOps, incluindo como implantar o projeto LLM Twin na nuvem. Embora também explique como conteinerizar o código usando o Docker e construir um pipeline de CI/CD/CT (Integração, Implantação e Treinamento Contínuos), além do mais, também ensina como adicionar uma camada de monitoramento rápido ao pipeline.

Minhas impressões

Se você estudar seriamente, ao final do livro, de fato entenderá como coletar e preparar dados para LLMs, ajustar modelos, otimizar inferência e implementar pipelines RAG. Mas também aprenderá como avaliar desempenho, alinhar modelos com preferências humanas e implantar aplicativos baseados em LLM. Mesmo eu considerando que é util ter o básico de Python, o livro explica conceitos do zero, fazendo a leitura ser acessível para todos, inclusive os que são novos em IA e machine learning.

Não posso deixar de mencionar que a qualidade da produção é realmente bonita e útil. As imagens coloridas nos ajudam a entender melhor os diagramas e o design da arquitetura.

A versão digital do livro está na Amazon por volta de 250 reais reais: https://amzn.to/4a16Deg. Já na Packt você consegue por menos de 10 dólares: https://www.packtpub.com/en-us/product/llm-engineers-handbook-9781836200062

Bons estudos!

O post Review do livro “The LLM Engineer’s Handbook” apareceu primeiro em Diego Nogare.