Arquivos Deep Learning - Diego Nogare

It’s Dr. actually

Diego Nogare — Wed, 04 Feb 2026 11:08:38 +0000

Depois de vários anos de estudo, stress e aprendizados, finalmente conquistei em 03/02/2026 o título de Doutor em Engenharia Elétrica e Computação pela Universidade Presbiteriana Mackenzie. E por coincidência, foi exatamente 6 anos após a defesa do meu mestrado. Consequentemente, ganhei o “passe livre” para brincar com o meme “It’s Dr. Actually” (e se preparem, vou usar pra caramba agora! rss)

Esse meme é comum em fóruns de tecnologia e até no LinkedIn. Geralmente, as pessoas o utilizam para celebrar a conclusão do doutorado de forma leve e bem-humorada (alguns são arrogantes e espero não ficar assim!). A brincadeira marca o momento em que o aluno recebe o reconhecimento formal por seu esforço acadêmico intenso. Além disso, a brincadeira serve como uma ferramenta de quebra de gelo em ambientes técnicos muito sérios. No caso da minha pesquisa, resultados operacionais reais no setor financeiro validam essa nova autoridade técnica. Afinal, propor uma nova arquitetura de referência para plataformas de MLOps é uma proeza digna de um legítimo “Doutor”. rss

Um pouco da minha pesquisa

A jornada para colocar um modelo de Machine Learning em produção enfrenta obstáculos no ambiente corporativo. Muitos projetos de ML não atingem a fase operacional ou falham em entregar o valor esperado para o negócio. Isso por si só, já é ruim! Além disso, os profissionais de ciência de dados, frequentemente, focam na matemática dos algoritmos e acabam desprezando aspectos da computação como a Engenharia de Software. Elementos como qualidade, performance e confiabilidade acabam negligenciados durante o ciclo de desenvolvimento. E isso não é exatamente um problema, visto que a área de Ciência de Dados é bem plural e tem profissionais de muitas formações distintas.

E para ajudar, equipes de ciência de dados sofrem com a falta de infraestrutura automatizada e processos manuais lentos. Por exemplo, no Itaú Unibanco S.A., cientistas chegavam a esperar seis meses por recursos computacionais. Essa demora gerava um backlog crítico de mais de 100 modelos aguardando publicação. Entretanto, a instabilidade dos dados e a complexidade das dependências de entrada tornam o fluxo de trabalho manual altamente propenso a erros.

A área de MLOps surge justamente para automatizar esse ciclo de vida de desenvolvimento de modelos de ML iterativo. No entanto, a literatura acadêmica ainda apresenta poucas pesquisas sobre as técnicas de implementação prática e publicação, dando muito mais foco na parte de desenvolvimento/experimentação.

Metodologia baseada em dados e o rigor científico

Para dar fundamentação metodológica para a pesquisa, segui para uma abordagem de Pesquisa Aplicada, que trás em seu processo um alto rigor científico. Primeiramente, segui para uma Revisão Sistemática de Literatura (RSL) analisando 131 artigos primários publicados entre 2018 e 2024. Estes foram os artigos que li de fato, mas a pesquisa começou com mais de 2.800 publicações científicas. Essa análise permitiu identificar 12 categorias temáticas essenciais que orbitam a a área de MLOps.

Além da base teórica, também conduzi uma pesquisa anônima com 25 profissionais e executivos brasileiros. Essa etapa revelou os desafios reais enfrentados pelas indústrias, como a dificuldade de integração com sistemas legados. Os entrevistados apontaram que ferramentas existentes são complexas e exigem alta especialização técnica, o que impacta os projetos como um todo. Essa coleta de respostas foi fundamental para embasar o desenvolvimento da nova arquitetura que desenvolvi.

O terceiro pilar da metodologia eu investiguei a estratégia de “construir versus comprar” soluções de tecnologia. Construí um guia de suporte à tomada de decisão rigoroso baseado na maturidade da empresa e na vantagem competitiva do projeto. Se o MLOps for atividade central para o negócio, o desenvolvimento interno torna-se o caminho recomendado. Caso contrário, a aquisição de ferramentas de mercado pode acelerar a integração da IA nos produtos… Mas vale dar uma olhada com calma nessa publicação porque ela pode ser extrapolada para outras ferramentas e áreas. Ficou bem robusta

A solução que apresentei é de uma Arquitetura de Referência modular

A solução central da tese é uma Arquitetura de Referência composta por quatro estágios interconectados e modulares. O Estágio 1 foca na Engenharia de Dados, defendendo a centralidade e governança das fontes de informação. Nesta camada, processos de aquisição, preparação e validação garantem que os dados tenham a qualidade necessária para o treinamento. Consequentemente, o versionamento de dados torna-se peça-chave para a reprodutibilidade dos experimentos.

O Estágio 2 abrange o Ambiente de Desenvolvimento, onde ocorre a construção cíclica do modelo de ML. Detalho as etapas de ajuste de hiperparâmetros, seleção de algoritmos e avaliação de performance. Além disso, a arquitetura prevê a manutenção constante do código para evitar o acúmulo de débitos técnicos. Já o Estágio 3 foca no Ambiente de Produção, gerenciando as esteiras de inferência e publicação.

Finalmente, o Estágio 4 aborda as Preocupações Transversais, que permeiam todo o ciclo de vida do modelo. Este estágio inclui segurança cibernética, monitoramento contínuo e a flexibilidade do poder computacional. Dou destaque que o monitoramento deve registrar logs operacionais e detectar desvios estatísticos, como o data-drift. Essa estrutura modular mitiga a complexidade e permite que múltiplos times descentralizados colaborem de forma eficiente.

Escalabilidade e gestão de modelos de Deep Learning

Um diferencial importante desta Tese é o suporte explícito para esteiras de Deep Learning. Uma das soluções é o uso de contêineres e tecnologias de nuvem para garantir a portabilidade dos modelos. Assim, o sistema consegue processar predições em tempo real com baixa latência para o usuário final. A arquitetura detalha processos de Continuous Training (CT), permitindo o retreinamento automático dos modelos quando necessário. Isso é importante porque o desempenho de um modelo de IA pode degradar rapidamente no mundo real. Através da observabilidade, os engenheiros conseguem investigar comportamentos históricos e diagnosticar problemas silenciosos. Além disso, a transparência e a explicabilidade da IA são pilares fundamentais para garantir um processamento ético.

O fluxo operacional apresentado na Tese guia o desenvolvedor desde a definição de requisitos até a predição final. O uso de padrões como o “Modelo Campeão/Desafiante” permite testar novos algoritmos em paralelo sem afetar a produção. Se parar para ver com calma, a solução oferece um roteiro técnico preciso para evitar falhas comuns no desenvolvimento de projetos de IA, ML e DL.

It’s Dr. Actually

Já que chegou até aqui e investiu tempo lendo um pouco do trabalho que demorei 4 anos para concluir, te convido a gastar mais tempo e acompanhar as publicações que fiz em periódicos e congressos científicos. Afinal (tentando fazer a brincadeira do começo do post) It’s Dr., actually!

2022 – Automação no processo de publicação de modelos de Ciência de Dados
2024 – Experimentation, Deployment and Monitoring Machine Learning Models: Approaches for applying MLOps
2024 – Machine Learning Model: Perspectives for quality, observability, risk and continuous monitoring
2025 – MLOps for Machine Learning Model Lifecycle Automation – A Systematic Literature Review
2025 – Interpersonal Trust in the Era of Scientific Communication with Artificial Intelligence – An Essay
2025 – Make or buy strategy for Machine Learning Operations – MLOps
2025 – Experimentation, deployment, and monitoring of machine learning models: How MLOps enhances AI productization
2025 – How MLOps boosts AI productization with experimentation, deployment, and monitoring of machine learning models
2026 – Towards a New MLOps Architecture: A Methodological Approach Driven by Business and Scientific Requirements (ainda não está indexado no portal da SBC)

Muito obrigado!

Um doutorado não se faz da noite para o dia, foi uma construção de anos de dedicação, estudos e stress para criar essa Arquitetura de Referência de MLOps para projetos de Machine Lerning e Deep Learning… E, assim como a ciência, um doutorado não se faz sozinho. Quero aproveitar esse finalzinho do texto para agradecer todas pessoas que participaram comigo das publicações, todos que assistiram as apresentações ou leram os papers, todos que de forma direta ou indireta contribuíram para este trabalho. Vocês são parte disso, queria que a alegria desta titulação também se estendesse até vocês! E, claro, quero deixar um agradecimento especial à meus orientadores (Leandro Augusto da Silva e Ismar Frango Silveira) e aos avaliadores da banca (Marcelo Nogueira, Alexandra Aparecida de Souza, Gustavo Scalabrini Sampaio e Fabio Silva Lopes), suas sugestões e ensinamentos contribuíram com o resultado final deste trabalho.

MUITO OBRIGADO!

A foto de capa foi gerada com o Google Nano Banana 3, usando o prompt: Foto ultra-realista, com iluminação de estúdio, de uma mesa de trabalho de um profissional da computação com um teclado e mouse sem fio e um monitor ultra-wide curvo. A organização da mesa é bagunçada, mas em destaque tem uma xícara de café com o texto “It’s Dr. Actually” em letras pixealizadas como um terminal de computador.

O post It’s Dr. actually apareceu primeiro em Diego Nogare.

Função de Ativação – O cérebro matemático das Redes Neurais Artificiais

Diego Nogare — Mon, 08 Dec 2025 11:27:03 +0000

A essência de uma Rede Neural Artiificial reside em sua capacidade de processar dados e encontrar padrões complexos. Para entender as funções de ativação, primeiramente devemos olhar para a estrutura básica de um neurônio artificial. Inicialmente, o neurônio recebe entradas (inputs), multiplica-as por pesos (weights) específicos e soma um viés (bias).

Neurônio artificial

Contudo, o resultado dessa operação matemática é puramente linear. É neste momento que a função de ativação entra em cena. Ela recebe esse valor numérico resultante e aplica uma transformação matemática específica. Consequentemente, ela decide qual informação é relevante o suficiente para ser passada para a próxima camada da rede.

Em termos técnicos, a função introduz a não linearidade ao sistema. Isso é fundamental para os avanços das técnicas de Redes Neurais. Sem essa transformação não linear, não importaria quantas camadas ocultas empilhássemos, a rede inteira se comportaria como uma única camada linear. Arrisco dizer que a função de ativação é o elemento que permite à rede aprender e modelar dados complexos, como imagens, áudio e linguagem natural.

O porteiro da balada

Para tornar este conceito técnico mais lúdico, imagine uma festa exclusiva que possui um porteiro rigoroso na entrada. As pessoas que tentam entrar são ponderadas pela sua importância.

Neste cenário, o porteiro segue uma regra pré-determinada para decidir quem entra. Se o porteiro fosse uma função linear simples, ele deixaria todos entrarem, causando superlotação e caos na balada. Porém, um porteiro seletivo com critérios específicos, age como uma função de ativação.

Por exemplo, ele pode barrar qualquer pessoa com menos de 18 anos (semelhante à função ReLU, que zera valores negativos). Ou, ele pode permitir a entrada de forma gradual, permitindo a entrada rapidamente para pessoas que estão com nome na lista VIPs e demorando mais para convidados comuns (similar à função Sigmoide). Assim, apenas os convidados realmente importantes atravessam a porta para curtir a festa.

Nessa analogia, a festa é a resposta desejada da nossa rede neural. O porteiro faz o papel da função de ativação, e as pessoas que tentam entrar são os inputs (os dados que queremos predizer).

Machine Learning vs. Deep Learning

Embora as funções de ativação sejam presentes em todas as redes neurais, seu uso varia significativamente entre Machine Learning (ML) clássico e Deep Learning (DL). Em modelos tradicionais de ML, como a Regressão Logística, a função de ativação normalmente é usada apenas na saída final para classificar o resultado.

Onde ficam as funções de ativação

Por outro lado, no Deep Learning, a complexidade aumenta exponencialmente. Aqui, as funções são aplicadas após cada camada oculta. Isso ocorre porque as redes profundas precisam aprender representações hierárquicas dos dados. Dessa forma, as camadas iniciais podem detectar bordas simples em uma imagem, enquanto as camadas profundas, ativadas sucessivamente, identificam formas complexas como rostos.

Um detalhe importante e as vezes negligenciado… A escolha da função de ativação em DL afeta diretamente a velocidade de convergência do treinamento e a estabilidade do gradiente. O uso incorreto em DL pode levar a problemas graves, como o “Vanishing Gradient”, onde a rede para de aprender.

Principais Funções, Equações e Usabilidade

Sigmoide (Logistic Function)

A função Sigmoide foi, historicamente, a mais popular. Ela transforma qualquer valor de entrada em um número entre 0 e 1. Matematicamente, ela é definida como:

Ela é excelente para modelos probabilísticos, pois o resultado pode ser interpretado como uma probabilidade. Frequentemente, é usada na camada de saída de classificadores binários, como a Regressão Logística.

Atualmente, ela caiu em desuso nas camadas ocultas de Deep Learning. Isso ocorre porque, para valores muito altos ou muito baixos de entrada, a derivada da função se aproxima de zeroe isso causa o problema do Vanishing Gradient, onde os pesos da rede param de ser atualizados durante o treino.

Tanh (Tangente Hiperbólica)

A Tanh é similar à Sigmoide, mas com uma diferença na amplitudo, seu intervalo de saída varia entre -1 e 1, e não de 0 a 1. A equação é:

Por ser “centrada em zero”, a Tanh geralmente performa melhor que a Sigmoide em camadas ocultas. Isso facilita o processo de otimização, pois os dados ficam centralizados em torno da origem.

Contudo, apesar de ser melhor que a Sigmoide, ela ainda sofre com o problema do vanishing em redes muito profundas. Mesmo assim, seu uso é comum em redes recorrentes (RNNs) ou projetos de complexidade intermediária.

ReLU (Rectified Linear Unit)

A ReLU é, indiscutivelmente, a “rainha” do Deep Learning moderno. Sua lógica é surpreendentemente simples: se a entrada for positiva, ela retorna o valor da entrada; se for negativa, retorna zero. A equação é essa:

Ela é a escolha padrão para camadas ocultas em Redes Neurais Convolucionais (CNNs) e na maioria das arquiteturas de DL. A ReLU é computacionalmente eficiente, pois envolve operações matemáticas simples, como pode ser visto na sua equação. Além disso, ela resolve parcialmente o problema do desvanecimento do gradiente, permitindo o treinamento de redes muito mais profundas e rápidas.

Na documentação do MLP do Scikit-Learn, explica que a ReLU é a função de ativação padrão do modelo caso você não especifique qual função de ativação quer utilizar.

Existe um fenômeno chamado “Dying ReLU”. Se um neurônio entra em um estado onde sempre retorna zero, portanto, ele “morre” e para de aprender. Para contornar isso, variações como a Leaky ReLU foram criadas. Durante o doutorado, inclusive, criei uma Rede GAN para fazer reconhecimento de dígitos que usou a Leaky ReLU entre as camadas escondidas do Gerador e do Discriminador, e você pode ver aqui no meu Github.

Softmax

Diferente das anteriores, a Softmax é usada quase exclusivamente na camada de saída de problemas de classificação multiclasse. Ela converte um vetor de números em um vetor de probabilidades, onde a soma de todas as probabilidades é igual a 1.

Em geral, se você está construindo uma rede neural para classificar dígitos manuscritos (0 a 9) ou categorias de produtos, a Softmax será sua função final. Ela garante que a rede diga: “Tenho 90% de certeza que isso é um gato, 5% que é um cachorro e 5% que é um carro”. Mas se você reparar no exemplo que fiz no Github do link mais acima, uso outras funções para a saída da rede e, infelizmente, não me lembro o motivo.

Para finalizar

A escolha correta da função de ativação vai além da teoria matemática, ela é uma decisão estratégica de engenharia. No mercado atual, onde empresas buscam eficiência computacional, usar uma função leve como a ReLU pode significar a diferença entre treinar um modelo em horas ou em dias. Isso impacta diretamente o custo de infraestrutura em nuvem (AWS, Azure, Google Cloud) e o pessoal que cuida de Finops na sua empresa vai agradecer seu cuidado com o custo. Além disso, para devs, entender essas nuances permite a criação de modelos mais robustos.

Ao projetar sua próxima rede neural, lembre-se do “porteiro”. A forma como você filtra a informação define a inteligência do seu modelo. O sucesso de uma implementação de IA depende tanto da qualidade dos dados quanto da sofisticação matemática que decide como processá-los.

A evolução dessas funções de ativação ajudou a moldar o salto recente em IA Generativa, que depende de arquiteturas estáveis que só são possíveis graças ao tratamento adequado da não linearidade.

Imagem de capa e do texto foram feitas
com o Google Nano Banana 3

O post Função de Ativação – O cérebro matemático das Redes Neurais Artificiais apareceu primeiro em Diego Nogare.

[Micro-blog] A importância de entender IA além dos produtos prontos

Diego Nogare — Mon, 08 Sep 2025 09:26:00 +0000

Muitos entusiastas e profissionais de tecnologia usam ferramentas de IA prontas, mas entender os fundamentos Machine Learning é fundamental para inovar. Aprofundar-se nos processos de Machine Learning, Data Science, IA e algoritmos permite ir além do uso básico, capacitando a verdadeira inovação e resolução de problemas complexos.

No cenário atual da Inteligência Artificial, produtos e APIs prontas simplificam o acesso a capacidades avançadas. É perfeitamente aceitável começar explorando estas ferramentas, que abstraem a complexidade inicial. Assim, muitas pessoas, sejam devs ou não, podem rapidamente integrar funcionalidades de IA em seus projetos. Profissionais de qualquer área podem, com uma interação simples, acelerar seu trabalho diário com essas ferramentas.

No entanto, para realmente dominar a tecnologia e inovar, é essencial transcender o nível superficial. A medida que a experiência cresce, a necessidade de compreender os processos internos, técnicas e algoritmos de Machine Learning se torna evidente. É com isso que essa profundidade de conhecimento é o que distingue o usuário “comum” do arquiteto da IA.

Entendendo o “Porquê” e o “Como”

Considere esse exemplo de culinária: usar um kit de refeição pré-preparado é ótimo para começar, mas para criar pratos únicos ou ajustar um sabor indesejado, a Monica Geller (ou Monica Bings – dependendo de quando você mais gosta da personagem de Friends) precisa entender os ingredientes, as técnicas de cozimento e a química dos alimentos. Da mesma forma, em IA, o conhecimento aprofundado permite ajustar modelos, depurar erros e otimizar resultados de forma autônoma.

Compreender os paradigmas de aprendizagem, como supervisionado, não supervisionado ou por reforço, oferece uma visão abrangente. Isso, por sua vez, permite:
– Diagnosticar e corrigir falhas em modelos de IA com precisão;
– Customizar e otimizar soluções para problemas específicos do negócio;
– Desenvolver novas abordagens e algoritmos quando os existentes não são suficientes;
– Entender as limitações e vieses intrínsecos de cada técnica.

Mas… e daí? Bom, essa mudança de perspectiva é importante para o futuro da IA. Profissionais que dominam os fundamentos não apenas usarão ferramentas, mas as construirão. Além disso, eles estarão prontos a criar soluções mais robustas, éticas e eficientes, impulsionando a inovação e o avanço tecnológico em diversos setores, desde a saúde até as finanças.

Se me permite compartilhar meus 2 centavos…vá além do uso. Comece a entender os detalhes e mitigar os mistérios da IA… Se precisar de ajuda, me avise, será um prazer colaborar com isso!

O post [Micro-blog] A importância de entender IA além dos produtos prontos apareceu primeiro em Diego Nogare.

[Micro-blog] O caminho da evolução da inteligência artificial – da ciência da computação à IA Generativa

Diego Nogare — Fri, 29 Aug 2025 00:16:47 +0000

A Inteligência Artificial (IA) é um campo vasto, mas sua estrutura pode ser compreendida pela teoria dos conjuntos, como apresento na Figura que ilustra esse micro-blog.

Para um domínio profundo da IA, é fundamental ter uma base sólida em matemática e estatística. No entanto, no início da jornada, você pode explorar bibliotecas prontas e ferramentas que simplificam o desenvolvimento, facilitando a entrada no mercado de trabalho. Compreender essa hierarquia é vital para profissionais e entusiastas. Isso permite não apenas navegar pelo campo da IA com mais clareza, mas também aplicar a ferramenta certa para o desafio correto.

Para chegarmos à IA que temos hoje, com os grandes modelos de linguagem gerando textos com qualidade bem satisfatória, é importante entender que houve um longo caminho percorrido. Saímos da década de 40/50 no século passado, com o surgimento da Ciência da Computação , passando por altos e baixos, até chegar na segunda metade dos anos 2010 e termos acesso às inovações da IA Generativa. Veja, essa evolução que já dura mais de 80 anos!

Caminho evolutivo

A Inteligência Artificial é um campo da Ciência da Computação que se dedica a criar sistemas capazes de simular a inteligência biológica. Portanto, a IA representa um subconjunto mais específico dentro da disciplina maior da computação. Por sua vez, o Machine Learning (ML) surge como um subconjunto da IA. Ele capacita os sistemas a aprenderem e aprimorarem-se a partir de dados, eliminando a necessidade de programação explícita para cada tarefa específica. Isso nos lembra que a adaptabilidade é chave!

Dentro do ML, encontramos o Deep Learning (DL), um subcampo que utiliza redes neurais profundas para processar informações complexas. Ele é especialmente eficaz no reconhecimento de padrões, assim como na análise de imagens e fala. Finalmente, a IA Generativa representa uma aplicação avançada, muitas vezes impulsionada pelo Deep Learning. Essa tecnologia consegue criar conteúdo original, como textos, imagens e áudios, trazendo uma nova forma como interagimos com a computação.

Posso afirmar sem sombra de duvidas que essa clareza acelera a inovação e o desenvolvimento de soluções mais eficientes e éticas… E pra você, qual é o próximo grande salto nessa jornada contínua de inteligência e aprendizado?

O post [Micro-blog] O caminho da evolução da inteligência artificial – da ciência da computação à IA Generativa apareceu primeiro em Diego Nogare.

IA Multimodal – O futuro da interação inteligente

Diego Nogare — Mon, 30 Jun 2025 03:01:42 +0000

A IA Multimodal está transformando a interação e experiência de como nos relacionamos com a tecnologia, processando informações de texto, imagens, áudio e vídeo para criar experiências verdadeiramente intuitivas criando um futuro de interação inteligente.

Antes de mais nada, é importante entender que essa capacidade de unir diferentes modalidades de dados permite que os sistemas de IA compreendam o mundo de uma maneira muito mais completa e contextualizada. Consequentemente, as aplicações se tornam mais poderosas e adaptáveis.

Estamos, meus amigos, vivendo uma revolução que promete transformar desde assistentes virtuais até sistemas complexos de análise de dados. Ah, e antes que perguntem, não precisamos criar Agentes para trabalhar com Multimodal.

Metodologias, ferramentas e frameworks para IA Multimodal

Primeiramente, para desenvolver sistemas de IA multimodal, empregamos diversas metodologias, cada uma com suas particularidades. Uma abordagem comum é a fusão de dados, onde as informações de diferentes modalidades são combinadas em diferentes estágios do processamento. Por exemplo, a fusão pode ocorrer no nível dos recursos (early fusion), onde características extraídas de cada modalidade são concatenadas/combinadas antes de serem alimentadas em um modelo. Além disso, também podemos fazer a fusão no nível da decisão (late fusion), com modelos separados processando cada modalidade e combinando suas saídas posteriormente.

Além disso, a atenção cruzada (cross-attention) tem se mostrado importante peça nesta jornada. Essa técnica permite que o modelo analise a importância de diferentes partes das entradas de múltiplas modalidades ao fazer uma previsão. Ou seja, um sistema pode, por exemplo, focar em uma palavra-chave em um áudio enquanto analisa uma imagem relacionada. Assim, essa capacidade de correlacionar informações entre modalidades aprimora significativamente a compreensão contextual.

No que diz respeito às ferramentas e frameworks, temos muitas ferramentas de IA com opções robustas. O PyTorch e o TensorFlow são, sem dúvida, os pilares. Eles fornecem as bases para a construção de modelos complexos, desde redes neurais convolucionais (CNNs) para processamento de imagens até redes neurais recorrentes (RNNs) e Transformers para texto e áudio. Além disso, bibliotecas como Hugging Face Transformers têm sido cruciais para o desenvolvimento rápido de modelos multimodais, disponibilizando arquiteturas pré-treinadas.

Da mesma forma, o OpenCV é indispensável para o processamento de vídeo e imagem, oferecendo funções para análise e manipulação de dados visuais. Portanto, a combinação dessas ferramentas permite aos desenvolvedores explorar e implementar soluções inovadoras com relativa facilidade.

Desafios no desenvolvimento de sistemas multimodais

Muitos profissionais já perceberam o avanço da IA Multimodal para suas atividades cotidianas, mas ainda assim, o desenvolvimento de sistemas de IA multimodal apresenta um monte de desafios. Um dos principais é o problema da heterogeneidade (tive que ir no Google pra conseguir escrever essa palavra direito, rss) dos dados. Isso porque dados de texto, imagem e áudio possuem estruturas e formatos diferentes. O problema está em harmonizar essas várias representações para que um modelo possa processá-las de forma coesa. Além disso, sincronizar o contexto a tempo é outro obstáculo, principalmente em cenários com áudio e vídeo, onde precisamos alinhar os eventos com precisão para uma compreensão contextual correta. Contudo, se tiver falhas na sincronização, podemos receber interpretações erradas por parte do sistema (e vamos combinar, nem vai ser culpa deles!).

Finalmente, a interpretabilidade dos modelos multimodais é um desafio que está em evidência. Compreender como um modelo chega a uma determinada decisão de resposta, especialmente quando ele está processando informações de múltiplas fontes, é importante para a confiança na IA Multimodal.

IA Multimodal – transformando interação e experiência

A IA multimodal já pode ser encontrada em diversos setores, transformando a maneira como interagimos com a tecnologia e com o mundo. Um exemplo é o Google Gemini, que representa um avanço significativo nesse campo. Ele é capaz de entender e operar através de diferentes tipos de informações como texto, código, áudio, imagem e vídeo. Isso permite que a IA execute tarefas complexas e compreenda contextos de maneira mais profunda.

Veja um exemplo de como é uma interação Multimodal utilizando o Google Gemini dentro do Google AI Studio.

Além disso, a Meta também tem feito avanços interessantes com seu trabalho em modelos multimodais. Eles estão explorando como a IA pode processar e gerar conteúdo em diversas formas para melhorar experiências em realidade virtual e aumentada. Por exemplo, a IA pode criar avatares realistas que respondem a expressões faciais e comandos de voz do usuário, gerando uma experiência imersiva e natural. Similarmente, na área da saúde, sistemas multimodais estão sendo desenvolvidos para analisar imagens médicas (raio-x, ressonância magnética, etc) em conjunto com históricos de pacientes e notas clínicas para auxiliar no diagnóstico e tratamento.

Para finalizar

A IA Multimodal representa um salto enorme na capacidade dos sistemas de IA de compreender e interagir com o mundo real. Avança a habilidade de processar e correlacionar informações de texto, imagem, áudio e vídeo abre um leque de possibilidades para aplicações mais inteligentes e contextualizadas.

Apesar dos desafios inerentes, como a heterogeneidade e a escassez de dados, as metodologias e ferramentas atuais já permitem avanços como vimos no vídeo de interação para análise dos livros. Portanto, à medida que a pesquisa e o desenvolvimento continuam, podemos esperar que a IA multimodal se torne cada vez mais presente em nosso cotidiano, tornando a tecnologia mais intuitiva, eficiente e, acima de tudo, verdadeiramente inteligente.

Não fique pra trás, bons estudos!

Imagem de capa gerada com o Gemini, com o prompt: “A close-up, ultra-realistic studio shot of a human hand interacting with a holographic interface displaying interconnected elements of text, images, audio waveforms, and video frames, symbolizing multimodal AI. The lighting is professional and dramatic, highlighting the intricate details of the hand and the glowing digital projections.“

O post IA Multimodal – O futuro da interação inteligente apareceu primeiro em Diego Nogare.

Da análise de compras à IA – Evolução dos sistemas de recomendação

Diego Nogare — Mon, 23 Jun 2025 12:59:33 +0000

Desde a análise de carrinhos de compras até chegar a IA foi uma longa jornada, e isso é bom, mostra a evolução dos sistemas de recomendação e o foco mais que direto na experiência do cliente. Essa jornada pela transformação dos sistemas de recomendação começou como uma “simples” análises de padrões de compra e hoje se tornou uma poderosa máquina de personalização, capaz de prever desejos antes mesmo de serem manifestados.

Atualmente (e escrevo isso em junho de 2025), esses sistemas estão presentes em praticamente tudo: no feed das redes sociais, nas sugestões da Netflix, nas playlists do Spotify e nas recomendações de produtos da Amazon. No entanto, o caminho até aqui foi longo e repleto de desafios técnicos e científicos.

Neste texto vou lhe mostrar como os sistemas de recomendação evoluíram desde suas origens, passando por métodos como market basket analysis, filtragem colaborativa e deep learning. Também falarei dos frameworks atuais, os desafios do desenvolvimento e casos práticos que moldam essa tecnologia. Bora lá?

A origem: Market Basket Analysis

Nos anos 90, nos Estados Unidos, as lojas de varejo físico começaram a explorar os dados dos clientes para entender padrões de consumo. Surgiu aí o Market Basket Analysis (Análise do Carrinho de Compra) uma técnica baseada em regras de associação. Repare que nesta época nem tinha e-commerce, e no Brasil, praticamente, nem tínhamos internet antes de 1994/95. A internet foi “popularizada nas nossas casas” com as conexões com Modem para os provedores durante a madrugada, muito influenciada com os CDs grátis da AOL, IG e UOL. Não tenho saudade não! rss

O princípio é simples: identificar produtos frequentemente comprados juntos. O clássico exemplo é “pão e manteiga”. Esse tipo de análise utiliza algoritmos como o Apriori, que busca combinações recorrentes entre itens.

Embora limitado, esse modelo foi o pontapé da recomendação. Ele não olhava para perfis individuais, mas sim para tendências gerais. Ferramentas como SPSS Modeler (da IBM) ou RapidMiner, e linguagens como R e Python (via biblioteca mlxtend) ainda oferecem suporte para esse tipo de análise.

Apesar de relevante para otimização de estoque e ajustes em layout de lojas, ele não entrega va personalização real, “só” analise de carrinho de compra. Isso abriu caminho para modelos mais sofisticados.

Filtragem colaborativa: A personalização a nível de usuário ganha espaço

Por volta dos anos 2000 surge a filtragem colaborativa, um método que mudou o jogo da recomendação. Neste processo a lógica é bem simples: “Se Diego e Roberto gostam de livros A e B, e Diego gosta do livro C, então o livro C pode ser recomendado para Roberto”. A ideia é baseada em um princípio da vivência social, e acreditem, funciona! Isso permitiu uma aceleração na apresentação de novos itens para as pessoas que nem sabiam que aquele item existia, o que melhorou muito a experiência dos usuários. Isso foi o início da evolução dos sistemas de recomendação.

Esse método brilhou em grandes cases, como a Amazon, que desde cedo utiliza filtragem colaborativa para recomendar produtos, e a Netflix, que chegou a lançar o famoso Netflix Prize, desafiando cientistas a melhorar seu algoritmo.

No entanto, surgem desafios como:

Cold Start: quando não há dados suficientes de novos usuários ou itens.

Sparsidade: grande quantidade de dados vazios, já que nem todo mundo avalia tudo.

Escalabilidade: dificuldade em lidar com milhões de usuários e produtos.

Estes problemas são do tipo “bom de ter”, porque assim que forem resolvidos, você fará as recomendações mais impactantes para seus clientes. Frameworks como Surprise, LightFM, e bibliotecas do Scikit-learn (todos para Python) ajudaram na democratização desses modelos.

Modelos baseados em conteúdo e soluções híbridas

Enquanto a filtragem colaborativa foca nas interações entre usuários, os modelos baseados em conteúdo analisam as características dos próprios itens. Por exemplo, se você assistiu a vários filmes de ficção científica, o sistema tende a recomendar outros dentro desse gênero. Se você gostou de vários filmes de Quentin Tarantino, o sistema irá lhe recomendar mais filmes dele.

A vantagem? Esses sistemas não dependem de dados de outros usuários, resolvendo parte do problema de cold start. Porém, eles têm pouca diversidade e tendem a reforçar padrões, criando as chamadas filter bubbles.

Para superar isso, contudo, surgiram os modelos híbridos, que combinam conteúdo e colaboração. Plataformas como Spotify, YouTube e Netflix utilizam essa abordagem para oferecer recomendações mais precisas e diversificadas.

Ferramentas de deep learning como TensorFlow Recommenders e Amazon Personalize facilitam a implementação de sistemas híbridos em escala.

Deep Learning e IA na nova geração de recomendação

A partir de 2015, os avanços em deep learning transformaram os sistemas de recomendação. Modelos começaram a entender não apenas interações, mas também contexto, sequências e até semântica.

Técnicas como:

Embeddings: que transformam usuários e itens em vetores no mesmo espaço.

Autoencoders: para aprender representações latentes dos dados.

Redes neurais recorrente: analisam padrões de consumo ao longo do tempo.

Grandes empresas investem pesado nesse caminho, e é visível que conseguem segurar seus usuários com as recomendações que fazem. Veja exemplos como Tiktok e Instagram, apesar de eu não ser usuário do Tiktok e estar começando a usar o Instagram, eu vejo muita gente “presa” nas telas destes aplicativos. Que é feita muito bem pela pela recomendação de conteúdo!

Frameworks como TensorFlow, PyTorch, e ferramentas especializadas como NVIDIA Merlin aceleram o desenvolvimento desses modelos.

Entretanto, surgem novos desafios, como altos custos computacionais, interpretabilidade de conteúdo e preocupações com viés algorítmico e privacidade.

E a tal da hiperpersonalização?

Atualmente, os sistemas evoluíram para o que é chamado de hiperpersonalização. Isso significa gerar recomendações contextuais, em tempo real, considerando fatores como localização, humor, intenção e até clima do ambiente que você está inserido.

Com a chegada dos LLMs, a recomendação se torna ainda mais conversacional e proativa. Imagine entrar num site de viagens e um assistente de IA sugerir destinos, hospedagens e roteiros baseados em conversas como se fosse o seu agente de viagens?!

Isso já acontece em ferramentas como Google Travel e Expedia, que começam a testar IA generativa em seus sistemas. Além disso, a combinação de modelos multimodais, que integram texto, imagem, áudio e vídeo, leva a personalização a um novo patamar. Teremos muita coisa boa vindo!

A hiperpersonalização, porém, também traz dilemas éticos que precisam ser discutidos. Até que ponto o sistema deve nos conhecer? A fronteira entre utilidade e invasão de privacidade fica cada vez mais tênue.

Eu, particularmente, adoro receber recomendações de itens que nem sabia que existiam e que agora eu preciso! E como diz o Fry: “Cale a boca e pegue meu dinheiro!”

A evolução dos sistemas de recomendação

Para encerrar, a evolução dos sistemas de recomendação mostra como a tecnologia acompanha, e molda, nossos comportamentos digitais. O que começou como uma simples análise de carrinho de supermercado evoluiu para sistemas capazes de antecipar desejos com impressionante precisão.

Com IA generativa, modelos de deep learning e computação em nuvem, a recomendação se torna mais dinâmica e personalizada do que nunca. No entanto, os desafios não são apenas técnicos: questões de ética, privacidade e viés serão tão importantes quanto os avanços tecnológicos.

No final das contas, entender como esses sistemas funcionam é essencial não só para desenvolvedores, mas também para qualquer usuário que queira navegar de forma mais consciente nesse universo.

Imagem de capa feita com ChatGPT

O post Da análise de compras à IA – Evolução dos sistemas de recomendação apareceu primeiro em Diego Nogare.

Os principais nomes no Deep Learning

Diego Nogare — Fri, 17 Apr 2020 12:00:10 +0000

Quando se pensa em Deep Learning

não podemos deixar de lembrar destes pesquisadores

Estes são os principais nomes de autores que leio, quando o conteúdo é Deep Learning. Contudo, não é apenas porque são pesquisadores que conseguem transmitir suas ideias de forma simples para a comunidade de Inteligência Artificial ao redor do mundo, mas principalmente porque suas ideias e projetos revolucionaram o mundo do Machine Learning possibilitando feitos incríveis. Coloque seus nomes em ordem alfabética, para não ser injusto ou parecer dar preferência para algum deles.

Andrew Y. Ng

É Mestre pelo MIT e PhD por Berkeley. É professor em Stanford e fundador do Coursera, também trabalhou como cientista chefe do Baidu e no Google Brain. Mais recente, em 2018, fundou a DeepLearning.AI e por lá distribui um de seus livros gratuitamente: Machine Learning Yearning. Foi orientador de Ian Goodfellow durante seu mestrado em Stanford, que está referenciado mais abaixo.

Geoffrey Hinton

É PhD pela universidade de Edinburgo. É professor na Universidade de Toronto e trabalha no Google. Um de seus grandes feitos foi a Máquina Boltzmann, junto com Terrence Sejnowski, que está referenciado mais abaixo. Outra grande conquista foi, junto com seu aluno Alex Krizhevsky, ter tido um resultado fantástico no desafio anual da ImageNet de 2012, utilizando aprendizado profundo em seus modelos de Machine Learning. Em 2018, ao lado de Yoshua Bengio e Yann LeCun, ambos referenciados mais abaixo, foi premiado como o Turing Award que é equivalente ao Premio Nobel, só que na computação.

Ian Goodfellow

É Mestre por Stanford e PhD pela Universidade de Montreal. Seu orientador no mestrado foi Andrew Ng e no doutorado foi Yoshua Bengio. Já trabalhou no Google Brain mas atualmente trabalha como diretor de Machine Learning na Apple. Seu grande feito para a área de Deep Learning foi ter criado a Rede GAN – Generative Adversarial Networks, que é muito utilizada para combinação/criação de objetos artificiais muito similares a objetos reais. Por outro lado, outro feito incrível foi escrever como principal autor da bíblia gratuita do Deep Learning, juntamente com seus dois orientadores do doutorado, Yoshua Bengio e Aaron Courville. Se você quiser a versão impressa e em capa dura do livro de Deep Learning é possível.

Terrence Sejnowski

É Mestre e PhD em física, pela universidade de Princeton. Atualmente é professor na Universidade da Califórnia. Porém, em sua bagagem, leva a responsabilidade de ser um dos autores do curso online mais famoso do mundo, o Aprendendo a Aprender (Learning How to Learn) oferecido pela Coursera. Mas só para você ter uma ideia em números de grandeza, este curso já teve mais de 2.4 milhões de alunos. Contudo, suas contribuições também são na área de Redes Neurais Artificiais. Em conjunto com Geoffrey Hinton, referenciado mais acima no texto, criou a Máquina Boltzmann ainda na década de 80. Seu livro A Revolução do Aprendizado Profundo é incrível para mostrar as diversas aplicações de Deep Learning, seus autores, e como estas histórias se relacionam com Terrence.

Yann LeCun

É Mestre pela ESIEE Paris e PhD pela Universidade Pierre e Marie Curie. Ainda na década de 80 fez seu pós-doc no laboratório de Geoffrey Hinton, referenciado mais acima no texto. É professor na Universidade de Nova York, e também trabalha como Diretor de Inteligência Artificial no Facebook. Ainda ao lado de Geoffrey Hinton, mas também de Yoshua Bengio, ambos referenciados no texto, foi premiado como o Turing Award em 2018. O prêmio foi em recompensa às pesquisas no campo de Deep Learning.

Yoshua Bengio

É Mestre e PhD pela Universidade McGill em Montreal. É professor na Universidade de Montreal. Junto com Geoffrey Hinton e Yann LeCun foi premiado como o Turing Award em 2018. Colaborou no livro Architects of Intelligence: The truth about AI from the people building it (English Edition), junto com todos os outros nomes citados aqui no texto (tirando o Ian Goodfellow). Contudo, junto com Ian Goodfellow e Aaron Courville, escreveu a bíblia do Deep Learning.

Na minha visão, estes são os principais nomes no Deep Learning. Mas tenho certeza que esqueci de referenciar outros grandes pesquisadores. Contudo, em minha defesa, é bom que eu não conheça todos. Assim posso continuar me surpreendendo sempre que sou apresentado a algum pesquisador que eu não tinha conhecimento. Long life learning!

O post Os principais nomes no Deep Learning apareceu primeiro em Diego Nogare.

A história da Inteligência Artificial

Diego Nogare — Mon, 13 Jan 2020 12:00:06 +0000

A história da Inteligência Artificial

IA da década de 40 até o Deep Learning

Muito se fala sobre a Inteligência Artificial hoje em dia, mas poucos lembram que ela começou há mais de 75 anos. Este levantamento navega por todo esse período, apresentando algumas tarefas de IA em cada período. Divirtam-se com a história da Inteligência Artificial.

Onde tudo começou

Pode-se dizer que a IA de fato começou há mais de 75 anos, com Walter Pitts e Warren McCulloch, em 1943. Eles juntaram a proposta de funcionamento do neurônio biológico do ganhador Nobel de Medicina Camillo Golgi, a lógica proposicional de Bertrand Russell e Alfred Whitehead e a Teoria da Computação, proposta por Alan Turing. Em 1943 os pesquisadores criaram um sistema neural artificial onde interpretaram sinais binários como ligado e desligado. Eles diziam que era possível representar funções matemáticas com uma certa combinação destes neurônios.

Pouco depois, em 1950, Marvin Minsk e Dean Edmonds construíram o primeiro computador neural, simulando o comportamento de 40 neurônios durante seus estudos em Harvard. Mais tarde, Minsk trocou Harvard por Princeton, onde defendeu seu doutorado.

Ainda em 1950 Alan Turing apresentou seu trabalho conhecido como Teste de Turing. O teste propunha a criação de um sistema de Inteligência Artificial capaz de responder questionamentos por escrito de um interrogador humano. O sistema de IA seria considerado satisfatório se o interrogador não conseguisse diferenciar quais respostas foram dadas pelo computador e quais foram respondidas por outro ser humano. Resultados positivos do teste começaram a aparecer só após anos 2000.

Em meados dos anos 1950 pesquisadores de diversas universidades dos EUA se juntaram e passaram por 2 meses estudando e propondo soluções para possíveis problemas. Estes pesquisadores foram fundamentais para a evolução da IA no mundo, posteriormente criando laboratórios de Inteligência Artificial em universidades como MIT, Stanford e Princeton.

Grandes avanços da Inteligência Artificial…

Em 1958, John McCarthy criou a linguagem LISP dentro do MIT. LISP foi a principal linguagem de programação para trabalhar com IA por pelo menos os 30 anos seguintes. Também em 1958 Frank Rosenblatt, que foi aluno do Minsk, propôs o Perceptron. Essa proposição gerou uma nova abordagem para se trabalhar com uma representação de redes neurais artificiais.

Em 1959 surgiram as primeiras implementações de algoritmos genéticos, que eram chamados de evolução automática naquela época. Seu propósito era implementar pequenas mutações nos sistemas e observar se havia melhora significativa. Os experimentos utilizaram mutações aleatórias e registraram os resultados pareciam úteis. Não houve muito sucesso com os experimentos realizados naquela época. Os algoritmos genéticos de hoje em dia são muito mais performáticos e funcionais.

Na década de 60 os primeiros sistemas inteligentes para tradução de texto começaram a tomar relevância. Fizeram isso, acima de tudo, para traduzirem conteúdos escritos em russo sobre o Sputnik, o Programa Espacial Russo. Mesmo assim, até aproximadamente 1966, os resultados não eram satisfatórios e os pesquisadores desacreditavam das possibilidades de tê-los funcionando.

No começo dos anos 1970 havia uma onda de pesquisa propondo o uso de elementos racionais mais simples para compor um elemento mais complexo, a abordagem ficou conhecida como Métodos Fracos ou IA Fraca. Apesar de serem gerais, contudo, não podiam se utilizar de métodos escalonáveis ou difíceis. Estas pesquisas abriram espaço para os conhecidos Sistemas Especialistas, que se propunham a resolver problemas específicos de forma muito satisfatória. Ao estender os sistemas especialistas para outras áreas do conhecimento, como por exemplo a área médica, foi percebida a necessidade de o sistema refletir também a incerteza do modelo. Foi então que se iniciaram avaliações de Fatores de Incerteza nas decisões que eram apresentadas pelo sistema de IA.

Quando as coisas começaram a se engrenar para a Inteligência Artificial

Ainda em meados da década de 70 os pesquisadores voltaram a investir tempo em sistemas de interpretação e linguagem natural, para habilitar a IA a trabalhar com tradução. Um esforço grande foi feito para entender a linguagem em si, e como era a construção da linguagem. Foram propostas algumas linguagens de programação para refletir essa ideia da representação de raciocínio e lógica, e talvez a mais famosa tenha sido a linguagem Prolog.

O início da década de 80 deu ainda mais ênfase aos sistemas especialistas, conseqüentemente grande parte das empresas dos Estados Unidos tinha um (ou algumas dezenas, podendo chegar a centenas) sistema especialista. Na segunda parte de 1980, as redes neurais voltaram a ter relevância nas pesquisas e no mercado. Existiam alguns grupos voltando a estudar a evolução do Perceptron de Múltiplas Camadas que havia sido proposto em 1969, porém desta vez com o uso de retro propagação. As coisas começaram a melhorar para essa área de pesquisa.

Em 1988 uma nova função de ativação para redes neurais foi sugerida, era uma função radial proposto por David Broomhead e David Lowe e ficou mundialmente conhecida com RBF – Radial Bases Function.

Já em 1998 um grupo de pesquisadores aplicaram técnicas de convolução em redes neurais de múltiplas camadas para extrair características de imagens. As possibilidades de uso dos dados não estruturados chegou a outro patamar! Então com a CNN (Convolutional Neural Network) foi dado início ao que é mais conhecido hoje em dia como Deep Learning.

Recomendação de leitura sobre IA

Se quiser saber mais sobre a história da Inteligência Artificial, recomendo o livro Artificial Intelligence: A Modern Approach, escrito por Peter Norvig e Stuart Russell. Uma distribuição da Microsoft, mas que tem oferta gratuita para uso, é o Azure Machine Learning.

O post A história da Inteligência Artificial apareceu primeiro em Diego Nogare.