Arquivos Sistemas de Recomendação - Diego Nogare

[Micro-blog] As métricas de avaliação salvam projetos de IA e Machine Learning

Diego Nogare — Wed, 17 Sep 2025 02:53:16 +0000

As métricas de avaliação de performance são o alicerce para o sucesso em projetos de IA e ML. Isso porque elas permitem aos cientistas validarem a performance dos modelos, prevenindo falhas e garantindo que as previsões sejam confiáveis.

A importância das métricas em IA/ML está além, apenas, das métricas técnicas. Entender o problema de negócio é tão importante (ou até mais) do que só saber calcular tecnicamente como está o ajuste do modelo.
É comum usarmos a máxima que é, modelos de IA são tão bons quanto seus dados! Mas dá pra expandir isso e dizer que eles são tão bons quanto a sua avaliação. Consequentemente, sem métricas adequadas, é impossível saber se um algoritmo está realmente aprendendo ou apenas “decorando” dados. As métricas fornecem uma visão objetiva da capacidade preditiva.

Principais métricas por tipo de modelo

Para modelos de Classificação, a Acurácia, Precisão, Recall e o F1-Score são essenciais, avaliando a correção das categorias. Por outro lado, na Regressão, a performance é medida por MSE (Mean Squared Error), MAE (Mean Absolute Error) e R² (Coeficiente de Determinação – se lê R Quadrado), que quantificam a proximidade das previsões com valores reais.

No Clustering, que faz parte do paradigma de aprendizado não supervisionado e a estrutura é descoberta, métricas como Silhouette Score e Davies-Bouldin Index indicam a coesão e separação dos grupos. Além disso, para Sistemas de Recomendação, o MAP (Mean Average Precision) e o NDCG (Normalized Discounted Cumulative Gain) avaliam a relevância e a ordem das sugestões apresentadas.

Exemplo prático: Regressão linear bivariada

Imagine um modelo de Regressão Linear com apenas duas variáveis. É um modelo projetado para prever preços de imóveis com base em seu tamanho. Portanto, se o modelo consistentemente subestima ou superestima os preços, um alto MAE sinalizará esse problema. Dessa forma, essa métrica de avaliação se torna um indicador crucial para ajustar o modelo.

Métricas ajudam a identificar problemas como overfitting (sobreajuste [o modelo decorou a resposta]) ou underfitting (sobajuste [o modelo acerta menos que um Stormtrooper atirando em um Jedi]) rapidamente;
Permitem refinar os parâmetros do modelo para otimizar a performance;
Garantem que as previsões do modelo sejam confiáveis e úteis para a tomada de decisões estratégicas.

Compreender e aplicar corretamente essas métricas é vital para a robustez e a confiabilidade das soluções de IA que construímos. Afinal, elas são a prova de que um modelo não apenas funciona, mas funciona bem, impactando diretamente a capacidade de empresas inovarem e de desenvolvedores construírem sistemas eficazes para o mercado. Conhecer as métricas de avaliação é importante para transformar dados em inteligência real.

Curiosidade aleatória irrelevante para você, mas que me deixa feliz: O meu texto de Matriz de Confusão já foi referenciado em TCCs, dissertações de mestrado e teses de doutorado.

O post [Micro-blog] As métricas de avaliação salvam projetos de IA e Machine Learning apareceu primeiro em Diego Nogare.

Da análise de compras à IA – Evolução dos sistemas de recomendação

Diego Nogare — Mon, 23 Jun 2025 12:59:33 +0000

Desde a análise de carrinhos de compras até chegar a IA foi uma longa jornada, e isso é bom, mostra a evolução dos sistemas de recomendação e o foco mais que direto na experiência do cliente. Essa jornada pela transformação dos sistemas de recomendação começou como uma “simples” análises de padrões de compra e hoje se tornou uma poderosa máquina de personalização, capaz de prever desejos antes mesmo de serem manifestados.

Atualmente (e escrevo isso em junho de 2025), esses sistemas estão presentes em praticamente tudo: no feed das redes sociais, nas sugestões da Netflix, nas playlists do Spotify e nas recomendações de produtos da Amazon. No entanto, o caminho até aqui foi longo e repleto de desafios técnicos e científicos.

Neste texto vou lhe mostrar como os sistemas de recomendação evoluíram desde suas origens, passando por métodos como market basket analysis, filtragem colaborativa e deep learning. Também falarei dos frameworks atuais, os desafios do desenvolvimento e casos práticos que moldam essa tecnologia. Bora lá?

A origem: Market Basket Analysis

Nos anos 90, nos Estados Unidos, as lojas de varejo físico começaram a explorar os dados dos clientes para entender padrões de consumo. Surgiu aí o Market Basket Analysis (Análise do Carrinho de Compra) uma técnica baseada em regras de associação. Repare que nesta época nem tinha e-commerce, e no Brasil, praticamente, nem tínhamos internet antes de 1994/95. A internet foi “popularizada nas nossas casas” com as conexões com Modem para os provedores durante a madrugada, muito influenciada com os CDs grátis da AOL, IG e UOL. Não tenho saudade não! rss

O princípio é simples: identificar produtos frequentemente comprados juntos. O clássico exemplo é “pão e manteiga”. Esse tipo de análise utiliza algoritmos como o Apriori, que busca combinações recorrentes entre itens.

Embora limitado, esse modelo foi o pontapé da recomendação. Ele não olhava para perfis individuais, mas sim para tendências gerais. Ferramentas como SPSS Modeler (da IBM) ou RapidMiner, e linguagens como R e Python (via biblioteca mlxtend) ainda oferecem suporte para esse tipo de análise.

Apesar de relevante para otimização de estoque e ajustes em layout de lojas, ele não entrega va personalização real, “só” analise de carrinho de compra. Isso abriu caminho para modelos mais sofisticados.

Filtragem colaborativa: A personalização a nível de usuário ganha espaço

Por volta dos anos 2000 surge a filtragem colaborativa, um método que mudou o jogo da recomendação. Neste processo a lógica é bem simples: “Se Diego e Roberto gostam de livros A e B, e Diego gosta do livro C, então o livro C pode ser recomendado para Roberto”. A ideia é baseada em um princípio da vivência social, e acreditem, funciona! Isso permitiu uma aceleração na apresentação de novos itens para as pessoas que nem sabiam que aquele item existia, o que melhorou muito a experiência dos usuários. Isso foi o início da evolução dos sistemas de recomendação.

Esse método brilhou em grandes cases, como a Amazon, que desde cedo utiliza filtragem colaborativa para recomendar produtos, e a Netflix, que chegou a lançar o famoso Netflix Prize, desafiando cientistas a melhorar seu algoritmo.

No entanto, surgem desafios como:

Cold Start: quando não há dados suficientes de novos usuários ou itens.

Sparsidade: grande quantidade de dados vazios, já que nem todo mundo avalia tudo.

Escalabilidade: dificuldade em lidar com milhões de usuários e produtos.

Estes problemas são do tipo “bom de ter”, porque assim que forem resolvidos, você fará as recomendações mais impactantes para seus clientes. Frameworks como Surprise, LightFM, e bibliotecas do Scikit-learn (todos para Python) ajudaram na democratização desses modelos.

Modelos baseados em conteúdo e soluções híbridas

Enquanto a filtragem colaborativa foca nas interações entre usuários, os modelos baseados em conteúdo analisam as características dos próprios itens. Por exemplo, se você assistiu a vários filmes de ficção científica, o sistema tende a recomendar outros dentro desse gênero. Se você gostou de vários filmes de Quentin Tarantino, o sistema irá lhe recomendar mais filmes dele.

A vantagem? Esses sistemas não dependem de dados de outros usuários, resolvendo parte do problema de cold start. Porém, eles têm pouca diversidade e tendem a reforçar padrões, criando as chamadas filter bubbles.

Para superar isso, contudo, surgiram os modelos híbridos, que combinam conteúdo e colaboração. Plataformas como Spotify, YouTube e Netflix utilizam essa abordagem para oferecer recomendações mais precisas e diversificadas.

Ferramentas de deep learning como TensorFlow Recommenders e Amazon Personalize facilitam a implementação de sistemas híbridos em escala.

Deep Learning e IA na nova geração de recomendação

A partir de 2015, os avanços em deep learning transformaram os sistemas de recomendação. Modelos começaram a entender não apenas interações, mas também contexto, sequências e até semântica.

Técnicas como:

Embeddings: que transformam usuários e itens em vetores no mesmo espaço.

Autoencoders: para aprender representações latentes dos dados.

Redes neurais recorrente: analisam padrões de consumo ao longo do tempo.

Grandes empresas investem pesado nesse caminho, e é visível que conseguem segurar seus usuários com as recomendações que fazem. Veja exemplos como Tiktok e Instagram, apesar de eu não ser usuário do Tiktok e estar começando a usar o Instagram, eu vejo muita gente “presa” nas telas destes aplicativos. Que é feita muito bem pela pela recomendação de conteúdo!

Frameworks como TensorFlow, PyTorch, e ferramentas especializadas como NVIDIA Merlin aceleram o desenvolvimento desses modelos.

Entretanto, surgem novos desafios, como altos custos computacionais, interpretabilidade de conteúdo e preocupações com viés algorítmico e privacidade.

E a tal da hiperpersonalização?

Atualmente, os sistemas evoluíram para o que é chamado de hiperpersonalização. Isso significa gerar recomendações contextuais, em tempo real, considerando fatores como localização, humor, intenção e até clima do ambiente que você está inserido.

Com a chegada dos LLMs, a recomendação se torna ainda mais conversacional e proativa. Imagine entrar num site de viagens e um assistente de IA sugerir destinos, hospedagens e roteiros baseados em conversas como se fosse o seu agente de viagens?!

Isso já acontece em ferramentas como Google Travel e Expedia, que começam a testar IA generativa em seus sistemas. Além disso, a combinação de modelos multimodais, que integram texto, imagem, áudio e vídeo, leva a personalização a um novo patamar. Teremos muita coisa boa vindo!

A hiperpersonalização, porém, também traz dilemas éticos que precisam ser discutidos. Até que ponto o sistema deve nos conhecer? A fronteira entre utilidade e invasão de privacidade fica cada vez mais tênue.

Eu, particularmente, adoro receber recomendações de itens que nem sabia que existiam e que agora eu preciso! E como diz o Fry: “Cale a boca e pegue meu dinheiro!”

A evolução dos sistemas de recomendação

Para encerrar, a evolução dos sistemas de recomendação mostra como a tecnologia acompanha, e molda, nossos comportamentos digitais. O que começou como uma simples análise de carrinho de supermercado evoluiu para sistemas capazes de antecipar desejos com impressionante precisão.

Com IA generativa, modelos de deep learning e computação em nuvem, a recomendação se torna mais dinâmica e personalizada do que nunca. No entanto, os desafios não são apenas técnicos: questões de ética, privacidade e viés serão tão importantes quanto os avanços tecnológicos.

No final das contas, entender como esses sistemas funcionam é essencial não só para desenvolvedores, mas também para qualquer usuário que queira navegar de forma mais consciente nesse universo.

Imagem de capa feita com ChatGPT

O post Da análise de compras à IA – Evolução dos sistemas de recomendação apareceu primeiro em Diego Nogare.

Algoritmo Apriori para sistemas de recomendação

Diego Nogare — Wed, 06 May 2020 12:00:28 +0000

Sistemas de recomendação

para por em prática as regras de associação

Arrisco dizer que o algoritmo Apriori para sistemas de recomendação é a forma mais efetiva para colocar em prática as regras de associação. Mas isso só ocorre porque, para criar regras de forma efetiva, é necessário evitar o trabalho de força bruta.

O princípio do algoritmo Apriori diz que um 𝑘−𝑖𝑡𝑒𝑚𝑠𝑒𝑡 só será entendido como frequente se todos seus (𝑘−1)−𝑖𝑡𝑒𝑚𝑠𝑒𝑡 forem frequentes. Ou seja, um conjunto de itens é frequente se seu suporte, que é a segmentação de registros criando um subconjunto de dados que contém os itens, está acima de um determinado limite mínimo (pode ser chamado de suporte mínimo). Ao se decompor este comportamento em duas fases distintas, pode-se encontrar o subconjunto de itens frequentes quando estes itens satisfazem o mínimo de suporte. E para gerar as regras de associação, a partir destes itens frequentes, deve satisfazer o mínimo da confiança (pode ser chamada de confiança mínima).

Um padrão encontrado nas transações pode ser considerado confiável se ele aparecer em uma alta porcentagem de casos aplicáveis. Contudo, para se trabalhar com regras de associação, também é entendido que o algoritmo é confiável se tiver um valor de confiança alto. A tarefa de encontrar os itens frequentes dentro do conjunto de dados é repetitiva, e se encerra quando a combinação de itens frequentes não for mais satisfatória.

Aplicação do Algoritmo Apriori

Na primeira iteração do processo, o algoritmo gera o 1−𝑖𝑡𝑒𝑚𝑠𝑒𝑡, onde a combinação destes elementos é superior ao suporte que foi definido. Os elementos que satisfazem o valor mínimo de suporte são então selecionados e combinados, gerando o 2−𝑖𝑡𝑒𝑚𝑠𝑒𝑡, e mais uma vez o suporte para esse novo conjunto é calculado. Novamente há uma iteração do processo selecionando itens que satisfaçam o mínimo de suporte e combinada com o conjunto de itens anterior, criando o 3−𝑖𝑡𝑒𝑚𝑠𝑒𝑡. E assim segue com as iterações até que o sub-conjunto de itens criado não satisfaça o valor mínimo de suporte, deixando de ser considerado um conjunto de item frequente.

Por exemplo, imagine que esta ilustração em forma de grafo é uma base de dados que será utilizada para criar as regras de associação.

Lembre-se que, se um item é considerado frequente, então todos seus subitens também são considerados frequentes. Para entender essa afirmação, observe a ilustração abaixo (com as marcações em azul) no qual o item 𝐶𝐷𝐸 foi considerado frequente, e consequentemente todos os itens anteriores àquele elemento também são considerados frequentes. A cor azul destaca os nós que foram considerados frequentes dada essa afirmação 𝐶𝐷, 𝐶𝐸, 𝐷𝐸, 𝐶, 𝐷 e 𝐸, incluindo o conjunto vazio, NULL.

Seguindo a mesma estratégia, porém com a lógica invertida, a imagem abaixo (com as marcações em rosa) apresenta o conjunto 𝐴𝐵 que não foi considerado frequente, logo os itens derivados deste item 𝐴𝐵 também serão desconsiderados e não terão regras sendo criadas para os itens 𝐴𝐵𝐶, 𝐴𝐵𝐷, 𝐴𝐵𝐸, 𝐴𝐵𝐶𝐷, 𝐴𝐵𝐶𝐸, 𝐴𝐵𝐷𝐸 e 𝐴𝐵𝐶𝐷𝐸. Com destaque em rosa estão os nós dos itens que foram desconsiderados para a criação das regras.

Métodos de avaliação do algoritmo

Como métodos validados que permitem avaliar a criação das regras de associação, pode-se destacar:

Medidas objetivas com base em probabilidade de suporte e confiança;
Medidas subjetivas que definem peculiaridade e surpresa dos dados.

As métricas de Suporte e Confiança já foram discutidas em outro texto.

Peculiaridade: A medida pode ser considerada peculiar se estiver distante de outros padrões descobertos, se baseando em alguma medida de distância. Padrões peculiares são gerados com dados peculiares, que na estatística são conhecidos como outliers. Espera-se que tenha baixa representatividade absoluta na base de dados, e por causa disso, seja significativamente diferente do restante dos dados. Padrões peculiares geralmente são desconhecidos para os usuários, isso traz à tona uma característica interessante que pode passar despercebida pela área de negócio que solicitou o projeto.

Surpresa: Para um padrão ser surpreendente, é esperado que ele contradiga o senso comum, ou expectativas, de um usuário ao analisar o resultado. Um padrão que é uma exceção à regra, ou seja, foge de um padrão geral que já foi descoberto, também podem ser considerados surpreendente. Em grande parte dos casos são descobertas interessantes, porque destacam divergência de conhecimento prévio e pode sugerir uma abordagem de que haja dados que precisam de mais estudos.

Muitas vezes, resultados que apresentam peculiaridade e surpresa, incomodam os “donos de verdades absolutas“. Isso porque estas pessoas não esperavam que o comportamento coletivo fosse diferente do que se era desejado/esperado, baseado em suas crenças.

Material de referência

Como este texto é continuação do que escrevi sobre Explicando o algoritmo de Regra de Associação, as referências são as mesmas. Usei o livro Introdução ao Data Mining. Mineração de Dados e também Introdução à mineração de dados: com Aplicações em R e o artigo Interestingness measures for data mining: A survey.

O post Algoritmo Apriori para sistemas de recomendação apareceu primeiro em Diego Nogare.