Arquivos redes neurais - Diego Nogare

Função de Ativação – O cérebro matemático das Redes Neurais Artificiais

Diego Nogare — Mon, 08 Dec 2025 11:27:03 +0000

A essência de uma Rede Neural Artiificial reside em sua capacidade de processar dados e encontrar padrões complexos. Para entender as funções de ativação, primeiramente devemos olhar para a estrutura básica de um neurônio artificial. Inicialmente, o neurônio recebe entradas (inputs), multiplica-as por pesos (weights) específicos e soma um viés (bias).

Neurônio artificial

Contudo, o resultado dessa operação matemática é puramente linear. É neste momento que a função de ativação entra em cena. Ela recebe esse valor numérico resultante e aplica uma transformação matemática específica. Consequentemente, ela decide qual informação é relevante o suficiente para ser passada para a próxima camada da rede.

Em termos técnicos, a função introduz a não linearidade ao sistema. Isso é fundamental para os avanços das técnicas de Redes Neurais. Sem essa transformação não linear, não importaria quantas camadas ocultas empilhássemos, a rede inteira se comportaria como uma única camada linear. Arrisco dizer que a função de ativação é o elemento que permite à rede aprender e modelar dados complexos, como imagens, áudio e linguagem natural.

O porteiro da balada

Para tornar este conceito técnico mais lúdico, imagine uma festa exclusiva que possui um porteiro rigoroso na entrada. As pessoas que tentam entrar são ponderadas pela sua importância.

Neste cenário, o porteiro segue uma regra pré-determinada para decidir quem entra. Se o porteiro fosse uma função linear simples, ele deixaria todos entrarem, causando superlotação e caos na balada. Porém, um porteiro seletivo com critérios específicos, age como uma função de ativação.

Por exemplo, ele pode barrar qualquer pessoa com menos de 18 anos (semelhante à função ReLU, que zera valores negativos). Ou, ele pode permitir a entrada de forma gradual, permitindo a entrada rapidamente para pessoas que estão com nome na lista VIPs e demorando mais para convidados comuns (similar à função Sigmoide). Assim, apenas os convidados realmente importantes atravessam a porta para curtir a festa.

Nessa analogia, a festa é a resposta desejada da nossa rede neural. O porteiro faz o papel da função de ativação, e as pessoas que tentam entrar são os inputs (os dados que queremos predizer).

Machine Learning vs. Deep Learning

Embora as funções de ativação sejam presentes em todas as redes neurais, seu uso varia significativamente entre Machine Learning (ML) clássico e Deep Learning (DL). Em modelos tradicionais de ML, como a Regressão Logística, a função de ativação normalmente é usada apenas na saída final para classificar o resultado.

Onde ficam as funções de ativação

Por outro lado, no Deep Learning, a complexidade aumenta exponencialmente. Aqui, as funções são aplicadas após cada camada oculta. Isso ocorre porque as redes profundas precisam aprender representações hierárquicas dos dados. Dessa forma, as camadas iniciais podem detectar bordas simples em uma imagem, enquanto as camadas profundas, ativadas sucessivamente, identificam formas complexas como rostos.

Um detalhe importante e as vezes negligenciado… A escolha da função de ativação em DL afeta diretamente a velocidade de convergência do treinamento e a estabilidade do gradiente. O uso incorreto em DL pode levar a problemas graves, como o “Vanishing Gradient”, onde a rede para de aprender.

Principais Funções, Equações e Usabilidade

Sigmoide (Logistic Function)

A função Sigmoide foi, historicamente, a mais popular. Ela transforma qualquer valor de entrada em um número entre 0 e 1. Matematicamente, ela é definida como:

Ela é excelente para modelos probabilísticos, pois o resultado pode ser interpretado como uma probabilidade. Frequentemente, é usada na camada de saída de classificadores binários, como a Regressão Logística.

Atualmente, ela caiu em desuso nas camadas ocultas de Deep Learning. Isso ocorre porque, para valores muito altos ou muito baixos de entrada, a derivada da função se aproxima de zeroe isso causa o problema do Vanishing Gradient, onde os pesos da rede param de ser atualizados durante o treino.

Tanh (Tangente Hiperbólica)

A Tanh é similar à Sigmoide, mas com uma diferença na amplitudo, seu intervalo de saída varia entre -1 e 1, e não de 0 a 1. A equação é:

Por ser “centrada em zero”, a Tanh geralmente performa melhor que a Sigmoide em camadas ocultas. Isso facilita o processo de otimização, pois os dados ficam centralizados em torno da origem.

Contudo, apesar de ser melhor que a Sigmoide, ela ainda sofre com o problema do vanishing em redes muito profundas. Mesmo assim, seu uso é comum em redes recorrentes (RNNs) ou projetos de complexidade intermediária.

ReLU (Rectified Linear Unit)

A ReLU é, indiscutivelmente, a “rainha” do Deep Learning moderno. Sua lógica é surpreendentemente simples: se a entrada for positiva, ela retorna o valor da entrada; se for negativa, retorna zero. A equação é essa:

Ela é a escolha padrão para camadas ocultas em Redes Neurais Convolucionais (CNNs) e na maioria das arquiteturas de DL. A ReLU é computacionalmente eficiente, pois envolve operações matemáticas simples, como pode ser visto na sua equação. Além disso, ela resolve parcialmente o problema do desvanecimento do gradiente, permitindo o treinamento de redes muito mais profundas e rápidas.

Na documentação do MLP do Scikit-Learn, explica que a ReLU é a função de ativação padrão do modelo caso você não especifique qual função de ativação quer utilizar.

Existe um fenômeno chamado “Dying ReLU”. Se um neurônio entra em um estado onde sempre retorna zero, portanto, ele “morre” e para de aprender. Para contornar isso, variações como a Leaky ReLU foram criadas. Durante o doutorado, inclusive, criei uma Rede GAN para fazer reconhecimento de dígitos que usou a Leaky ReLU entre as camadas escondidas do Gerador e do Discriminador, e você pode ver aqui no meu Github.

Softmax

Diferente das anteriores, a Softmax é usada quase exclusivamente na camada de saída de problemas de classificação multiclasse. Ela converte um vetor de números em um vetor de probabilidades, onde a soma de todas as probabilidades é igual a 1.

Em geral, se você está construindo uma rede neural para classificar dígitos manuscritos (0 a 9) ou categorias de produtos, a Softmax será sua função final. Ela garante que a rede diga: “Tenho 90% de certeza que isso é um gato, 5% que é um cachorro e 5% que é um carro”. Mas se você reparar no exemplo que fiz no Github do link mais acima, uso outras funções para a saída da rede e, infelizmente, não me lembro o motivo.

Para finalizar

A escolha correta da função de ativação vai além da teoria matemática, ela é uma decisão estratégica de engenharia. No mercado atual, onde empresas buscam eficiência computacional, usar uma função leve como a ReLU pode significar a diferença entre treinar um modelo em horas ou em dias. Isso impacta diretamente o custo de infraestrutura em nuvem (AWS, Azure, Google Cloud) e o pessoal que cuida de Finops na sua empresa vai agradecer seu cuidado com o custo. Além disso, para devs, entender essas nuances permite a criação de modelos mais robustos.

Ao projetar sua próxima rede neural, lembre-se do “porteiro”. A forma como você filtra a informação define a inteligência do seu modelo. O sucesso de uma implementação de IA depende tanto da qualidade dos dados quanto da sofisticação matemática que decide como processá-los.

A evolução dessas funções de ativação ajudou a moldar o salto recente em IA Generativa, que depende de arquiteturas estáveis que só são possíveis graças ao tratamento adequado da não linearidade.

Imagem de capa e do texto foram feitas
com o Google Nano Banana 3

O post Função de Ativação – O cérebro matemático das Redes Neurais Artificiais apareceu primeiro em Diego Nogare.

[Micro-blog] Como a Explainable AI (XAI) está mudando a governança de modelos

Diego Nogare — Fri, 12 Sep 2025 00:11:19 +0000

A Explainable AI (XAI) é fundamental para desvendar as decisões de algoritmos de Inteligência Artificial, independente da aplicação. Para profissionais de tecnologia, a XAI garante transparência e confiança em sistemas complexos, sendo um pilar de sustentação na adoção responsável da IA.

A inteligência artificial avança rapidamente, isso é ponto pacífico. Contudo, nem todas as IAs são igualmente compreensíveis. Estamos diante de um dilema que não é simples de se resolver. Escolhemos utilizar algoritmos “black-box” com alta performance versus “glass-box” transparentes, com talvez um pouco menos de performance? Tomar essa decisão quando um algoritmo glass-box tem melhor desempenho é fácil, nem se discute, mas e quando o algoritmo “black-box” tem melhor desempenho? É ai que a Explainable AI surge, portanto, como a ponte entre a complexidade e a clareza, tornando as decisões da máquina compreensíveis para os humanos.

Complexidade

Considere que em uma mão você tem as Redes Neurais Multicamadas (MLP), que processam dados através de múltiplas camadas interconectadas, alcançando frequentemente performance superior em tarefas complexas. Na outra mão, estão as Árvores de Decisão, que classificam dados por meio de uma série de regras simples e sequenciais, revelando de forma clara o caminho lógico de cada decisão.

A escolha entre eles implica um trade-off significativo. Embora uma MLP possa (em alguns cenários) alcançar maior acurácia preditiva, sua “caixa preta” dificulta a explicação do “porquê” de suas saídas. Por outro lado, uma Árvore de Decisão, mesmo com possível menor precisão em certos cenários, oferece um rastro de decisão totalmente auditável. Seres humanos conseguiriam, de forma fácil, seguir o fluxo de uma Árvore de Decisão desde a sua raiz até a folha e explicar como as decisões foram tomadas. O que já fica bem mais complicado quando um ser humano precisa fazer cálculos de derivadas para entender como os dados de uma Rede Neural com Multi-layer Perceptron funciona.

Impactos

O que quero dizer é que, explicar manualmente um problema que a IA resolve com milhares de variáveis e interações não lineares é humanamente inviável. A complexidade intrínseca de muitos modelos de IA exige, assim, ferramentas especializadas para desmistificar seu funcionamento.

A importância da XAI é evidente em diversos aspectos. Principalmente porque permite a transparência em decisões críticas, como diagnósticos médicos ou aprovação de crédito. Também ajuda a melhorar a confiança do usuário (e das partes interessadas) nos sistemas de IA. Facilita a identificação e correção de vieses algorítmicos, e em certos casos, garante a conformidade regulatória em setores rigorosamente auditados.

A eficiência de um algoritmo não deve ser medida exclusivamente por sua métrica de performance, apesar disso ser muito importante quando se olha exclusivamente pelo lado técnico do processo. A XAI é, de fato, um pilar fundamental para a governança de IA, essencial em setores regulados como direito, saúde e finanças. Ela permite aos devs construir sistemas não só eficazes, mas também responsáveis e auditáveis, impactando diretamente a adoção e a ética da tecnologia. Encontrar o equilibrio entre XAI e Métricas de Avaliação de Performance de Modelos é uma tarefa difícil, mas que precisa ser feita!

O post [Micro-blog] Como a Explainable AI (XAI) está mudando a governança de modelos apareceu primeiro em Diego Nogare.

[Micro-blog] O caminho da evolução da inteligência artificial – da ciência da computação à IA Generativa

Diego Nogare — Fri, 29 Aug 2025 00:16:47 +0000

A Inteligência Artificial (IA) é um campo vasto, mas sua estrutura pode ser compreendida pela teoria dos conjuntos, como apresento na Figura que ilustra esse micro-blog.

Para um domínio profundo da IA, é fundamental ter uma base sólida em matemática e estatística. No entanto, no início da jornada, você pode explorar bibliotecas prontas e ferramentas que simplificam o desenvolvimento, facilitando a entrada no mercado de trabalho. Compreender essa hierarquia é vital para profissionais e entusiastas. Isso permite não apenas navegar pelo campo da IA com mais clareza, mas também aplicar a ferramenta certa para o desafio correto.

Para chegarmos à IA que temos hoje, com os grandes modelos de linguagem gerando textos com qualidade bem satisfatória, é importante entender que houve um longo caminho percorrido. Saímos da década de 40/50 no século passado, com o surgimento da Ciência da Computação , passando por altos e baixos, até chegar na segunda metade dos anos 2010 e termos acesso às inovações da IA Generativa. Veja, essa evolução que já dura mais de 80 anos!

Caminho evolutivo

A Inteligência Artificial é um campo da Ciência da Computação que se dedica a criar sistemas capazes de simular a inteligência biológica. Portanto, a IA representa um subconjunto mais específico dentro da disciplina maior da computação. Por sua vez, o Machine Learning (ML) surge como um subconjunto da IA. Ele capacita os sistemas a aprenderem e aprimorarem-se a partir de dados, eliminando a necessidade de programação explícita para cada tarefa específica. Isso nos lembra que a adaptabilidade é chave!

Dentro do ML, encontramos o Deep Learning (DL), um subcampo que utiliza redes neurais profundas para processar informações complexas. Ele é especialmente eficaz no reconhecimento de padrões, assim como na análise de imagens e fala. Finalmente, a IA Generativa representa uma aplicação avançada, muitas vezes impulsionada pelo Deep Learning. Essa tecnologia consegue criar conteúdo original, como textos, imagens e áudios, trazendo uma nova forma como interagimos com a computação.

Posso afirmar sem sombra de duvidas que essa clareza acelera a inovação e o desenvolvimento de soluções mais eficientes e éticas… E pra você, qual é o próximo grande salto nessa jornada contínua de inteligência e aprendizado?

O post [Micro-blog] O caminho da evolução da inteligência artificial – da ciência da computação à IA Generativa apareceu primeiro em Diego Nogare.

Review do Livro “50 Algorithms Every Programmer Should Know – 2nd edition”

Diego Nogare — Mon, 18 Mar 2024 14:00:39 +0000

Review do livro “50 Algorithms Every Programmer Should Know – 2nd edition“, que foi escrito por Imran Ahmad e publicado pela Packt Pub. Neste livro você aprenderá (ou relembrará) 50 algoritmos que deve conhecer na ciência da computação. Contudo, é uma versão atualizada, contando inclusive com assunto atuais como Large Language Models e discussões sobre transparência e ética nos algoritmos.

O livro e com seus 50 algoritmos que deve conhecer

Vou compartilhar minhas impressões desta obra, e já de partida quero avisar que nem todos os algoritmos são para todos nós. Digo isso porque há uma amplitude de assuntos que, dependendo do que você trabalha ou estuda, não vão lhe chamar muita atenção. No meu caso, o capítulo 3 é de ordenação e o capítulo 14 que é de criptografia… Não são exatamente os assuntos que mais me chamam atenção e acabei passando rapidamente por ali. Porém, a seção II que é de Machine Learning eu li com muito mais atenção, como também o capítulo 16.

Com uma abordagem direta em cada capítulo, o livro ensina de forma prática (programando em Python) como aplicar o que está estudando. É bem balanceado entre teoria e prática, certamente o que é bom para materializar a teoria na prática. O livro está organizado em 16 capítulos separados em três seções, e trás os 50 algoritmos que deve conhecer.

Vamos aos capítulos…

Cap 1 – Visão geral de algoritmos

No capítulo 1 mergulhamos no universo dos algoritmos. É uma introdução aos seus fundamentos, mostrando como eles são essenciais desde a formulação de problemas até a execução de soluções. O capítulo destaca a evolução do uso dos algoritmos e suas limitações. Para os entusiastas de Python, tem um guia de como preparar o ambiente para rodar os exemplos do livro, mas se você quiser ver isso em vídeo, gravei essa playlist há algum tempo. E não para por aí: o capítulo também aborda como medir e comparar o desempenho dos algoritmos. É um começo importante para quem quer entender a base do que vem a seguir no livro.

Cap 2 – Estruturas de dados

No capítulo 2 a conversa é sobre as estruturas de dados e como elas são a espinha dorsal de algoritmos. O capítulo, de fato, é um prato cheio para quem usa Python, detalhando como a linguagem gerencia estruturas de dados complexas e quais são as mais indicadas para cada tipo de dado. Mas não se preocupe se você é fã de Java ou C++, os conceitos são universais e vão te ajudar independentemente da linguagem que você curte programar. É o tipo de capítulo que faz você querer mergulhar no código e ver a mágica acontecer.

Cap3 – Ordenação e Busca

E aí, no capítulo 3, é apresentada a parte de algoritmos de ordenação e busca. O capítulo, a princípio, trás diferentes abordagens e tipos de algoritmos de ordenação, cada um com seu próprio estilo e estratégia de solução de problema. E para não deixar a busca de lado, tem exemplos práticos que mostram como esses algoritmos percorrem atrás dos dados.

Cap 4 – Projetando algoritmos

Chegando no capítulo 4, a gente entra na parte de Projetando Algoritmos. O capítulo, antes de mais nada, é uma verdadeira aula sobre como dar vida aos algoritmos, começando (obviamente) por entender o problema que você quer resolver. E para deixar tudo mais interessante, ocasionalmente, relembra o famoso Problema do Caixeiro Viajante (TSP), muito visto em cursos de Ciência da COmputação, e joga na mesa como um exemplo real de como aplicar essas técnicas de design. E não para por aí, ainda tem um pouco de programação linear para materializar a discussão com suas aplicações práticas. O capítulo faz bem o papel de ponte entre a teoria e a prática.

Cap 5 – Grafos

No Capítulo 5, a parada é nos Algoritmos de Grafos. O capítulo é um guia que mostra como navegar em grafos para representar estruturas de dados. Ele não só cobre o básico, mas também detalha teorias e técnicas mais profundas, como análise de redes e busca de grafos. E para colocar a teoria em prática, há um estudo de caso que usa grafos para desvendar fraudes.

Cap 6 – Aprendizado não supervisionado

Aqui no capítulo 6, sobretudo, começam os assuntos de Machine Learning, e esses eu li com muito mais carinho e dedicação por questões óbvias, ao propósito, de interesse pessoal

Este capítulo fala sobre o aprendizado de máquina não supervisionado. O capítulo é um convite para explorar como essa área do aprendizado de máquina pode ser usada para decifrar problemas do cotidiano. Ao mesmo tempo é apresentada uma introdução aos principais algoritmos e metodologias, como os de agrupamento, que encontram dados semelhantes; redução de dimensionalidade, que simplifica a complexidade diminuindo o espaço de busca; e de regras de associação, que descobre relações ocultas entre eventos e transações.

Cap 7 – Aprendizado Supervisionado

Neste capítulo a gente coloca a mão na massa com aprendizado supervisionado. O capítulo tem laboratório, onde são explorados os algoritimos de classificação e regressão. O Autor explica seis algoritmos de classificação e três de regressão, ele não só apresenta, mas também coda com esses algoritmos resolvendo problemas reais. E no final ainda compara os resultados para ver o que teve melhor performance.

Cap 8 – Redes Neurais Artificiais

No capítulo 8, antes de mais nada, o foco é pelo mundo das Redes Neurais. O capítulo abre as portas para os conceitos-chave e componentes que formam uma rede neural, explicando sobre suas várias formas e as funções de ativação. O algoritmo de backpropagation, peça central no treinamento de redes neurais, é explicado ems detalhes. Da mesma forma, no final do capítulo ainda tem um exemplo prático de como o Deep Learning pode ser usado para detectar documentos fraudulentos, trazendo a teoria para o chão da realidade.

Cap 9 – NLP Natural Language Processing

Aqui o autor aprofunda nos algoritmos para Processamento de Linguagem Natural (NLP). O capítulo é um guia completo que vai desde os fundamentos da NLP até a preparação dos dados para as tarefas mais complexas. Ele detalha o processo de vetorização de dados textuais e a técnica de incorporação de palavras. E, ao mesmo tempo, para não ficar só na teoria, apresenta um caso de uso detalhado mostrando como NLP se aplica no mundo real.

Cap10 – Modelos sequenciais

Aqui no capítulo 10, o autor leva a conversa sobre o treinamento de redes neurais para lidar com dados que seguem uma sequência. O capítulo serve como uma introdução aos modelos sequenciais, desvendando suas técnicas e metodologias. Ao mesmo tempo ainda tem uma discussão sobre como o Deep Learning pode elevar o nível das técnicas de Processamento de Linguagem Natural (que vimos no capítulo anterior). O capítulo te prepara para entender como as máquinas trabalham a partir de dados que têm uma ordem, um ritmo, uma cadência, e como isso pode revolucionar a maneira como interagimos com a tecnologia.

Cap11 – Modelos sequenciais avançados

O capitulo apresenta, contudo, limitações dos modelos sequenciais e descobre como eles têm evoluído para avançar na resolução de problemas. O autor mergulha nos aspectos mais sofisticados desses modelos, apresentando a criação de configurações que são verdadeiras “relíquias” em complexidade. Cobre assuntos como os autoencoders e modelos Sequence-to-Sequence (Seq2Seq), passando pelos mecanismos de atenção e transformers (attention is all you need), o capítulo prepara o terreno para os Large Language Models (LLMs), super atuais em questões de estado da arte da Inteligência Artificial.

Cap12 – Sistemas de Recomendação

Neste capítulo o assunto discutido são sistemas de recomendação (regras de associação), que parecem ler nossas mentes e sabem exatamente o que queremos antes mesmo de clicarmos. O capítulo explora os diferentes tipos de sistemas de recomendação e como eles funcionam por dentro, revelando tanto seus superpoderes quanto os desafios que enfrentam. E para fechar, o capítulo nos guia através de um problema do mundo real, mostrando como esses mecanismos podem ser a solução que estávamos procurando.

E é neste capítulo que se encerram os assuntos de Machine Learning!

Cap 13 – Tratamento de dados

Aqui o autor explica a arte de lidar com dados. O capítulo é um guia para entender os algoritmos de dados e os princípios que ajudam a resolver problemas de classificação de dados. Ele nos guia pelos algoritmos de armazenamento e compactação de dados, que são fundamentais para gerenciar informações de maneira eficiente. E como em qualquer boa estratégia, o capítulo nos mostra as vantagens e desvantagens de projetar e implementar algoritmos focados em dados.

Cap 14 – Criptografia

Confesso que passei bem rapido por aqui, não é um assunto que me atrai muito…

Mesmo assim, o capítulo apresenta uma visão histórica da criptografia antes de mergulhar nos algoritmos que guardam nossos segredos. O capítulo começa com os algoritmos de criptografia simétrica, (MD5 e SHA), apontando suas limitações e vulnerabilidades. Depois, avança para o mundo da criptografia assimétrica, essencial para a criação de certificados digitais que autenticam e protegem em operações online. E para amarrar tudo, o capítulo trás um exemplo prático mostrando como todas essas técnicas se encaixam no assunto de segurança digital.

Cap 15 – Algoritmo em grande escala

Neste capítulo o autor aborda algoritmos que operam em larga escala. O capítulo desvenda os bastidores para mostrar a infraestrutura necessária para dar suportar estas iniciativas. Apresenta também estratégias para gerenciar o processamento de múltiplos recursos, e as limitações impostas pela lei de Amdahl são examinadas (eu nem sabia que isso existia). E ao se falar em grande escala, não poderia faltar falar sobre as GPUs. Ele mostra seu papel no universo do processamento paralelo.

Cap 16 – Explicabilidade e Ética

O Capítulo 16 trás algumas considerações práticas, convidando a gente para o desafio de tornar os algoritmos transparentes e compreensíveis. O capítulo trata da explicabilidade dos algoritmos, ou seja, até que ponto podemos entender o que acontece por trás do código? A ética no uso dos algoritmos também entra em cena, com uma discussão sobre como evitar vieses que podem surgir na implementação. Além disso, o capítulo explora técnicas para lidar com os temidos problemas NP-difíceis e reflete sobre os fatores importantes na hora de escolher um algoritmo.

Minha opinião sobre estes 50 algoritmos que deve conhecer

Na minha humilde opinião o livro é completo e poderia facilmente servir de base complementar para cursos de graduação em ciência da computação. É um material útil para aprender ou aprimorar suas habilidades em algoritmos com Python.

Como comentei no começo do post, é leitura seletiva para quem se interessa pelos assuntos. Vale o investimento! Para mim, os capítulos entre 6 e 12, que falam de Machine Laerning, além do 16 que fala sobre transparência dos algoritmos, foram os que me chamaram mais atenção.
A versão digital está na Amazon por um pouco mais de 200 reais enquanto escrevo esse texto.

Códigos do “50 Algorithms Every Programmer Should Know – 2nd edition”

No Github da editora você pode acompanhar os códigos do livro e reproduzir o que estudou para fixar o aprendizado com os 50 algoritmos que todo desenvolvedor deve conhecer.

Bons estudos!

O post Review do Livro “50 Algorithms Every Programmer Should Know – 2nd edition” apareceu primeiro em Diego Nogare.