Arquivos ciência de dados - Diego Nogare

Função de Ativação – O cérebro matemático das Redes Neurais Artificiais

Diego Nogare — Mon, 08 Dec 2025 11:27:03 +0000

A essência de uma Rede Neural Artiificial reside em sua capacidade de processar dados e encontrar padrões complexos. Para entender as funções de ativação, primeiramente devemos olhar para a estrutura básica de um neurônio artificial. Inicialmente, o neurônio recebe entradas (inputs), multiplica-as por pesos (weights) específicos e soma um viés (bias).

Neurônio artificial

Contudo, o resultado dessa operação matemática é puramente linear. É neste momento que a função de ativação entra em cena. Ela recebe esse valor numérico resultante e aplica uma transformação matemática específica. Consequentemente, ela decide qual informação é relevante o suficiente para ser passada para a próxima camada da rede.

Em termos técnicos, a função introduz a não linearidade ao sistema. Isso é fundamental para os avanços das técnicas de Redes Neurais. Sem essa transformação não linear, não importaria quantas camadas ocultas empilhássemos, a rede inteira se comportaria como uma única camada linear. Arrisco dizer que a função de ativação é o elemento que permite à rede aprender e modelar dados complexos, como imagens, áudio e linguagem natural.

O porteiro da balada

Para tornar este conceito técnico mais lúdico, imagine uma festa exclusiva que possui um porteiro rigoroso na entrada. As pessoas que tentam entrar são ponderadas pela sua importância.

Neste cenário, o porteiro segue uma regra pré-determinada para decidir quem entra. Se o porteiro fosse uma função linear simples, ele deixaria todos entrarem, causando superlotação e caos na balada. Porém, um porteiro seletivo com critérios específicos, age como uma função de ativação.

Por exemplo, ele pode barrar qualquer pessoa com menos de 18 anos (semelhante à função ReLU, que zera valores negativos). Ou, ele pode permitir a entrada de forma gradual, permitindo a entrada rapidamente para pessoas que estão com nome na lista VIPs e demorando mais para convidados comuns (similar à função Sigmoide). Assim, apenas os convidados realmente importantes atravessam a porta para curtir a festa.

Nessa analogia, a festa é a resposta desejada da nossa rede neural. O porteiro faz o papel da função de ativação, e as pessoas que tentam entrar são os inputs (os dados que queremos predizer).

Machine Learning vs. Deep Learning

Embora as funções de ativação sejam presentes em todas as redes neurais, seu uso varia significativamente entre Machine Learning (ML) clássico e Deep Learning (DL). Em modelos tradicionais de ML, como a Regressão Logística, a função de ativação normalmente é usada apenas na saída final para classificar o resultado.

Onde ficam as funções de ativação

Por outro lado, no Deep Learning, a complexidade aumenta exponencialmente. Aqui, as funções são aplicadas após cada camada oculta. Isso ocorre porque as redes profundas precisam aprender representações hierárquicas dos dados. Dessa forma, as camadas iniciais podem detectar bordas simples em uma imagem, enquanto as camadas profundas, ativadas sucessivamente, identificam formas complexas como rostos.

Um detalhe importante e as vezes negligenciado… A escolha da função de ativação em DL afeta diretamente a velocidade de convergência do treinamento e a estabilidade do gradiente. O uso incorreto em DL pode levar a problemas graves, como o “Vanishing Gradient”, onde a rede para de aprender.

Principais Funções, Equações e Usabilidade

Sigmoide (Logistic Function)

A função Sigmoide foi, historicamente, a mais popular. Ela transforma qualquer valor de entrada em um número entre 0 e 1. Matematicamente, ela é definida como:

Ela é excelente para modelos probabilísticos, pois o resultado pode ser interpretado como uma probabilidade. Frequentemente, é usada na camada de saída de classificadores binários, como a Regressão Logística.

Atualmente, ela caiu em desuso nas camadas ocultas de Deep Learning. Isso ocorre porque, para valores muito altos ou muito baixos de entrada, a derivada da função se aproxima de zeroe isso causa o problema do Vanishing Gradient, onde os pesos da rede param de ser atualizados durante o treino.

Tanh (Tangente Hiperbólica)

A Tanh é similar à Sigmoide, mas com uma diferença na amplitudo, seu intervalo de saída varia entre -1 e 1, e não de 0 a 1. A equação é:

Por ser “centrada em zero”, a Tanh geralmente performa melhor que a Sigmoide em camadas ocultas. Isso facilita o processo de otimização, pois os dados ficam centralizados em torno da origem.

Contudo, apesar de ser melhor que a Sigmoide, ela ainda sofre com o problema do vanishing em redes muito profundas. Mesmo assim, seu uso é comum em redes recorrentes (RNNs) ou projetos de complexidade intermediária.

ReLU (Rectified Linear Unit)

A ReLU é, indiscutivelmente, a “rainha” do Deep Learning moderno. Sua lógica é surpreendentemente simples: se a entrada for positiva, ela retorna o valor da entrada; se for negativa, retorna zero. A equação é essa:

Ela é a escolha padrão para camadas ocultas em Redes Neurais Convolucionais (CNNs) e na maioria das arquiteturas de DL. A ReLU é computacionalmente eficiente, pois envolve operações matemáticas simples, como pode ser visto na sua equação. Além disso, ela resolve parcialmente o problema do desvanecimento do gradiente, permitindo o treinamento de redes muito mais profundas e rápidas.

Na documentação do MLP do Scikit-Learn, explica que a ReLU é a função de ativação padrão do modelo caso você não especifique qual função de ativação quer utilizar.

Existe um fenômeno chamado “Dying ReLU”. Se um neurônio entra em um estado onde sempre retorna zero, portanto, ele “morre” e para de aprender. Para contornar isso, variações como a Leaky ReLU foram criadas. Durante o doutorado, inclusive, criei uma Rede GAN para fazer reconhecimento de dígitos que usou a Leaky ReLU entre as camadas escondidas do Gerador e do Discriminador, e você pode ver aqui no meu Github.

Softmax

Diferente das anteriores, a Softmax é usada quase exclusivamente na camada de saída de problemas de classificação multiclasse. Ela converte um vetor de números em um vetor de probabilidades, onde a soma de todas as probabilidades é igual a 1.

Em geral, se você está construindo uma rede neural para classificar dígitos manuscritos (0 a 9) ou categorias de produtos, a Softmax será sua função final. Ela garante que a rede diga: “Tenho 90% de certeza que isso é um gato, 5% que é um cachorro e 5% que é um carro”. Mas se você reparar no exemplo que fiz no Github do link mais acima, uso outras funções para a saída da rede e, infelizmente, não me lembro o motivo.

Para finalizar

A escolha correta da função de ativação vai além da teoria matemática, ela é uma decisão estratégica de engenharia. No mercado atual, onde empresas buscam eficiência computacional, usar uma função leve como a ReLU pode significar a diferença entre treinar um modelo em horas ou em dias. Isso impacta diretamente o custo de infraestrutura em nuvem (AWS, Azure, Google Cloud) e o pessoal que cuida de Finops na sua empresa vai agradecer seu cuidado com o custo. Além disso, para devs, entender essas nuances permite a criação de modelos mais robustos.

Ao projetar sua próxima rede neural, lembre-se do “porteiro”. A forma como você filtra a informação define a inteligência do seu modelo. O sucesso de uma implementação de IA depende tanto da qualidade dos dados quanto da sofisticação matemática que decide como processá-los.

A evolução dessas funções de ativação ajudou a moldar o salto recente em IA Generativa, que depende de arquiteturas estáveis que só são possíveis graças ao tratamento adequado da não linearidade.

Imagem de capa e do texto foram feitas
com o Google Nano Banana 3

O post Função de Ativação – O cérebro matemático das Redes Neurais Artificiais apareceu primeiro em Diego Nogare.

É possível que sim, mas provável que não!

Diego Nogare — Mon, 04 Mar 2024 12:00:02 +0000

Tive a inspiração para esse texto há algumas semanas, durante o carnaval, quando me convidaram para ir à um bloquinho. Não sou muito fã desta festa, e de partida, eu respondi que não. Meus amigos insistiram, e eu respondi “É possível que sim, mas provável que não!“. Eles se sentiram felizes com a resposta.

Infelizmente isso é mais comum do que se imagina, muitas pessoas assumem que estas palavras são sinônimos, mas não são. Contei inicialmente essa história curta para te conectar ao assunto e vou tentar fazer a conexão disso com Ciência de Dados.

Você já se perguntou qual é a diferença entre possibilidade e probabilidade? Esses dois conceitos são muito importantes para a ciência de dados, pois permitem analisar dados e fazer previsões com base em evidências. A probabilidade é um pilar fundamental da ciência de dados. Contudo, muitas vezes, as pessoas confundem os termos “probabilidade” e “possibilidade”.

Mas afinal, qual é a diferença entre eles e por que isso é importante para a ciência de dados?

Possibilidade e probabilidade: qual é a diferença?

A possibilidade é a capacidade de algo acontecer ou não, independentemente de sua frequência ou probabilidade. Por exemplo, é possível que chova amanhã, mas isso não significa que seja provável. A possibilidade é uma questão de lógica, que depende apenas da existência ou não de condições para que um evento ocorra. Por isso respondi que “É possível que sim“.

Já a probabilidade é a medida da chance de um evento acontecer, considerando sua frequência relativa em relação a outros eventos possíveis. Por exemplo, a probabilidade de chover amanhã pode ser calculada com base em dados históricos, como a média de chuva no mês, a previsão do tempo, etc. A probabilidade é uma questão de matemática, que depende de dados e evidências para estimar a ocorrência de um evento. Foi aqui que conclui a resposta com o “mas provável que não!“.

Agora, como calcular a probabilidade de um evento? É até que simples, nós dividimos o número de maneiras que o evento desejado pode acontecer pelo número total de resultados possíveis. Por exemplo, qual a chance de você que gosta de carnaval ir a um bloquinho? Imagine que você tem 5 blocos de carnaval para escolher e só pode ir a 1. A probabilidade de escolher qualquer bloco é de 1 em 5, ou seja, 20%. Isso porque você só pode escolher escolher 1 bloco para ir (o evento desejado) e tem 5 blocos possíveis no total (o número total de resultados).

Só pra finalizar essa explicação curta, enquanto a possibilidade se refere a algo que pode acontecer, a probabilidade quantifica essa chance. Em outras palavras, a probabilidade é uma medida da possibilidade.

Como a probabilidade se aplica à ciência de dados?

A ciência de dados é uma área que utiliza métodos estatísticos para coletar, organizar, analisar e interpretar dados, com o objetivo de extrair conhecimento e gerar valor. A probabilidade estatística é uma ferramenta essencial para a ciência de dados, pois permite quantificar a incerteza e a variabilidade dos dados, bem como testar hipóteses e fazer inferências sobre uma população ou fenômeno. Na ciência de dados, a probabilidade é usada para prever resultados. Por exemplo, em um modelo de aprendizado de máquina, a probabilidade pode ser usada para prever a classe de um novo dado com base nos dados de treinamento.

Alguns exemplos de aplicações da probabilidade estatística na ciência de dados são utilizados em:

– Análise exploratória de dados: consiste em descrever e visualizar os dados, utilizando medidas de tendência central (como média, mediana e moda), medidas de dispersão (como desvio padrão e variância), distribuições de frequência (como histogramas e boxplot) e medidas de associação (como correlação).
– Análise inferencial de dados: consiste em tirar conclusões sobre uma população ou fenômeno, a partir de uma amostra de dados, utilizando testes estatísticos (como teste t, teste qui-quadrado e teste ANOVA) e intervalos de confiança (como margem de erro e nível de significância).
– Aprendizado de máquina: consiste em criar modelos que aprendem com os dados, utilizando paradigma de aprendizado supervisionado (com algoritmos como o regressão linear, regressão logística e árvore de decisão) ou aprendizado não supervisionado (com algoritmos de clusterização, análise de componentes principais e detecção de anomalias).

Quer aprender mais?

A probabilidade é uma ferramenta poderosa na ciência de dados. Compreender a diferença entre probabilidade e possibilidade e aplicar rigor científico ao trabalhar com probabilidade é essencial para fazer previsões precisas e confiáveis. Se algo é certeza que vai acontecer, dizemos que a probabilidade é 1 ou 100%. Se algo é impossível de acontecer, a probabilidade é 0 ou 0%. Quando olhamos esses números em uma visão de Ciência de Dados, avaliando o resultado de uma métrica de avaliação de performance, não devemos confiar em resultados que dão probabilidade de 100%. Isso é direcionado porque trabalhamos com resultados probabilísticos e não determinísticos nesta disciplina.

Para encerrar, o rigor científico é crucial ao trabalhar com a probabilidade. Afinal, decisões são tomadas com base nessas previsões, e se a probabilidade não for calculada corretamente, podemos tomar uma decisão ruim. Portanto, é essencial que os cientistas de dados compreendam e apliquem corretamente os conceitos de probabilidade.

Deixo como recomendação dois títulos de livros que considero importantes Estatística prática para cientistas de dados: 50 conceitos essenciais e Estatística: O que é, para que serve, como funciona. Estão com preço ótimo neste momento (então corram antes que acabe a promoção).

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “Um homem fantasiado para o carnaval do Rio de Janeiro, com fundo desfocado de um trio elétrico durante o dia. A expressão facial da pessoa é de desconfiança, duvidando de alguma coisa que foi contado para ela, com uma sobrancelha levantada. O estilo é de Ilustração Digital.”

O post É possível que sim, mas provável que não! apareceu primeiro em Diego Nogare.

Melhores práticas para testar e monitorar modelos de ML

Diego Nogare — Thu, 15 Feb 2024 00:57:48 +0000

O Machine Learning (ML) é uma área da Inteligência Artificial que permite criar sistemas capazes de aprender com os dados e fazer previsões. Que o ML está revolucionando diversos setores da indústria, desde a saúde até as finanças, não é mais segredo para ninguém. No entanto, para garantir que os modelos de ML funcionem como esperado, é crucial testá-los e monitorá-los adequadamente. Neste texto, iremos explorar as melhores práticas para testar e monitorar modelos de Machine Learning.

Testar modelos de Machine Learning

Primeiramente, é importante entender que o teste de modelos de ML é um pouco diferente do teste de software tradicional. Em vez de simplesmente verificar se o código fonte está livre de erros, precisamos avaliar a precisão e a eficácia do modelo. Para isso, podemos usar várias técnicas, como por exemplo, validação cruzada e teste A/B. Podemos dizer que testar modelos de ML significa verificar se eles atendem aos requisitos funcionais e não funcionais, como métrica de avaliação de performance, robustez, explicabilidade, ética e responsabilidade e privacidade.

Técnicas de testes

Algumas das técnicas mais usadas para testar modelos de Machine Learning são:

– Testes unitários: consistem em verificar se cada componente do modelo funciona como esperado, isoladamente. Por exemplo, se os dados estão sendo pré-processados corretamente, se as funções de perda e otimização estão bem definidas, se os hiperparâmetros estão dentro dos limites aceitáveis, etc.

– Testes de integração: consistem em verificar se os componentes do modelo funcionam bem em conjunto, como um todo. Por exemplo, se o modelo é capaz de lidar com diferentes tipos de dados de entrada, se o pipeline de treinamento e inferência está funcionando corretamente, se o modelo é compatível com o ambiente de produção, etc.

– Testes de sistema: consistem em verificar se o modelo atende aos requisitos do usuário final, como performance, usabilidade, segurança, etc. Por exemplo, se o modelo produz resultados consistentes e confiáveis, se o modelo é fácil de usar e entender, se o modelo respeita os princípios éticos e legais, etc.

– Validação Cruzada: A validação cruzada é um método de avaliação de modelos de Machine Learning onde, por exemplo, o conjunto de dados é dividido em partes, e o modelo é treinado e testado várias vezes em diferentes combinações dessas partes.

– Teste A/B: O teste A/B para modelos de Machine Learning é um experimento onde dois modelos são comparados ao serem aplicados a diferentes grupos de dados para determinar qual tem melhor desempenho.

Monitorar modelos de Machine Learning

Além de testar os modelos de ML, também é essencial monitorá-los continuamente. Isso porque os dados de entrada podem mudar com o tempo, o que pode afetar a performance do modelo. Essa mudança dos dados é natural e é conhecida como Drift (desvio), os dois mais comuns são Data Drift e Concept Drift. Monitorar modelos de Machine Learning significa acompanhar o comportamento e o desempenho dos modelos ao longo do tempo, em diferentes condições e cenários. O objetivo é detectar e corrigir possíveis problemas ou anomalias que possam afetar a qualidade ou a confiabilidade dos modelos.

Data Drift refere-se a uma mudança na distribuição dos dados de entrada ao longo do tempo. Por exemplo, se você treinou um modelo para prever a demanda de um produto com base em dados históricos, mas os padrões de compra dos clientes mudaram, isso seria considerado um Data Drift. É importante monitorar o Data Drift para garantir que seu modelo continue relevante e preciso.

Por outro lado, Concept Drift ocorre quando a relação entre as variáveis de entrada e a variável de saída muda ao longo do tempo. Por exemplo, se você tem um modelo que prevê a probabilidade de chuva com base na temperatura e na pressão atmosférica, um Concept Drift poderia ocorrer se, devido às mudanças climáticas, a relação entre esses fatores e a probabilidade de chuva mudasse.

Ambos os conceitos são fundamentais para a manutenção e monitoramento de modelos de Machine Learning, pois permitem identificar quando um modelo pode estar se tornando menos preciso ou eficaz. Isso, por sua vez, pode indicar a necessidade de re-treinar ou ajustar o modelo.

Métricas de Monitoramento

Algumas das métricas mais usadas para monitorar modelos de Machine Learning são:

– Métricas de negócio: são as métricas que medem o impacto do modelo no contexto do problema que ele visa resolver. Por exemplo, se o modelo é usado para recomendar produtos aos clientes, as métricas de negócio podem ser o número de vendas, a taxa de conversão, o lucro gerado, etc.

– Métricas de modelo: são as métricas que medem o desempenho do modelo em termos de acurácia, precisão, recall, F1-score, AUC-ROC, etc. Essas métricas devem ser calculadas tanto no conjunto de treinamento quanto no conjunto de teste ou validação, para verificar se o modelo está sofrendo de overfitting ou underfitting.

– Métricas de dados: são as métricas que medem a qualidade e a diversidade dos dados usados para treinar e testar o modelo. Por exemplo, se os dados estão balanceados, limpos, atualizados, representativos da realidade, etc.

Ferramentas para testar e monitorar modelos de ML

Algumas das ferramentas mais usadas para testar e monitorar modelos de Machine Learning são:

– PyTest: é um framework de testes em Python que permite escrever testes unitários, de integração e de sistema para modelos de Machine Learning. PyTest oferece uma sintaxe simples e flexível para definir casos de teste, executar testes em paralelo ou sequencialmente, gerar relatórios detalhados dos resultados dos testes, etc.
– MLflow: é uma plataforma aberta para gerenciar todo o ciclo de vida dos modelos de Machine Learning. MLflow permite rastrear os experimentos realizados com diferentes configurações e hiperparâmetros dos modelos, registrar os artefatos gerados pelos modelos (como pesos, metadados, gráficos), implantar os modelos em diferentes ambientes (como nuvem e borda), monitorar as métricas de negócio e de modelo dos modelos em produção, etc.
– TensorFlow Data Validation (TFDV): é uma biblioteca que permite analisar e validar os dados usados para treinar e testar modelos de Machine Learning. TFDV permite gerar estatísticas descritivas dos dados (como média, desvio padrão, distribuição), detectar anomalias nos dados (como valores faltantes, outliers), comparar os dados entre diferentes conjuntos (como treino e teste), etc. Inclusive, há um tempo atrás, subi no meu repo do Github um código de TFDV.

Conclusão

Testar e monitorar modelos de Machine Learning são atividades essenciais para garantir que os sistemas sejam confiáveis, seguros e éticos. Além de garantir que eles estejam funcionando corretamente e entregando os resultados esperados. Neste post, apresentei melhores práticas para testar e monitorar modelos de Machine Learning.

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “A panel of TVs on an office wall. There is a desk with some coffee cups, and a notepad with workflow drawings. The desk is messy, like a real office. The panel displays indicators and charts, ensuring they have green and red colors, as well as some bar charts.”.

O post Melhores práticas para testar e monitorar modelos de ML apareceu primeiro em Diego Nogare.

Ferramentas e plataformas essenciais para projetos de IA e ML

Diego Nogare — Thu, 08 Feb 2024 02:48:39 +0000

A Inteligência Artificial (IA) e o Machine Learning (ML) estão revolucionando o mundo da tecnologia, isso eu acredito que não é duvida para ninguém! Com o avanço dessas tecnologias, surgem também novas ferramentas e plataformas que facilitam o desenvolvimento de projetos nessa área. Neste texto, quero explorar algumas ferramentas e plataformas disponíveis para desenvolver projetos de IA e ML. Bora?!

Ferramentas de IA e ML

Primeiramente, é importante destacar que a escolha da ferramenta certa pode fazer toda a diferença em um projeto de IA ou ML. Entre as mais populares para Python estão TensorFlow, PyTorch e Keras. Essas ferramentas oferecem uma variedade de recursos que facilitam a implementação de algoritmos de ML.

O TensorFlow é uma biblioteca de código aberto para IA e ML, foi desenvolvido pela Google, e pode ser usado em várias de linguagens de programação, incluindo Python e Java. Seguindo a mesma linha, o PyTorch é um framework de ML, também de código aberto, usado para construir e treinar modelos de Deep Learning. O PyTorch é escrito em Python, tornando-o relativamente fácil para a maioria dos desenvolvedores de ML aprender e usar. Já o Keras é uma API projetada para seres humanos, não para máquinas. O Keras segue as melhores práticas para reduzir a carga cognitiva: oferece APIs consistentes e simples, minimiza o número de ações do usuário necessárias para casos de uso comuns e fornece mensagens de erro claras.

Plataformas de desenvolvimento

Além das ferramentas, as plataformas de desenvolvimento também são essenciais. Plataformas como Google Cloud AI, AWS Sagemaker e Microsoft Azure Machine Learning proporcionam um ambiente robusto para o desenvolvimento e a implementação de modelos de ML.

O Google Cloud AI é uma plataforma de IA que oferece uma variedade de serviços, incluindo análise de vídeo e imagem, reconhecimento de fala e processamento multilíngue. Já o AWS Sagemaker, contudo, é um serviço totalmente gerenciado na nuvem que permite aos cientistas de dados construir, treinar e implantar modelos de ML de alta qualidade com rapidez e confiança. Ainda seguindo a mesma estratégia, o Microsoft Azure Machine Learning é um serviço de IA corporativo que suporta o ciclo de vida completo de Machine Learning, oferecendo operações de ML líderes do setor, interoperabilidade de código aberto e ferramentas integradas.

Escolhendo a ferramenta e plataforma certa

A escolha da ferramenta e plataforma certa depende de vários fatores, incluindo o tipo de projeto, o nível de habilidade do desenvolvedor e o orçamento disponível. Por isso é importante pesquisar e experimentar diferentes opções antes de tomar uma decisão. Inclusive, escrevi há um tempo sobre como escolher uma ótima solução, recomendo a leitura.

Entendo que é crucial observar as necessidades específicas do seu negócio, porque cada projeto de IA e ML tem requisitos únicos e, portanto, a ferramenta e a plataforma que melhor atendem a esses requisitos podem variar. Considere fatores como facilidade de uso, flexibilidade, escalabilidade e suporte da comunidade. Além disso, leve em conta o custo e a compatibilidade com as tecnologias existentes em sua organização. Sempre tem um legado que precisa ser integrado, lembre-se disso!

Não se esqueça de realizar testes com as ferramentas e plataformas candidatas. Isso permitirá que você avalie seu desempenho em um ambiente real e determine se elas atendem às suas reais necessidades. Não deixe de pensar no futuro dessa plataforma. As necessidades do seu business podem mudar com o tempo, então, escolha soluções que possam se adaptar e crescer com o seu negócio. Se possível, evite lock-in de ferramenta para não virar refém de fornecedores.

Conclusão

A escolha das ferramentas e plataformas corretas é um passo fundamental no desenvolvimento de projetos de IA e ML. Porém, com a ferramenta e plataforma correta, os desenvolvedores podem focar em resolver problemas complexos e inovar, em vez de se preocupar com questões técnicas.

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “Uma cidade cheia de prédios comerciais com fachada espelhada, com o céu em tons de azul celeste, com nuvens com números no estilo matrix, em estilo de desenho em aquarela”.

O post Ferramentas e plataformas essenciais para projetos de IA e ML apareceu primeiro em Diego Nogare.

LinkedIn Community Top Voices

Diego Nogare — Mon, 29 Jan 2024 13:30:58 +0000

O LinkedIn Community Top Voices é um programa exclusivo que reúne especialistas de todo o mundo para compartilhar conhecimentos valiosos sobre uma variedade de tópicos relevantes para os usuários do LinkedIn. O programa é dividido em duas categorias: LinkedIn Top Voices e Community Top Voices. O primeiro é um programa apenas para convidados, enquanto o segundo é aberto a todos os usuários que contribuem com artigos colaborativos notáveis. Ambos os programas concedem selos de perfil exclusivos que reconhecem a experiência e o conhecimento dos usuários.

Caso queiram mais detalhes, aqui neste link tem a explicação completa direto do Linkedin: https://www.linkedin.com/help/linkedin/answer/a776208

Reconhecimento

Fiquei surpreso em ser reconhecido como Community Top Voices na categoria de Machine Learning e na de Data Science. Pelo que entendi, recebi o selo por reconhecimento da comunidade que considerou útil alguns comentários que fiz em posts sobre ML e Data Science que o Linkedin me apresentava… O curioso é que eu comentei somente em posts que me faziam sentido e eu tinha conhecimento e vontade de comentar.

Alguns de vocês já acompanham as contribuições que faço para a comunidade de dados no Brasil há anos, outros estão chegando agora. Independente de quando você começou a acompanhar o trabalho de divulgação que faço, vale dar uma passada por esse post de quase 10 anos atrás, onde explico sobre essas contribuições voluntárias: Reconhecimento como Outstanding PASS Volunteer – Agosto/2015. Ou este outro que é um pouco mais antigo, de 2010, que conto sobre um recorte da trajetória que estava trilhando: Comunidade, reconhecimento e conquistas!

O que busco fazer é uma contribuição legítima, tento ajudar o próximo sem esperar nada em troca. Mesmo assim, ser reconhecido pela comunidade global como um especialista Machine Learning e na de Data Science, é realmente muito gratificante.

Acredito que ao voltar à pergunta de quase 15 anos atrás: “Nossa Diego, o que você ganha com isso?!”, posso responder com propriedade que “Não ganho nada… mas ganho tudo!”.

Obrigado galera, vocês são incríveis! Espero, de coração, que as coisas que publico ajudem de alguma forma.

O post LinkedIn Community Top Voices apareceu primeiro em Diego Nogare.

Análise e visualização de dados para ML e Ciência de Dados

Diego Nogare — Mon, 22 Jan 2024 19:45:42 +0000

A Ciência de Dados é uma área em constante crescimento, e no momento em que há um aumento da quantidade de dados disponíveis, a necessidade de Análise e visualização de dados para ML e Ciência de Dados de maneira eficiente tornou-se cada vez mais importante. Neste post, quero explorar como o Machine Learning pode ser usado para essa finalidade, utilizando a linguagem de programação Python.

Machine Learning e Ciência de Dados

Machine Learning é um subcampo da Inteligência Artificial que se concentra em desenvolver algoritmos que permitem que os computadores aprendam a partir dos dados. Contudo, na Ciência de Dados, esses algoritmos são usados para descobrir padrões e insights nos dados. Anteriormente expliquei neste texto como a Inteligência Artificial está presente no nosso cotidiano. Aliás, esse texto também faz uma referência à uma outra publicação que conto um pouco da história da Inteligência Artificial.

Analise e Visualização de dados

Análise de Dados

A análise é o coração da ciência de dados, pois engloba o processo de inspecionar, limpar e transformar dados. Tem o objetivo de descobrir informações úteis, informar conclusões e apoiar os gestores nas tomada de decisões. A análise de dados pode ser dividida em muitas sub-áreas, e quero destacar quatro delas aqui:

Descoberta de Informações: A análise de dados ajuda a descobrir padrões e tendências nos dados que podem não ser imediatamente aparentes. Aliás, isso pode levar a insights valiosos que podem ser usados para informar estratégias de negócios ou direcionar decisões.
Tomada de Decisões Baseada em Dados: Com a análise de dados, as decisões podem ser baseadas em dados, em contraste com decisões com base em intuição, suposições ou com o famoso “eu que mando aqui”. Isso pode levar a melhores resultados e maior eficiência.
Previsão e Modelagem: A análise de dados permite a criação de modelos preditivos que podem ser usados para prever comportamentos ou tendências do futuro. Isso é particularmente útil em campos como vendas, marketing e finanças. Lembrando que, em virtude de ter resultados probabilísticos e não serem resultados determinísticos, a predição está associada à uma probabilidade do resultado acontecer.
Melhoria da Precisão: A análise de dados pode ajudar a melhorar a precisão das previsões e decisões ao fornecer uma base sólida de evidências em que se basear. Ou seja, melhora a tomada de decisão baseada em dados.

Visualização de Dados

Já a visualização de dados, que também é uma parte essencial da ciência de dados, permite que dados complexos sejam transformados em gráficos, facilitando a compreensão e interpretação dos dados. No Dataviz também podemos destacar muitos pontos importantes, mas quero manter o padrão e trazer quatro que entendo ser imporatnte:

Compreensão Rápida: Gráficos e imagens são processados pelo cérebro humano muito mais rápido do que texto, por consequência, a visualização de dados permite que as pessoas entendam os dados rapidamente.
Descoberta de Padrões: A visualização de dados pode revelar padrões, tendências e correlações nos dados que podem não ser evidentes em dados brutos, visto que nosso cérebro funciona melhor ao ver uma imagem do que ao ver um monte de numero amontoado.
Comunicação Eficaz: A visualização de dados é uma maneira eficaz de comunicar informações complexas de maneira clara e concisa. Ela pode ser usada com o intuito de contar histórias com dados, tornando as informações mais acessíveis e memoráveis. Leve em consideração o publico que vai consumir o seu gráfico, comunique com o seu publico de forma que eles entendam o que você está transmitindo.
Tomada de Decisão Informada: A visualização de dados pode ajudar na tomada de decisões ao fornecer uma representação visual clara dos dados. Isso pode levar a melhores decisões baseadas em dados. Um exemplo disso são os acompanhamentos com KPIs em reuniões executivas, os gestores normalmente olham para alguns faróis e ao bater o olho já sabem o que está indo bem e o que está indo mal.

Consegui te explicar a importância da Análise e Visualização de dados para Machine Learning e Ciência de Dados ?

Quer ver código?

Python é uma linguagem de programação popular na Ciência de Dados, isso se dá, acima de tudo, pela sua simplicidade e à variedade de bibliotecas disponíveis. As mais comuns são Pandas e NumPy para análise de dados, e Matplotlib e Seaborn para criar gráficos e visualizações interativas.

O Pandas é uma biblioteca Python que permite manipular estruturas de dados de forma rápida, flexível e expressiva. Foi desenvolvida pensando em pessoas que trabalham com dados relacionais ou rotulados, deixando a manipulação fácil e intuitivo. Da mesma forma, o NumPy, que é um pacote de processamento de arrays de forma geral, pois ele fornece um objeto de array multidimensional de alto desempenho e ferramentas para trabalhar com esses arrays.

O Matplotlib é uma biblioteca Python focada na criação de visualizações estáticas, animadas e interativas. Ela permite criar figuras de qualidade para consumir em vários formatos. Já o Seaborn é uma biblioteca baseada em Matplotlib e é particularmente útil para visualizar dados complexos. Não posso falar muito do Seaborn porque não trabalhei com ele ainda…

Estes pacotes Python que comentei são muito úteis para se trabalhar com Machine Learning e Ciência de Dados, aliás, acredito que usá-los vai te ajudar a resolver problemas de analise e visualização grandes conjuntos de dados e transformar os dados brutos em insights valiosos. Inclusive, durante uma disciplina do doutorado, eu criei um Repo no Github e coloquei alguns códigos lá dentro.

Eu ficaria muito feliz com sua contribuição nesse repo, no final da página do Github explico como você pode contribuir

Imagem de capa criada com IA pelo Bing. Utilizei o prompt: “Um macbook com gráficos coloridos em Azul, Vermelho, Verde e Amarelo e um copo de café na mesa, o macbook está em cima de uma mesa de escritório com o fundo de escritório desfocado. Os gráficos são como um dashboard para tomada de decisão” para a criação.

O post Análise e visualização de dados para ML e Ciência de Dados apareceu primeiro em Diego Nogare.

MLOps e Engenharia de Machine Learning descomplicados

Diego Nogare — Wed, 10 Jan 2024 12:00:23 +0000

Fala galera, hoje vamos falar sobre dois termos que estão revolucionando o mundo dos dados: Engenharia de Machine Learning (ML) e MLOps. Mas o que são esses termos e por que eles são tão importantes? Parece difícil, né? Mas não é, por isso estou descomplicando MLOps e Engenharia de ML neste texto com você!

A engenharia de Machine Learning e o MLOps estão se tornando cada vez mais importantes à medida que mais empresas começam a reconhecer o valor dos dados, mas com a combinação certa de habilidades em ciência de dados, engenharia de software e operações, os profissionais de ML estarão bem posicionados para liderar a próxima onda de inovações baseadas em dados.

Afinal, o que é a Engenharia de Machine Learning?

Em uma frase, podemos ver a engenharia de Machine Learning como a combinação da Ciência de Dados com a Engenharia de Software. Os engenheiros de ML são os responsáveis por projetar, construir e manter sistemas de ML que podem lidar com grandes volumes de dados, garantindo que os modelos de ML sejam precisos e eficientes.

E o MLOps, o que é?

MLOps, ou Machine Learning Operations, por sua vez, é uma prática que busca unificar ML, DevOps e Engenharia de Dados. O objetivo do MLOps é criar um fluxo de trabalho contínuo que inclua integração, teste, publicação, implantação e monitoramento de modelos de ML.

Por que MLOps e Engenharia de ML são importantes?

Com o aumento da quantidade de dados disponíveis e a necessidade de tomar decisões baseadas em dados, a demanda por sistemas de ML eficientes e escaláveis está crescendo. Neste sentido, MLOps e a engenharia de ML desempenham um papel crucial na construção desses sistemas, permitindo que as empresas aproveitem ao máximo seus dados.

Para dar mais contexto sobre oa ssunto, escrevi um texto aqui no blog sobre “Automatizar a publicação do seu modelo com MLOps” que pode ser lido aqui, e neste texto explico um pouco sobre o papel de MLOps para colocar modelos em produção. Também fiz um outro texto, no Medium do Itaú, explicando “Como é atuar na Engenharia de Machine Learning do Itaú?” que foi publicado aqui. Neste texto explico como é a área do banco, conto um pouco dos nossos desafios e comento quais são os assuntos técnicos esperados de alguém que queira ingressar nessa carreira dentro do banco.

Onde estudar?

Em 2023 eu fiz o curso “Machine Learning Engineering for Production (MLOps)” publicado pela DeepLearning.AI na Coursera. Este treinamento na verdade é uma especialização com 4 cursos (“Introdução ao Machine Learning em Produção”, “Ciclo de Vida dos Dados de Machine Learning em Produção”, “Pipelines de Modelagem de Machine Learning em Produção” e “Implantação de Modelos de Machine Learning em Produção”) que aprimoram as habilidades de colocar em produção modelos de aprendizado de máquina, você pode acessar o curso aqui. O curso aborda desde a ideação/concepção até a manutenção de sistemas integrados que operam de forma contínua em produção.

O curso é uma boa opção para aqueles que buscam aprofundar suas habilidades em EngML e MLOps, os exercícios práticos são feitos em Jupyter Notebooks disponibilizados pelos professores e você precisará fazer pequenos ajustes no código para rodar sua solução.

Mais recentemente, já em 2024, recebi o livro “Machine Learning Engineering with Python – 2nd Edition” da Packt Pub e foi escrito por Andrew P. McMahon. Enquanto escrevo este texto, a versão digital está na Amazon por um pouco mais de 200 reais. Ainda não terminei de ler o livro, mas ele parece ser um guia prático para EngML e MLOps que buscam construir soluções para problemas do mundo real. Ele aborda tópicos importantes de aprendizado de máquina, CI/CD e design de sistemas. O livro também explora o planejamento e gerenciamento de projetos de desenvolvimento de ML de ponta a ponta, com ênfase nas mais recentes tecnologias de código aberto e baseadas em nuvem. Nesta edição, em específico, tem um capítulo sobre Deep Learning, IA Generativa e LLMOps, assuntos que estão no hype neste momento. Para quem se interessar por essa temática, o livro ensina a usar ferramentas como LangChain, PyTorch e Hugging Face para seus LLMs.

O post MLOps e Engenharia de Machine Learning descomplicados apareceu primeiro em Diego Nogare.

Funções da área de ciência de dados

Diego Nogare — Wed, 08 Apr 2020 12:00:58 +0000

Não se submeta a ser unicórnio

quando você pode ser um especialista e não generalista

Muitas empresas, principalmente as que não sabem ao certo quais são as funções da área de ciência de dados, acabam exigindo muitas habilidades que não tem relação direta com as atividades em suas descrições de vagas. Isso impacta negativamente nos candidatos, aumentando a ansiedade de quem pleiteia uma vaga para trabalhar na empresa. Sem contar que durante o processo, muitas destas habilidades não são nem avaliadas por quem está analisando a vaga.

Por experiência própria, se aplique às vagas que tenha interesse em trabalhar, mesmo não atendendo à todos os requerimentos exigidos. Não minta, mas explique o porque se candidatou. Aprenda com os feedbacks que forem lhe passados. Se não for contratado, exija um retorno com um plano de estudo e se prepare para evoluir.

Na empresa que trabalho, criamos uma matriz de habilidades com as pessoas que trabalham no meu time. Levantamos mais de 90 habilidades, contudo, são realmente conhecidas pelas pessoas do time. Construímos uma equipe multidisciplinar, com pessoas complementando as habilidades das outras. Isso permitiu que o grupo fosse mais sólido e plural, com habilidades diferentes as reuniões são bastante ricas no contexto das ideias.

Utilizando a imagem que está na capa deste post para ilustrar o texto, separamos 8 grandes funções da área de ciência de dados.

Engenharia dos Dados e Computação Aplicada

Os profissionais que já trabalhavam com infra-estrutura e arquitetura de ambientes de alta disponibilidade, possuem uma facilidade grande de migrar para esta área. Isso porque eles são responsáveis por garantir que a solução atenderá o projeto de forma satisfatória. Tanto na questão de disponibilidade, quanto de armazenamento e também no que diz respeito ao tempo de resposta. Tanto a ingestão como também a movimentação de dados, é projetada por profissionais desta área de engenharia dos dados e computação aplicada.

Métodos Científicos

Quem tem familiaridade com pesquisas em academia já está acostumado a pesquisar para suas publicações. Mas a prática não é tão comum de se encontrar no segmento corporativo. Os profissionais estão acostumados a pesquisar em sites de busca, como Google ou Bing, mas geralmente é para encontrar uma solução específica de erro em código ou problema de implantação. A aplicação de métodos cientifícos ajuda os profissionais a entender como outros pesquisadores estão aplicando técnicas em seus problemas. Para base de comparação, na minha pesquisa de mestrado eu fiz o levantamento de quase 120 artigos científicos dos ultimos 5 anos que utilizavam técnicas de Machine Learning para predição de explosões solares. Sem esta pesquisa, eu não teria aprendido quais técnicas estão sendo utilizadas como o estado da arte da Inteligência Artificial.

Matemática e Estatística

O conhecimento em estatística é importante para validação de hipóteses, entendimento dos dados, criação de exploração e distribuição dos dados… Além da escrita de modelos de predição que envolvem os paradigmas de aprendizagem supervisionada e não supervisionada. Já na parte matemática a implementação de algoritmos em sua essência consiste em representações matemáticas, e para melhorar os resultados dos algoritmos, alterações podem ser feitas. Contudo, nem sempre eu recomendo começar por esta área de estudo. Principalmente por que muitas vezes dá para começar a implementar as soluções com o uso de Serviços Cognitivos, e então depois que já está familiarizado com as técnicas, ai parte para os estudos de matemática e estatística.

Visualização

Esta é uma das ciências que desde sempre é negligenciada pelos times de desenvolvimento. Infelizmente, de forma bastante errada, há uma percepção que qualquer um pode fazer a tela de interação com o usuário. Qualquer pessoa pode escrever o relatório para avisar o cliente como foi o projeto. Elaborar os gráficos para apresentar os dados analisados. Contudo, apenas poucas pessoas de fato estudou o assunto.

É importante que a mensagem seja passada de forma correta para quem vai receber. Saber como comunicar com o grupo que receberá aquela informação é fundamental. E esta é uma habilidade que o grupo de profissionais que estudam esta ciência fazem muito bem. No livro Storytelling com Dados: um Guia Sobre Visualização de Dados Para Profissionais de Negócios a autora explica como apresentar os dados em melhores formas. Vale a pena a leitura!

Pensamento fora da caixa

No livro Pense como um freak: Como pensar de maneira mais inteligente sobre quase tudo um dos capítulos os autores sugerem que você pense como uma criança de 8 anos, não é para agir como uma criança, mas sim fazer perguntas curiosas sobre o assunto. Isso ajudará aos participantes do projeto pensarem em assuntos para lhe explicar de forma simples. Alguns tópicos são tão obvios para eles, que ficam automáticos e não pensam sobre aquilo. Quando precisam explicar o processo à outra pessoa, eles revisitam esses tópicos e pensam como funciona. Esta tarefa reabre a discussão e a real utilização daquela tarefa.

Experiência nos Business

Montar soluções baseados em dados, sem o apoio da área de negócios, talvez não traga tantos benefícios quanto se há o profissional que conhece o domínio do assunto. É essencial ter este profissional disponível no projeto, contudo, ele não precisa estar 100% do tempo dedicado ao projeto. Isso porque suas atividades podem ser mais pontuais, principalmente para validar se a metodologia aplicada não fere nenhuma regra de negócios.

Nestes dias atuais que estamos enfrentando a pandemia de Novo Coronavirus existem várias pessoas publicando análises em redes sociais, mas não há necessariamente uma validação de epidemiologistas em cima dos resultados. Contudo, isso não significa que os profissionais devem parar de continuar com as análises dos dados publicos, só precisam tomar cuidado e consciência que está faltando uma peça fundamental, que é o conhecedor de domínio de assunto.

O post Funções da área de ciência de dados apareceu primeiro em Diego Nogare.

A história da Inteligência Artificial

Diego Nogare — Mon, 13 Jan 2020 12:00:06 +0000

A história da Inteligência Artificial

IA da década de 40 até o Deep Learning

Muito se fala sobre a Inteligência Artificial hoje em dia, mas poucos lembram que ela começou há mais de 75 anos. Este levantamento navega por todo esse período, apresentando algumas tarefas de IA em cada período. Divirtam-se com a história da Inteligência Artificial.

Onde tudo começou

Pode-se dizer que a IA de fato começou há mais de 75 anos, com Walter Pitts e Warren McCulloch, em 1943. Eles juntaram a proposta de funcionamento do neurônio biológico do ganhador Nobel de Medicina Camillo Golgi, a lógica proposicional de Bertrand Russell e Alfred Whitehead e a Teoria da Computação, proposta por Alan Turing. Em 1943 os pesquisadores criaram um sistema neural artificial onde interpretaram sinais binários como ligado e desligado. Eles diziam que era possível representar funções matemáticas com uma certa combinação destes neurônios.

Pouco depois, em 1950, Marvin Minsk e Dean Edmonds construíram o primeiro computador neural, simulando o comportamento de 40 neurônios durante seus estudos em Harvard. Mais tarde, Minsk trocou Harvard por Princeton, onde defendeu seu doutorado.

Ainda em 1950 Alan Turing apresentou seu trabalho conhecido como Teste de Turing. O teste propunha a criação de um sistema de Inteligência Artificial capaz de responder questionamentos por escrito de um interrogador humano. O sistema de IA seria considerado satisfatório se o interrogador não conseguisse diferenciar quais respostas foram dadas pelo computador e quais foram respondidas por outro ser humano. Resultados positivos do teste começaram a aparecer só após anos 2000.

Em meados dos anos 1950 pesquisadores de diversas universidades dos EUA se juntaram e passaram por 2 meses estudando e propondo soluções para possíveis problemas. Estes pesquisadores foram fundamentais para a evolução da IA no mundo, posteriormente criando laboratórios de Inteligência Artificial em universidades como MIT, Stanford e Princeton.

Grandes avanços da Inteligência Artificial…

Em 1958, John McCarthy criou a linguagem LISP dentro do MIT. LISP foi a principal linguagem de programação para trabalhar com IA por pelo menos os 30 anos seguintes. Também em 1958 Frank Rosenblatt, que foi aluno do Minsk, propôs o Perceptron. Essa proposição gerou uma nova abordagem para se trabalhar com uma representação de redes neurais artificiais.

Em 1959 surgiram as primeiras implementações de algoritmos genéticos, que eram chamados de evolução automática naquela época. Seu propósito era implementar pequenas mutações nos sistemas e observar se havia melhora significativa. Os experimentos utilizaram mutações aleatórias e registraram os resultados pareciam úteis. Não houve muito sucesso com os experimentos realizados naquela época. Os algoritmos genéticos de hoje em dia são muito mais performáticos e funcionais.

Na década de 60 os primeiros sistemas inteligentes para tradução de texto começaram a tomar relevância. Fizeram isso, acima de tudo, para traduzirem conteúdos escritos em russo sobre o Sputnik, o Programa Espacial Russo. Mesmo assim, até aproximadamente 1966, os resultados não eram satisfatórios e os pesquisadores desacreditavam das possibilidades de tê-los funcionando.

No começo dos anos 1970 havia uma onda de pesquisa propondo o uso de elementos racionais mais simples para compor um elemento mais complexo, a abordagem ficou conhecida como Métodos Fracos ou IA Fraca. Apesar de serem gerais, contudo, não podiam se utilizar de métodos escalonáveis ou difíceis. Estas pesquisas abriram espaço para os conhecidos Sistemas Especialistas, que se propunham a resolver problemas específicos de forma muito satisfatória. Ao estender os sistemas especialistas para outras áreas do conhecimento, como por exemplo a área médica, foi percebida a necessidade de o sistema refletir também a incerteza do modelo. Foi então que se iniciaram avaliações de Fatores de Incerteza nas decisões que eram apresentadas pelo sistema de IA.

Quando as coisas começaram a se engrenar para a Inteligência Artificial

Ainda em meados da década de 70 os pesquisadores voltaram a investir tempo em sistemas de interpretação e linguagem natural, para habilitar a IA a trabalhar com tradução. Um esforço grande foi feito para entender a linguagem em si, e como era a construção da linguagem. Foram propostas algumas linguagens de programação para refletir essa ideia da representação de raciocínio e lógica, e talvez a mais famosa tenha sido a linguagem Prolog.

O início da década de 80 deu ainda mais ênfase aos sistemas especialistas, conseqüentemente grande parte das empresas dos Estados Unidos tinha um (ou algumas dezenas, podendo chegar a centenas) sistema especialista. Na segunda parte de 1980, as redes neurais voltaram a ter relevância nas pesquisas e no mercado. Existiam alguns grupos voltando a estudar a evolução do Perceptron de Múltiplas Camadas que havia sido proposto em 1969, porém desta vez com o uso de retro propagação. As coisas começaram a melhorar para essa área de pesquisa.

Em 1988 uma nova função de ativação para redes neurais foi sugerida, era uma função radial proposto por David Broomhead e David Lowe e ficou mundialmente conhecida com RBF – Radial Bases Function.

Já em 1998 um grupo de pesquisadores aplicaram técnicas de convolução em redes neurais de múltiplas camadas para extrair características de imagens. As possibilidades de uso dos dados não estruturados chegou a outro patamar! Então com a CNN (Convolutional Neural Network) foi dado início ao que é mais conhecido hoje em dia como Deep Learning.

Recomendação de leitura sobre IA

Se quiser saber mais sobre a história da Inteligência Artificial, recomendo o livro Artificial Intelligence: A Modern Approach, escrito por Peter Norvig e Stuart Russell. Uma distribuição da Microsoft, mas que tem oferta gratuita para uso, é o Azure Machine Learning.

O post A história da Inteligência Artificial apareceu primeiro em Diego Nogare.