Arquivos Machine Learning - Diego Nogare

Roadmap MLOps 2024 – Desenvolvimento

Diego Nogare — Mon, 20 May 2024 23:16:18 +0000

Seguindo o combinado com vocês sobre o Roadmap MLOps 2024, depois de explicar os passos existentes em projetos de MLOps, hoje te convido para que entenda a etapa de desenvolvimento de MLOps. Primeiramente, vamos relembrar que o processo de MLOps, ou Machine Learning Operations, é uma prática que visa a colaboração e comunicação eficaz entre cientistas de dados e operações. Este processo pode ser dividido em três grandes fases, sendo: Desenvolvimento de Modelos, Publicação de Modelos e Monitoramento de Modelos.

Desenvolvimento de Modelos A fase de Desenvolvimento de Modelos é onde tudo começa. Aqui, os cientistas de dados usam técnicas de Machine Learning para criar modelos preditivos. Estes modelos são treinados com dados históricos, e o objetivo é que eles possam fazer previsões precisas quando forem alimentados com novos dados. Esta fase envolve uma série de etapas, incluindo a coleta e limpeza de dados, a seleção de um algoritmo de aprendizado de máquina, o treinamento do modelo e a avaliação de seu desempenho, entre outras etapas.

Publicação de Modelos Uma vez que um modelo foi desenvolvido e testado, ele está pronto para ser publicado. Na fase de deployment, o modelo é implantado em um ambiente de produção, onde pode começar a fazer previsões em tempo real. Esta fase requer uma estreita colaboração entre cientistas de dados e operações, para garantir que o modelo seja implantado com sucesso e que possa operar de forma eficiente e eficaz.

Monitoramento de Modelos A última fase do processo de MLOps é o Monitoramento de Modelos. Aqui, o desempenho do modelo é monitorado continuamente para garantir que ele continue a fazer previsões precisas. Se o desempenho do modelo começar a degradar, pode ser necessário re-treinar o modelo com novos dados, ou até mesmo desenvolver um novo modelo trocando o algoritmo… Contudo, como cada situação é única, fazer o acompanhamento contínuo é fundamental para que o projeto continue entregando valor para a área de negócios.

Cada uma dessas fases é crucial para o sucesso de um projeto de Machine Learning. No entanto, a fase de Desenvolvimento de Modelos é muitas vezes a mais complexa e demorada. É aqui que os cientistas de dados precisam aplicar sua expertise para desenvolver um modelo que não só faça previsões precisas, mas que também seja robusto e confiável. Portanto, é essencial que esta fase seja gerenciada de forma eficaz para garantir o sucesso do projeto como um todo.

Entenda a etapa de desenvolvimento de MLOps

Aqui, vamos explorar juntos os detalhes que compõem esta etapa. Compartilho uma visão ampla dos itens que residem nessa parte do processo, para que você entenda a etapa de desenvolvimento de MLOps. Repare que a ordem dos itens está alternada entre Infra-estrutura e codificação. Assim podemos separar novamente em duas categorias, e manter a ordem das atividades.

Infra-estrutura

1 – Acesso e Recuperação de Dados: A primeira etapa do desenvolvimento de MLOps envolve o acesso e a recuperação de dados. Os dados são a espinha dorsal de qualquer projeto de Machine Learning e, portanto, é crucial ter um sistema eficiente para acessar e recuperar esses dados.

3 – Feature Store: Em seguida, é a criação de um feature store. Este é um local centralizado onde as features de Machine Learning são armazenadas e gerenciadas. Ele permite que as equipes de ML reutilizem features entre projetos, melhorando a eficiência e a consistência. Fazendo uma analogia, é como se fosse um catálogo ou vitrine de features para reuso. Mas aqui vale destacar que a Feature Store, apesar de facilitar muito, não é obrigatoriamente um item em projetos de ML.

4 – Ambiente de desenvolvimento: O ambiente de desenvolvimento é onde a mágica acontece. Aqui, os cientistas de dados usam os dados e as features para desenvolver e treinar modelos de Machine Learning. É crucial ter um ambiente de desenvolvimento robusto e flexível para facilitar este processo.

8 – Armazenamento de Artefatos: Finalmente, temos o armazenamento de artefatos. Esta é (agora sim) a etapa final do processo de desenvolvimento de MLOps, onde os modelos treinados e outros artefatos de ML são armazenados para uso futuro.

Codificação

2 – Limpeza de dados: A limpeza de dados é uma atividade existente em todos projetos de ML, e faz parte da etapa de desenvolvimento de MLOps. Os dados brutos coletados podem conter erros, inconsistências ou lacunas que podem afetar a precisão dos modelos de Machine Learning. A limpeza de dados envolve a identificação e correção desses problemas, garantindo que os dados sejam precisos e completos antes de serem usados para treinar um modelo.

5 – Seleção de um algoritmo: A seleção do algoritmo de Machine Learning é uma sub-etapa do processo de codificação. Existem muitos algoritmos diferentes disponíveis, cada um com suas próprias forças e fraquezas. A escolha do algoritmo certo depende do problema que você está tentando resolver, do tipo de dados que você tem e dos recursos computacionais disponíveis. Mas o principal de tudo, é a eficiência para resolver o problema de negócio.6 – Treinamento do modelo: O treinamento do modelo é a etapa onde o modelo de Machine Learning realmente aprende a fazer previsões. Durante o treinamento, o modelo é alimentado com dados de treinamento e ajusta seus parâmetros internos para minimizar a diferença entre suas previsões e os valores reais. Este é um processo iterativo que continua até que o modelo seja capaz de fazer previsões precisas. Esta atividade pode ser concluída quase instantaneamente quando a base de dados é minúscula, ou demorar meses quando o seu dataset é do tamanho do GPT da OpenAI.

7 – Avaliação de performance de desempenho: A avaliação de performance de desempenho é a etapa (pré-)final no desenvolvimento de MLOps. Aqui, o modelo é testado em um conjunto de dados separado, que o treinamento de modelo nunca viu, conhecido como dados de teste. O objetivo é medir quão bem ele pode fazer previsões em dados que não viu durante o treinamento. Esta etapa é crucial para garantir que o modelo seja robusto e capaz de generalizar para novos dados. Afinal, quando estiver em produção o modelo irá trabalhar com combinação de dados que pode nunca ter visto antes.

Enfim, desenvolvimento…

Em resumo, o MLOps é um processo existente e importante no campo do Machine Learning. É composto por várias etapas críticas, desde a limpeza de dados até a avaliação de desempenho. Contudo, cada etapa desempenha um papel vital na criação de modelos de ML robustos e eficazes. Embora o desenvolvimento de modelos seja uma fase complexa e demorada, é fundamental para o sucesso de qualquer projeto de ML. Ao entender profundamente cada atividade do desenvolvimento, é possível otimizar esforços e garantir que os modelos de ML sejam precisos e confiáveis. Continue explorando comigo o Roadmap de MLOps 2024 e entenda como transformar seus projetos de Machine Learning.

Nosso próximo texto da série será sobre o ambiente de deployment. Não perca!

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “Ilustração cyberpunk do processo de MLOps, destacando limpeza de dados, seleção de algoritmo de Machine Learning, treinamento de modelo, avaliação de desempenho, com cores neon e fundo de bordas indefinidas”

O Bing deu uma zuada nos textos, mas tudo bem, o conceito da imagem está perto do que eu queria

O post Roadmap MLOps 2024 – Desenvolvimento apareceu primeiro em Diego Nogare.

Roadmap MLOps 2024

Diego Nogare — Tue, 07 May 2024 00:07:21 +0000

Em cima do que venho pesquisando para o doutorado montei um roadmap de MLOps para 2024. A ideia é descrever o que existe em um ambiente de publicação de modelos de Machine Learning, para que você saiba o que precisa quando for construir o seu. Vou escrever sobre as etapas que vão desde o acesso aos dados até a observabilidade dos logs do modelo publicado, detalhando as fases de desenvolvimento, implantação e monitoramento de modelos. Espero, assim, que no fim dessa série de postagens, e ao consolidar os conteúdos, você tenha a visão completa da plataforma.

Antes de mais nada, vamos embarcar nessa jornada?

Vou aproveitar e compartilhar alguns posts que fiz recentemente, pois estão diretamente conectados a este assunto.

Jan/24 – MLOps e Engenharia de Machine Learning descomplicados

Jan/24 – Review do Livro “Machine Learning Engineering with Python – 2nd edition”

Fev/24 – Ferramentas e plataformas essenciais para projetos de IA e ML

Fev/24 – Melhores práticas para testar e monitorar modelos de ML

Fev/24 – Tendências em Engenharia de Machine Learning e MLOps em 2024

Fev/24 – Aprenda Engenharia de Machine Learning e MLOps online

Abr/24 – IA Ética, IA Responsável e Explicabilidade de IA

Ah, não posso deixar de dizer que MLOps e CRISP-DM são dois componentes fundamentais no desenvolvimento de modelos de machine learning. Enquanto o MLOps fornece a visão macro do processo, o CRISP-DM entra nos detalhes de cada etapa.

CRISP-DM

O MLOps, com as fases de desenvolvimento, implantação e monitoramento de modelos, fornece uma estrutura base para o ciclo de vida do modelo. Por outro lado, o CRISP-DM oferece uma metodologia detalhada para cada fase, desde a compreensão do negócio até a implantação do modelo. O paper do CRISP-DM foi publicado nos anos 2000, e os primeiros artigos de MLOps, por volta de 2015! É importante destacar que, independente da idade, eles se complementam perfeitamente!

Esta é a referência ao artigo original do CRISP-DM:

Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. Journal of data warehousing, 5(4), 13-22.

O Cross-Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia amplamente aceita que fornece uma estrutura para o desenvolvimento de modelos de machine learning. É um processo cíclico que consiste em seis fases: compreensão do negócio, compreensão dos dados, preparação dos dados, modelagem, avaliação e implantação. Cada fase tem um papel bem definido no desenvolvimento de modelos de ML, e sua importância edstá diretamente ligada a uma abordagem estruturada e iterativa. Ele permite que as equipes de dados compreendam melhor os problemas de negócios, preparem os dados de maneira adequada, construam modelos eficazes e os implantem com sucesso. Mesmo depois de mais de 20 anos, continua sendo uma metodologia valiosa para o desenvolvimento de modelos de ML.

Etapas macro de MLOps

O MLOps é um campo em rápida evolução, isso já venho falando há algum tempo… Espero que você também possa perceber isso. Em linhas gerais, pode-se dividir o processo de MLOps em três etapas, sendo: Desenvolvimento, Implantação e Monitoramento.

Desenvolvimento: Esta é a primeira etapa do processo de MLOps e envolve a criação de modelos de machine learning. Durante esta fase, os cientistas de dados coletam e preparam os dados, selecionam os algoritmos apropriados, treinam o modelo e, finalmente, validam o modelo para garantir que ele esteja funcionando conforme o esperado. Esta etapa é crucial, pois a qualidade do modelo desenvolvido afeta diretamente o desempenho do sistema de machine learning;
Implantação: Uma vez que o modelo é desenvolvido e validado, a próxima etapa é a implantação do modelo. Esta etapa envolve a integração do modelo em um sistema de produção existente, onde ele pode começar a fazer previsões (scoring do modelo). A implantação de modelos é um processo complexo que requer uma estreita colaboração entre as equipes de dados e engenharia para garantir que o modelo seja implementado corretamente e possa operar de forma eficiente e eficaz;
Monitoramento: Após a implantação do modelo, a etapa final do processo de MLOps é o monitoramento/observabilidade do modelo. Esta etapa envolve o rastreamento contínuo do desempenho do modelo para garantir que ele continue a fornecer resultados precisos. Se o desempenho do modelo começar a degradar, o modelo pode precisar ser re-treinado com novos dados ou ajustado para melhorar seu desempenho. O monitoramento em si deve ser realizado durante todo o período do ciclo de vida do modelo, mas só depois de entrar em produção é que podemos começar a ter observabilidade da sua operação.

Próximos passos

Posso dizer que o processo CRISP-DM se encaixa perfeitamente nessas três etapas do MLOps. A fase de “compreensão do negócio” e “compreensão dos dados” do CRISP-DM se alinha com a etapa de desenvolvimento de modelos do MLOps. A fase de “modelagem” e “avaliação” do CRISP-DM coincide com a etapa de implantação de modelos do MLOps. Finalmente, a fase de “implantação” do CRISP-DM se conecta com a etapa de monitoramento de modelos do MLOps. Assim, o CRISP-DM e o MLOps juntos formam uma estrutura robusta e completa para o ciclo de vida de modelos de machine learning. Apesar de eu ter feito uma associação direta do monitoramento com a implantação, lembre-se que o monitoramento é contínuo e deve aparecer em todas as fases do CRISP-DM.

A combinação de MLOps e CRISP-DM oferece uma abordagem robusta e completa para o desenvolvimento de modelos de machine learning, lendo esse material, espero que você tenha uma melhor compreensão das etapas envolvidas e da importância de cada uma delas. Acompanhe os próximos posts para ver mais os desdobramentos e detalhes de cada etapa do Roadmap de MLOps em 2024.

Contudo, não se dê por satisfeito só com as postagens aqui, lhe convido a acompanhar estes livros:

Projetando sistemas de Machine Learning: processo interativo para aplicações prontas para produção, por Chip Huyen

Machine Learning Engineering with Python – Second Edition: Manage the lifecycle of machine learning models using MLOps with practical examples, de Andrew McMahon

Mãos à obra aprendizado de máquina com Scikit-Learn, Keras & TensorFlow: conceitos, ferramentas e técnicas para a construção de sistemas inteligentes

Estatística prática para cientistas de dados: 50 conceitos essenciais

Estatística: O que é, para que serve, como funciona.

Imagem de capa criada com IA pelo Bing. Utilizei o prompt: “Diagrama circular com três círculos um ao lado do outro, dividido em três segmentos principais representando Machine Learning em verde, Desenvolvimento em laranja e Operações em roxo, sem texto, com ícones de um cérebro, um computador com colchetes de código e uma pessoa sob um guarda-chuva, interconectados para representar o ciclo contínuo entre esses domínios” para a criação (o prompt entregou errado porque não era para ter texto e as cores não foram as que pedi, mas gostei do resultado).

O post Roadmap MLOps 2024 apareceu primeiro em Diego Nogare.

Machine Learning – Meu repositório no github

Diego Nogare — Mon, 25 Mar 2024 21:59:08 +0000

Seja bem-vindo ao meu repositório de Machine Learning no GitHub! Aqui, você encontrará os códigos que desenvolvi durante a disciplina de Aprendizagem de Máquina do doutorado no Mackenzie. Você encontrará diversos Jupyter Notebook para aprender Machine Learning utilizando Python e abordando desde Análise Exploratória Descritiva até implementações práticas de Aprendizado Supervisionado e Aprendizado não Supervisionado, além de boas práticas como Validação Cruzada, Grid Search e Serialização do Modelo e códigos que realizam comparações dos algoritmos estudados.

Navegue pelo repositório de machine learning com Python e execute todos os códigos no Google Colab para aprimorar suas habilidades em Machine Learning. E claro, colabore para que todos possamos aprender cada vez mais!

Meu repositório no github

O repositório é dedicado a compartilhar os códigos com resoluções de problemas de Machine Learning. Ajudam no entendimento desta área de atuação que vem crescido bastante nos últimos anos. Aqui você irá encontrar exemplos de algoritmos no repositório de machine learning com Python explicados de maneira detalhada (ao menos estou tentando deixar o mais detalhado que consigo, no tempo que tenho).

Os códigos estão organizados em grupos, onde há o nome do arquivo e uma breve descrição do que ele tem de implementação.

Análise exploratória descritiva

Existem os códigos que fazem a exploração de dados de um dataset de Detecção de Fraude e outro da Iris. Além de uma exploração de dados com os dígitos do MNIST.

Aprendizado supervisionado

Só coloquei os códigos de algoritmos de classificação, porém, tem KNN, Árvore de Decisão e Multi-Layer Perceptron (Rede Neural). Tem espaço para incluir outros algoritmos de classificação, como também há espaço para adicionar algoritmos de regressão, por que eu não subi nenhum.

Aprendizado não supervisionado

Apesar de já ter o arquivo para o DBScan e o K-Means, só o K-Means que escrevi os códigos… para o DBScan eu comecei a fazer a parte teórica mas não implementei nada. Há espaço para colaborar aqui também…

Além, é claro, de outros algoritmos que quiserem

Boas práticas

Tem códigos utilizando Validação Cruzada, Grid Search e Serialização de Modelos… Mas aqui também há espaço para trazerem mais boas práticas

Comparação de algoritmos

Para o trabalho de comparar os algoritmos, fiz a junção de vários códigos do repositório e então comparei KNN, Árvore de Decisão e Multi-Layer Perceptron para a base de dados MNIST… Como eu queria garantir que os dígitos testados não tivessem sido utilizados de forma alguma, criei uma rede adversaria generativa para que fosse possível criar dígitos artificiais. Então, com esses dígitos, eu posso testar os algoritmos em si e comparar seus resultados.

Animação com a geração artificial dos dígitos entre a época 0 e 100

De bonus ainda tem um código que fiz para juntar as imagens dos dígitos em cada uma das épocas e construir um gif animado. Assim fica bem legal ver a evolução das gerações de dígitos artificiais ao longo das épocas da GAN.

Contribua com o repositório de machine learning

Você já fez alguma coisa de ML e gostaria de subir nesse repositório? Se for até o final do Readme.md vai ver algumas instruções rápidas para contribuir além de uma playlist explicando como fazer isso. Mas mesmo assim, aqui está uma lsita simplificada de passos para contribuir:

Crie uma conta no GitHub: Se você ainda não tem uma, você pode criar uma gratuitamente no site do GitHub.
Fork do repositório: Abra o link do projeto e faça um “fork” dele. Isso cria uma cópia do projeto na sua conta do GitHub.
Clone o repositório para o seu computador: Use o comando git clone seguido do URL do seu fork para baixar o repositório para o seu computador.
Faça suas alterações: Faça as alterações que você acha que melhoram o projeto.
Commit suas alterações: Use o comando git commit -m seguido de uma mensagem descritiva para salvar suas alterações.
Push suas alterações para o GitHub: Use o comando git push origin seguido do nome da sua branch (main) para enviar suas alterações para o seu fork no GitHub.
Abra um Pull Request: Volte para o seu fork no GitHub, selecione a sua branch e clique no botão “New pull request”. Escreva uma descrição detalhada das suas alterações e então clique em “Create pull request”.

A partir disso eu recebo o seu PR, analiso o que você codou e faço o merge para o repositório. Dando os devidos créditos à você, é claro!

Quer estudar mais

Quer estudar os algoritmos e implementá-los no repositório de machine learning com Python? Com o livro Mãos à obra: aprendizado de máquina com scikit-learn & tensorflow você vai aprender bastante, assim como com Data Science do zero: noções fundamentais com Python. Então não deixe de estudar e se aperfeiçoar nessa disciplina!

O post Machine Learning – Meu repositório no github apareceu primeiro em Diego Nogare.

Machine Learning para quem não é de TI

Diego Nogare — Fri, 15 Mar 2024 01:34:31 +0000

A era digital trouxe consigo uma nova figura: o Citizen Data Scientist. Esse é um termo que vem ganhando cada vez mais destaque no mundo da tecnologia, especialmente no campo do Machine Learning. Mas o que significa e como se tornar um? Para começar, não é necessário ser um especialista em TI para trabalhar com Machine Learning. Graças aos avanços em Cloud Computing e ferramentas prontas oferecidas por gigantes como AWS, Microsoft e Google, qualquer um pode se tornar um cientista de dados.

Neste texto quero explicar o conceito de Citizen Data Scientist, as vantagens de se envolver com projetos de Machine Learning mesmo sem ser um especialista em TI, e as ferramentas que facilitam esse processo, como o AutoML e os serviços de Cloud Computing. Vamos lá?!

O que é um Citizen Data Scientist?

Um Citizen Data Scientist é alguém que, embora não seja uma pessoa especialista em TI, utiliza ferramentas de Machine Learning para extrair insights valiosos dos dados. Esses indivíduos são capazes de preencher a lacuna entre especialistas em dados e profissionais de negócios. Esse perfil vem se tornando cada vez mais relevante nas organizações, pois permite democratizar o acesso e o uso dos dados, ampliando as possibilidades de inovação e tomada de decisão baseada em dados e evidências. Além disso, os Citizen Data Scientists podem contribuir para a melhoria dos processos internos, a otimização dos recursos e a satisfação dos clientes.

Ferramentas de Cloud Computing para Machine Learning

Para se tornar um Citizen Data Scientist, não é preciso ter um diploma em ciência da computação ou matemática, mas sim ter curiosidade, criatividade e vontade de aprender. Além disso, é importante ter conhecimento do domínio do problema que se quer resolver, ou seja, entender o contexto e os objetivos do negócio. As ferramentas de Cloud Computing, como as oferecidas pela AWS, Microsoft e Google, tornaram o aprendizado de máquina acessível a todos. Essas plataformas oferecem uma variedade de serviços que permitem aos usuários treinar e implementar modelos de ML sem a necessidade de codificação extensa. Mas como começar a trabalhar com Machine Learning sem saber programar ou lidar com algoritmos complexos? A resposta está nas ferramentas que facilitam esse processo, como o AutoML e os serviços de Cloud Computing.

AutoML: Uma Revolução no Machine Learning

O AutoML, ou Automated Machine Learning, é uma das inovações mais empolgantes no campo do Machine Learning. Ele automatiza todo o ciclo de vida de um projeto, incluindo a preparação dos dados, o processo de treinamento e otimização de parâmetros dos modelos, chegando até a avaliação e implantação dos modelos. Estas abstrações tornam o AutoML acessível até para não especialistas em TI. Seja você um profissional de negócios, um estudante ou apenas um entusiasta da tecnologia, o mundo do Machine Learning está ao seu alcance com ferramentas de AutoML.

Ao utilizar ferramentas de AutoML, é possível criar soluções sem escrever uma linha de código ou escolher manualmente os melhores algoritmos e parâmetros. Basta fornecer os dados e definir o objetivo do projeto, que o AutoML se encarrega de fazer todo o trabalho pesado. Ademais, ele pode ser aplicado em diversas áreas e problemas, como classificação, regressão, clusterização, detecção de anomalias, processamento de linguagem natural, visão computacional, entre outros.

Quais são os benefícios do AutoML?

O AutoML traz diversos benefícios para quem quer se tornar um Citizen Data Scientist, como:

– Reduzir o tempo e o custo dos projetos de Machine Learning;
– Aumentar a qualidade e a confiabilidade dos modelos;
– Diminuir a dependência de especialistas em TI;
– Facilitar a experimentação e a inovação com dados.

Como usar o AutoML?

Uma das formas mais simples e acessíveis de usar o AutoML é através dos serviços de Cloud Computing oferecidos por grandes empresas como AWS, Microsoft e Google. Esses serviços permitem criar soluções de Machine Learning na nuvem, sem precisar instalar ou configurar nenhum software localmente.

Alguns exemplos desses serviços são:

– AWS SageMaker Autopilot: um serviço da AWS que permite criar modelos de Machine Learning personalizados com apenas alguns cliques. O SageMaker Autopilot analisa os dados, seleciona os melhores algoritmos e parâmetros, treina os modelos e gera relatórios explicando cada passo do processo;
– Azure Automated Machine Learning: um serviço da Microsoft que permite criar, treinar e implantar soluções de Machine Learning na nuvem ou na borda. O Azure Automated Machine Learning oferece recursos de AutoML para automatizar a escolha dos melhores algoritmos e parâmetros para cada problema.
– Google Cloud AutoML: um serviço do Google Cloud Platform que permite criar modelos de Machine Learning personalizados para diferentes tipos de dados, como texto, imagem, vídeo e tabular. O Google Cloud AutoML usa técnicas avançadas como aprendizado por transferência e redes neurais para gerar modelos com alta precisão.

Conclusão

Neste artigo, tentei explicar o que é um Citizen Data Scientist, que é um profissional que usa técnicas e ferramentas de Machine Learning para resolver problemas de negócios, mas sem ter uma formação específica em TI. Você também leu como se tornar um, usando recursos como o AutoML e os serviços de Cloud Computing, que facilitam a criação de soluções de ML na nuvem

Se você se interessou pelo assunto e quer se aprofundar mais, confira mais alguns links:

– Na visão da AWS, o que é Machine Learning?
– O que é AutoML na visão da Microsoft?
– Segundo o Google, o que é Cloud Computing?

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “Academia de Platão com menos pessoas, incluindo Platão e mulheres gregas no centro, estudando e debatendo de forma construtiva, segurando laptops, tablets ou smartphones ao invés de livros”

Foi muita viagem da minha cabeça gerar a imagem da Academia de Platão com a galera utilizando laptops e tablets para sintetizar a ideia de civilização (conectando com o tema de Citizen Data Scientist), sendo que a civilização como é conceituada veio dos Sumérios, aquele povo que vivia entre os rios Tigres e Eufrates na antiga Mesopotâmia – que atualmente é a região do Iraque e não tem ligação direta com as ideias propostas por Platão.

O post Machine Learning para quem não é de TI apareceu primeiro em Diego Nogare.

É possível que sim, mas provável que não!

Diego Nogare — Mon, 04 Mar 2024 12:00:02 +0000

Tive a inspiração para esse texto há algumas semanas, durante o carnaval, quando me convidaram para ir à um bloquinho. Não sou muito fã desta festa, e de partida, eu respondi que não. Meus amigos insistiram, e eu respondi “É possível que sim, mas provável que não!“. Eles se sentiram felizes com a resposta.

Infelizmente isso é mais comum do que se imagina, muitas pessoas assumem que estas palavras são sinônimos, mas não são. Contei inicialmente essa história curta para te conectar ao assunto e vou tentar fazer a conexão disso com Ciência de Dados.

Você já se perguntou qual é a diferença entre possibilidade e probabilidade? Esses dois conceitos são muito importantes para a ciência de dados, pois permitem analisar dados e fazer previsões com base em evidências. A probabilidade é um pilar fundamental da ciência de dados. Contudo, muitas vezes, as pessoas confundem os termos “probabilidade” e “possibilidade”.

Mas afinal, qual é a diferença entre eles e por que isso é importante para a ciência de dados?

Possibilidade e probabilidade: qual é a diferença?

A possibilidade é a capacidade de algo acontecer ou não, independentemente de sua frequência ou probabilidade. Por exemplo, é possível que chova amanhã, mas isso não significa que seja provável. A possibilidade é uma questão de lógica, que depende apenas da existência ou não de condições para que um evento ocorra. Por isso respondi que “É possível que sim“.

Já a probabilidade é a medida da chance de um evento acontecer, considerando sua frequência relativa em relação a outros eventos possíveis. Por exemplo, a probabilidade de chover amanhã pode ser calculada com base em dados históricos, como a média de chuva no mês, a previsão do tempo, etc. A probabilidade é uma questão de matemática, que depende de dados e evidências para estimar a ocorrência de um evento. Foi aqui que conclui a resposta com o “mas provável que não!“.

Agora, como calcular a probabilidade de um evento? É até que simples, nós dividimos o número de maneiras que o evento desejado pode acontecer pelo número total de resultados possíveis. Por exemplo, qual a chance de você que gosta de carnaval ir a um bloquinho? Imagine que você tem 5 blocos de carnaval para escolher e só pode ir a 1. A probabilidade de escolher qualquer bloco é de 1 em 5, ou seja, 20%. Isso porque você só pode escolher escolher 1 bloco para ir (o evento desejado) e tem 5 blocos possíveis no total (o número total de resultados).

Só pra finalizar essa explicação curta, enquanto a possibilidade se refere a algo que pode acontecer, a probabilidade quantifica essa chance. Em outras palavras, a probabilidade é uma medida da possibilidade.

Como a probabilidade se aplica à ciência de dados?

A ciência de dados é uma área que utiliza métodos estatísticos para coletar, organizar, analisar e interpretar dados, com o objetivo de extrair conhecimento e gerar valor. A probabilidade estatística é uma ferramenta essencial para a ciência de dados, pois permite quantificar a incerteza e a variabilidade dos dados, bem como testar hipóteses e fazer inferências sobre uma população ou fenômeno. Na ciência de dados, a probabilidade é usada para prever resultados. Por exemplo, em um modelo de aprendizado de máquina, a probabilidade pode ser usada para prever a classe de um novo dado com base nos dados de treinamento.

Alguns exemplos de aplicações da probabilidade estatística na ciência de dados são utilizados em:

– Análise exploratória de dados: consiste em descrever e visualizar os dados, utilizando medidas de tendência central (como média, mediana e moda), medidas de dispersão (como desvio padrão e variância), distribuições de frequência (como histogramas e boxplot) e medidas de associação (como correlação).
– Análise inferencial de dados: consiste em tirar conclusões sobre uma população ou fenômeno, a partir de uma amostra de dados, utilizando testes estatísticos (como teste t, teste qui-quadrado e teste ANOVA) e intervalos de confiança (como margem de erro e nível de significância).
– Aprendizado de máquina: consiste em criar modelos que aprendem com os dados, utilizando paradigma de aprendizado supervisionado (com algoritmos como o regressão linear, regressão logística e árvore de decisão) ou aprendizado não supervisionado (com algoritmos de clusterização, análise de componentes principais e detecção de anomalias).

Quer aprender mais?

A probabilidade é uma ferramenta poderosa na ciência de dados. Compreender a diferença entre probabilidade e possibilidade e aplicar rigor científico ao trabalhar com probabilidade é essencial para fazer previsões precisas e confiáveis. Se algo é certeza que vai acontecer, dizemos que a probabilidade é 1 ou 100%. Se algo é impossível de acontecer, a probabilidade é 0 ou 0%. Quando olhamos esses números em uma visão de Ciência de Dados, avaliando o resultado de uma métrica de avaliação de performance, não devemos confiar em resultados que dão probabilidade de 100%. Isso é direcionado porque trabalhamos com resultados probabilísticos e não determinísticos nesta disciplina.

Para encerrar, o rigor científico é crucial ao trabalhar com a probabilidade. Afinal, decisões são tomadas com base nessas previsões, e se a probabilidade não for calculada corretamente, podemos tomar uma decisão ruim. Portanto, é essencial que os cientistas de dados compreendam e apliquem corretamente os conceitos de probabilidade.

Deixo como recomendação dois títulos de livros que considero importantes Estatística prática para cientistas de dados: 50 conceitos essenciais e Estatística: O que é, para que serve, como funciona. Estão com preço ótimo neste momento (então corram antes que acabe a promoção).

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “Um homem fantasiado para o carnaval do Rio de Janeiro, com fundo desfocado de um trio elétrico durante o dia. A expressão facial da pessoa é de desconfiança, duvidando de alguma coisa que foi contado para ela, com uma sobrancelha levantada. O estilo é de Ilustração Digital.”

O post É possível que sim, mas provável que não! apareceu primeiro em Diego Nogare.

Aprenda Engenharia de Machine Learning e MLOps online

Diego Nogare — Mon, 26 Feb 2024 21:49:35 +0000

A Engenharia de Machine Learning e MLOps são áreas que estão em alta no mercado de tecnologia pois envolvem o desenvolvimento, a implantação e a manutenção de sistemas de inteligência artificial em produção. Mas como aprender e se atualizar sobre esses temas, que estão em constante evolução? Neste blogpost, vou mostrar algumas opções de cursos online gratuitos ou de baixo custo, oferecidos por grandes empresas como Google, Microsoft e AWS, além de outros fornecedores para que você aprenda Engenharia de Machine Learning e MLOps. Esses cursos podem lhe ajudar a adquirir as habilidades e as certificações necessárias para se destacar nesse setor. Bora lá?

Não quero ficar repetindo conceito e textos, então não entrarei no mérito do que é e qual a importância desta área… Já escrevi sobre isso em MLOps e Engenharia de Machine Learning descomplicados, Ferramentas e plataformas essenciais para projetos de IA e ML e Tendências em Engenharia de Machine Learning e MLOps em 2024.

Por que aprender Engenharia de Machine Learning e MLOps?

Aprender Engenharia de Machine Learning e MLOps pode trazer diversos benefícios para a sua carreira e para os seus projetos, principalmente porque há uma demanda muito grande por essa área nas empresas. Destaquei alguns itens que considero importante para compartilhar com vocês!

Você poderá desenvolver soluções inovadoras e de alto impacto, usando a inteligência artificial para resolver problemas reais de diversos setores da indústria;
Você poderá aumentar a sua empregabilidade e a sua remuneração, pois a demanda por profissionais com habilidades de nuvem e machine learning está em crescimento, e as empresas estão dispostas a pagar bem por eles;
Você poderá aprimorar as suas competências técnicas e profissionais, pois os cursos online oferecem conteúdo atualizado, prático e relevante, além de oportunidades de interação com instrutores e colegas;
Você poderá obter certificações reconhecidas no mercado, que comprovam o seu conhecimento e a sua experiência em Engenharia de Machine Learning e MLOps, e que podem abrir portas para novas oportunidades.

Não posso deixar de compartilhar uma Playlist do Youtube que gravei há alguns anos e continua super atual. Convido todos vocês à assistirem aos vídeos e acelerar suas respectivas carreiras. A Playlist está neste link: Como aprender Data & AI de graça com os fornecedores líderes globais de Cloud Computing.

Depois de acompanhar Data & AI nos vídeos da Playlist, existem diversas outras opções de cursos online gratuitos ou de baixo custo para aprender Engenharia de Machine Learning e MLOps oferecidos por grandes empresas como Google, Microsoft e AWS, além de outros fornecedores. Esses cursos abordam desde os conceitos básicos até os tópicos avançados, e são adequados para diferentes níveis de conhecimento e experiência.

Quais são os cursos online gratuitos ou de baixo custo?

Em geral, estes cursos ensinam os fundamentos e as aplicações do machine learning, como usar os serviços e as ferramentas para construir, treinar, implantar e gerenciar modelos de ML, e como usar o MLOps para automatizar e padronizar o ciclo de vida de machine learning. Assim, independente de qual provedor de cloud computing você estude, todos lhe ensinarão o conceito e terão a prática em suas ferramentas:

Google: A Google oferece vários cursos online gratuitos para aprender sobre machine learning e inteligência artificial, através da plataforma Google Activate, que em algumas encaminha você para a Coursera. Um destes exemplos é o Certificado Profissional Google Data Analytics (PT) e o Advanced Machine Learning with TensorFlow on Google Cloud Platform. Já o Machine Learning Engineer Learning Path fica interno no Google Cloud Skills Boost.

Microsoft: A Microsoft também oferece diversos cursos online gratuitos para aprender sobre machine learning e inteligência artificial, porém, oferece tudo através da plataforma Microsoft Learn. Alguns exemplos são Introdução às MLOps (Operações de Machine Learning), End-to-end machine learning operations (MLOps) with Azure Machine Learning, Create machine learning models e Fundamentals of machine learning. Ah, não deixe de acompanhar também o Automate your workflow with GitHub Actions.

AWS: A AWS, que é a divisão de computação em nuvem da Amazon, também oferece vários cursos online gratuitos para aprender sobre machine learning e inteligência artificial, através da plataforma AWS Training and Certification e AWS Skill Builder. Tem o The Elements of Data Science (Portuguese) e o Machine Learning Learning Plan (Portuguese). Havia um bastante deste workshop prático, de MLOps, que eu gostava bastante, mas ele foi descontinuado.

Como escolher o melhor curso online?

Com tantas opções de cursos online disponíveis, pode ser difícil escolher o melhor para que você, de fato, aprenda Engenharia de Machine Learning e MLOps. Por isso, quando vou fazer algum curso, considero alguns critérios que me ajudam a escolher:

Nível de conhecimento e experiência: Você deve escolher um curso que seja adequado ao seu nível de conhecimento e experiência em machine learning, engenharia de software, computação em nuvem, entre outros. Se você é iniciante, procure por cursos que ensinem os conceitos básicos e as práticas recomendadas. Se você é intermediário ou avançado, procure por cursos que aprofundem os tópicos e os desafios que você quer aprender ou resolver.

Objetivo de aprendizagem: Você deve escolher um curso que esteja alinhado ao seu objetivo de aprendizagem, seja ele profissional ou pessoal. Se você quer se preparar para uma certificação, procure por cursos que ofereçam conteúdo e simulados específicos para o exame. Se você quer desenvolver um projeto ou uma solução, procure por cursos que ofereçam exemplos e exercícios práticos relacionados ao seu domínio ou problema.

Orçamento e tempo: Você deve escolher um curso que caiba no seu bolso e na sua agenda. Se você não quer gastar muito, procure por cursos gratuitos ou de baixo custo, que ofereçam conteúdo de qualidade e acesso ilimitado. Se você tem pouco tempo, procure por cursos flexíveis ou cursos livres que permitam que você estude no seu próprio ritmo e horário.

Tem outras opções?

Além das grandes empresas, existem outros players que oferecem cursos online gratuitos ou de baixo custo para que você aprenda Engenharia de Machine Learning e MLOps, como a Coursera, a Udemy, a edX, a DataCamp, a Databricks, entre outros. Esses cursos abrangem diversos tópicos, como machine learning, deep learning, nlp, computer vision, data science, MLOps… Normalmente os cursos são ministrados por instrutores renomados, como Andrew Ng, Geoffrey Hinton, Yann LeCun, e são oferecidos através de instituições de prestígio como Stanford e MIT. Alguns desses cursos também oferecem certificados de conclusão, que podem ser adicionados ao seu currículo ou perfil do LinkedIn.

Outra opção, pensando na situação de retorno aos escritórios, muitas pessoas voltaram a pegar horas e mais horas de transporte para ir trabalhar. Nestas horas, porém, pode ser perigoso estar com o celular a mostra para assistir um vídeo dos treinamentos. Então, pensando por esse lado, os livros também podem lhe ser úteis. Deixo aqui algumas opções que gosto bastante e recomendo para quem também curte estudar por livros.

Projetando sistemas de Machine Learning: processo interativo para aplicações prontas para produção, por Chip Huyen

Machine Learning Engineering with Python – Second Edition: Manage the lifecycle of machine learning models using MLOps with practical examples, de Andrew McMahon

Mãos à obra aprendizado de máquina com Scikit-Learn, Keras & TensorFlow: conceitos, ferramentas e técnicas para a construção de sistemas inteligentes

Tem mais livros, se quiser indicação, me mande uma mensagem

Conclusão

Existem diversas opções de cursos online gratuitos ou de baixo custo para aprender Engenharia de Machine Learning e MLOps, oferecidos por grandes empresas como Google, Microsoft e AWS, além de outros fornecedores. Esses cursos abordam desde os conceitos básicos até os tópicos avançados, e assim, são adequados para diferentes níveis de conhecimento e experiência. Para escolher o melhor curso para você, é importante considerar alguns critérios, como o seu nível de conhecimento e experiência, o seu objetivo de aprendizagem, o seu estilo de aprendizagem, o seu orçamento e disponibilidade.

Posso estar sendo preciosista, mas acredito que com esses materiais e dedicação de tempo, acredito que você aprenda Engenharia de Machine Learning e MLOps

Boa sorte e bons estudos

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “A slightly overweight man with a beard, wearing a polo shirt, working at a desk with a computer, with a bookshelf full of books behind him. The photo should take the angle from behind the computer, showing the man sitting in front of the computer, and his back to the bookshelf. The style used should be Digital Illustration, in a drawing format. The computer screen displays different content. Add three coffee cups on the desk, and some messy papers”.

O post Aprenda Engenharia de Machine Learning e MLOps online apareceu primeiro em Diego Nogare.

Tendências em Engenharia de Machine Learning e MLOps em 2024

Diego Nogare — Mon, 19 Feb 2024 18:57:12 +0000

A inteligência artificial (IA) está em constante evolução e as tendências para 2024 prometem transformar a forma como interagimos com essa tecnologia. Neste artigo, apesar de não gostar de falar sobre futurologia, quero explorar possíveis caminhos que moldarão o cenário da Engenharia de Machine Learning e MLOps em 2024 e nos próximos anos.

Ao navegar no linkedin, não é novidade que essas são áreas que estão em constante evolução e que trazem soluções inovadoras para diversos setores da indústria. Principalmente agora, onde a IA está se tornando cada vez mais presente em nossas vidas, impulsionando avanços significativos em produtividade e qualidade.

O que é Engenharia de Machine Learning e MLOps?

Para não ficar exaustivo e extenso demais esse texto, vou fazer uma ligação sobre o que é Engenharia de Machine Learning e MLOps com o texto que escrevi anteriormente para o blog, chamado MLOps e Engenharia de Machine Learning descomplicados. Convido vocês a lerem o texto que dá a base para o que vamos discutir a seguir.

Algumas apostas de Machine Learning para 2024

Tentei separar essa seção em dois sub-grupos, um focado em ferramentas e produtos, e outro engloba as outras coisas.

Ferramentas / Produtos

IA de Machine Learning mais sofisticada
O Machine Learning tradicional é a base da IA moderna e continuará a se aprimorar. Mesmo com os avanços da IA Generativa, o ML é uma área que não vai parar tão cedo. Contudo, isso significa, que os sistemas de IA aprenderão e se adaptarão mais rapidamente, abrindo novas possibilidades em diversos setores. O aprimoramento do aprendizado de máquina e a acessibilidade tecnológica são fatores fundamentais para termos soluções de ML mais sofisticadas.

Engenharia de Machine Learning no mercado de dados
O crescimento da IA e as falhas associadas à sua produtização de forma manual e sem padrões corporativos geraram a necessidade de profissionais especializados. Aliás, foi por causa disso que surgiu a área de MLOps e a demanda por pessoas que trabalham com Engenharia de Machine Learning. Sobretudo, essas pessoas garantem a operacionalização dos modelos, permitindo que os Cientistas de Dados foquem na resolução de problemas, na geração de insights e no desenvolvimento de modelos de ML.

Avanço das plataformas e ferramentas de MLOps: Outra tendência que aposto para 2024 é o avanço das plataformas e ferramentas que facilitam a implementação do MLOps nas empresas. Eventualmente, essas soluções permitem gerenciar todo o ciclo de vida de ML de forma integrada, automatizada e padronizada, reduzindo os custos, os riscos e o tempo dos projetos. Inclusive, quem tiver interesse em um livro curtinho e gratuito em português sobre MLOps, a Databricks está distribuindo um. Clique aqui para acessar O livro completo de MLOps. Faça um cadastro rápido e tenha direito de baixar o livro.

Análise Aumentada (Augmented Analytics)
A análise de dados tradicional está evoluindo, chegando a patamares de explicabilidade bem distintos. Agora, o aprendizado de máquina combinado com o Processamento de Linguagem Natural geram relatórios analíticos automaticamente, permitindo insights instantâneos para consultas ad hoc. Grande parte desta evolução tem a ver com questões de IA Generativa utilizando transformers.

Outras coisas

Aumento da demanda por profissionais qualificados: com o crescimento do uso do machine learning em diversos setores, como saúde, educação, finanças, varejo e indústria, a demanda por profissionais capacitados em Engenharia de Machine Learning e MLOps também deve aumentar. Por isso, investir em formação e atualização nessas áreas pode ser uma ótima oportunidade para quem quer se destacar no mercado.

Inclusive, acompanhe o aumento global sobre as buscas destes termos (em inglês) desde 2015:

Google Trends – MLOps e Machine Learning Engineering

Expansão do uso da computação em nuvem e da computação distribuída: Outra tendência que vejo para 2024 é a expansão do uso da computação em nuvem e da computação distribuída para o desenvolvimento e implantação de sistemas de machine learning. Afinal, a computação em nuvem permite acessar recursos computacionais sob demanda, sem a necessidade de investir em infraestrutura própria. Por outro lado, a computação distribuída permite processar grandes volumes de dados em paralelo, utilizando vários nós ou máquinas conectadas em rede. Essas tecnologias possibilitam criar modelos mais complexos, robustos e escaláveis, além de reduzir os custos operacionais.

Crescimento de padrões de IA Ética, Explicável e Responsável: Assim como o Marco Civil da Internet e a LGPD foram conquistados para proteger os usuários, está em discussão no Senado Federal um projeto para regulamentação da IA. Até a data de publicação deste texto, ainda tem muita discussão para ser feita. Mas, independente disso, vejo uma tendência para 2024 como sendo o crescimento da adoção de padrões que estão diretamente relacionados à IA Ética, IA Explicável e IA Responsável nas organizações.

Inclusive, em Setembro/2023, participei de um evento no ITA – Instituto Tecnológico de Aeronáutica, e uma das apresentações foi sobre IA Ética e Responsável. Baita aula da Dra Daniela América da Silva. Em linhas gerais estas frentes consideram os aspectos sociais, ambientais e legais envolvidos no uso do machine learning. Buscando evitar ou mitigar os possíveis impactos negativos que essa tecnologia pode causar.

Mas, e ai?

Estas são algumas tendências em Engenharia de Machine Learning e MLOps que eu acredito que faz sentido olhar com carinho, principalmente, se estas áreas de atuação estão no seu objetivo profissional. Pode ser que nada disso se fortaleça? Pode! Mas, na minha visão, são bons caminhos para investir um tempinho.

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “An image in orange and purple colors that represents AI technologies. The image should have the words ‘Trend 2024’, ‘EngML’ and ‘MLOps’ written explicitly. The style of the image should be digital illustration.”.

O post Tendências em Engenharia de Machine Learning e MLOps em 2024 apareceu primeiro em Diego Nogare.

Melhores práticas para testar e monitorar modelos de ML

Diego Nogare — Thu, 15 Feb 2024 00:57:48 +0000

O Machine Learning (ML) é uma área da Inteligência Artificial que permite criar sistemas capazes de aprender com os dados e fazer previsões. Que o ML está revolucionando diversos setores da indústria, desde a saúde até as finanças, não é mais segredo para ninguém. No entanto, para garantir que os modelos de ML funcionem como esperado, é crucial testá-los e monitorá-los adequadamente. Neste texto, iremos explorar as melhores práticas para testar e monitorar modelos de Machine Learning.

Testar modelos de Machine Learning

Primeiramente, é importante entender que o teste de modelos de ML é um pouco diferente do teste de software tradicional. Em vez de simplesmente verificar se o código fonte está livre de erros, precisamos avaliar a precisão e a eficácia do modelo. Para isso, podemos usar várias técnicas, como por exemplo, validação cruzada e teste A/B. Podemos dizer que testar modelos de ML significa verificar se eles atendem aos requisitos funcionais e não funcionais, como métrica de avaliação de performance, robustez, explicabilidade, ética e responsabilidade e privacidade.

Técnicas de testes

Algumas das técnicas mais usadas para testar modelos de Machine Learning são:

– Testes unitários: consistem em verificar se cada componente do modelo funciona como esperado, isoladamente. Por exemplo, se os dados estão sendo pré-processados corretamente, se as funções de perda e otimização estão bem definidas, se os hiperparâmetros estão dentro dos limites aceitáveis, etc.

– Testes de integração: consistem em verificar se os componentes do modelo funcionam bem em conjunto, como um todo. Por exemplo, se o modelo é capaz de lidar com diferentes tipos de dados de entrada, se o pipeline de treinamento e inferência está funcionando corretamente, se o modelo é compatível com o ambiente de produção, etc.

– Testes de sistema: consistem em verificar se o modelo atende aos requisitos do usuário final, como performance, usabilidade, segurança, etc. Por exemplo, se o modelo produz resultados consistentes e confiáveis, se o modelo é fácil de usar e entender, se o modelo respeita os princípios éticos e legais, etc.

– Validação Cruzada: A validação cruzada é um método de avaliação de modelos de Machine Learning onde, por exemplo, o conjunto de dados é dividido em partes, e o modelo é treinado e testado várias vezes em diferentes combinações dessas partes.

– Teste A/B: O teste A/B para modelos de Machine Learning é um experimento onde dois modelos são comparados ao serem aplicados a diferentes grupos de dados para determinar qual tem melhor desempenho.

Monitorar modelos de Machine Learning

Além de testar os modelos de ML, também é essencial monitorá-los continuamente. Isso porque os dados de entrada podem mudar com o tempo, o que pode afetar a performance do modelo. Essa mudança dos dados é natural e é conhecida como Drift (desvio), os dois mais comuns são Data Drift e Concept Drift. Monitorar modelos de Machine Learning significa acompanhar o comportamento e o desempenho dos modelos ao longo do tempo, em diferentes condições e cenários. O objetivo é detectar e corrigir possíveis problemas ou anomalias que possam afetar a qualidade ou a confiabilidade dos modelos.

Data Drift refere-se a uma mudança na distribuição dos dados de entrada ao longo do tempo. Por exemplo, se você treinou um modelo para prever a demanda de um produto com base em dados históricos, mas os padrões de compra dos clientes mudaram, isso seria considerado um Data Drift. É importante monitorar o Data Drift para garantir que seu modelo continue relevante e preciso.

Por outro lado, Concept Drift ocorre quando a relação entre as variáveis de entrada e a variável de saída muda ao longo do tempo. Por exemplo, se você tem um modelo que prevê a probabilidade de chuva com base na temperatura e na pressão atmosférica, um Concept Drift poderia ocorrer se, devido às mudanças climáticas, a relação entre esses fatores e a probabilidade de chuva mudasse.

Ambos os conceitos são fundamentais para a manutenção e monitoramento de modelos de Machine Learning, pois permitem identificar quando um modelo pode estar se tornando menos preciso ou eficaz. Isso, por sua vez, pode indicar a necessidade de re-treinar ou ajustar o modelo.

Métricas de Monitoramento

Algumas das métricas mais usadas para monitorar modelos de Machine Learning são:

– Métricas de negócio: são as métricas que medem o impacto do modelo no contexto do problema que ele visa resolver. Por exemplo, se o modelo é usado para recomendar produtos aos clientes, as métricas de negócio podem ser o número de vendas, a taxa de conversão, o lucro gerado, etc.

– Métricas de modelo: são as métricas que medem o desempenho do modelo em termos de acurácia, precisão, recall, F1-score, AUC-ROC, etc. Essas métricas devem ser calculadas tanto no conjunto de treinamento quanto no conjunto de teste ou validação, para verificar se o modelo está sofrendo de overfitting ou underfitting.

– Métricas de dados: são as métricas que medem a qualidade e a diversidade dos dados usados para treinar e testar o modelo. Por exemplo, se os dados estão balanceados, limpos, atualizados, representativos da realidade, etc.

Ferramentas para testar e monitorar modelos de ML

Algumas das ferramentas mais usadas para testar e monitorar modelos de Machine Learning são:

– PyTest: é um framework de testes em Python que permite escrever testes unitários, de integração e de sistema para modelos de Machine Learning. PyTest oferece uma sintaxe simples e flexível para definir casos de teste, executar testes em paralelo ou sequencialmente, gerar relatórios detalhados dos resultados dos testes, etc.
– MLflow: é uma plataforma aberta para gerenciar todo o ciclo de vida dos modelos de Machine Learning. MLflow permite rastrear os experimentos realizados com diferentes configurações e hiperparâmetros dos modelos, registrar os artefatos gerados pelos modelos (como pesos, metadados, gráficos), implantar os modelos em diferentes ambientes (como nuvem e borda), monitorar as métricas de negócio e de modelo dos modelos em produção, etc.
– TensorFlow Data Validation (TFDV): é uma biblioteca que permite analisar e validar os dados usados para treinar e testar modelos de Machine Learning. TFDV permite gerar estatísticas descritivas dos dados (como média, desvio padrão, distribuição), detectar anomalias nos dados (como valores faltantes, outliers), comparar os dados entre diferentes conjuntos (como treino e teste), etc. Inclusive, há um tempo atrás, subi no meu repo do Github um código de TFDV.

Conclusão

Testar e monitorar modelos de Machine Learning são atividades essenciais para garantir que os sistemas sejam confiáveis, seguros e éticos. Além de garantir que eles estejam funcionando corretamente e entregando os resultados esperados. Neste post, apresentei melhores práticas para testar e monitorar modelos de Machine Learning.

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “A panel of TVs on an office wall. There is a desk with some coffee cups, and a notepad with workflow drawings. The desk is messy, like a real office. The panel displays indicators and charts, ensuring they have green and red colors, as well as some bar charts.”.

O post Melhores práticas para testar e monitorar modelos de ML apareceu primeiro em Diego Nogare.

Análise e visualização de dados para ML e Ciência de Dados

Diego Nogare — Mon, 22 Jan 2024 19:45:42 +0000

A Ciência de Dados é uma área em constante crescimento, e no momento em que há um aumento da quantidade de dados disponíveis, a necessidade de Análise e visualização de dados para ML e Ciência de Dados de maneira eficiente tornou-se cada vez mais importante. Neste post, quero explorar como o Machine Learning pode ser usado para essa finalidade, utilizando a linguagem de programação Python.

Machine Learning e Ciência de Dados

Machine Learning é um subcampo da Inteligência Artificial que se concentra em desenvolver algoritmos que permitem que os computadores aprendam a partir dos dados. Contudo, na Ciência de Dados, esses algoritmos são usados para descobrir padrões e insights nos dados. Anteriormente expliquei neste texto como a Inteligência Artificial está presente no nosso cotidiano. Aliás, esse texto também faz uma referência à uma outra publicação que conto um pouco da história da Inteligência Artificial.

Analise e Visualização de dados

Análise de Dados

A análise é o coração da ciência de dados, pois engloba o processo de inspecionar, limpar e transformar dados. Tem o objetivo de descobrir informações úteis, informar conclusões e apoiar os gestores nas tomada de decisões. A análise de dados pode ser dividida em muitas sub-áreas, e quero destacar quatro delas aqui:

Descoberta de Informações: A análise de dados ajuda a descobrir padrões e tendências nos dados que podem não ser imediatamente aparentes. Aliás, isso pode levar a insights valiosos que podem ser usados para informar estratégias de negócios ou direcionar decisões.
Tomada de Decisões Baseada em Dados: Com a análise de dados, as decisões podem ser baseadas em dados, em contraste com decisões com base em intuição, suposições ou com o famoso “eu que mando aqui”. Isso pode levar a melhores resultados e maior eficiência.
Previsão e Modelagem: A análise de dados permite a criação de modelos preditivos que podem ser usados para prever comportamentos ou tendências do futuro. Isso é particularmente útil em campos como vendas, marketing e finanças. Lembrando que, em virtude de ter resultados probabilísticos e não serem resultados determinísticos, a predição está associada à uma probabilidade do resultado acontecer.
Melhoria da Precisão: A análise de dados pode ajudar a melhorar a precisão das previsões e decisões ao fornecer uma base sólida de evidências em que se basear. Ou seja, melhora a tomada de decisão baseada em dados.

Visualização de Dados

Já a visualização de dados, que também é uma parte essencial da ciência de dados, permite que dados complexos sejam transformados em gráficos, facilitando a compreensão e interpretação dos dados. No Dataviz também podemos destacar muitos pontos importantes, mas quero manter o padrão e trazer quatro que entendo ser imporatnte:

Compreensão Rápida: Gráficos e imagens são processados pelo cérebro humano muito mais rápido do que texto, por consequência, a visualização de dados permite que as pessoas entendam os dados rapidamente.
Descoberta de Padrões: A visualização de dados pode revelar padrões, tendências e correlações nos dados que podem não ser evidentes em dados brutos, visto que nosso cérebro funciona melhor ao ver uma imagem do que ao ver um monte de numero amontoado.
Comunicação Eficaz: A visualização de dados é uma maneira eficaz de comunicar informações complexas de maneira clara e concisa. Ela pode ser usada com o intuito de contar histórias com dados, tornando as informações mais acessíveis e memoráveis. Leve em consideração o publico que vai consumir o seu gráfico, comunique com o seu publico de forma que eles entendam o que você está transmitindo.
Tomada de Decisão Informada: A visualização de dados pode ajudar na tomada de decisões ao fornecer uma representação visual clara dos dados. Isso pode levar a melhores decisões baseadas em dados. Um exemplo disso são os acompanhamentos com KPIs em reuniões executivas, os gestores normalmente olham para alguns faróis e ao bater o olho já sabem o que está indo bem e o que está indo mal.

Consegui te explicar a importância da Análise e Visualização de dados para Machine Learning e Ciência de Dados ?

Quer ver código?

Python é uma linguagem de programação popular na Ciência de Dados, isso se dá, acima de tudo, pela sua simplicidade e à variedade de bibliotecas disponíveis. As mais comuns são Pandas e NumPy para análise de dados, e Matplotlib e Seaborn para criar gráficos e visualizações interativas.

O Pandas é uma biblioteca Python que permite manipular estruturas de dados de forma rápida, flexível e expressiva. Foi desenvolvida pensando em pessoas que trabalham com dados relacionais ou rotulados, deixando a manipulação fácil e intuitivo. Da mesma forma, o NumPy, que é um pacote de processamento de arrays de forma geral, pois ele fornece um objeto de array multidimensional de alto desempenho e ferramentas para trabalhar com esses arrays.

O Matplotlib é uma biblioteca Python focada na criação de visualizações estáticas, animadas e interativas. Ela permite criar figuras de qualidade para consumir em vários formatos. Já o Seaborn é uma biblioteca baseada em Matplotlib e é particularmente útil para visualizar dados complexos. Não posso falar muito do Seaborn porque não trabalhei com ele ainda…

Estes pacotes Python que comentei são muito úteis para se trabalhar com Machine Learning e Ciência de Dados, aliás, acredito que usá-los vai te ajudar a resolver problemas de analise e visualização grandes conjuntos de dados e transformar os dados brutos em insights valiosos. Inclusive, durante uma disciplina do doutorado, eu criei um Repo no Github e coloquei alguns códigos lá dentro.

Eu ficaria muito feliz com sua contribuição nesse repo, no final da página do Github explico como você pode contribuir

Imagem de capa criada com IA pelo Bing. Utilizei o prompt: “Um macbook com gráficos coloridos em Azul, Vermelho, Verde e Amarelo e um copo de café na mesa, o macbook está em cima de uma mesa de escritório com o fundo de escritório desfocado. Os gráficos são como um dashboard para tomada de decisão” para a criação.

O post Análise e visualização de dados para ML e Ciência de Dados apareceu primeiro em Diego Nogare.

MLOps e Engenharia de Machine Learning descomplicados

Diego Nogare — Wed, 10 Jan 2024 12:00:23 +0000

Fala galera, hoje vamos falar sobre dois termos que estão revolucionando o mundo dos dados: Engenharia de Machine Learning (ML) e MLOps. Mas o que são esses termos e por que eles são tão importantes? Parece difícil, né? Mas não é, por isso estou descomplicando MLOps e Engenharia de ML neste texto com você!

A engenharia de Machine Learning e o MLOps estão se tornando cada vez mais importantes à medida que mais empresas começam a reconhecer o valor dos dados, mas com a combinação certa de habilidades em ciência de dados, engenharia de software e operações, os profissionais de ML estarão bem posicionados para liderar a próxima onda de inovações baseadas em dados.

Afinal, o que é a Engenharia de Machine Learning?

Em uma frase, podemos ver a engenharia de Machine Learning como a combinação da Ciência de Dados com a Engenharia de Software. Os engenheiros de ML são os responsáveis por projetar, construir e manter sistemas de ML que podem lidar com grandes volumes de dados, garantindo que os modelos de ML sejam precisos e eficientes.

E o MLOps, o que é?

MLOps, ou Machine Learning Operations, por sua vez, é uma prática que busca unificar ML, DevOps e Engenharia de Dados. O objetivo do MLOps é criar um fluxo de trabalho contínuo que inclua integração, teste, publicação, implantação e monitoramento de modelos de ML.

Por que MLOps e Engenharia de ML são importantes?

Com o aumento da quantidade de dados disponíveis e a necessidade de tomar decisões baseadas em dados, a demanda por sistemas de ML eficientes e escaláveis está crescendo. Neste sentido, MLOps e a engenharia de ML desempenham um papel crucial na construção desses sistemas, permitindo que as empresas aproveitem ao máximo seus dados.

Para dar mais contexto sobre oa ssunto, escrevi um texto aqui no blog sobre “Automatizar a publicação do seu modelo com MLOps” que pode ser lido aqui, e neste texto explico um pouco sobre o papel de MLOps para colocar modelos em produção. Também fiz um outro texto, no Medium do Itaú, explicando “Como é atuar na Engenharia de Machine Learning do Itaú?” que foi publicado aqui. Neste texto explico como é a área do banco, conto um pouco dos nossos desafios e comento quais são os assuntos técnicos esperados de alguém que queira ingressar nessa carreira dentro do banco.

Onde estudar?

Em 2023 eu fiz o curso “Machine Learning Engineering for Production (MLOps)” publicado pela DeepLearning.AI na Coursera. Este treinamento na verdade é uma especialização com 4 cursos (“Introdução ao Machine Learning em Produção”, “Ciclo de Vida dos Dados de Machine Learning em Produção”, “Pipelines de Modelagem de Machine Learning em Produção” e “Implantação de Modelos de Machine Learning em Produção”) que aprimoram as habilidades de colocar em produção modelos de aprendizado de máquina, você pode acessar o curso aqui. O curso aborda desde a ideação/concepção até a manutenção de sistemas integrados que operam de forma contínua em produção.

O curso é uma boa opção para aqueles que buscam aprofundar suas habilidades em EngML e MLOps, os exercícios práticos são feitos em Jupyter Notebooks disponibilizados pelos professores e você precisará fazer pequenos ajustes no código para rodar sua solução.

Mais recentemente, já em 2024, recebi o livro “Machine Learning Engineering with Python – 2nd Edition” da Packt Pub e foi escrito por Andrew P. McMahon. Enquanto escrevo este texto, a versão digital está na Amazon por um pouco mais de 200 reais. Ainda não terminei de ler o livro, mas ele parece ser um guia prático para EngML e MLOps que buscam construir soluções para problemas do mundo real. Ele aborda tópicos importantes de aprendizado de máquina, CI/CD e design de sistemas. O livro também explora o planejamento e gerenciamento de projetos de desenvolvimento de ML de ponta a ponta, com ênfase nas mais recentes tecnologias de código aberto e baseadas em nuvem. Nesta edição, em específico, tem um capítulo sobre Deep Learning, IA Generativa e LLMOps, assuntos que estão no hype neste momento. Para quem se interessar por essa temática, o livro ensina a usar ferramentas como LangChain, PyTorch e Hugging Face para seus LLMs.

O post MLOps e Engenharia de Machine Learning descomplicados apareceu primeiro em Diego Nogare.