Em cima do que venho pesquisando para o doutorado montei um roadmap de MLOps para 2024. A ideia é descrever o que existe em um ambiente de publicação de modelos de Machine Learning, para que você saiba o que precisa quando for construir o seu. Vou escrever sobre as etapas que vão desde o acesso aos dados até a observabilidade dos logs do modelo publicado, detalhando as fases de desenvolvimento, implantação e monitoramento de modelos. Espero, assim, que no fim dessa série de postagens, e ao consolidar os conteúdos, você tenha a visão completa da plataforma.
Antes de mais nada, vamos embarcar nessa jornada?
Vou aproveitar e compartilhar alguns posts que fiz recentemente, pois estão diretamente conectados a este assunto.
Jan/24 – MLOps e Engenharia de Machine Learning descomplicados
Jan/24 – Review do Livro “Machine Learning Engineering with Python – 2nd edition”
Fev/24 – Ferramentas e plataformas essenciais para projetos de IA e ML
Fev/24 – Melhores práticas para testar e monitorar modelos de ML
Fev/24 – Tendências em Engenharia de Machine Learning e MLOps em 2024
Fev/24 – Aprenda Engenharia de Machine Learning e MLOps online
Ah, não posso deixar de dizer que MLOps e CRISP-DM são dois componentes fundamentais no desenvolvimento de modelos de machine learning. Enquanto o MLOps fornece a visão macro do processo, o CRISP-DM entra nos detalhes de cada etapa.
CRISP-DM
O MLOps, com as fases de desenvolvimento, implantação e monitoramento de modelos, fornece uma estrutura base para o ciclo de vida do modelo. Por outro lado, o CRISP-DM oferece uma metodologia detalhada para cada fase, desde a compreensão do negócio até a implantação do modelo. O paper do CRISP-DM foi publicado nos anos 2000, e os primeiros artigos de MLOps, por volta de 2015! É importante destacar que, independente da idade, eles se complementam perfeitamente!
Esta é a referência ao artigo original do CRISP-DM:
Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. Journal of data warehousing, 5(4), 13-22.
O Cross-Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia amplamente aceita que fornece uma estrutura para o desenvolvimento de modelos de machine learning. É um processo cíclico que consiste em seis fases: compreensão do negócio, compreensão dos dados, preparação dos dados, modelagem, avaliação e implantação. Cada fase tem um papel bem definido no desenvolvimento de modelos de ML, e sua importância edstá diretamente ligada a uma abordagem estruturada e iterativa. Ele permite que as equipes de dados compreendam melhor os problemas de negócios, preparem os dados de maneira adequada, construam modelos eficazes e os implantem com sucesso. Mesmo depois de mais de 20 anos, continua sendo uma metodologia valiosa para o desenvolvimento de modelos de ML.
Etapas macro de MLOps
O MLOps é um campo em rápida evolução, isso já venho falando há algum tempo… Espero que você também possa perceber isso. Em linhas gerais, pode-se dividir o processo de MLOps em três etapas, sendo: Desenvolvimento, Implantação e Monitoramento.
- Desenvolvimento: Esta é a primeira etapa do processo de MLOps e envolve a criação de modelos de machine learning. Durante esta fase, os cientistas de dados coletam e preparam os dados, selecionam os algoritmos apropriados, treinam o modelo e, finalmente, validam o modelo para garantir que ele esteja funcionando conforme o esperado. Esta etapa é crucial, pois a qualidade do modelo desenvolvido afeta diretamente o desempenho do sistema de machine learning;
- Implantação: Uma vez que o modelo é desenvolvido e validado, a próxima etapa é a implantação do modelo. Esta etapa envolve a integração do modelo em um sistema de produção existente, onde ele pode começar a fazer previsões (scoring do modelo). A implantação de modelos é um processo complexo que requer uma estreita colaboração entre as equipes de dados e engenharia para garantir que o modelo seja implementado corretamente e possa operar de forma eficiente e eficaz;
- Monitoramento: Após a implantação do modelo, a etapa final do processo de MLOps é o monitoramento/observabilidade do modelo. Esta etapa envolve o rastreamento contínuo do desempenho do modelo para garantir que ele continue a fornecer resultados precisos. Se o desempenho do modelo começar a degradar, o modelo pode precisar ser re-treinado com novos dados ou ajustado para melhorar seu desempenho. O monitoramento em si deve ser realizado durante todo o período do ciclo de vida do modelo, mas só depois de entrar em produção é que podemos começar a ter observabilidade da sua operação.
Próximos passos
Posso dizer que o processo CRISP-DM se encaixa perfeitamente nessas três etapas do MLOps. A fase de “compreensão do negócio” e “compreensão dos dados” do CRISP-DM se alinha com a etapa de desenvolvimento de modelos do MLOps. A fase de “modelagem” e “avaliação” do CRISP-DM coincide com a etapa de implantação de modelos do MLOps. Finalmente, a fase de “implantação” do CRISP-DM se conecta com a etapa de monitoramento de modelos do MLOps. Assim, o CRISP-DM e o MLOps juntos formam uma estrutura robusta e completa para o ciclo de vida de modelos de machine learning. Apesar de eu ter feito uma associação direta do monitoramento com a implantação, lembre-se que o monitoramento é contínuo e deve aparecer em todas as fases do CRISP-DM.
A combinação de MLOps e CRISP-DM oferece uma abordagem robusta e completa para o desenvolvimento de modelos de machine learning, lendo esse material, espero que você tenha uma melhor compreensão das etapas envolvidas e da importância de cada uma delas. Acompanhe os próximos posts para ver mais os desdobramentos e detalhes de cada etapa do Roadmap de MLOps em 2024.
Contudo, não se dê por satisfeito só com as postagens aqui, lhe convido a acompanhar estes livros:
Estatística prática para cientistas de dados: 50 conceitos essenciais
Estatística: O que é, para que serve, como funciona.
Imagem de capa criada com IA pelo Bing. Utilizei o prompt: “Diagrama circular com três círculos um ao lado do outro, dividido em três segmentos principais representando Machine Learning em verde, Desenvolvimento em laranja e Operações em roxo, sem texto, com ícones de um cérebro, um computador com colchetes de código e uma pessoa sob um guarda-chuva, interconectados para representar o ciclo contínuo entre esses domínios” para a criação (o prompt entregou errado porque não era para ter texto e as cores não foram as que pedi, mas gostei do resultado).