Roadmap MLOps 2024

Diagrama MLOps
Diagrama MLOps

Em cima do que venho pesquisando para o doutorado montei um roadmap de MLOps para 2024. A ideia é descrever o que existe em um ambiente de publicação de modelos de Machine Learning, para que você saiba o que precisa quando for construir o seu. Vou escrever sobre as etapas que vão desde o acesso aos dados até a observabilidade dos logs do modelo publicado, detalhando as fases de desenvolvimento, implantação e monitoramento de modelos. Espero, assim, que no fim dessa série de postagens, e ao consolidar os conteúdos, você tenha a visão completa da plataforma.

Antes de mais nada, vamos embarcar nessa jornada?

Vou aproveitar e compartilhar alguns posts que fiz recentemente, pois estão diretamente conectados a este assunto.

Jan/24 – MLOps e Engenharia de Machine Learning descomplicados

Jan/24 – Review do Livro “Machine Learning Engineering with Python – 2nd edition”

Fev/24 – Ferramentas e plataformas essenciais para projetos de IA e ML

Fev/24 – Melhores práticas para testar e monitorar modelos de ML

Fev/24 – Tendências em Engenharia de Machine Learning e MLOps em 2024

Fev/24 – Aprenda Engenharia de Machine Learning e MLOps online

Abr/24 – IA Ética, IA Responsável e Explicabilidade de IA

Ah, não posso deixar de dizer que MLOps e CRISP-DM são dois componentes fundamentais no desenvolvimento de modelos de machine learning. Enquanto o MLOps fornece a visão macro do processo, o CRISP-DM entra nos detalhes de cada etapa.

CRISP-DM

O MLOps, com as fases de desenvolvimento, implantação e monitoramento de modelos, fornece uma estrutura base para o ciclo de vida do modelo. Por outro lado, o CRISP-DM oferece uma metodologia detalhada para cada fase, desde a compreensão do negócio até a implantação do modelo. O paper do CRISP-DM foi publicado nos anos 2000, e os primeiros artigos de MLOps, por volta de 2015! É importante destacar que, independente da idade, eles se complementam perfeitamente!

Esta é a referência ao artigo original do CRISP-DM:

Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. Journal of data warehousing5(4), 13-22.

O Cross-Industry Standard Process for Data Mining (CRISP-DM) é uma metodologia amplamente aceita que fornece uma estrutura para o desenvolvimento de modelos de machine learning. É um processo cíclico que consiste em seis fases: compreensão do negócio, compreensão dos dados, preparação dos dados, modelagem, avaliação e implantação. Cada fase tem um papel bem definido no desenvolvimento de modelos de ML, e sua importância edstá diretamente ligada a uma abordagem estruturada e iterativa. Ele permite que as equipes de dados compreendam melhor os problemas de negócios, preparem os dados de maneira adequada, construam modelos eficazes e os implantem com sucesso. Mesmo depois de mais de 20 anos, continua sendo uma metodologia valiosa para o desenvolvimento de modelos de ML.

Etapas macro de MLOps

O MLOps é um campo em rápida evolução, isso já venho falando há algum tempo… Espero que você também possa perceber isso. Em linhas gerais, pode-se dividir o processo de MLOps em três etapas, sendo: Desenvolvimento, Implantação e Monitoramento.

  • Desenvolvimento: Esta é a primeira etapa do processo de MLOps e envolve a criação de modelos de machine learning. Durante esta fase, os cientistas de dados coletam e preparam os dados, selecionam os algoritmos apropriados, treinam o modelo e, finalmente, validam o modelo para garantir que ele esteja funcionando conforme o esperado. Esta etapa é crucial, pois a qualidade do modelo desenvolvido afeta diretamente o desempenho do sistema de machine learning;
  • Implantação: Uma vez que o modelo é desenvolvido e validado, a próxima etapa é a implantação do modelo. Esta etapa envolve a integração do modelo em um sistema de produção existente, onde ele pode começar a fazer previsões (scoring do modelo). A implantação de modelos é um processo complexo que requer uma estreita colaboração entre as equipes de dados e engenharia para garantir que o modelo seja implementado corretamente e possa operar de forma eficiente e eficaz;
  • Monitoramento: Após a implantação do modelo, a etapa final do processo de MLOps é o monitoramento/observabilidade do modelo. Esta etapa envolve o rastreamento contínuo do desempenho do modelo para garantir que ele continue a fornecer resultados precisos. Se o desempenho do modelo começar a degradar, o modelo pode precisar ser re-treinado com novos dados ou ajustado para melhorar seu desempenho. O monitoramento em si deve ser realizado durante todo o período do ciclo de vida do modelo, mas só depois de entrar em produção é que podemos começar a ter observabilidade da sua operação.

Próximos passos

Posso dizer que o processo CRISP-DM se encaixa perfeitamente nessas três etapas do MLOps. A fase de “compreensão do negócio” e “compreensão dos dados” do CRISP-DM se alinha com a etapa de desenvolvimento de modelos do MLOps. A fase de “modelagem” e “avaliação” do CRISP-DM coincide com a etapa de implantação de modelos do MLOps. Finalmente, a fase de “implantação” do CRISP-DM se conecta com a etapa de monitoramento de modelos do MLOps. Assim, o CRISP-DM e o MLOps juntos formam uma estrutura robusta e completa para o ciclo de vida de modelos de machine learning. Apesar de eu ter feito uma associação direta do monitoramento com a implantação, lembre-se que o monitoramento é contínuo e deve aparecer em todas as fases do CRISP-DM.

A combinação de MLOps e CRISP-DM oferece uma abordagem robusta e completa para o desenvolvimento de modelos de machine learning, lendo esse material, espero que você tenha uma melhor compreensão das etapas envolvidas e da importância de cada uma delas. Acompanhe os próximos posts para ver mais os desdobramentos e detalhes de cada etapa do Roadmap de MLOps em 2024.

Contudo, não se dê por satisfeito só com as postagens aqui, lhe convido a acompanhar estes livros:

Projetando sistemas de Machine Learning: processo interativo para aplicações prontas para produção, por Chip Huyen

Machine Learning Engineering with Python – Second Edition: Manage the lifecycle of machine learning models using MLOps with practical examples, de Andrew McMahon

Mãos à obra aprendizado de máquina com Scikit-Learn, Keras & TensorFlow: conceitos, ferramentas e técnicas para a construção de sistemas inteligentes

Estatística prática para cientistas de dados: 50 conceitos essenciais

Estatística: O que é, para que serve, como funciona.

 

Imagem de capa criada com IA pelo Bing. Utilizei o prompt: “Diagrama circular com três círculos um ao lado do outro, dividido em três segmentos principais representando Machine Learning em verde, Desenvolvimento em laranja e Operações em roxo, sem texto, com ícones de um cérebro, um computador com colchetes de código e uma pessoa sob um guarda-chuva, interconectados para representar o ciclo contínuo entre esses domínios” para a criação (o prompt entregou errado porque não era para ter texto e as cores não foram as que pedi, mas gostei do resultado).

Sobre Diego Nogare 351 Artigos
Diego Nogare é Gerente Técnico de Engenharia de Machine Learning no Itaú-Unibanco. Também é professor em programas de pós graduação no Mackenzie e na FIAP, em São Paulo. Foi nomeado como Microsoft MVP por 11 anos seguidos, e hoje faz parte do programa Microsoft Regional Director.