Arquivos Aprendizado Supervisionado - Diego Nogare

Machine Learning – Meu repositório no github

Diego Nogare — Mon, 25 Mar 2024 21:59:08 +0000

Seja bem-vindo ao meu repositório de Machine Learning no GitHub! Aqui, você encontrará os códigos que desenvolvi durante a disciplina de Aprendizagem de Máquina do doutorado no Mackenzie. Você encontrará diversos Jupyter Notebook para aprender Machine Learning utilizando Python e abordando desde Análise Exploratória Descritiva até implementações práticas de Aprendizado Supervisionado e Aprendizado não Supervisionado, além de boas práticas como Validação Cruzada, Grid Search e Serialização do Modelo e códigos que realizam comparações dos algoritmos estudados.

Navegue pelo repositório de machine learning com Python e execute todos os códigos no Google Colab para aprimorar suas habilidades em Machine Learning. E claro, colabore para que todos possamos aprender cada vez mais!

Meu repositório no github

O repositório é dedicado a compartilhar os códigos com resoluções de problemas de Machine Learning. Ajudam no entendimento desta área de atuação que vem crescido bastante nos últimos anos. Aqui você irá encontrar exemplos de algoritmos no repositório de machine learning com Python explicados de maneira detalhada (ao menos estou tentando deixar o mais detalhado que consigo, no tempo que tenho).

Os códigos estão organizados em grupos, onde há o nome do arquivo e uma breve descrição do que ele tem de implementação.

Análise exploratória descritiva

Existem os códigos que fazem a exploração de dados de um dataset de Detecção de Fraude e outro da Iris. Além de uma exploração de dados com os dígitos do MNIST.

Aprendizado supervisionado

Só coloquei os códigos de algoritmos de classificação, porém, tem KNN, Árvore de Decisão e Multi-Layer Perceptron (Rede Neural). Tem espaço para incluir outros algoritmos de classificação, como também há espaço para adicionar algoritmos de regressão, por que eu não subi nenhum.

Aprendizado não supervisionado

Apesar de já ter o arquivo para o DBScan e o K-Means, só o K-Means que escrevi os códigos… para o DBScan eu comecei a fazer a parte teórica mas não implementei nada. Há espaço para colaborar aqui também…

Além, é claro, de outros algoritmos que quiserem

Boas práticas

Tem códigos utilizando Validação Cruzada, Grid Search e Serialização de Modelos… Mas aqui também há espaço para trazerem mais boas práticas

Comparação de algoritmos

Para o trabalho de comparar os algoritmos, fiz a junção de vários códigos do repositório e então comparei KNN, Árvore de Decisão e Multi-Layer Perceptron para a base de dados MNIST… Como eu queria garantir que os dígitos testados não tivessem sido utilizados de forma alguma, criei uma rede adversaria generativa para que fosse possível criar dígitos artificiais. Então, com esses dígitos, eu posso testar os algoritmos em si e comparar seus resultados.

Animação com a geração artificial dos dígitos entre a época 0 e 100

De bonus ainda tem um código que fiz para juntar as imagens dos dígitos em cada uma das épocas e construir um gif animado. Assim fica bem legal ver a evolução das gerações de dígitos artificiais ao longo das épocas da GAN.

Contribua com o repositório de machine learning

Você já fez alguma coisa de ML e gostaria de subir nesse repositório? Se for até o final do Readme.md vai ver algumas instruções rápidas para contribuir além de uma playlist explicando como fazer isso. Mas mesmo assim, aqui está uma lsita simplificada de passos para contribuir:

Crie uma conta no GitHub: Se você ainda não tem uma, você pode criar uma gratuitamente no site do GitHub.
Fork do repositório: Abra o link do projeto e faça um “fork” dele. Isso cria uma cópia do projeto na sua conta do GitHub.
Clone o repositório para o seu computador: Use o comando git clone seguido do URL do seu fork para baixar o repositório para o seu computador.
Faça suas alterações: Faça as alterações que você acha que melhoram o projeto.
Commit suas alterações: Use o comando git commit -m seguido de uma mensagem descritiva para salvar suas alterações.
Push suas alterações para o GitHub: Use o comando git push origin seguido do nome da sua branch (main) para enviar suas alterações para o seu fork no GitHub.
Abra um Pull Request: Volte para o seu fork no GitHub, selecione a sua branch e clique no botão “New pull request”. Escreva uma descrição detalhada das suas alterações e então clique em “Create pull request”.

A partir disso eu recebo o seu PR, analiso o que você codou e faço o merge para o repositório. Dando os devidos créditos à você, é claro!

Quer estudar mais

Quer estudar os algoritmos e implementá-los no repositório de machine learning com Python? Com o livro Mãos à obra: aprendizado de máquina com scikit-learn & tensorflow você vai aprender bastante, assim como com Data Science do zero: noções fundamentais com Python. Então não deixe de estudar e se aperfeiçoar nessa disciplina!

O post Machine Learning – Meu repositório no github apareceu primeiro em Diego Nogare.

Outras métricas de um algoritmo de classificação

Diego Nogare — Wed, 29 Apr 2020 12:00:44 +0000

Métricas de avaliação

de algoritmos de classificação

Não são só os métodos “padrões” extraídos da Matriz de Confusão que são úteis para medir a qualidade do seu modelo, mas existem outras métricas de um algoritmo de classificação. Como por exemplo os calculos publicados no artigo Deep learning technology for predicting solar flares from (Geostationary Operational Environmental Satellite) data.

Contudo, para cada problema de negócios que são resolvidos com um algoritmo de classificação de Machine Learning, existem métricas que podem ser utilizadas para medir a qualidade do modelo desenvolvido. Como já discutimos, algo só pode ser melhorado se for medido e evoluir a partir de uma aprendizagem. Mas afinal, quais métricas podemos usar além da Acurácia e Precisão?

Outras métricas

Probability of Detection (POD) que pode ser calculado por

False Alarm Rate (FAR) que é representado pela equação

Heidke Skill Score (HSS) que possui a fórmula e mede a fração de predições corretas depois de ajustar as previsões que seriam corretas devido à chance aleatória

True Skill Score (TSS) que pode ser matematicamente representado por e combina a sensibilidade e especificidade.

É entendido que as métricas HSS e TSS são mais ajustadas que POD e FAR, mas isso acontece por causa da vantagens de utilizar todos os parâmetros. Como por exemplo o TC (todos os elementos classificados corretamente), FN (taxa de falso negativo), FC (todos os elementos classificados de forma incorreta) e TN (taxa de falso positivo).

Contudo, uma vantagem do TSS em comparação com o HSS, é que ele não sofre alteração em relação ao número de elementos categorizados da classe positiva no tamanho da amostra.

O post Outras métricas de um algoritmo de classificação apareceu primeiro em Diego Nogare.

Como funciona a aprendizagem de máquina

Diego Nogare — Wed, 22 Apr 2020 12:00:53 +0000

Como é o Machine Learning

no aprendizado supervisionado e não supervisionado

Para entender como funciona a aprendizagem de máquina, é importante saber que existem dois principais paradigmas: o aprendizado supervisionado e o aprendizado não supervisionado. Também existe um que está ganhando bastante força ultimamente que é o aprendizado por reforço, mas que não vou entrar em detalhes. Entendo que estes dois principais paradigmas ganharam mais destaques, porque no decorrer da história da Inteligência Artificial, suas características foram mais usadas do que as outras formas.

Em um sistema de Machine Learning, independente de ser aprendizado supervisionado ou não supervisionado, o que é fornecido para o algoritmo são as entradas que possuímos e as saídas esperadas. E então deixamos o algoritmo “aprender” os padrões e “desenvolver” a solução necessária para fazer aquelas entradas resultarem naquelas saídas.

Isso é bastante diferente do que é feito com o desenvolvimento de software tradicional, na qual informamos quais são as entradas e o como o programa deve se comportar. Com estas instruções, o software nos dá a saída esperada.

Pode parecer abstrato esse tipo de pensamento, mas Aurélien Géron em seu livro Mãos à Obra: Aprendizado de Máquina com Scikit-Learn & TensorFlow conseguiu deixar esta explicação muito simples. Arrisco dizer que foi a melhor explicação de como funciona a aprendizagem de máquina que eu já li.

Aprendizagem de Máquina

Diz-se que um programa de computador aprende pela experiência E, em relação à algum tipo de tarefa T e alguma medida de desempenho P se, o seu desempenho P na execução da tarefa T, melhora com a experiência E. Mitchell, Tom. 1997

Essa definição do Tom foi tirada do livro do Aurélien comentado mais acima. Ela explica bem a forma como podemos entender que o computador aprende. Tentando deixar essa citação do Tom mais palatável, fiz a minha interpretação: Podemos dizer que um sistema aprendeu algo quando, para realizar uma tarefa que pode ser medida, ele aprende com novas experiências e melhora o seu desempenho ao realizar aquela tarefa.

Isso nos leva ao ponto de que algo só pode ser melhorado se este algo puder ser medido. Ou seja, não dá para dizer se alguma coisa evoluiu ou aprendeu, se não estivermos medindo seu desempenho e compararmos os resultados quando apresentarmos novas experiências.

Este feedback para ajudar a máquina a aprender pode ser feita de forma explícita, com algum agente dizendo ao algoritmo se o resultado foi assertivo ou errado. Com isso, novas experiências são ensinadas ao sistema e é esperado que ele melhore o desempenho nas execuções seguintes. Ou de forma implícita, quando uma determinada ação é feita pelo sistema e é entendido que o resultado do algoritmo foi correto ou errado.

É muito comum sistemas de Machine Learning serem aplicados em problemas complexos quando não é tão simples criar as regras através de condições com desenvolvimento tradicional. Estes sistemas de Machine Learning podem ser classificados em famílias, de acordo com o tipo de supervisão que existe para construí-lo.

Aprendizado Supervisionado

Neste paradigma de aprendizado, é fornecido para o algoritmo a variável alvo, que é resultado desejado existente na base de treino. Ou seja, sabemos exatamente quais são as entradas e as saídas esperadas para aquele conjunto de dados.

Existem duas possíveis categorias no aprendizado supervisionado, contudo, cada uma delas resolve um tipo de problema diferente. Os algoritmos de classificação trabalham para responder dados categóricos. E os algoritmos de regressão, ou estimação dependendo da literatura, trabalham para responder dados numéricos. Mas mesmo com alvos completamente diferentes, eles fazem parte do mesmo paradigma de aprendizado supervisionado.

Imagine um cenário onde você possui algumas características de veículos como Cor, Quantidade de Rodas, Quantidade de Portas, Quilometragem, Potência do Motor, Litragem do porta-malas, Marca, Modelo, Tipo de Cambio, Tipo de Carroceria e Preço da tabela FIPE. Você pode trabalhar tanto para criar um Algoritmo de Classificação que lhe responderia qual é o tipo de carroceria daquele veículo, quanto pode criar um Algoritmo de Regressão que lhe responderia quanto aquele veículo custa.

Para criar qualquer um destes sistemas, você precisa apresentar muitos exemplos para o algoritmo. Estes exemplos são chamados de base de treino. É fundamental que todos os dados existam na sua base, mas principalmente não pode deixar de existir os dados da variável alvo. Que neste caso é o Tipo de Carroceria para o algoritmo de classificação, e o Preço da tabela FIPE para o algoritmo de regressão. Cada algoritmo também possui suas características e podem usar variáveis preditoras diferentes, que ajudam o algoritmo a responder à variável alvo. Imagine que a cor do veículo não influencie na hora de definir sua carroceria, mas ela influencia no Preço.

Aprendizado Não Supervisionado

Como você pode ter imaginado, o aprendizado não supervisionado não possui uma variável alvo definida. Ou seja, não temos clareza de qual será sua saída até começarmos a observar seus resultados. Neste paradigma também existem vários tipos de famílias de algoritmos, como os algoritmos de agrupamento (Clustering), Redução de Dimensionalidade e também Regras de Associação.

Imagine que eu queria melhorar a experiência de vocês, utilizando os dados que o Google Analytics fornece sobre quem lêem o blog. Com base em algumas características dos leitores, como País de origem, Quantidade de páginas lidas, Gênero, Horário de acesso ao blog, Quanto tempo lendo conteúdo e Quais posts foram lidos. É possível criar um algoritmo de agrupamento, que pode encontrar similaridade entre os valores existentes nas variáveis e com isso eu descubro quais são os comportamentos de pessoas mais engajadas e pessoas menos engajadas com as coisas que eu publico. Repare que não sei quem são os leitores, nem quais são as características que os fazem ter uma similaridade entre si. Mas o algoritmo consegue me apresentar os grupos possíveis e com isso eu trabalho para criar os rótulos para eles. Um dos algoritmos mais comuns para esta tarefa é o K-Means.

Outra atividade que posso fazer para melhorar a experiência dos leitores é recomendar conteúdo. Me apropriando dos dados que o Google Analytics forneceu, com a possibidade (opcional) de utilizar os grupos segmentados pelo algoritmo de agrupamento, é possível identificar quais matérias foram lidas em cada acesso ao blog. Com isso, quando alguém ler uma matéria, é possível fazer a recomendação de outro post que talvez seja de interesse do leitor, baseado nas leituras de outros visitantes. Um dos algoritmos mais comuns para esta tarefa é o Apriori, que utilizei para o meu modelo de predição na defesa do mestrado.

Métricas de avaliação do desempenho

No começo do texto comentei que é importante medir o desempenho do algoritmo para saber como está sua performance. Você utiliza algumas métrica para saber se o algoritmo está bem calibrado com os parâmetros que foi fornecido, ou se precisa de algum ajuste. Mas cuidado, muitas vezes ajustar demais o algoritmo ele fica viciado e “decora” as respostas acertando mais do que realmente deveria. Isso é chamado de Overfit.

No paradigma de aprendizado supervisionado, principalmente em algoritmos de classificação, é separado um percentual da base de treino. Com a técnica de Holdout geralmente são 20% ou 30% da base separada, mas com a técnica de Cross-Validation é possível usar a base inteira. Essa separação é para que não seja utilizada na criação do algoritmo. Depois do algoritmo treinado, esta parte que não foi utilizada para treinar o modelo é utilizada para “simular” o comportamento de um ambiente de produção onde novos dados são apresentados ao algoritmo. Então o algoritmo responde à estes dados, como se realmente fossem novas amostras. Contudo, estes dados possuem o valor da variável alvo respondida originalmente, possibilitando comparar o resultado do algoritmo com o valor original e então medir a qualidade das respostas.

No fim das contas, não importa se você vai desenvolver o seu sistema em Python ou R, afinal o que é importante mesmo é saber como funciona a aprendizagem de máquina e aplicar a técnica de forma correta. Para aprender mais sobre os algoritmos de Machine Learning e suas implementações, recomendo dois livros: Introdução à mineração de dados: Conceitos básicos, algoritmos e aplicações e também Introdução à mineração de dados: com Aplicações em R.

O post Como funciona a aprendizagem de máquina apareceu primeiro em Diego Nogare.