Arquivos Análise Exploratória Descritiva - Diego Nogare

Machine Learning – Meu repositório no github

Diego Nogare — Mon, 25 Mar 2024 21:59:08 +0000

Seja bem-vindo ao meu repositório de Machine Learning no GitHub! Aqui, você encontrará os códigos que desenvolvi durante a disciplina de Aprendizagem de Máquina do doutorado no Mackenzie. Você encontrará diversos Jupyter Notebook para aprender Machine Learning utilizando Python e abordando desde Análise Exploratória Descritiva até implementações práticas de Aprendizado Supervisionado e Aprendizado não Supervisionado, além de boas práticas como Validação Cruzada, Grid Search e Serialização do Modelo e códigos que realizam comparações dos algoritmos estudados.

Navegue pelo repositório de machine learning com Python e execute todos os códigos no Google Colab para aprimorar suas habilidades em Machine Learning. E claro, colabore para que todos possamos aprender cada vez mais!

Meu repositório no github

O repositório é dedicado a compartilhar os códigos com resoluções de problemas de Machine Learning. Ajudam no entendimento desta área de atuação que vem crescido bastante nos últimos anos. Aqui você irá encontrar exemplos de algoritmos no repositório de machine learning com Python explicados de maneira detalhada (ao menos estou tentando deixar o mais detalhado que consigo, no tempo que tenho).

Os códigos estão organizados em grupos, onde há o nome do arquivo e uma breve descrição do que ele tem de implementação.

Análise exploratória descritiva

Existem os códigos que fazem a exploração de dados de um dataset de Detecção de Fraude e outro da Iris. Além de uma exploração de dados com os dígitos do MNIST.

Aprendizado supervisionado

Só coloquei os códigos de algoritmos de classificação, porém, tem KNN, Árvore de Decisão e Multi-Layer Perceptron (Rede Neural). Tem espaço para incluir outros algoritmos de classificação, como também há espaço para adicionar algoritmos de regressão, por que eu não subi nenhum.

Aprendizado não supervisionado

Apesar de já ter o arquivo para o DBScan e o K-Means, só o K-Means que escrevi os códigos… para o DBScan eu comecei a fazer a parte teórica mas não implementei nada. Há espaço para colaborar aqui também…

Além, é claro, de outros algoritmos que quiserem

Boas práticas

Tem códigos utilizando Validação Cruzada, Grid Search e Serialização de Modelos… Mas aqui também há espaço para trazerem mais boas práticas

Comparação de algoritmos

Para o trabalho de comparar os algoritmos, fiz a junção de vários códigos do repositório e então comparei KNN, Árvore de Decisão e Multi-Layer Perceptron para a base de dados MNIST… Como eu queria garantir que os dígitos testados não tivessem sido utilizados de forma alguma, criei uma rede adversaria generativa para que fosse possível criar dígitos artificiais. Então, com esses dígitos, eu posso testar os algoritmos em si e comparar seus resultados.

Animação com a geração artificial dos dígitos entre a época 0 e 100

De bonus ainda tem um código que fiz para juntar as imagens dos dígitos em cada uma das épocas e construir um gif animado. Assim fica bem legal ver a evolução das gerações de dígitos artificiais ao longo das épocas da GAN.

Contribua com o repositório de machine learning

Você já fez alguma coisa de ML e gostaria de subir nesse repositório? Se for até o final do Readme.md vai ver algumas instruções rápidas para contribuir além de uma playlist explicando como fazer isso. Mas mesmo assim, aqui está uma lsita simplificada de passos para contribuir:

Crie uma conta no GitHub: Se você ainda não tem uma, você pode criar uma gratuitamente no site do GitHub.
Fork do repositório: Abra o link do projeto e faça um “fork” dele. Isso cria uma cópia do projeto na sua conta do GitHub.
Clone o repositório para o seu computador: Use o comando git clone seguido do URL do seu fork para baixar o repositório para o seu computador.
Faça suas alterações: Faça as alterações que você acha que melhoram o projeto.
Commit suas alterações: Use o comando git commit -m seguido de uma mensagem descritiva para salvar suas alterações.
Push suas alterações para o GitHub: Use o comando git push origin seguido do nome da sua branch (main) para enviar suas alterações para o seu fork no GitHub.
Abra um Pull Request: Volte para o seu fork no GitHub, selecione a sua branch e clique no botão “New pull request”. Escreva uma descrição detalhada das suas alterações e então clique em “Create pull request”.

A partir disso eu recebo o seu PR, analiso o que você codou e faço o merge para o repositório. Dando os devidos créditos à você, é claro!

Quer estudar mais

Quer estudar os algoritmos e implementá-los no repositório de machine learning com Python? Com o livro Mãos à obra: aprendizado de máquina com scikit-learn & tensorflow você vai aprender bastante, assim como com Data Science do zero: noções fundamentais com Python. Então não deixe de estudar e se aperfeiçoar nessa disciplina!

O post Machine Learning – Meu repositório no github apareceu primeiro em Diego Nogare.

Mineração de dados e suas ramificações

Diego Nogare — Mon, 13 Apr 2020 12:00:39 +0000

Por onde começar a analisar os dados

para criar um caminho assertivo na tomada de decisão

Quem pretende começar a fazer uma análise em cima de dados, pode ter algumas dúvidas sobre onde começar, isso porque há muitos caminhos a seguir na mineração de dados e suas ramificações. Com estas áreas de estudos, é possível identificar o que fazem e como aplicar em seus projetos. Não existe inteligência artificial sem mineração de dados, e independente de qual linguagem de programação vai escolher para trabalhar, você precisará aprender a minerar os dados.

Mineração de Dados

Mineração de Dados faz parte de um processo mais amplo conhecido como descoberta de conhecimento em base de dados (Knowledge Discovery in Database – KDD). Esta terminologia é uma referência à mineração tradicional, onde minas são exploradas em busca de minérios ou pedras preciosas, e para encontrar cada um destes elementos são utilizadas ferramentas específicas. Por isso a referência à estas pedras preciosas na imagem de capa deste texto. Por exemplo, em mineração de dados pode-se criar um paralelo e dizer que as bases de dados são as minas, os minérios ou pedras preciosas são os conhecimentos extraídos dos dados e as ferramentas específicas são os algoritmos.

O processo de mineração de dados pode ser dividido em duas grandes vertentes. Em primeiro lugar a Análise Descritiva e em segundo a Análise Preditiva. A Análise Descritiva apresenta as características gerais dos dados, possibilitando que sejam encontrados padrões de comportamento e conhecimento que os usuários nem imaginavam que existiam. Por outro lado, na Análise Preditiva, são criados modelos formais que permitem estimar, classificar ou agrupar dados, a partir de determinados comportamentos que foram aprendidos e encontrados na Análise Descritiva.

Existem linhas de pesquisa que apontam a mineração de dados como uma vertente do Machine Learning. Ambos processos se preocupam em encontrar padrões comportamentais, técnicas e algoritmos também são comuns de se encontrar nas duas áreas. Na tentativa de diferenciar os dois, processos de Machine Learning possuem características de melhorias de desempenho e evolução dos reconhecimentos, enquanto a Mineração de Dados procura explicar os padrões utilizando técnicas de análise de dados descritiva.

Análise Descritiva – Análise exploratória descritiva

Durante o processo de descoberta do conhecimento é esperado que os resultados sejam facilmente entendidos, permitindo uma compreensão mais apropriada por quem está lendo. Por isso é bastante comum utilizar elementos gráficos para representar esses conhecimentos descobertos e seus padrões.

A análise exploratória permite descobrir padrões e comportamento nos dados, possibilitando um melhor entendimento da base de dados que se está trabalhando. Com esta técnica é possível investigar como está distribuída a frequência de ocorrência dos dados, entender as médias móveis além de calcular as medidas de posição relativa e absoluta. É comum encontrar uma combinação das descrições com representação visual, suportando uma análise gráfica dos dados.

Os gráficos permitem um acompanhamento e visualização das características e padrões encontrados nos dados. É comum criar histogramas, diagramas de caixas, diagrama de dispersão e gráfico de setores para descobrir o comportamento geral dos dados. Contudo também são utilizados para permitir a comparação entre o subconjunto real e os resultados da predição. Isso para medir a performance de desempenho do modelo preditivo.

Análise Descritiva – Descoberta de Padrões

Padrões são conhecimentos apresentados formalmente, e como são mais simples que os dados propriamente ditos, são apresentados através de uma linguagem formal. Se esse padrão possui uma forma que seja possível de um humano ler e interpretar, ele é considerado um padrão compreensível. Uma das linguagens formais para representar padrão amplamente utilizada é a linguagem de equações. Se deseja somar os valores de duas variáveis, é possível utilizar o símbolo de adição e quem for interpretar aquela equação sabe o que o padrão representa. É um padrão compreensível para nós, humanos. Contudo, nem todos os padrões matemáticos são

Análise Preditiva – Machine Learning

Nenhuma aprendizagem é imediata, seja ela biológica ou artificial. Contudo, como conhecimento adquirido é gradual, a evolução da aprendizagem depende de adaptação e interação com o ambiente da qual estão inseridos. Isso quer dizer que sistemas capazes de se adaptar, ou mudar seu comportamento, de forma automática ou através de exemplos, são considerados sistemas de Machine Learning.

O Machine Learning, como área de estudo, se preocupa com o desenvolvimento de métodos para suportar e melhorar o conhecimento ou desempenho de um agente inteligente. Esse melhoramento é esperado que aconteça ao longo do tempo, se adaptando às experiências vividas pelo agente no contexto inserido.

Em mineração de dados a aprendizagem se refere ao processo de treinamento do modelo preditivo. Mas sua construção ou ajuste, precisa se adaptar às regras pré-estabelecidas e se moldar de acordo com o comportamento dos dados ao longo do tempo, buscando melhorar seu resultado.

Paradigmas de Aprendizagem de Máquina

As formas de Aprendizagem de Máquina são definidas, principalmente, entre supervisionadas e não supervisionadas. Contudo, deixando de lado a complexidade destas diferenças, podemos separar as duas observando a existência de uma variável alvo. Isso porque, quando existe uma variável alvo definida e o modelo tem o objetivo de responder à essa variável, o paradigma de aprendizagem é chamado de supervisionado. Quando não existe, podemos chamá-lo de não supervisionado.

Uma condição imprescindível para esse processo de aprendizagem é que devem existir dados que expliquem a variável alvo. E a variável alvo deve conter os rótulos necessários para a resposta da formulação do problema.

Contudo, quando não há uma variável alvo, todos as outras variáveis que foram utilizadas para criarem o modelo são comparadas por similaridade ou distância, e são encontrados possíveis resultados. Existem situações nas quais os grupos de similaridades não representam o que é desejado encontrar para responder a formulação do problema. Esse comportamento é conhecido como não supervisionado.

Referências

Se quiser aprofundar seus estudos em mineração de dados e suas ramificações, os três livros que usei como referência para escrever este texto foram Introdução à mineração de dados: Conceitos básicos, algoritmos e aplicações e Introdução à mineração de dados: com Aplicações em R. Estes dois de mineração de dados foram escritos por professores que me deram aulas durante o mestrado. E também o Data Science Para Negócios, que é outro livro importante da nossa área.

O post Mineração de dados e suas ramificações apareceu primeiro em Diego Nogare.