Arquivos Aprendizagem de Máquina - Diego Nogare

Como funciona a aprendizagem de máquina

Diego Nogare — Wed, 22 Apr 2020 12:00:53 +0000

Como é o Machine Learning

no aprendizado supervisionado e não supervisionado

Para entender como funciona a aprendizagem de máquina, é importante saber que existem dois principais paradigmas: o aprendizado supervisionado e o aprendizado não supervisionado. Também existe um que está ganhando bastante força ultimamente que é o aprendizado por reforço, mas que não vou entrar em detalhes. Entendo que estes dois principais paradigmas ganharam mais destaques, porque no decorrer da história da Inteligência Artificial, suas características foram mais usadas do que as outras formas.

Em um sistema de Machine Learning, independente de ser aprendizado supervisionado ou não supervisionado, o que é fornecido para o algoritmo são as entradas que possuímos e as saídas esperadas. E então deixamos o algoritmo “aprender” os padrões e “desenvolver” a solução necessária para fazer aquelas entradas resultarem naquelas saídas.

Isso é bastante diferente do que é feito com o desenvolvimento de software tradicional, na qual informamos quais são as entradas e o como o programa deve se comportar. Com estas instruções, o software nos dá a saída esperada.

Pode parecer abstrato esse tipo de pensamento, mas Aurélien Géron em seu livro Mãos à Obra: Aprendizado de Máquina com Scikit-Learn & TensorFlow conseguiu deixar esta explicação muito simples. Arrisco dizer que foi a melhor explicação de como funciona a aprendizagem de máquina que eu já li.

Aprendizagem de Máquina

Diz-se que um programa de computador aprende pela experiência E, em relação à algum tipo de tarefa T e alguma medida de desempenho P se, o seu desempenho P na execução da tarefa T, melhora com a experiência E. Mitchell, Tom. 1997

Essa definição do Tom foi tirada do livro do Aurélien comentado mais acima. Ela explica bem a forma como podemos entender que o computador aprende. Tentando deixar essa citação do Tom mais palatável, fiz a minha interpretação: Podemos dizer que um sistema aprendeu algo quando, para realizar uma tarefa que pode ser medida, ele aprende com novas experiências e melhora o seu desempenho ao realizar aquela tarefa.

Isso nos leva ao ponto de que algo só pode ser melhorado se este algo puder ser medido. Ou seja, não dá para dizer se alguma coisa evoluiu ou aprendeu, se não estivermos medindo seu desempenho e compararmos os resultados quando apresentarmos novas experiências.

Este feedback para ajudar a máquina a aprender pode ser feita de forma explícita, com algum agente dizendo ao algoritmo se o resultado foi assertivo ou errado. Com isso, novas experiências são ensinadas ao sistema e é esperado que ele melhore o desempenho nas execuções seguintes. Ou de forma implícita, quando uma determinada ação é feita pelo sistema e é entendido que o resultado do algoritmo foi correto ou errado.

É muito comum sistemas de Machine Learning serem aplicados em problemas complexos quando não é tão simples criar as regras através de condições com desenvolvimento tradicional. Estes sistemas de Machine Learning podem ser classificados em famílias, de acordo com o tipo de supervisão que existe para construí-lo.

Aprendizado Supervisionado

Neste paradigma de aprendizado, é fornecido para o algoritmo a variável alvo, que é resultado desejado existente na base de treino. Ou seja, sabemos exatamente quais são as entradas e as saídas esperadas para aquele conjunto de dados.

Existem duas possíveis categorias no aprendizado supervisionado, contudo, cada uma delas resolve um tipo de problema diferente. Os algoritmos de classificação trabalham para responder dados categóricos. E os algoritmos de regressão, ou estimação dependendo da literatura, trabalham para responder dados numéricos. Mas mesmo com alvos completamente diferentes, eles fazem parte do mesmo paradigma de aprendizado supervisionado.

Imagine um cenário onde você possui algumas características de veículos como Cor, Quantidade de Rodas, Quantidade de Portas, Quilometragem, Potência do Motor, Litragem do porta-malas, Marca, Modelo, Tipo de Cambio, Tipo de Carroceria e Preço da tabela FIPE. Você pode trabalhar tanto para criar um Algoritmo de Classificação que lhe responderia qual é o tipo de carroceria daquele veículo, quanto pode criar um Algoritmo de Regressão que lhe responderia quanto aquele veículo custa.

Para criar qualquer um destes sistemas, você precisa apresentar muitos exemplos para o algoritmo. Estes exemplos são chamados de base de treino. É fundamental que todos os dados existam na sua base, mas principalmente não pode deixar de existir os dados da variável alvo. Que neste caso é o Tipo de Carroceria para o algoritmo de classificação, e o Preço da tabela FIPE para o algoritmo de regressão. Cada algoritmo também possui suas características e podem usar variáveis preditoras diferentes, que ajudam o algoritmo a responder à variável alvo. Imagine que a cor do veículo não influencie na hora de definir sua carroceria, mas ela influencia no Preço.

Aprendizado Não Supervisionado

Como você pode ter imaginado, o aprendizado não supervisionado não possui uma variável alvo definida. Ou seja, não temos clareza de qual será sua saída até começarmos a observar seus resultados. Neste paradigma também existem vários tipos de famílias de algoritmos, como os algoritmos de agrupamento (Clustering), Redução de Dimensionalidade e também Regras de Associação.

Imagine que eu queria melhorar a experiência de vocês, utilizando os dados que o Google Analytics fornece sobre quem lêem o blog. Com base em algumas características dos leitores, como País de origem, Quantidade de páginas lidas, Gênero, Horário de acesso ao blog, Quanto tempo lendo conteúdo e Quais posts foram lidos. É possível criar um algoritmo de agrupamento, que pode encontrar similaridade entre os valores existentes nas variáveis e com isso eu descubro quais são os comportamentos de pessoas mais engajadas e pessoas menos engajadas com as coisas que eu publico. Repare que não sei quem são os leitores, nem quais são as características que os fazem ter uma similaridade entre si. Mas o algoritmo consegue me apresentar os grupos possíveis e com isso eu trabalho para criar os rótulos para eles. Um dos algoritmos mais comuns para esta tarefa é o K-Means.

Outra atividade que posso fazer para melhorar a experiência dos leitores é recomendar conteúdo. Me apropriando dos dados que o Google Analytics forneceu, com a possibidade (opcional) de utilizar os grupos segmentados pelo algoritmo de agrupamento, é possível identificar quais matérias foram lidas em cada acesso ao blog. Com isso, quando alguém ler uma matéria, é possível fazer a recomendação de outro post que talvez seja de interesse do leitor, baseado nas leituras de outros visitantes. Um dos algoritmos mais comuns para esta tarefa é o Apriori, que utilizei para o meu modelo de predição na defesa do mestrado.

Métricas de avaliação do desempenho

No começo do texto comentei que é importante medir o desempenho do algoritmo para saber como está sua performance. Você utiliza algumas métrica para saber se o algoritmo está bem calibrado com os parâmetros que foi fornecido, ou se precisa de algum ajuste. Mas cuidado, muitas vezes ajustar demais o algoritmo ele fica viciado e “decora” as respostas acertando mais do que realmente deveria. Isso é chamado de Overfit.

No paradigma de aprendizado supervisionado, principalmente em algoritmos de classificação, é separado um percentual da base de treino. Com a técnica de Holdout geralmente são 20% ou 30% da base separada, mas com a técnica de Cross-Validation é possível usar a base inteira. Essa separação é para que não seja utilizada na criação do algoritmo. Depois do algoritmo treinado, esta parte que não foi utilizada para treinar o modelo é utilizada para “simular” o comportamento de um ambiente de produção onde novos dados são apresentados ao algoritmo. Então o algoritmo responde à estes dados, como se realmente fossem novas amostras. Contudo, estes dados possuem o valor da variável alvo respondida originalmente, possibilitando comparar o resultado do algoritmo com o valor original e então medir a qualidade das respostas.

No fim das contas, não importa se você vai desenvolver o seu sistema em Python ou R, afinal o que é importante mesmo é saber como funciona a aprendizagem de máquina e aplicar a técnica de forma correta. Para aprender mais sobre os algoritmos de Machine Learning e suas implementações, recomendo dois livros: Introdução à mineração de dados: Conceitos básicos, algoritmos e aplicações e também Introdução à mineração de dados: com Aplicações em R.

O post Como funciona a aprendizagem de máquina apareceu primeiro em Diego Nogare.

Os principais nomes no Deep Learning

Diego Nogare — Fri, 17 Apr 2020 12:00:10 +0000

Quando se pensa em Deep Learning

não podemos deixar de lembrar destes pesquisadores

Estes são os principais nomes de autores que leio, quando o conteúdo é Deep Learning. Contudo, não é apenas porque são pesquisadores que conseguem transmitir suas ideias de forma simples para a comunidade de Inteligência Artificial ao redor do mundo, mas principalmente porque suas ideias e projetos revolucionaram o mundo do Machine Learning possibilitando feitos incríveis. Coloque seus nomes em ordem alfabética, para não ser injusto ou parecer dar preferência para algum deles.

Andrew Y. Ng

É Mestre pelo MIT e PhD por Berkeley. É professor em Stanford e fundador do Coursera, também trabalhou como cientista chefe do Baidu e no Google Brain. Mais recente, em 2018, fundou a DeepLearning.AI e por lá distribui um de seus livros gratuitamente: Machine Learning Yearning. Foi orientador de Ian Goodfellow durante seu mestrado em Stanford, que está referenciado mais abaixo.

Geoffrey Hinton

É PhD pela universidade de Edinburgo. É professor na Universidade de Toronto e trabalha no Google. Um de seus grandes feitos foi a Máquina Boltzmann, junto com Terrence Sejnowski, que está referenciado mais abaixo. Outra grande conquista foi, junto com seu aluno Alex Krizhevsky, ter tido um resultado fantástico no desafio anual da ImageNet de 2012, utilizando aprendizado profundo em seus modelos de Machine Learning. Em 2018, ao lado de Yoshua Bengio e Yann LeCun, ambos referenciados mais abaixo, foi premiado como o Turing Award que é equivalente ao Premio Nobel, só que na computação.

Ian Goodfellow

É Mestre por Stanford e PhD pela Universidade de Montreal. Seu orientador no mestrado foi Andrew Ng e no doutorado foi Yoshua Bengio. Já trabalhou no Google Brain mas atualmente trabalha como diretor de Machine Learning na Apple. Seu grande feito para a área de Deep Learning foi ter criado a Rede GAN – Generative Adversarial Networks, que é muito utilizada para combinação/criação de objetos artificiais muito similares a objetos reais. Por outro lado, outro feito incrível foi escrever como principal autor da bíblia gratuita do Deep Learning, juntamente com seus dois orientadores do doutorado, Yoshua Bengio e Aaron Courville. Se você quiser a versão impressa e em capa dura do livro de Deep Learning é possível.

Terrence Sejnowski

É Mestre e PhD em física, pela universidade de Princeton. Atualmente é professor na Universidade da Califórnia. Porém, em sua bagagem, leva a responsabilidade de ser um dos autores do curso online mais famoso do mundo, o Aprendendo a Aprender (Learning How to Learn) oferecido pela Coursera. Mas só para você ter uma ideia em números de grandeza, este curso já teve mais de 2.4 milhões de alunos. Contudo, suas contribuições também são na área de Redes Neurais Artificiais. Em conjunto com Geoffrey Hinton, referenciado mais acima no texto, criou a Máquina Boltzmann ainda na década de 80. Seu livro A Revolução do Aprendizado Profundo é incrível para mostrar as diversas aplicações de Deep Learning, seus autores, e como estas histórias se relacionam com Terrence.

Yann LeCun

É Mestre pela ESIEE Paris e PhD pela Universidade Pierre e Marie Curie. Ainda na década de 80 fez seu pós-doc no laboratório de Geoffrey Hinton, referenciado mais acima no texto. É professor na Universidade de Nova York, e também trabalha como Diretor de Inteligência Artificial no Facebook. Ainda ao lado de Geoffrey Hinton, mas também de Yoshua Bengio, ambos referenciados no texto, foi premiado como o Turing Award em 2018. O prêmio foi em recompensa às pesquisas no campo de Deep Learning.

Yoshua Bengio

É Mestre e PhD pela Universidade McGill em Montreal. É professor na Universidade de Montreal. Junto com Geoffrey Hinton e Yann LeCun foi premiado como o Turing Award em 2018. Colaborou no livro Architects of Intelligence: The truth about AI from the people building it (English Edition), junto com todos os outros nomes citados aqui no texto (tirando o Ian Goodfellow). Contudo, junto com Ian Goodfellow e Aaron Courville, escreveu a bíblia do Deep Learning.

Na minha visão, estes são os principais nomes no Deep Learning. Mas tenho certeza que esqueci de referenciar outros grandes pesquisadores. Contudo, em minha defesa, é bom que eu não conheça todos. Assim posso continuar me surpreendendo sempre que sou apresentado a algum pesquisador que eu não tinha conhecimento. Long life learning!

O post Os principais nomes no Deep Learning apareceu primeiro em Diego Nogare.

Mineração de dados e suas ramificações

Diego Nogare — Mon, 13 Apr 2020 12:00:39 +0000

Por onde começar a analisar os dados

para criar um caminho assertivo na tomada de decisão

Quem pretende começar a fazer uma análise em cima de dados, pode ter algumas dúvidas sobre onde começar, isso porque há muitos caminhos a seguir na mineração de dados e suas ramificações. Com estas áreas de estudos, é possível identificar o que fazem e como aplicar em seus projetos. Não existe inteligência artificial sem mineração de dados, e independente de qual linguagem de programação vai escolher para trabalhar, você precisará aprender a minerar os dados.

Mineração de Dados

Mineração de Dados faz parte de um processo mais amplo conhecido como descoberta de conhecimento em base de dados (Knowledge Discovery in Database – KDD). Esta terminologia é uma referência à mineração tradicional, onde minas são exploradas em busca de minérios ou pedras preciosas, e para encontrar cada um destes elementos são utilizadas ferramentas específicas. Por isso a referência à estas pedras preciosas na imagem de capa deste texto. Por exemplo, em mineração de dados pode-se criar um paralelo e dizer que as bases de dados são as minas, os minérios ou pedras preciosas são os conhecimentos extraídos dos dados e as ferramentas específicas são os algoritmos.

O processo de mineração de dados pode ser dividido em duas grandes vertentes. Em primeiro lugar a Análise Descritiva e em segundo a Análise Preditiva. A Análise Descritiva apresenta as características gerais dos dados, possibilitando que sejam encontrados padrões de comportamento e conhecimento que os usuários nem imaginavam que existiam. Por outro lado, na Análise Preditiva, são criados modelos formais que permitem estimar, classificar ou agrupar dados, a partir de determinados comportamentos que foram aprendidos e encontrados na Análise Descritiva.

Existem linhas de pesquisa que apontam a mineração de dados como uma vertente do Machine Learning. Ambos processos se preocupam em encontrar padrões comportamentais, técnicas e algoritmos também são comuns de se encontrar nas duas áreas. Na tentativa de diferenciar os dois, processos de Machine Learning possuem características de melhorias de desempenho e evolução dos reconhecimentos, enquanto a Mineração de Dados procura explicar os padrões utilizando técnicas de análise de dados descritiva.

Análise Descritiva – Análise exploratória descritiva

Durante o processo de descoberta do conhecimento é esperado que os resultados sejam facilmente entendidos, permitindo uma compreensão mais apropriada por quem está lendo. Por isso é bastante comum utilizar elementos gráficos para representar esses conhecimentos descobertos e seus padrões.

A análise exploratória permite descobrir padrões e comportamento nos dados, possibilitando um melhor entendimento da base de dados que se está trabalhando. Com esta técnica é possível investigar como está distribuída a frequência de ocorrência dos dados, entender as médias móveis além de calcular as medidas de posição relativa e absoluta. É comum encontrar uma combinação das descrições com representação visual, suportando uma análise gráfica dos dados.

Os gráficos permitem um acompanhamento e visualização das características e padrões encontrados nos dados. É comum criar histogramas, diagramas de caixas, diagrama de dispersão e gráfico de setores para descobrir o comportamento geral dos dados. Contudo também são utilizados para permitir a comparação entre o subconjunto real e os resultados da predição. Isso para medir a performance de desempenho do modelo preditivo.

Análise Descritiva – Descoberta de Padrões

Padrões são conhecimentos apresentados formalmente, e como são mais simples que os dados propriamente ditos, são apresentados através de uma linguagem formal. Se esse padrão possui uma forma que seja possível de um humano ler e interpretar, ele é considerado um padrão compreensível. Uma das linguagens formais para representar padrão amplamente utilizada é a linguagem de equações. Se deseja somar os valores de duas variáveis, é possível utilizar o símbolo de adição e quem for interpretar aquela equação sabe o que o padrão representa. É um padrão compreensível para nós, humanos. Contudo, nem todos os padrões matemáticos são

Análise Preditiva – Machine Learning

Nenhuma aprendizagem é imediata, seja ela biológica ou artificial. Contudo, como conhecimento adquirido é gradual, a evolução da aprendizagem depende de adaptação e interação com o ambiente da qual estão inseridos. Isso quer dizer que sistemas capazes de se adaptar, ou mudar seu comportamento, de forma automática ou através de exemplos, são considerados sistemas de Machine Learning.

O Machine Learning, como área de estudo, se preocupa com o desenvolvimento de métodos para suportar e melhorar o conhecimento ou desempenho de um agente inteligente. Esse melhoramento é esperado que aconteça ao longo do tempo, se adaptando às experiências vividas pelo agente no contexto inserido.

Em mineração de dados a aprendizagem se refere ao processo de treinamento do modelo preditivo. Mas sua construção ou ajuste, precisa se adaptar às regras pré-estabelecidas e se moldar de acordo com o comportamento dos dados ao longo do tempo, buscando melhorar seu resultado.

Paradigmas de Aprendizagem de Máquina

As formas de Aprendizagem de Máquina são definidas, principalmente, entre supervisionadas e não supervisionadas. Contudo, deixando de lado a complexidade destas diferenças, podemos separar as duas observando a existência de uma variável alvo. Isso porque, quando existe uma variável alvo definida e o modelo tem o objetivo de responder à essa variável, o paradigma de aprendizagem é chamado de supervisionado. Quando não existe, podemos chamá-lo de não supervisionado.

Uma condição imprescindível para esse processo de aprendizagem é que devem existir dados que expliquem a variável alvo. E a variável alvo deve conter os rótulos necessários para a resposta da formulação do problema.

Contudo, quando não há uma variável alvo, todos as outras variáveis que foram utilizadas para criarem o modelo são comparadas por similaridade ou distância, e são encontrados possíveis resultados. Existem situações nas quais os grupos de similaridades não representam o que é desejado encontrar para responder a formulação do problema. Esse comportamento é conhecido como não supervisionado.

Referências

Se quiser aprofundar seus estudos em mineração de dados e suas ramificações, os três livros que usei como referência para escrever este texto foram Introdução à mineração de dados: Conceitos básicos, algoritmos e aplicações e Introdução à mineração de dados: com Aplicações em R. Estes dois de mineração de dados foram escritos por professores que me deram aulas durante o mestrado. E também o Data Science Para Negócios, que é outro livro importante da nossa área.

O post Mineração de dados e suas ramificações apareceu primeiro em Diego Nogare.