Arquivos mineracao de dados - Diego Nogare

Algoritmo Apriori para sistemas de recomendação

Sistemas de recomendação

Explicando o algoritmo de Regra de Associação

Como recomendar algo

Mineração de dados e suas ramificações

Por onde começar a analisar os dados

Azure Machine Learning – Matriz de Confusão – Parte 4

Azure Machine Learning – Introdução – Parte 3

Azure Machine Learning – Introdução – Parte 2

Azure Machine Learning – Introdução – Parte 1

para por em prática as regras de associação

Aplicação do Algoritmo Apriori

Métodos de avaliação do algoritmo

Material de referência

a partir de experiências passadas

Regras de Associação

Formalização matemática

Melhorando a abordagem

Material de referência

para criar um caminho assertivo na tomada de decisão

Mineração de Dados

True Positive:

False Positive:

True Negative:

False Negative:

Acuracy (acurácia):

Precision (precisão):

Recall:

F1 Score:

Classification

Exemplo 1

Exemplo 2

Análise Descritiva – Análise exploratória descritiva

Análise Descritiva – Descoberta de Padrões

Análise Preditiva – Machine Learning

Paradigmas de Aprendizagem de Máquina

Referências

Diego Nogare — Wed, 06 May 2020 12:00:28 +0000

Arrisco dizer que o algoritmo Apriori para sistemas de recomendação é a forma mais efetiva para colocar em prática as regras de associação. Mas isso só ocorre porque, para criar regras de forma efetiva, é necessário evitar o trabalho de força bruta.

O princípio do algoritmo Apriori diz que um 𝑘−𝑖𝑡𝑒𝑚𝑠𝑒𝑡 só será entendido como frequente se todos seus (𝑘−1)−𝑖𝑡𝑒𝑚𝑠𝑒𝑡 forem frequentes. Ou seja, um conjunto de itens é frequente se seu suporte, que é a segmentação de registros criando um subconjunto de dados que contém os itens, está acima de um determinado limite mínimo (pode ser chamado de suporte mínimo). Ao se decompor este comportamento em duas fases distintas, pode-se encontrar o subconjunto de itens frequentes quando estes itens satisfazem o mínimo de suporte. E para gerar as regras de associação, a partir destes itens frequentes, deve satisfazer o mínimo da confiança (pode ser chamada de confiança mínima).

Um padrão encontrado nas transações pode ser considerado confiável se ele aparecer em uma alta porcentagem de casos aplicáveis. Contudo, para se trabalhar com regras de associação, também é entendido que o algoritmo é confiável se tiver um valor de confiança alto. A tarefa de encontrar os itens frequentes dentro do conjunto de dados é repetitiva, e se encerra quando a combinação de itens frequentes não for mais satisfatória.

Na primeira iteração do processo, o algoritmo gera o 1−𝑖𝑡𝑒𝑚𝑠𝑒𝑡, onde a combinação destes elementos é superior ao suporte que foi definido. Os elementos que satisfazem o valor mínimo de suporte são então selecionados e combinados, gerando o 2−𝑖𝑡𝑒𝑚𝑠𝑒𝑡, e mais uma vez o suporte para esse novo conjunto é calculado. Novamente há uma iteração do processo selecionando itens que satisfaçam o mínimo de suporte e combinada com o conjunto de itens anterior, criando o 3−𝑖𝑡𝑒𝑚𝑠𝑒𝑡. E assim segue com as iterações até que o sub-conjunto de itens criado não satisfaça o valor mínimo de suporte, deixando de ser considerado um conjunto de item frequente.

Por exemplo, imagine que esta ilustração em forma de grafo é uma base de dados que será utilizada para criar as regras de associação.

Lembre-se que, se um item é considerado frequente, então todos seus subitens também são considerados frequentes. Para entender essa afirmação, observe a ilustração abaixo (com as marcações em azul) no qual o item 𝐶𝐷𝐸 foi considerado frequente, e consequentemente todos os itens anteriores àquele elemento também são considerados frequentes. A cor azul destaca os nós que foram considerados frequentes dada essa afirmação 𝐶𝐷, 𝐶𝐸, 𝐷𝐸, 𝐶, 𝐷 e 𝐸, incluindo o conjunto vazio, NULL.

Seguindo a mesma estratégia, porém com a lógica invertida, a imagem abaixo (com as marcações em rosa) apresenta o conjunto 𝐴𝐵 que não foi considerado frequente, logo os itens derivados deste item 𝐴𝐵 também serão desconsiderados e não terão regras sendo criadas para os itens 𝐴𝐵𝐶, 𝐴𝐵𝐷, 𝐴𝐵𝐸, 𝐴𝐵𝐶𝐷, 𝐴𝐵𝐶𝐸, 𝐴𝐵𝐷𝐸 e 𝐴𝐵𝐶𝐷𝐸. Com destaque em rosa estão os nós dos itens que foram desconsiderados para a criação das regras.

Como métodos validados que permitem avaliar a criação das regras de associação, pode-se destacar:

Medidas objetivas com base em probabilidade de suporte e confiança;
Medidas subjetivas que definem peculiaridade e surpresa dos dados.

As métricas de Suporte e Confiança já foram discutidas em outro texto.

Peculiaridade: A medida pode ser considerada peculiar se estiver distante de outros padrões descobertos, se baseando em alguma medida de distância. Padrões peculiares são gerados com dados peculiares, que na estatística são conhecidos como outliers. Espera-se que tenha baixa representatividade absoluta na base de dados, e por causa disso, seja significativamente diferente do restante dos dados. Padrões peculiares geralmente são desconhecidos para os usuários, isso traz à tona uma característica interessante que pode passar despercebida pela área de negócio que solicitou o projeto.

Surpresa: Para um padrão ser surpreendente, é esperado que ele contradiga o senso comum, ou expectativas, de um usuário ao analisar o resultado. Um padrão que é uma exceção à regra, ou seja, foge de um padrão geral que já foi descoberto, também podem ser considerados surpreendente. Em grande parte dos casos são descobertas interessantes, porque destacam divergência de conhecimento prévio e pode sugerir uma abordagem de que haja dados que precisam de mais estudos.

Muitas vezes, resultados que apresentam peculiaridade e surpresa, incomodam os “donos de verdades absolutas“. Isso porque estas pessoas não esperavam que o comportamento coletivo fosse diferente do que se era desejado/esperado, baseado em suas crenças.

Como este texto é continuação do que escrevi sobre Explicando o algoritmo de Regra de Associação, as referências são as mesmas. Usei o livro Introdução ao Data Mining. Mineração de Dados e também Introdução à mineração de dados: com Aplicações em R e o artigo Interestingness measures for data mining: A survey.

O post Algoritmo Apriori para sistemas de recomendação apareceu primeiro em Diego Nogare.

Diego Nogare — Mon, 04 May 2020 13:24:40 +0000

Como acontece com refatoração no desenvolvimento de software, ví a importância de escrever um outro texto explicando o algoritmo de Regra de Associação. Por exemplo, em 2014, eu já havia postado sobre este assunto, porém foi com uma implementação no SQL Server 2014. Ao re-ler o texto, contudo, senti falta de algumas coisas importantes.

As regras de associação permitem que elementos em um conjunto de dados sejam expressos como 𝑋→𝑌, e lê-se 𝑋 implica em 𝑌, desde que 𝑋 e 𝑌 sejam sub-conjuntos da base de dados em questão e os conjuntos de itens não tenham intereceptação entre si 𝑋∩𝑌.

Como exemplo, {𝑙𝑒𝑖𝑡𝑒,𝑝ã𝑜}→{𝑜𝑣𝑜𝑠} é uma associação que diz que quando se encontra os itens 𝑙𝑒𝑖𝑡𝑒 e 𝑝ã𝑜 em uma ocorrência, é esperado que o 𝑜𝑣𝑜𝑠 também apareça na transação.

A regra de associação pode ser feita através de um processo exaustivo computacionalmente, e que resulta em um conjunto de regras bastante expressivo mesmo com um conjunto de dados pequeno. Uma alternativa elegante para esse cálculo é já definir o suporte e confiança na parametrização do algoritmo para que haja a poda de regras que não atendam esse valor mínimo aceitável.

Seguindo essa abordagem, para avaliar a qualidade de associação do algoritmo, os termos de suporte e confiança devem ser utilizados. O suporte implica na frequência de vezes que uma determinada regra é aplicável ao conjunto de dados, e a confiança é a frequência na qual os elementos de 𝑌 aparecem no conjunto de dados com transações que possuem 𝑋.

A equação do suporte é dada por:

e o cálculo da confiança é:

Formalmente pode-se definir que uma regra de associação possui um conjunto de dados, representado por 𝐼={𝑖1,𝑖2,…,𝑖𝑛}. Também possui um conjunto de transações, onde cada transação 𝑇 é um sub-conjunto de 𝑇⊆𝐶, e que a implicação dos subitens 𝑋→𝑌, sendo que 𝑋⊂𝐼, 𝑌⊂𝐼, 𝑋∩𝑌=𝜙.

Para exemplificar a aplicação de suporte e confiança na geração de regras de associação, imagine esta base de dados com transações. Onde Zero significa que não havia o item na compra, e Um significa que o item estava na compra. Cada linha é uma transação e a coluna é o item no pedido.

ID	Leite	Pão	Ovos
1	1	0	1
2	1	1	0
3	1	1	1
4	1	1	1
5	0	0	1

Ao se observar a base de dados, são encontradas cinco transações (linhas) e três produtos (colunas). A regra gerada que explica 𝑙𝑒𝑖𝑡𝑒→𝑝ã𝑜 tem o suporte de 0.60, porque ela aparece em três das cinco transações encontradas na base de dados ( 3/5=0.6 ).

Já a confiança desta regra é de 0.75 porque o 𝑝ã𝑜 aparece em três transações, das quatro vezes que existe 𝑙𝑒𝑖𝑡𝑒 na base de dados ( 3/4=0.75 ).

Uma nova base de dados, mas seguindo a mesma ideia de Zeros onde aquele item não estava presente na transação e o Um estava.

Ao analisar a regra {Leite, Fralda} → Cerveja é possível ver que existem estes três itens (Leite, Fralda e Cerveja) comprados em conjunto apenas duas vezes nas cinco transações, gerando um suporte de 0.4 (2/5=0.4). E, então, a confiança é calculada a partir do resultado do suporte para os itens totais (Leite, Fralda e Cerveja) que é encontrado duas vezes, divididos pelo suporte dos itens predecessores (Leite e Fralda), que foram encontrados três veses. Gerando a confiança de 0.66 (2/3 = 0.66).

Para esse conjunto de dados, utilizando o processo de força bruta, seriam criadas 602 regras. Esse número se dá pela formalização da equação 𝑅𝑒𝑔𝑟𝑎𝑠=3𝑑−2𝑑+1+1. Sendo que D é o numero de itens (no caso, os 6 produtos possíveis). Ao encontrar estas 602 regras, mais de 80% delas seriam inúteis ao utilizar os métodos de avaliação de suporte = 20% e confiança = 50%, sendo então apropriado evitar o processo de força bruta para não desperdiçar poder computacional e tempo.

Uma definição formal aceita para o algoritmo de regras de associação diz que a regra 𝑋→𝑌 é válida para o conjunto de dados 𝐷 com suporte 𝑆 e confiança 𝐶. Se o % do 𝑆 das transações em 𝐷 contiverem 𝑋∪𝑌 e % mínimo de 𝐶 das transações em 𝐷 que contêm 𝑋 também conter 𝑌.

Uma abordagem para melhorar o poder computacional do algoritmo sugere que o processo seja dividido em duas fases, sendo:

Geração de itens frequentes: Todos os itens que forem definidos como frequentes, por satisfazer o mínimo de suporte definido no início do algoritmo.
Geração das regras: Extrair todas as regras que satisfaçam a confiança, a partir dos dados gerados pelos itens frequentes.

E esta abordagem deixa o gancho para a próxima publicação, que vou falar sobre o algoritmo Apriori, que é importante para seguir explicando o algoritmo de Regra de Associação.

Para trabalhar com Regra de Associação na minha dissertação do mestrado, usei referências de Introdução ao Data Mining. Mineração de Dados que é bastante raro de encontrar para vender hoje em dia. Mas também usei Introdução à mineração de dados: com Aplicações em R que ainda é facilmente encontrado. Porém, uma outra referência que usei (mas que não é de livro) é do artigo Interestingness measures for data mining: A survey.

O post Explicando o algoritmo de Regra de Associação apareceu primeiro em Diego Nogare.

Diego Nogare — Mon, 13 Apr 2020 12:00:39 +0000

Quem pretende começar a fazer uma análise em cima de dados, pode ter algumas dúvidas sobre onde começar, isso porque há muitos caminhos a seguir na mineração de dados e suas ramificações. Com estas áreas de estudos, é possível identificar o que fazem e como aplicar em seus projetos. Não existe inteligência artificial sem mineração de dados, e independente de qual linguagem de programação vai escolher para trabalhar, você precisará aprender a minerar os dados.

Mineração de Dados faz parte de um processo mais amplo conhecido como descoberta de conhecimento em base de dados (Knowledge Discovery in Database – KDD). Esta terminologia é uma referência à mineração tradicional, onde minas são exploradas em busca de minérios ou pedras preciosas, e para encontrar cada um destes elementos são utilizadas ferramentas específicas. Por isso a referência à estas pedras preciosas na imagem de capa deste texto. Por exemplo, em mineração de dados pode-se criar um paralelo e dizer que as bases de dados são as minas, os minérios ou pedras preciosas são os conhecimentos extraídos dos dados e as ferramentas específicas são os algoritmos.

O processo de mineração de dados pode ser dividido em duas grandes vertentes. Em primeiro lugar a Análise Descritiva e em segundo a Análise Preditiva. A Análise Descritiva apresenta as características gerais dos dados, possibilitando que sejam encontrados padrões de comportamento e conhecimento que os usuários nem imaginavam que existiam. Por outro lado, na Análise Preditiva, são criados modelos formais que permitem estimar, classificar ou agrupar dados, a partir de determinados comportamentos que foram aprendidos e encontrados na Análise Descritiva.

Existem linhas de pesquisa que apontam a mineração de dados como uma vertente do Machine Learning. Ambos processos se preocupam em encontrar padrões comportamentais, técnicas e algoritmos também são comuns de se encontrar nas duas áreas. Na tentativa de diferenciar os dois, processos de Machine Learning possuem características de melhorias de desempenho e evolução dos reconhecimentos, enquanto a Mineração de Dados procura explicar os padrões utilizando técnicas de análise de dados descritiva.

Durante o processo de descoberta do conhecimento é esperado que os resultados sejam facilmente entendidos, permitindo uma compreensão mais apropriada por quem está lendo. Por isso é bastante comum utilizar elementos gráficos para representar esses conhecimentos descobertos e seus padrões.

A análise exploratória permite descobrir padrões e comportamento nos dados, possibilitando um melhor entendimento da base de dados que se está trabalhando. Com esta técnica é possível investigar como está distribuída a frequência de ocorrência dos dados, entender as médias móveis além de calcular as medidas de posição relativa e absoluta. É comum encontrar uma combinação das descrições com representação visual, suportando uma análise gráfica dos dados.

Os gráficos permitem um acompanhamento e visualização das características e padrões encontrados nos dados. É comum criar histogramas, diagramas de caixas, diagrama de dispersão e gráfico de setores para descobrir o comportamento geral dos dados. Contudo também são utilizados para permitir a comparação entre o subconjunto real e os resultados da predição. Isso para medir a performance de desempenho do modelo preditivo.

Padrões são conhecimentos apresentados formalmente, e como são mais simples que os dados propriamente ditos, são apresentados através de uma linguagem formal. Se esse padrão possui uma forma que seja possível de um humano ler e interpretar, ele é considerado um padrão compreensível. Uma das linguagens formais para representar padrão amplamente utilizada é a linguagem de equações. Se deseja somar os valores de duas variáveis, é possível utilizar o símbolo de adição e quem for interpretar aquela equação sabe o que o padrão representa. É um padrão compreensível para nós, humanos. Contudo, nem todos os padrões matemáticos são

Nenhuma aprendizagem é imediata, seja ela biológica ou artificial. Contudo, como conhecimento adquirido é gradual, a evolução da aprendizagem depende de adaptação e interação com o ambiente da qual estão inseridos. Isso quer dizer que sistemas capazes de se adaptar, ou mudar seu comportamento, de forma automática ou através de exemplos, são considerados sistemas de Machine Learning.

O Machine Learning, como área de estudo, se preocupa com o desenvolvimento de métodos para suportar e melhorar o conhecimento ou desempenho de um agente inteligente. Esse melhoramento é esperado que aconteça ao longo do tempo, se adaptando às experiências vividas pelo agente no contexto inserido.

Em mineração de dados a aprendizagem se refere ao processo de treinamento do modelo preditivo. Mas sua construção ou ajuste, precisa se adaptar às regras pré-estabelecidas e se moldar de acordo com o comportamento dos dados ao longo do tempo, buscando melhorar seu resultado.

As formas de Aprendizagem de Máquina são definidas, principalmente, entre supervisionadas e não supervisionadas. Contudo, deixando de lado a complexidade destas diferenças, podemos separar as duas observando a existência de uma variável alvo. Isso porque, quando existe uma variável alvo definida e o modelo tem o objetivo de responder à essa variável, o paradigma de aprendizagem é chamado de supervisionado. Quando não existe, podemos chamá-lo de não supervisionado.

Uma condição imprescindível para esse processo de aprendizagem é que devem existir dados que expliquem a variável alvo. E a variável alvo deve conter os rótulos necessários para a resposta da formulação do problema.

Contudo, quando não há uma variável alvo, todos as outras variáveis que foram utilizadas para criarem o modelo são comparadas por similaridade ou distância, e são encontrados possíveis resultados. Existem situações nas quais os grupos de similaridades não representam o que é desejado encontrar para responder a formulação do problema. Esse comportamento é conhecido como não supervisionado.

Se quiser aprofundar seus estudos em mineração de dados e suas ramificações, os três livros que usei como referência para escrever este texto foram Introdução à mineração de dados: Conceitos básicos, algoritmos e aplicações e Introdução à mineração de dados: com Aplicações em R. Estes dois de mineração de dados foram escritos por professores que me deram aulas durante o mestrado. E também o Data Science Para Negócios, que é outro livro importante da nossa área.

O post Mineração de dados e suas ramificações apareceu primeiro em Diego Nogare.

Diego Nogare — Mon, 05 Jan 2015 14:02:42 +0000

Fala galera, a primeira publicação do ano é realtiva à Matriz de Confusão, também chamada em algumas literaturas de tabela de contingência. Basicamente esta tabela valida o aprendizado supervisionado, comparando sua base de testes com a base treinada, e indica o quanto de acerto e erro ela teve. Este resultado é o que apresenta a acuracia do seu experimento.

Voltando ao exemplo que fiz para o Codificando Live de Edição #43, onde analisamos uma base de alimentos e definimos alguns itens da amostra como misturas ou não. A matrix aparece aos 20m32s de vídeo onde é rapidamente apresentada a acuracia, logo abaixo da curva ROC, no item Evaluation Model Result.

Se reparar no vídeo, o treino do modelo é feito com 80% da base que fizemos o upload e é mantido 20% para testes (esta divisão acontece na tarefa de split). É com esta base de testes, que já temos conhecimento do resultado, que a matriz vai validar a coluna de predição informada no treino. Ela aplica o que treinou em cima desta base de teste, e compara se o resultado que ela obteve é igual ao que está nos dados originais. Resultando na seguinte estrutura:

Onde alguns valores são absolutos, baseados na classificação binária de erro ou acerto, que são:

Ele entende que as misturas foram analisadas e classificadas como mistura (acertou a mistura). Neste caso, é 16.

Ele entende que as misturas foram analisadas e classificadas como não mistura (errou a mistura, classificando como outro prato). Neste caso, é 5.

Ele entendeu o que não era mistura (era outro prato) e classificou como outro prato (acertou que não era uma mistura). Neste caso, é 54.

Ele entende que os outros pratos (não misturas) foram classificados como mistura (errou o outro prato). Neste caso, é 0.

Já outros são baseados em cálculos matemáticos simples, como estes abaixo:

∑ Positivos = Acertos = True Positive + False Negative

∑ Negativos = Erros = False Positive + True Negative

(True Positive + True Negative) / (∑ Positivos + ∑ Negativos)

Com nossos números: (16 + 54) / ((16+0) + (5+54)) => 70 / 75 = 0.9333

(True Positive) / (True Positive + False Positive)

Com nossos números: (16) / (16 + 5) => 16 / 21 = 0.7619

True Positive / ∑ Positivos

Com nossos números: 16 / (16+0) => 16 / 16 = 1

(2* True Positive) / (2* True Positive + False Positive + False Negative)

Com nossos números: (2*16) / (2*16 + 5 + 0) => 32 / 37 = 0.8648

Com estes números, e mais a curva ROC e o AUC, é possível validar os valores do seu experimento e saber se está aceitável ou não. Quanto mais exemplos tiver na base de treino, mais precisa será a coluna de predição porque o computador vai aprender com mais exemplos.

O post Azure Machine Learning – Matriz de Confusão – Parte 4 apareceu primeiro em Diego Nogare.

Diego Nogare — Thu, 04 Dec 2014 21:00:01 +0000

Fala galera, esta é a terceira e última parte de introdução ao Azure Machine Learning. Fiz de propósito nesta ordem, criando o ambiente somente agora, para você saber onde está se metendo antes de sair criando as coisas e só depois descobrir que não era o que precisava. Mas agora que você já viu que existem algumas categorias de algoritmos para trabalhar com Data Mining e Inteligência Artificial e tem ideia de como eles podem ajudar na solução dos seus problemas, nós vamos agora criar o ambiente para trabalhar em nossos experimentos, e partir para os próximos posts que não serão mais introdutórios!

A primeira coisa a se fazer é acessar o Portal do Azure e criar um novo serviço pro Machine Learning. Importante garantir que o nome da Workspace e do Storage sejam válidos, isso pode ser verificado com o check verde ao lado do nome que você criou. No meu caso é BlogNogareML pro workspace e blognogareml (tudo minusculo) pro storage.

Depois de criado o ambiente, uma entrada do Azure Machine Learning fica disponível a partir do menu da esquerda. Acesse este menu e veja o item que você acabou de criar, no meu caso o BlogNogareML. Ao clicar neste item, vá até o Open in Studio, para chegar até a IDE web-based, onde é possível criar as bases de dados particulares e realizar os experimentos.

Uma nova aba no seu navegador é criada e o ML Studio é aberto. Quando for a primeira vez, um vídeo de introdução será apresentado. Após assistir e fechar o vídeo, você pode começar a criar seus experimentos. Reparem que existem duas opções no menu, uma pra criar DataSet e outra pra criar Experiment. Quando a gente quer utilizar um DataSet que precisa ser feito upload pro Machine Learning, deve-se usar a opção DataSet. Mais pra frente, em outro post, vamos mostrar como faz pra usar uma base de dados através de upload neste menu.

E pra criar o experimento em si, criando e conectando as tarefas em uma ordem logica de execução, você vai utilizar o Experiment.

Por enquanto, crie um experimento em branco clicando em Experiment >> Blank Experiment. Ao clicar neste item, a tela com o menu da esquerda contendo as tarefas padrões do Azure Machine Learning e a área central de desenvolvimento é apresentada, permitindo que seja iniciado o desenvolvimento.

Esta é a tela que será utilizada para trabalhar com os Experimentos, WebServices, Testes, Execuções Locais, etc. Você informa o nome, arrasta os componentes no melhor estilo Drag ‘n’ Drop e com isso cria seus trabalhos. Vamos entender as funcionalidades e amplas possibilidades do que conseguiremos trabalhar com esta ferramenta nos próximos textos. Não deixe de acompanhar!

O post Azure Machine Learning – Introdução – Parte 3 apareceu primeiro em Diego Nogare.

Diego Nogare — Fri, 28 Nov 2014 18:21:23 +0000

Fala galera, os modelos algoritmos que temos hoje, 28/Nov/2014, disponíveis no Azure Machine Learning estão separados em três categorias, que podem ser encontrados no menu Machine Learning >> Initialize Model, conforme esta lista:

Multiclass Decision Forest
Multiclass Decision Jungle
Multiclass Logistic Regression
Multiclass Neural Network
One-vs-All Multiclass
Two-Class Average Perceptron
Two-Class Bayes Point Machine
Two-Class Boosted Decision Tree
Two-Class Decision Forest
Two-Class Decision Jungle
Two-Class Logistic Regression
Two-Class Neural Network
Two-Class Support Vector Machine

Clustering

K-Means Clustering

Regression

Bayesian Linear Regression
Boosted Decision Tree Regression
Decision Forest Regression
Linear Regression
Neural Network Regression
Ordinal Regression
Poisson Regression

Estes modelos de algoritmos são formulações estatísticas e/ou matemáticas conhecidas e amplamente estudadas no meio acadêmico, aqui no Azure Machine Learning eles já possuem uma parametrização genérica para que funcione com a maioria dos casos. Nas nossas análises de dados, quando limpamos e disponibilizamos os dados para serem treinados pelo modelo, deve-se conectar o modelo escolhido de acordo com a necessidade de resolução daquele problema na tarefa de treino, que recebe também a origem dos dados. É importante ressaltar que cada um destes modelos de algoritmos apresentados possuem características específicas que resolvem problemas semelhantes, mas que a parametrização individual pode resolver melhor um problema através da escolha de um modelo ou de outro.

Para exemplificar, imagine um cenário que avalia se um cadastro pode ser fraudulento ou não. Por mais que se use um modelo da categoria Classification para encontrar uma resposta sobre este problema, ele pode não ser exatamente o melhor modelo para encontrar esta resposta. Isso é analisado com base no resultado da Curva ROC (Receiver Operator Characteristics Curve) que realiza a comparação entre a sensibilidade e a especificidade do teste quantitativo basedo nos valores contínuos que foram treinados pelo algoritmo. As vezes, comparando com outros modelos desta mesma categoria a gente descobre que para classificar o cadastro como um possível problema de fraude o modelo de algoritmo X é melhor que o Y, mesmo que o modelo Y tenha sido o melhor algoritmo para classificar os mesmos dados de treino para saber se o cadastro é um bom pagador de dívidas. Este cadastro fictício diz que ele é um cadastro passível de trazer problemas com fraudes, mas que é um bom pagador. Meio controvérsio, mas é só pra exemplificar

Esta é a curva ROC, os melhores resultados dela são os que enquadram o maior conjunto possível de amostras (dados) na AUC (Area Under the Curve).

Veja muitos mais detalhes do ROC na wikipedia, clicando aqui.

O terceiro e último texto sobre Introdução ao Azure Machine Learning, nós vamos acessar o ambiente e aprender a criar Experimentos e Base de Dados. Nos próximos, que já sairão da introdução, vamos explicar alguns algoritmos e trabalhar com exemplos práticos. Não deixe de acompanhar!

O post Azure Machine Learning – Introdução – Parte 2 apareceu primeiro em Diego Nogare.

Fralda

Cerveja

Diego Nogare — Tue, 25 Nov 2014 20:00:27 +0000

Fala galera, uma nova feature, lançada a poucos meses em preview e que já está disponível publicamente na plataforma Azure é o Microsoft
Azure Machine Learning. Uma funcionalidade para nós trabalharmos com Inteligência Artificial através de Mineração de Dados e que permite entender melhor os nossos dados e ambientes, e tomar melhores decisões pro futuro.

Neste momento, 25/Nov/2014, ainda é em uma versão de testes com algumas coisas faltando. Uma coisa boa desta plataforma é e que possui um roadmap de lançamento de novas funcionalidades que acompanha todos os outros produtos da plataforma Azure, isso significa que temos atualizações de recursos a cada 3 ou 6 meses.

Hoje a plataforma trabalha com 3 categorias de algoritmos nativos:

Classification: Algoritmos de Classificação permitem que análises sejam feitas na base de treino e teste e seu valor preditivo (aquele que estamos buscando) possa ser encontrado de forma discreta. Um resultado discreto significa apresentar um item baseado em um sub-conjunto conhecido de valores possíveis. Normalmente são poucos valores. Os mais comuns de se encontrar no mercado são classificadores binários, que “predizem” se a resposta é SIM ou NÃO, e apresenta o grau do índice de acuracidade (confiança) para aquela resposta que foi apresentada.

Clustering: Algoritmos de Clustering (ou Segmentação) fazem o processo de particionar os dados da amostra de uma população em vários sub-conjuntos, deixando as ocorrências mais parecidas umas perto das outras. Diferente dos algoritmos de classificação na qual as classes são conhecidas, em algoritmos de Segmentação as ocorrências (ou linhas, ou registros [chame como achar melhor]) são agrupados pelas suas semelhanças. Imaginando a aplicação deste algoritmo em um universo de pessoas, é possível segmentar estes indivíduos por Região que moram, Região que trabalham, Sexo, Faixa de Idade, Faixa de Renda, etc. Qualquer dado discreto conhecido pode ser usado para fazer a segmentação da população e a partir desta segmentação é possível criar várias outras análises. Inclusive mudando de algoritmo para se adequar melhor à sua necessidade. Outra aplicação pra algoritmos de Clustering é entender o comportamento sequencial dos indivíduos, analisando os passos que foram feitos para realizar uma ação em algum lugar. Com estes passos é possível agrupar os indivíduos em sub-grupos, ficando em cada segmentação os indivíduos que percorreram os mesmos passos para realizar aquela determinada ação.

Regression: Algoritmos de Regressões permitem que as análises na base de treino e testes retornem valores contínuos para aquele resultado preditivo. Por valores contínuos entendemos que são valores “infinitos”, podendo ser qualquer valor possível. Uma aplicação deste algoritmo pode ser uma análise pra saber quanto custa uma casa baseada na metragem e região. Uma análise desta pode dar valores entre 1 Dolar (como as casas em Detroit depois do problema da bolha imobiliária [veja aqui: http://www.nydailynews.com/life-style/real-estate/1-buy-house-detroit-article-1.1415014 ]) e 380.000.000 Dolares como esta cobertura em Mônaco (http://gallivantguide.com/monaco-penthouse-387m-worlds-most-expensive/2098/). Este intervalo de possibilidades é bem grande, e uma aplicação que faça este tipo de análise pode ter uma carga de processamento e consumo de memória bem grande. O uso de algoritmos para estas aplicações, facilitam muito o nosso trabalho!

Eu particularmente senti bastante falta de algoritmos da categoria Association, geralmente utilizados para Basket Market Analysis e que permitem encontrar correlação entre itens ou produtos que estão recebendo alguma interação e podem ser associados uns aos outros. Interação esta que pode ser simplesmente verificar os detalhes do produto, podendo ser até a ação de adicionar o produto no carrinho de compras. Cada interação desta apresenta um, ou mais, produtos associados à aquele que esta recebendo esta interação. Esta associação é baseada em fatos do passado, onde um produto foi consumido com o outro. Isso significa que a predição pode mudar com o decorrer do tempo, quando o comportamento e a correlação entre estes produtos passam a mudar por qualquer motivo que seja.

Em contra partida pode-se executar scripts em R dentro do Microsoft Azure Machine Learning. Só pra contextualizar, R é uma linguagem de programação focada em análise de dados e estatística que foi criada na década de 70. Esta linguagem é amplamente utilizada por estatísticos e matemáticos ao redor do mundo, e agora, com a nova profissão de Cientista de Dados, existe muito mais gente estudando e aprendendo R. Nós podemos criar scripts em R e consumir mais de 340 pacotes de funcionalidades existentes no CRAN (Comprehensive R Archive Network – http://cran.r-project.org/) diretamente no Microsoft Azure Machine Learning. Isso ampliou bastante a quantidade de tarefas que é possível fazer com o Machine Learning.

Está no meu pipeline escrever mais alguns posts sobre o Microsoft Azure Machine Learning, criando alguns exemplos e trabalhando com alguns algoritmos. Fiquem ligados!

O post Azure Machine Learning – Introdução – Parte 1 apareceu primeiro em Diego Nogare.