Arquivos K-Means - Diego Nogare

Processo cíclico de Machine Learning

Diego Nogare — Mon, 20 Apr 2020 12:00:37 +0000

Como fazer um projeto de ML

utilizando o processo cíclico de interação

Existe uma diferença enorme entre o desenvolvimento de software tradicional, e o processo cíclico de Machine Learning. Vejo nas conversas com os clientes que atendo, que uma das maiores dificuldades que enfrentam é de desassociar a forma de desenvolvimento. O software tradicional é focado na estrutura e relacionamento entre os elementos necessários, mas no processo de Machine Learning o desenvolvimento é trabalhado com foco nos dados. Contudo, esta questão dos dados não é um fator impactante no software tradicional, desde que siga as amarrações e consistências definidas.

Software tradicional

Para exemplificar, imagine uma tela de cadastro simples. Nesta tela existem cinco campos: Nome, Data de Nascimento, E-Mail, Cidade e UF. Estes campos da tela podem possuir algumas amarrações condicionais, como por exemplo só permitir um cadastro de pessoas acima de 18 anos. Ou que a cidade seja um campo de seleção que será preenchido somente após a seleção da UF em outro campo de seleção. Os dados, em si, não importam para o sistema. Se seguir as regras impostas pela área de negócios que está criando as funcionalidades, ele será aceito. Este software continuará funcionando como deveria até alguém alterar propositalmente o relacionamento entre o campo da tela e seu correspondente no seu banco de dados.

Machine Learning

Por outro lado, o projeto de Machine Learning faz uma tarefa diferente. Como o foco é direcionado para os dados, o valor existente nos campos armazenados são utilizados para montar o modelo de Machine Learning. Imagine que, em um processo de agrupamento de valores (pode ser o uso de um algoritmo K-Means, por exemplo) você utilizou as variáveis Data de Nascimento e Cidade. (desde que a cidade e a data de nascimento fossem armazenados com valores numéricos). Estes campos poderão encontrar uma determinada similaridade entre os dados e com isso há a segmentação em clusters. Com essa segmentação, um modelo poderia agrupar estes dados e o seu time de marketing poderia trabalhar de forma específica em cada grupo destes, de acordo com as combinações encontradas pelo algoritmo.

Impacto

Porém, por uma decisão da área de negócios, agora o sistema começará a ser oferecido também para um público completamente diferente. Imagine que o publico mais jovem majoritariamente utilizasse o sistema até hoje, a partir de amanhã o publico mais velho vai passar a integrar também o publico alvo. O software está preparado para isso, vai receber esse novo público sem a necessidade de nenhuma alteração na tela de cadastro porque não há mudança entre o relacionamento da tela com o repositório. Contudo, as similaridades entre os dados de data de nascimento e cidade sofrerão alterações. Reparem que o dado influencia o resultado do algoritmo. E isso pode impactar em uma mudança no algoritmo de Machine Learning, mesmo o sistema não tendo nenhuma linha de código alterada.

Explicar esta condição para pessoas que estão acostumadas unicamente à desenvolvimento de software tradicional é um desafio. Muitas vezes passa a impressão que o desenvolvimento do modelo de Machine Learning precisará de suporte do desenvolvedor para sempre. Fazendo com que o cliente pague para um suporte e sustentação ad aeternum.

Processo cíclico de Machine Learning

Utilizando o diagrama da figura apresentada na capa deste post, é visto que o processo cíclico de Machine Learning envolve algumas fases. E isso remete ao processo trabalhado amplamente na atividade de mineração de dados, onde se entende o dado antes de fazer um modelo. Em seu clássico livro The Data WarehouseETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data (English Edition) Ralph Kimball diz que em processos de ETL se gastam mais de 70% do tempo realizando leitura e transformação dos dados. Em Machine Learning essa afirmação também é uma verdade, porém com poucas variações.

Identificar, Extrair, Limpar e Refinar

Esta fase do processo se assemelha ao descrito por Ralph Kimball para projetos de ETL. Porém, como é para Machine Learning, há algumas alterações. Identificar a origem dos dados é diferente, porque não são todos os dados que realmente impactam para a criação do modelo. Alguns dados não são relevantes, e podem ser removidos como é estudado na disciplina de Feature Engineering for Machine Learning: Principles and Techniques for Data Scientists (English Edition). Escolher as variáveis é uma tarefa complexa e devemos investir bastante tempo trabalhando neste momento.

Refinar os dados é uma outra tarefa que precisa ser trabalhada de forma pensada. Algumas variáveis possuem correlação alta entre si, e podem ser trabalhadas de forma a cria uma variável artificial para representar uma nova variável ao invés daquelas duas. Esta tarefa de refinamento pode ser estudada em disciplinas de estatística, e recomendo a leitura de Estatística Para Leigos e Estatística II. Para Leigos.

Criar o algoritmo e analisar uma amostragem

Depois de se entender os dados é a hora de montar os algoritmos de Machine Learning, e cada problema condiz com a criação de um algoritmo de uma família específica. A escolha do algoritmo daquela família é baseada em sua performance, porque existem várias formas de se criar a mesma solução. A diferença entre os resultados dos algoritmos é baseado em sua performance. Para entender os algoritmos e suas métricas de avaliação, sugiro a leitura de Introdução à mineração de dados: com Aplicações em R e Introdução à mineração de dados: Conceitos básicos, algoritmos e aplicações. Fazer uma amostragem mais genérica e plural nos dados é importante para garantir o mínimo de viés.

Só para exemplificar um cenário de impacto negativo de viés em algoritmo. No final de 2019 houve um problema gerado pela liberação de crédito para duas pessoas, que são casadas, mas o marido teve um crédito aprovado 20 vezes maior do que o da esposa. Nós discutimos um pouco sobre esse problema no Lambda3 Podcast 171 – Quem é responsável pelas decisões tomadas por uma inteligência artificial?. A falta de amostras, ou talvez o problema da amostra ter um viés causou um problema grande para os envolvidos.

Tomar uma decisão

Eu pensei em começar esse parágrafo escrevendo: “Por fim, a tomada de decisão”. Mas não é o fim! A tomada de decisão com os dados gerados é a validação do esforço construído durante todo o processo, e permitirá novos caminhos a partir destas decisões tomadas. Cada modelo de Machine Learning ajudará a responder uma pergunta, que auxilia na tomada de decisão. É esperado que essa tomada de decisão abra novas ideias e re-inicie o ciclo, começando novas perguntas que devem ser respondidadas.

O post Processo cíclico de Machine Learning apareceu primeiro em Diego Nogare.

Implementar o algoritmo K-Means com linguagem R

Diego Nogare — Mon, 17 Aug 2015 18:30:56 +0000

Implementando o algoritmo K-Means

com linguagem R

O conceito do algoritmo K-Means já foi explicado aqui. Nesta publicação vamos implementar o algoritmo K-Means com linguagem R, mas com objetivo de tentar entender um pouco mais esse método de aprendizado de máquinas não supervisionado.

Para este experimento vou usar um dataset público existente no diretório da UC Irvine. Tive o prazer de conhecer esse repositório quando fiz uma Especialização de Ensino Virtual. Para acessar o repositório e encontrar as dezenas de dataset disponíveis, acesse este link: http://archive.ics.uci.edu/ml/datasets.html. O dataset que vamos usar será Daily and Sports Activities Data Set. Acima de tudo é importante entender que ele apresenta informações de 8 pessoas, entre 20 e 30 anos que realizaram 19 atividades físicas. Sensores de Acelerómetro, Magnetómetro e Giroscópio coletaram dados dos eixos X, Y e Z, ou seja, totalizando 9 registros de dados de cada uma das 5 partes do corpo. Os sensores estavam no Dorso, Braço Direito, Braço Esquerdo, Perna Direita e Perna Esquerda. O arquivo com os dados coletados está no link: http://archive.ics.uci.edu/ml/machine-learning-databases/00256/. Para exemplificar, vamos analisar somente os dados coletados dos sensores das pernas e de um único exercício, mas fique a vontade para fazer com qualquer sensor ou exercício.

Vou entender que você já tem o RStudio em sua máquina, mas caso não tenha, recomendo fortemente que leia isso.

Acessando e recebendo os dados externos

Usando R é possível trabalhar com a leitura e tratamento de dados externos em diversas origens. Pode ser um JSON, um XML, ZIP, e mais uma porção de outros formatos de dados. Neste caso vamos baixar um arquivo Zip e extrair seu conteúdo, em seguida vamos ler os dados e trabalhar com um pouco de descoberta em cima disso com os clusters.

Para baixar o arquivo via código e poder replicar o experimento sempre que precisar, para isso, vamos informar qual será o diretório de trabalho e quais os dados do arquivo que deve ser baixado. Depois de baixar o aquivo de 160MB, é necessário extrair os dados e ver o que aparece.

Em primeiro lugar, veja o código abaixo para saber como fazer isso:

setwd("C:/Temp/KMeans")
url <- "http://archive.ics.uci.edu/ml/machine-learning-databases/00256/data.zip"
destfile <- "data.zip"
download.file(url, destfile, mode="wb")
unzip("data.zip")

O resultado é um conjunto de pastas com diversos arquivos dentro. Entretanto, se navegar pra dentro das pastas, vai encontrar 60 arquivos txt em cada uma das pastas p* (que é uma pra cada das 8 pessoas) e por sua vez estão dentro das pastas a* (que representam as atividades).

Se abrir um dos arquivos txt, irá encontrar as 45 colunas com as coletas de cada um dos sensores. Não se assuste com esse monte de números, tudo ficará mais claro no decorrer do texto.

Transformando os dados do arquivo em um DataFrame do R

Quando se abre o arquivo txt bruto não é tão simples de identificar o que são esses números. Contudo, lendo a documentação do Dataset fornecido no link lá em cima, entendemos a estrutura de como os dados são armazenados e quais são as colunas. Para este experimento, vamos usar a atividade número 15 – Pedalar na bicicleta ergométrica na horizontal – e analisar somente os sensores de pernas. Veja o código abaixo:

atividade <- 15

DadosDeOrigem <- gsub(" ","",paste(getwd(), "/data/a", atividade))

setwd(DadosDeOrigem)

Diretorios <- list.files()

TotalPessoas <- length(Diretorios)

DadoBruto <- NULL

i <- 1

while (i <= TotalPessoas) {
  setwd( gsub(" ","",paste(DadosDeOrigem, "/", Diretorios[i])) ) 
  LerArquivos <- list.files()
  j <- 1
  while (j <= length(LerArquivos)) {
    DadoBruto <- rbind(DadoBruto, read.table(LerArquivos[j], sep=","))
    j <- j+1
  }
  i <- i+1
}

#Colocar as colunas que são interessantes analisar
SoPernas <- DadoBruto[,28:45]
colnames(SoPernas) <- c("DAX", "DAY", "DAZ", "DGX", "DGY", "DGZ", "DMX", "DMY", "DMZ", "EAX", "EAY", "EAZ", "EGX", "EGY", "EGZ", "EMX", "EMY", "EMZ")

Para terminar esta parte de acesso, todos os dados de pernas (coluna 28 até 45) da atividade 15 foram armazenados em um novo Dataframe chamado SoPernas. Foi dado um nome para coluna, seguindo a lógica:

D = Direita
E = Esquerda
A = Acelerómetro
G = Giroscópio
M = Magnetómetro

A coluna DAX significa D (direita) A (acelerómetro) X (eixo X). A coluna EGZ significa E (esquerda) G (Giroscópio) Z (eixo Z). E assim por diante.

Implementar o algoritmo K-Means com linguagem R

Depois dos dados tratados, usar o algoritmo de K-Means é certamente simples. Ele recebe o dataset que deve ser consultado e o conjunto de segmentos que deve criar. Como já sabemos que são 8 pessoas que fazem parte da amostragem, não precisamos rodar aquele algoritmo de Elbow Method para descobrir quando grupos é possível criar. Veja, por exemplo, o código simples abaixo que recebe o processamento do K-Means e depois mostra a quantidade de elementos do dataframe que foi classificado em cada um dos clusters.

Resultado <- kmeans(SoPernas[1:2], 8)
Resultado$size

Após a execução do K-Means, por exemplo, pode-se plotar os dados em um gráfico e ver como o algoritmo separou os dados nos 8 grupos que foram solicitados. Para facilitar o entendimento, vou plotar somente os dados de DAX e DAY, para um gráfico simples de duas dimensões, usando o recurso de poder plotar cada grupo em uma cor diferente para facilitar a análise de quem está observando.

plot(SoPernas[1:2], col = Resultado$cluster, pch= 19)

Se quiser colocar cada ponto central de um centroide, pode usar este exemplo de código abaixo na sequência da plotagem do gráfico:

points(Resultado$centers[,1:2], col="orange", pch=8, cex=2)

Após plotar o gráfico com os 8 segmentos, é possível identificar facilmente os grupos que o K-Means separou.

Quando um novo item for inserido no dataset, ele ficará associado a algum dos clusters. Por exemplo, você não precisa necessariamente saber se o dado é de uma mulher de 20 anos ou de um homem de 30, simplesmente ao analisar o dado novo contra os dados já processados, o computador vai entender onde estes dados se enquadram e vai te retornar qual é o gênero e a idade que ele estima que seja. Simples, não?!

O post Implementar o algoritmo K-Means com linguagem R apareceu primeiro em Diego Nogare.

Entenda o algoritmo de agrupamento K-Means

Diego Nogare — Wed, 12 Aug 2015 20:24:53 +0000

Entenda como funciona o algoritmo de Cluster K-Means

Em uma forma lúdica para explicar o conceito

Fala galera, entenda o funcionamento do algoritmo de agrupamento K-Means, que é uma das formas que existe para se trabalhar com aprendizagem de máquinas (machine learning) no paradigma de aprendizado não supervisionado. Isso é diferente do aprendizado supervisionado, onde você informa ao computador o que ele deve procurar e aprender, com exemplos contendo os rótulos previamente. No aprendizado não supervisionado a gente não sabe exatamente o que estamos tentando ensinar ao computador. Por causa disso precisamos recorrer à agrupadores lógicos de segmentação, com foco em encontrar similaridade entre os dados da amostra.

O resultado esperado é que seja encontrado um padrão e assumir que este padrão é o que estamos tentando ensinar ao computador, que por sua vez, vai reproduzir e encontrar esse padrão sempre quando for solicitado. Depois de descoberto o padrão, qualquer item novo que tenha uma similaridade com aquele segmento (agrupamento [cluster, em inglês]) pode ser inferido como “fazendo parte daquilo”.

A proposta deste post é mostrar, com um certo nível de detalhes, como segmentar a amostragem em grupos e descobrir padrões nos dados. No final do texto você conseguirá ver uma referência para a implementação em Linguagem R, mas nesta publicação teremos o foco no entendendo o algoritmo.

Agrupando os dados

Para exemplificar, pense em um dataset com algumas amostras dispostas nos eixo X e Y, como o gráfico abaixo. Seu objetivo é agrupar estes dados baseado em sua similaridades (ou aproximação). Consegue fazer isso?

É possível bater o olho neste gráfico e ver a separação em alguns grupos. Mas cada um de nós que olhar o gráfico pode tentar criar um número diferente de grupos (clusters). Até mesmo quando a quantidade de cluster que pensarmos for igual, pode-se pensar em agrupamentos de formas diferentes. Por exemplo, alguns de nós podem ver a separação com apenas 2 clusters, e o gráfico poderia ser assim:

Ou assim…

Alguém também poderia pensar em separar os dados assim…

Qual é o certo? Todos estão certos! Isso pode acontecer de acordo com a interpretação de cada um dos observadores que encontraram apenas 2 grupos nestes dados.

Outras pessoas podem encontrar 3 grupos, e não apenas dois, podendo chegar a definições como esta:

Ou esta

Ou então essa

E aqui, qual dos gráficos é o certo? O certo é com 2 grupos ou com 3 grupos? Mais uma vez isso é difícil de responder, todos os 6 gráficos estão corretos de acordo com a visão de cada observador.

Entendendo como funciona o algoritmo de agrupamento K-Means

Para entender o funcionamento vamos separar os dados em 2 clusters e entender os passos que o algoritmo de agrupamento K-Means faz para convergir em um resultado. Neste caso o K será igual a 2, criando os 2 clusters que estamos buscando. O K, de K-Means, é a quantidade de centroides (pontos centrais dos grupos) que serão criados e ajudará a encontrará a similaridade dos dados.

Uma das formas de iniciar o processo é o algoritmo inserir o K pontos (centroides) aleatórios iniciais. Pode ser qualquer lugar do plano, para em seguida começar as iterações e encontrar os resultados.

Veja dois pontos aleatórios criados no gráfico, e uma linha tracejada que é calculada aproximadamente na metade da distância dos pontos Vermelho e Azul. Com este segmento, os itens que estão plotados acima da linha tracejada fazem parte do grupo vermelho e os de baixo da linha fazem parte do grupo azul.

A primeira iteração do algoritmo é medir a distância de todos os pontos que estão atrelados ao centroide e então calcular sua média. O resultado gera uma nova coordenada de X e Y, e vai mudar a posição do centroide para o novo ponto que foi calculado, que é a distância média de todos os pontos que se ligaram à aquele centroide. Essa mudança de posição do centroide pode alterar os itens que fazem parte daquele grupo. Veja isso nas imagens abaixo:

O ponto vermelho e azul se moveram baseados na distância média dos elementos que estavam atrelados à aqueles centroides.

Após essa movimentação, a linha tracejada muda sua posição e inclinação.

Reparem que alguns pontos pretos que faziam parte de um grupo na iteração anterior, como resultado, mudaram-se para o outro grupo.

E quando ele vai convergir?

Com essa mudança de grupos, os pontos que estão marcados em verde passaram do centroide azul para o vermelho, e o que está marcado em azul passou do centroide vermelho para o azul. É possível reparar que a iteração de cálculo da média da distância dos pontos até o centroide ocorre em loop, até que nenhum ponto mude mais de centroide. Em outras palavras, isso acontece quando os centroides param de atualizar suas posições, porque já estão na posição central da distância entre os pontos. Chamamos isso de convergir!

Repare mais algumas possíveis iterações dos centroides e sua linha tracejada imaginária.

Veja que entre a penúltima iteração e esta não ouve mais mudança de pontos entre o gráfico e o centroide, portanto o algoritmo de agrupamento K-Means encerra sua execução chegando ao resultado esperado e criando dois grupos. Por exemplo, quando um novo item for incluído no gráfico, ele já terá um grupo que atende aquela região e o computador já saberá do que se trata o dado novo.

Escolhendo a quantidade de K (clusters) no algoritmo de agrupamento K-Means

O Elbow Method é uma das formas usadas para descobrir a quantidade ideal de clusters naquele conjunto de dados. Ele tem esse nome por se parecer com o formato de um “braço” e nós sempre procurarmos o “cotovelo” pra definir que este é o número aceitável de K (grupos) a serem criados com base nos dados da amostra. Este método vai aumentando a quantidade de clusters a partir de 1 e analisando o resultado melhorado a cada incremento. Quando o benefício parar de ser relevante (um salto entre uma quantidade de cluster e a próxima quantidade) ele entra em um modelo platô, no qual a diferença da distância é quase insignificante. Ou seja, é neste momento que entende-se que o algoritmo é relevante com aquela quantidade de K e então ele deve ser usado pra segmentar os dados do gráfico.

Depois de executar o código do algoritmo do Elbow Method e olhando para os dados que estamos apresentando como exemplo, um bom número de K para ele é o número 4.

Rodando o algoritmo com 4 centroides, foi possível ver a transformação acontecendo e gerando esta segmentação:

Conjunto inicial de dados

Após a execução do algoritmo e cada grupo representando uma cor

A posição dos centroides finais, para cada grupo

Para continuar os estudos…

A proposta desta publicação foi explicar de forma lúdica como o algoritmo de agrupamento K-Means funciona, mas você pode acompanhar uma implementação em R e depois ler sobre as possibilidades de implementar também com Azure Machine Learning.

Para ajudar a responder a questão de quantos grupos devem existir neste conjunto de dados, alguns métodos são bem aceitos no meio científico, leia mais sobre eles aqui: https://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set.

O post Entenda o algoritmo de agrupamento K-Means apareceu primeiro em Diego Nogare.