Arquivos Estatistica - Diego Nogare

É possível que sim, mas provável que não!

Diego Nogare — Mon, 04 Mar 2024 12:00:02 +0000

Tive a inspiração para esse texto há algumas semanas, durante o carnaval, quando me convidaram para ir à um bloquinho. Não sou muito fã desta festa, e de partida, eu respondi que não. Meus amigos insistiram, e eu respondi “É possível que sim, mas provável que não!“. Eles se sentiram felizes com a resposta.

Infelizmente isso é mais comum do que se imagina, muitas pessoas assumem que estas palavras são sinônimos, mas não são. Contei inicialmente essa história curta para te conectar ao assunto e vou tentar fazer a conexão disso com Ciência de Dados.

Você já se perguntou qual é a diferença entre possibilidade e probabilidade? Esses dois conceitos são muito importantes para a ciência de dados, pois permitem analisar dados e fazer previsões com base em evidências. A probabilidade é um pilar fundamental da ciência de dados. Contudo, muitas vezes, as pessoas confundem os termos “probabilidade” e “possibilidade”.

Mas afinal, qual é a diferença entre eles e por que isso é importante para a ciência de dados?

Possibilidade e probabilidade: qual é a diferença?

A possibilidade é a capacidade de algo acontecer ou não, independentemente de sua frequência ou probabilidade. Por exemplo, é possível que chova amanhã, mas isso não significa que seja provável. A possibilidade é uma questão de lógica, que depende apenas da existência ou não de condições para que um evento ocorra. Por isso respondi que “É possível que sim“.

Já a probabilidade é a medida da chance de um evento acontecer, considerando sua frequência relativa em relação a outros eventos possíveis. Por exemplo, a probabilidade de chover amanhã pode ser calculada com base em dados históricos, como a média de chuva no mês, a previsão do tempo, etc. A probabilidade é uma questão de matemática, que depende de dados e evidências para estimar a ocorrência de um evento. Foi aqui que conclui a resposta com o “mas provável que não!“.

Agora, como calcular a probabilidade de um evento? É até que simples, nós dividimos o número de maneiras que o evento desejado pode acontecer pelo número total de resultados possíveis. Por exemplo, qual a chance de você que gosta de carnaval ir a um bloquinho? Imagine que você tem 5 blocos de carnaval para escolher e só pode ir a 1. A probabilidade de escolher qualquer bloco é de 1 em 5, ou seja, 20%. Isso porque você só pode escolher escolher 1 bloco para ir (o evento desejado) e tem 5 blocos possíveis no total (o número total de resultados).

Só pra finalizar essa explicação curta, enquanto a possibilidade se refere a algo que pode acontecer, a probabilidade quantifica essa chance. Em outras palavras, a probabilidade é uma medida da possibilidade.

Como a probabilidade se aplica à ciência de dados?

A ciência de dados é uma área que utiliza métodos estatísticos para coletar, organizar, analisar e interpretar dados, com o objetivo de extrair conhecimento e gerar valor. A probabilidade estatística é uma ferramenta essencial para a ciência de dados, pois permite quantificar a incerteza e a variabilidade dos dados, bem como testar hipóteses e fazer inferências sobre uma população ou fenômeno. Na ciência de dados, a probabilidade é usada para prever resultados. Por exemplo, em um modelo de aprendizado de máquina, a probabilidade pode ser usada para prever a classe de um novo dado com base nos dados de treinamento.

Alguns exemplos de aplicações da probabilidade estatística na ciência de dados são utilizados em:

– Análise exploratória de dados: consiste em descrever e visualizar os dados, utilizando medidas de tendência central (como média, mediana e moda), medidas de dispersão (como desvio padrão e variância), distribuições de frequência (como histogramas e boxplot) e medidas de associação (como correlação).
– Análise inferencial de dados: consiste em tirar conclusões sobre uma população ou fenômeno, a partir de uma amostra de dados, utilizando testes estatísticos (como teste t, teste qui-quadrado e teste ANOVA) e intervalos de confiança (como margem de erro e nível de significância).
– Aprendizado de máquina: consiste em criar modelos que aprendem com os dados, utilizando paradigma de aprendizado supervisionado (com algoritmos como o regressão linear, regressão logística e árvore de decisão) ou aprendizado não supervisionado (com algoritmos de clusterização, análise de componentes principais e detecção de anomalias).

Quer aprender mais?

A probabilidade é uma ferramenta poderosa na ciência de dados. Compreender a diferença entre probabilidade e possibilidade e aplicar rigor científico ao trabalhar com probabilidade é essencial para fazer previsões precisas e confiáveis. Se algo é certeza que vai acontecer, dizemos que a probabilidade é 1 ou 100%. Se algo é impossível de acontecer, a probabilidade é 0 ou 0%. Quando olhamos esses números em uma visão de Ciência de Dados, avaliando o resultado de uma métrica de avaliação de performance, não devemos confiar em resultados que dão probabilidade de 100%. Isso é direcionado porque trabalhamos com resultados probabilísticos e não determinísticos nesta disciplina.

Para encerrar, o rigor científico é crucial ao trabalhar com a probabilidade. Afinal, decisões são tomadas com base nessas previsões, e se a probabilidade não for calculada corretamente, podemos tomar uma decisão ruim. Portanto, é essencial que os cientistas de dados compreendam e apliquem corretamente os conceitos de probabilidade.

Deixo como recomendação dois títulos de livros que considero importantes Estatística prática para cientistas de dados: 50 conceitos essenciais e Estatística: O que é, para que serve, como funciona. Estão com preço ótimo neste momento (então corram antes que acabe a promoção).

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “Um homem fantasiado para o carnaval do Rio de Janeiro, com fundo desfocado de um trio elétrico durante o dia. A expressão facial da pessoa é de desconfiança, duvidando de alguma coisa que foi contado para ela, com uma sobrancelha levantada. O estilo é de Ilustração Digital.”

O post É possível que sim, mas provável que não! apareceu primeiro em Diego Nogare.

Primeiros passos em Machine Learning

Diego Nogare — Wed, 01 Apr 2020 12:00:56 +0000

Para aprender Machine Learning

é interessante saber uma linguagem de programação

Pensando em alternativas na construção de soluções envolvendo aprendizagem de máquina, é interessante dar os primeiros passos em Machine Learning. Pode-se fazer isso escolhendo uma linguagem de programação estatística, como o R ou Python, ou então seguindo com serviços cognitivos. Mas afinal, se for para o caminho da linguagem de programação, qual das duas devo investir meu tempo? Seguindo o ranking de linguagens de programação da IEEE, em 2019, o Python aparece em primeiro lugar e o R em quinto. Contudo, isso não significa que você deve escolher o Python apenas por isso. Ambas linguagens são ótimas para trabalhar com Machine Learning!

Você poderia desenvolver soluções de Machine Learning com qualquer linguagem como Java ou C#, porque no final das contas, os algoritmos são representações matemáticas. Porém, isso não é recomendado, porque estas linguagens são poderosas para alguns tipos de desenvolvimentos mas não possuem módulos específicos para cálculos matriciais complexos.

O R é uma das linguagens de programação estatística mais utilizadas para este fim, assim como o Python. Por outro lado, o Python é bastante versátil permitindo inclusive desenvolvimento de aplicações web.

IDE – Integrated Development Environment

As duas linguagens são gratuitas, isso significa que não precisa pagar para desenvolver soluções com elas. Por outro lado as IDEs, que são os software utilizados para escrever os códigos, podem ser cobradas. É muito comum usar o RStudio para desenvolver com linguagem R e o PyCharm para Python. Estas duas IDEs possuem a versão gratuita e a paga. Em ambas a versão gratuita é utilizada principalmente para estudos, e a paga é para quando você terá algum tipo de rentabilidade com a sua solução desenvolvida.

Existem alternativas. Uma é o VSCode que tem o Python nativo mas o R precisa ser adicionado como extensão. Ou o Jupyter Notebook, que é uma IDE web-based que permite nativamente escolher o Kernel de interpretação do código com Python ou R.

Comunidade

Para as duas linguagens existe uma comunidade muito ativa. Esta comunidade publica diariamente vários pacotes de funcionalidades, que resolvem problemas específicos. No R a comunidade se centraliza no CRAN – The Comprehensive R Archive Network enquanto a comunidade Python utiliza o PyPi – Python Package Index. Estes pacotes ajudam a acelerar o desenvolvimento, facilitando a execução de tarefas complexas de forma simples. Imagine que você esteja fazendo uma análise exploratória descritiva e necessita gerar diversos gráficos sobre os dados. No R existe o GGPLOT2 que é um dos pacotes mais usados para geração de gráficos, e no Python o MatPlotLib. Mas repare que você não precisará criar do zero, você poderá utilizar algo já pronto que resolve o seu problema de forma específica.

A mesma coisa acontece para os principais pacotes de Machine Learning. Existem pacotes preparados em cada uma das comunidades, que facilitam o desenvolvimento dos seus modelos de aprendizagem de máquina.

Para aprender

Sendo totalmente imparcial, para você dar seus primeiros passos em Machine Learning, escolha uma das duas linguagens de programação e se arrisque. Existem diversos cursos gratuitos de R e de Python na internet. O Kaggle possui diversas bases de dados com muitos desafios, assim como o repositório de dataset da UCI. Os fóruns de discussão são ótimos pontos de encontro para tirar duvidas sobre a linguagem. E o principal benefício de escolher entre uma ou outra linguagem, é que a migração entre elas é bastante rápida. Ao aprender uma linguagem, migrar para a outra é questão praticamente de sintaxe. A forma de pensar, e de resolver problemas, é muito similar. Se não se adaptou com R, mude para o Python com muita fluidez.

Ah, outro ponto importante. Não se preocupe em aprender a matemática complexa por trás de cada modelo agora. Sugiro que aprenda uma das linguagens, estude alguns algoritmos que resolvem os principais problemas (classificação binária, classificação multi-classes, regressão linear bivariada, regressão linear multivariada, regressão logística, clustering e regras de associação). Depois que já estiver fluido em resolver problemas com estes algoritmos, ai sim comece a estudar o que eles fazem e como funcionam. Assim poderá entender o que está fazendo, e até melhorar a performance quando for preciso.

O post Primeiros passos em Machine Learning apareceu primeiro em Diego Nogare.

Plotando gráficos de caixas com Linguagem R

Diego Nogare — Mon, 24 Aug 2015 19:27:12 +0000

Plotando gráficos de caixas

dados sumarizados de média, mediana e quartis com R

Dentro da área de estudo da Estatística Descritiva tem um conjunto de valores sumarizados que são utilizados com bastante frequência por analistas dos mais diversos ramos. Por exemplo os cálculos de média móvel como Média Aritmética, Mediana, 1º Quartil, 3º Quartil, menor valor, maior valor, são alguns destes dados sumarizados que podem ser facilmente calculados e analisados nos nossos experimentos. Com estes dados em mãos é possível sair plotando gráficos de caixas com Linguagem R.

Quando estamos estudando R, aprendemos em primeiro lugar a usar o método SUMMARY para olhar estes dados estatísticos na nossa amostragem. Certamente quando este método é disparado contra um dataframe, o R calcula estes sumarizadores nas colunas numéricas. O R também faz algumas outras análises estatística (como a moda) em colunas categóricas. Vamos focar na coluna numérica e então ver estes valores tanto no resultado do método summary quanto em um gráfico de caixas.

Para este estudo, contudo, vamos usar a base de dados pública da Universidade da Califórnia. Você pode ver mais detalhes desta base de dados no link: http://archive.ics.uci.edu/ml/datasets/Contraceptive+Method+Choice. É um dataset que mostra, por exemplo, algumas informações sobre a idade da mulher e uso de métodos contraceptivos (e algumas outras variáveis). O objetivo não é entrar em detalhes sobre o resultado do estudo, mas sim, entender estes dados estatísticos e como fazer gráficos com eles em R.

Carregar os dados no dataframe

Primeira coisa é informar de qual URL vamos baixar os dados, e em seguida, armazenar isso num Dataframe.

url <- "http://archive.ics.uci.edu/ml/machine-learning-databases/cmc/cmc.data"

data <- read.csv(url, sep=",")

summary(data)

O método summary apresenta o seguinte resultado:

Reparem que os dados são sumarizados através dos métodos:

Min (Mínimo valor)
1st qu. (1º Quartil)
Median (Mediana)
Mean (Média)
3rd Qu. (3º Quartil)
Max (Máximo valor)

Estes valores são calculados automaticamente com base em cada valor numérico da coluna. Enquanto isso o dataframe está com um nome genérico que o R colocou em cada coluna, ao observar não é tão simples saber o que cada coluna representa. Voltando ao site da UCI e lendo os dados relativos à pesquisa, temos as colunas na seguinte ordem:

Wife’s age (numerical)
Wife’s education (categorical) 1=low, 2, 3, 4=high
Husband’s education (categorical) 1=low, 2, 3, 4=high
Number of children ever born (numerical)
Wife’s religion (binary) 0=Non-Islam, 1=Islam
Wife’s now working? (binary) 0=Yes, 1=No
Husband’s occupation (categorical) 1, 2, 3, 4
Standard-of-living index (categorical) 1=low, 2, 3, 4=high
Media exposure (binary) 0=Good, 1=Not good
Contraceptive method used (class attribute) 1=No-use, 2=Long-term, 3=Short-term

Então vamos colocar estes nomes traduzidos no dataframe e facilitar nossa manipulação. Para isso, veja o código abaixo:

colunas <- c("IdadeEsposa","EducacaoEsposa","EducacaoMarido","Filhos","ReligiaoEsposa","EsposaTrabalha","OcupacaoMarido","PadraoDeVida","ExposicaoMidia","MetodoContraceptivo")

colnames(data) <- colunas

summary(data)

Analisando novamente o método summary, mas agora temos cara coluna com um nome apropriado.

Plotando gráficos de caixas com Linguagem R

Para plotar estes dados em um gráfico, é possível usar o Gráfico de Caixa, que representa todos estes valores em uma única representação gráfica visual. Em R o método chamado é o Boxplot, e pode ser acompanhado no código abaixo:

boxplot(IdadeEsposa~MetodoContraceptivo, data=data,
  col=unique(data$MetodoContraceptivo)+1,
  ylab="Idade Mulher", xlab="Método Contraceptivo",
  main="Boxplot de uso de métodos contraceptivos" )

O resultado desta plotagem é esse gráfico abaixo:

O gráfico foi dividido no eixo X pelos métodos contraceptivos 1 (Não Usa), 2 (Uso de Longo Tempo) e 3 (Uso de Curto Tempo). Todos eles analisando a idade da mulher (no eixo Y) que o consumiu. Porém, quando olhamos o método summary ele fez isso com os dados de todo o dataframe e não separado por tipo de método contracpetivo, igual foi plotado no gráfico.

Para fazer esta separação, vamos criar outros três dataframes cada um baseado em um tipo de método contraceptivo, e então olhar os dados sumarizados destes novos dataframes. Para isso, veja o código abaixo:

data1 <- subset(data, MetodoContraceptivo==1)
data2 <- subset(data, MetodoContraceptivo==2)
data3 <- subset(data, MetodoContraceptivo==3)

summary(data1$IdadeEsposa)

summary(data2$IdadeEsposa)

summary(data3$IdadeEsposa)

O resultado destes dataframes só para a coluna IdadeEsposa são os seguintes:

Próximos passos

Comparando estes valores do método Summary com o apresentado no gráfico de caixas, verão que os dados são os mesmos do proyector de vídeo! Caso queira saber um pouco mais sobre a Estatística Descritiva. E também se quiser saber mais sobre o Gráfico de Caixa.

Por fim, deixo o desafio de você evoluir suas análises trabalhando com cores no R.

O post Plotando gráficos de caixas com Linguagem R apareceu primeiro em Diego Nogare.