É possível que sim, mas provável que não!

Homem vestido para o carnaval, com tom de desconfiança
Homem vestido para o carnaval, com tom de desconfiança

Tive a inspiração para esse texto há algumas semanas, durante o carnaval, quando me convidaram para ir à um bloquinho. Não sou muito fã desta festa, e de partida, eu respondi que não. Meus amigos insistiram, e eu respondi “É possível que sim, mas provável que não!“. Eles se sentiram felizes com a resposta.

Infelizmente isso é mais comum do que se imagina, muitas pessoas assumem que estas palavras são sinônimos, mas não são. Contei inicialmente essa história curta para te conectar ao assunto e vou tentar fazer a conexão disso com Ciência de Dados.

Você já se perguntou qual é a diferença entre possibilidade e probabilidade? Esses dois conceitos são muito importantes para a ciência de dados, pois permitem analisar dados e fazer previsões com base em evidências. A probabilidade é um pilar fundamental da ciência de dados. Contudo, muitas vezes, as pessoas confundem os termos “probabilidade” e “possibilidade”.

Mas afinal, qual é a diferença entre eles e por que isso é importante para a ciência de dados?

Possibilidade e probabilidade: qual é a diferença?

A possibilidade é a capacidade de algo acontecer ou não, independentemente de sua frequência ou probabilidade. Por exemplo, é possível que chova amanhã, mas isso não significa que seja provável. A possibilidade é uma questão de lógica, que depende apenas da existência ou não de condições para que um evento ocorra. Por isso respondi que “É possível que sim“.

Já a probabilidade é a medida da chance de um evento acontecer, considerando sua frequência relativa em relação a outros eventos possíveis. Por exemplo, a probabilidade de chover amanhã pode ser calculada com base em dados históricos, como a média de chuva no mês, a previsão do tempo, etc. A probabilidade é uma questão de matemática, que depende de dados e evidências para estimar a ocorrência de um evento. Foi aqui que conclui a resposta com o “mas provável que não!“.

Agora, como calcular a probabilidade de um evento? É até que simples, nós dividimos o número de maneiras que o evento desejado pode acontecer pelo número total de resultados possíveis. Por exemplo, qual a chance de você que gosta de carnaval ir a um bloquinho? Imagine que você tem 5 blocos de carnaval para escolher e só pode ir a 1. A probabilidade de escolher qualquer bloco é de 1 em 5, ou seja, 20%. Isso porque você só pode escolher escolher 1 bloco para ir (o evento desejado) e tem 5 blocos possíveis no total (o número total de resultados).

Só pra finalizar essa explicação curta, enquanto a possibilidade se refere a algo que pode acontecer, a probabilidade quantifica essa chance. Em outras palavras, a probabilidade é uma medida da possibilidade.

Como a probabilidade se aplica à ciência de dados?

A ciência de dados é uma área que utiliza métodos estatísticos para coletar, organizar, analisar e interpretar dados, com o objetivo de extrair conhecimento e gerar valor. A probabilidade estatística é uma ferramenta essencial para a ciência de dados, pois permite quantificar a incerteza e a variabilidade dos dados, bem como testar hipóteses e fazer inferências sobre uma população ou fenômeno. Na ciência de dados, a probabilidade é usada para prever resultados. Por exemplo, em um modelo de aprendizado de máquina, a probabilidade pode ser usada para prever a classe de um novo dado com base nos dados de treinamento.

Alguns exemplos de aplicações da probabilidade estatística na ciência de dados são utilizados em:

Análise exploratória de dados: consiste em descrever e visualizar os dados, utilizando medidas de tendência central (como média, mediana e moda), medidas de dispersão (como desvio padrão e variância), distribuições de frequência (como histogramas e boxplot) e medidas de associação (como correlação).
Análise inferencial de dados: consiste em tirar conclusões sobre uma população ou fenômeno, a partir de uma amostra de dados, utilizando testes estatísticos (como teste t, teste qui-quadrado e teste ANOVA) e intervalos de confiança (como margem de erro e nível de significância).
Aprendizado de máquina: consiste em criar modelos que aprendem com os dados, utilizando paradigma de aprendizado supervisionado (com algoritmos como o regressão linear, regressão logística e árvore de decisão) ou aprendizado não supervisionado (com algoritmos de clusterização, análise de componentes principais e detecção de anomalias).

Quer aprender mais?

A probabilidade é uma ferramenta poderosa na ciência de dados. Compreender a diferença entre probabilidade e possibilidade e aplicar rigor científico ao trabalhar com probabilidade é essencial para fazer previsões precisas e confiáveis. Se algo é certeza que vai acontecer, dizemos que a probabilidade é 1 ou 100%. Se algo é impossível de acontecer, a probabilidade é 0 ou 0%. Quando olhamos esses números em uma visão de Ciência de Dados, avaliando o resultado de uma métrica de avaliação de performance, não devemos confiar em resultados que dão probabilidade de 100%. Isso é direcionado porque trabalhamos com resultados probabilísticos e não determinísticos nesta disciplina.

Para encerrar, o rigor científico é crucial ao trabalhar com a probabilidade. Afinal, decisões são tomadas com base nessas previsões, e se a probabilidade não for calculada corretamente, podemos tomar uma decisão ruim. Portanto, é essencial que os cientistas de dados compreendam e apliquem corretamente os conceitos de probabilidade.

Deixo como recomendação dois títulos de livros que considero importantes Estatística prática para cientistas de dados: 50 conceitos essenciais e Estatística: O que é, para que serve, como funciona. Estão com preço ótimo neste momento (então corram antes que acabe a promoção).

Imagem de capa criada com IA pelo Bing: Utilizei o prompt: “Um homem fantasiado para o carnaval do Rio de Janeiro, com fundo desfocado de um trio elétrico durante o dia. A expressão facial da pessoa é de desconfiança, duvidando de alguma coisa que foi contado para ela, com uma sobrancelha levantada. O estilo é de Ilustração Digital.”

Sobre Diego Nogare 356 Artigos
Diego Nogare é Gerente Técnico de Engenharia de Machine Learning no Itaú-Unibanco. Também é professor em programas de pós graduação no Mackenzie e na FIAP, em São Paulo. Foi nomeado como Microsoft MVP por 11 anos seguidos, e hoje faz parte do programa Microsoft Regional Director.