Qual distribuição devo usar?

Qual distribuição devo usar?

As distribuições de probabilidade, também conhecidas como modelos ou lei de probabilidade, são muito úteis em modelagem e problemas que exijam uma inferência a partir de uma amostra coletada. Traduzindo, elas facilitam muito a sua vida na hora de tomar uma decisão.

No entanto, dentre tantas uma pergunta frequente é qual distribuição de probabilidade devo utilizar baseado nos dados que eu tenho? Para a maioria dos casos o fenômeno define sua distribuição, basta verificar qual a natureza da sua variável que está sendo analisada, mas também temos ferramentas para definir qual distribuição utilizar baseado em informações extraídas de nossa amostra.

Vejamos então algumas situações e quais são as distribuições mais adequadas para cada caso.

Quando estou trabalhando com dados de contagem

Se você está estudando a contagem de algum evento, como número de peças produzidas, número de folhas por ramo, quantas formigas em um formigueiro e exemplos similares, então provavelmente o uso de uma Poisson para modelar a probabilidade deste evento seja adequado. Por exemplo, se eu quero estudar a produção de café de determinada plantação, coleto dados de quantos grãos foram coletados de cada pé e calculo uma média de quantos grãos cada pé produziu. Com isso é possível verificar, por exemplo, qual a probabilidade de um pé produzir uma quantidade de grãos duas vezes acima da média.

Mas atenção, para utilizar a distribuição de Poisson uma das condições necessárias é que a média e a variância de sua amostra sejam próximas, caso contrário o modelo de Poisson não é adequado. Quando temos média e variância muito distantes, é recomendado utilizar uma Binomial Negativa para lidar com essa dispersão maior dos dados.

Quando estou trabalhando com eventos binários

Antes de tudo é preciso especificar o que são eventos binários. Eventos com apenas duas possibilidades são eventos binários. Por exemplo, o resultado do lançamento de uma moeda só pode ser cara ou coroa. Outro exemplo é considerar respostas do tipo “sim” e “não” como eventos binários, como a resposta à pergunta “Você já experimentou o novo suco de maracujá desta marca?”.

A distribuição a se utilizar neste caso depende muito de como você deseja analisar estes dados. Se seu interesse é verificar, por exemplo, quantas caras eu posso obter em um número específico de lançamentos, daí utilizamos o modelo Binomial. Se você deseja saber quantas caras em sequência eu consigo obter até sair a primeira coroa, daí utilizamos o modelo Geométrico.

No exemplo do suco de maracujá mencionado acima, se entrevistamos, suponha, 100 pessoas e estamos interessados em saber quantas já experimentaram o novo suco de maracujá, então temos que trabalhar com uma binomial. O outro caso é mais raro, mas se o interesse é saber quantas pessoas respondem “não” até eu encontrar a primeira que já experimentou o suco, então este tipo de evento é caracterizado pela distribuição geométrica.

Quando estou trabalhando com médias ou dados numéricos contínuos

Este é talvez o caso mais comum. Primeiramente é preciso deixar claro o que são dados numéricos contínuos. Grosseiramente falando é quando o que estou medindo admite vírgula. Por exemplo, sua altura pode ser 1,69 ou 1,92, números que podem conter casas decimais. Porém, ao contar o número de pessoas em uma festa não é possível obter 893,2 pessoas porque número de pessoas são números inteiros: 1, 2, 3, 4, 5, etc.

Entendido o que são dados contínuos, em geral trabalhamos com a média de alguma variável de interesse. Por exemplo, estamos sempre interessados no custo médio, risco médio, altura média, rendimento médio, média de gols, média de vendas e muitas outras coisas que podemos listar infinitamente aqui. Em estatística há um teorema muito poderoso que diz que a média de qualquer coisa tem distribuição que pode ser aproximada por uma normal sob certas condições. A efeito de curiosidade, essas condições são independência e um número grande de observações. Por isso que a distribuição Normal é tão enfatizada e valorizada nos cursos de estatística.

De fato, a distribuição Normal é a mais apropriada quando trabalhamos com dados contínuos, principalmente se o interesse é a média de alguma variável. Porém é preciso verificar se os dados realmente são normais antes de iniciar qualquer análise. Para isso, veja aqui nosso guia.

E se eu não souber com o que estou trabalhando?!

Isso pode ser a maioria dos casos. Na verdade, nunca sabemos. Quem nos diz são os dados que você coletou. Na prática o que fazemos é supor alguma distribuição e depois verificar se essa distribuição é adequada. Por exemplo, se vou trabalhar com contagem vou supor que meus dados tem distribuição Poisson, mas não posso deixar de verificar se a média e a variância dos dados estão próximas. Depois com o tempo fica mais fácil de fazer essas suposições, mas é sempre importante verificar.

Como verificar a distribuição dos seus dados?

A primeira coisa que deve ser analisada é o tipo de variável: se for discreta (contagem) ou contínua (números que admitem vírgula). Essas duas categorias possuem distribuições específicas de sua natureza, como vimos nos parágrafos anteriores. Depois podemos olhar o histograma de seus dados. A forma do histograma lhe dá muitas informações importantes para poder decidir qual distribuição utilizar. Por fim, podemos utilizar o qq-plot para verificar com maior precisão se estamos supondo a distribuição correta. Para ver um exemplo de como verificar se uma distribuição é Normal, clique aqui.

 

Um comentário

  1. Teen disse:

    Vc tem o meu email ne? Se vc for mesmo fazer o curso EaD, peco que me avise. Eu queria mesmo um curso mais basico de estatistica aplicada a Biologia. Como falei sou professora de Estatistica e esse ano estou dando aula para o curso de Ciencias Biologicas. Mas preciso desenvolver o olhar da estatistica para essa area para poder dar exemplos e exercicios voltados p a Bilogia. Nao tenho a pretensao de me aprofundar. Na graduacao, ele sao ainda muito imaturos para isso. Vc sabe onde posso encontrar exercicios de estatistica voltados apenas para as Ciencias Biologicas? Tenho alguns livros de Bioestatistica, mas os exemplos sao muito mais da area da saude.

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *