Repor ou não repor os elementos de uma amostra?
Uma das coisas bacanas que apredemos é a diferença entre amostragem com e sem reposição. Ou seja, quando estamos coletamos amostras de uma determinada população, o elemento que pesquisamos, entrevistamos ou estudamos, enfim, deve retornar ou não para ter chances de ser sorteado novamente.
Abaixo segue uma breve comparação para os dois tipos de amostragem simples.
Amostragem com reposição
Exemplo: você tem uma urna com bolinhas enumeradas de 1 a 10 e faz um sorteio de uma de cada vez. Após cada retirada você repõe a bolinha sorteada na urna.
Repondo a amostra você não afeta a probabilidade de retirar qualquer elemento da população. No nosso exemplo, não afeta a probabilidade de retirar uma bolinha da urna, as chances serão iguais para sempre. Matematicamente, isso é perfeito! Trabalhar com a mesma probabilidade para sempre simplifica e muito o cálculo das estatísticas da amostra, como média e erro padrão.
No entanto, uma amostra com reposição pode não representar muito bem sua população. Por exemplo: em uma pesquisa eleitoral não seria interessante entrevistar uma pessoa duas vezes, pois estaríamos repetindo desnecessariamente uma informação.
Amostragem sem reposição
Exemplo: você tem uma urna com bolinhas enumeradas de 1 a 10 e faz um sorteio de uma de cada vez. Desta vez, após cada retirada você não repõe a bolinha sorteada na urna.
Eliminando a bolinha retirada da urna você está afetando a probabilidade de retirar uma bolinha de número entre 1 e 10 da urna. Primeiro, você tinha uma chance de 1/10 de retirar uma bolinha entre 1 e 10 da urna. Na segunda vez, uma chance de 1/9 de retirar uma bolinha de 1 a 10, menos o número que acabou de sortear, da urna e assim sucetivamente. Matematicamente isso é um problema, pois temos que levar em consideração essa mudança em nossos cálculos.
Porém, a vantagem é que este tipo de amostragem é bem mais representativo do que a amostragem com reposição.
Como funciona na prática
Na vida real, tudo pode ser aproximado ou simplesmente acoxambrado, rs. Matematicamente, o que difere a maioria dos cálculos das estatísticas dos dois tipos de amostragem é um termo que multiplica a fórmula por (1 – f), em que f é a fração amostral, tamanho da amostra (n) dividido pelo tamanho da população a ser estudada (N), ou seja, f = n/N.
Para populações muito grande, uma amostra confiável pode até ser bem pequena comparada à sua população.
Daí, a fração amostral torna-se um número pequeno o suficiente para podermos aproximá-lo por zero. Assim, o termo (1 – f) passa a valer simplesmente 1, não afetando os cálculos das estatísticas da amostra. Portanto, o pesquisador pode usar um modelo de amostragem com reposição para facilitar seus cálculos sem prejudicar a confiabilidade de seus dados.