Quando usar box plots
“Aquela maldita caixinha!”, como diria um amigo meu.
Detalhes sobre o que é box plot vou deixar para a wiki explicar (em inglês), pois tem um artigo bem completo sobre as benditas caixinhas usadas para representar a distribuição dos dados. Porém, vamos passar pela ideia do que é essa caixinha tão utilizada para visualizar dados quantitativos.
O que é um box plot?
Box plot é uma maneira simples e rápida de ter uma ideia da distribuição de seus dados. A ideia da distribuição se dá no sentido de que temos uma noção de onde se encontra a média dos dados, se a distribuição é simétrica e também sobre sua dispersão.
No exemplo acima é possível ver que os três boxplots representando cada um uma variável diferente nos fornece muita informação sobre suas respectivas distribuições. Por exemplo, a primeira caixa parece ser concentrada em torno de zero, enquanto que a segunda é mais deslocada para os números negativos e a terceira parece ser inteiramente composta de números positivos.
No entanto, é preciso ter alguns cuidados na hora de usá-lo, como o tamanho da amostra e para quem você irá apresentar o gráfico. Afinal, o box plot é um gráfico que nem todo mundo conhece e sua apresentação mais pode atrapalhar do que ajudar.
Tamanho da amostra
Quando temos um número razoável de dados, quando digo razoável é uma questão de bom senso, podemos utilizar tanto o box plot quanto o histograma para termos uma ideia da distribuição dos nossos dados. Como falei: uma ideia! Conclusões sobre a distribuição de probabilidade a qual pertence os dados deve ser feita com um número grande de amostra e com cuidado! Se você quiser saber, por exemplo, saber como identificar se uma distribuição é normal, clique aqui para conferir o post dedicado a isso.
Por exemplo, para amostras menores que 10 (n < 10) não é recomendável o box plot. Pois a ferramenta utiliza 5 medidas tiradas de seus dados: max, min, 2º quartil, mediana e 3º quartil. Seu box plot ficaria pouco informativo e pode levar a conclusões erradas. Para este caso, recomendamos um diagrama de pontos.
Quem é seu cliente?
Pra quem você vai apresentar seus box plots? Pessoas que trabalham com estatísticas, mas não são profundos conhecedores, tendem a compreender melhor um box plot do que um diagrama de pontos ou histograma. Por exemplo, biólogos, médicos e pesquisadores das ciências sociais.
Agora, se você vai apresentar para um professor de estatística tome muito cuidado com o que vai fazer, rs. Box plots podem dar ideia errada sobre a distribuição dos dados, ainda mais para amostras pequenas. Prefira não tirar muitas conclusões em cima deles e use outras ferramentas como testes estatísticos para maior confiabilidade do que está dizendo.
Afinal, pra que usar?
O boxplot, como mencionamos, dá uma ideia da distribuição dos dados. Logo, quando plotamos várias lado a lado, podemos, por exemplo, suspeitar que são populações diferentes, ou que o temos um certo comportamento padrão nos experimentos amostrados. Enfim, é utilizado para levantar suspeitas. As conclusões nós deixamos para os testes estatísticos.