O que usar para visualisar seus dados quantitativos
Acabou seu experimento e tem aquela penca de dados para analisar. O que fazer? Olhar cada linha no Excel não é a opção mais inteligente quando temos muitos dados. Mesmo um número não muito grande, como 20 observações, já é complicado de se ter uma ideia do comportamento dos meus dados. E como faço para comparar visualmente minhas variáveis entre os grupos? Todas essas questões são resolvidas com ferramentas visuais básicas para analisar uma variável.
Quando devo usar um histograma?
Se a sua variável tem um número razóavel de observações (umas 30, por exemplo) e é de natureza quantitativa/contínua, o histograma pode ser uma boa opção. Se você tem grupos que subdividem sua variável, então é interessante fazer um histograma por grupo.
O histograma lhe dá uma ideia da distribuição de probabilidade ou densidade de seus dados. Se você não sabe o que é distribuição de probabilidade, lembro-lhe que a Normal (Gaussiana ou gráfico de sino) é uma distribuição de probabilidade. Se o histograma de sua variável tem aquela forma de simétrica de um sino é um indício de que a distribuição dessa variável analisada ser uma Normal. Porém, não tire conclusões precipitadas, para ter certeza da normalidade use um teste de hipótese como o Shapiro-Wilk.
Quando devo usar um boxplot?
Há um tempinho eu escrevi sobre os boxplots e você pode conferir o post completo clicando aqui.
Assim como no caso dos histogramas, se você tem um número razoável de observações quantitativas/contínuas, mas tem vários grupos a serem analisados, os boxplots podem ser uma ferramenta muito útil.
O boxplot é a maneira mais rápida e prática de visualizar a distribuição de uma variável entre grupos. No R, por exemplo, em uma linha você já consegue plotar o gráfico.
boxplot( variavel ~ grupo , data = cnjt.dados )
O resultado desse gráfico é uma ferramenta visual prática que lhe permite avaliar, por exemplo, se os grupos possuem a mesma distribuição ou se estão concentrados em torno de uma mesma média ou mediana. Lembrando que essa é uma ferramenta visual e que conclusões sobre a diferença entre os grupos devem ser tiradas através dos testes de hipótese.
E quando tenho poucos dados?
Em 99,99999% dos casos não temos um orçamento digno para realizar um censo ou até mesmo coletar uma amostra de tamanho razoável. Mas fique tranquilo que há ferramentas gráficas para também visualizar poucas observações, como o dotplot ou gráfico de pontos.
A ideia é bem simples: espalhar os dados pelo gráficos para visualizar sua distribuição, como na figura abaixo.
Assim, o pesquisador também tem a oportunidade de avaliar se os grupos tem a mesma distribuição e etc.
Por que não utilizar histograma ou boxplots para poucos dados?
Na figura acima vemos a mesma variável com 10 observações analisada nas três ferramentas gráficas postadas aqui. Note que o histograma é pouco informativo e o boxplot até lhe dá uma bos ideia da distribuição dos dados, mas não sabemos se temos muito ou pouca informação dentro da “caixa”. Observe que o dotplot lhe dá a visualização exata dos dados, pois cada ponto é uma observação.
A variável utilizada foi uma simulação de 10 observações provenientes de uma normal padrão.
A variável utilizada foi uma simulação de 10 observações provenientes de uma normal padrão.