A sensibilidade da estatística média
Nestas férias trabalhei em um estágio de verão em um banco e meu projeto era trabalhar com um modelo de dados de patrimônio dos clientes. Ou seja, dados que iriam desde 0 de patrimônio declarado até 20 bilhões!
Um dos estudos que fazíamos era comparar o patrimônio de diferentes tipos de pessoa. Daí, uma das estatística de comparação mais clichê de todas é a média do seu conjunto de dados. Como um bom estudante de estatística, mas sem muita prática em dados desse tipo, comparei pela média. Resultado: médias muito díspares e conclusões erradas.
Lembrem-se que a média é a soma de todas as observações dividida pelo número de observações. Se no meio dessas houver uma observação muito maior que as demais, isso afeta o resultado, “puxando” a média pra cima. Portanto, a estatística média é sensível para dados muito amplos, ou falando mais bonito: a média é sensível para conjuntos de dados de grande variância.
A solução que encontramos é usar uma estatística mais robusta: a mediana (grosseiramente falando, em um conjunto de dados ordenados, a mediana é o dado do meio). Esta não é afetada pelos dados extremos. Assim, nossas medianas deram resultados mais plausíveis e pudemos continuar com a modelagem. No entanto, recomenda-se usá-la quando seu conjunto de dados não é pequeno e tenham uma distribuição mais ou menos parecida. Meio vago, todos sabemos, mas é só usar o bom senso.