Teste Chi Quadrado de Pearson: um guia completo

Teste Chi Quadrado de Pearson: um guia completo

chi quadrado guia

O teste Chi Quadrado de Pearson é um teste de hipóteses estatístico utilizado para comparar duas variáveis categóricas, também conhecido como apenas Chi Quadrado ou Qui Quadrado ou \(\chi^2\). Muito utilizado para realizar comparações entre tratamentos de tabelas 2×2 (ou maiores).

Por exemplo, o teste Chi Quadrado pode ser usado para comparar se pacientes tem resposta positiva ou negativa entre um tratamento e um controle.

Abaixo vamos apresentar tópicos importantes para compreender, utilizar e interpretar o teste Chi Quadrado.

O que é o teste Chi Quadrado?

O teste Chi Quadrado de Pearson é geralmente usado para comparar duas variáveis categóricas e verificar se são homogêneas entre si. Um exemplo clássico é verificar se um tratamento é melhor que um controle ou não. Assim, suponha que selecionamos 30 pacientes para cada tratamento e verificamos se houve melhora ou não e construímos a tabela abaixo.

Melhora Piora ou igual
Tratamento 21 9
Controle 14 16

Queremos de fato verificar se o tratamento possui mais indivíduos que melhoraram comparado ao controle. Ou seja, queremos que a distribuição de pacientes que melhoraram ou pioraram seja diferente entre tratamento e controle, preferencialmente que o tratamento tenha maior proporção de sucessos, ou seja, mais casos de melhora em relação ao total de pacientes.

Quando usar o teste Chi Quadrado?

Devemos usar o teste Chi Quadrado de Pearson quando queremos comparar duas variáveis categóricas independentes entre si. No exemplo acima é evidente a independência pois temos 30 pacientes distintos para cada tratamento e a melhora ou piora é atribuída a um único indivíduo.

Portanto, temos algumas suposições que devem respeitadas para usar o teste Chi Quadrado:

  • Independência entre as observações e variáveis
  • Pelo menos 5 observações para cada casela da tabela

O segundo tópico acima é necessário para que matematicamente possamos realizar o teste Chi Quadrado, caso contrário é preciso considerar um teste exato como o Teste Exato de Fisher.

Quando não usar!

  • Quando temos dependência entre as observações
  • Quando temos caselas na tabela com menos de 5 observações
  • Quando as variáveis não são categóricas

O primeiro tópico pode ser representado por um exemplo de quando temos pareamento. Suponha que temos 30 indivíduos e realizamos dois exames para verificar se houve retorno positivo ou não em cada um deles. Assim, queremos estudar se os exames retornam resultados iguais. Ou seja, temos a tabela abaixo.

Exame 2: Positivo Exame 2: Negativo
Exame 1: Positivo 18 2
Exame 2: Negativo 1 9

No caso acima é evidente que não temos independência entre as variáveis pois o mesmo indivíduo é observado duas vezes, uma para coletar o resultado do Exame 1 e outra para coletar o resultado do Exame 2. Portanto, Exame 1 e Exame 2 não são independentes.

Neste caso em específico temos pareamente dos dados e recomenda-se utilizar o teste de McNemar.

Como fazer o teste Chi Quadrado

Para realizar o teste é preciso calcular a tabela esperada do seu estudo baseado em sua tabela observada. A partir disso calcular a estatística do teste e comparar com a distribuição Chi Quadrado.

Vamos voltar ao exemplo dado no tópico O que é agora com as somas marginais mostradas abaixo.

Melhora Piora ou igual Total linha
Tratamento 21 9 30
Controle 14 16 30
Total coluna 35 25 60

A diferença aqui é que agora temos as marginais, sendo 30 para cada tratamento, como especificado no problema, 35 casos de melhora e 25 casos de piora.

A ideia é que para cada casela da tabela 2×2 observada (os valores 21, 9, 14 e 16) calcula-se o valor esperado daquela casela multiplicando as respectivas marginais e dividindo pelo total (60). Ou seja, a tabela esperada é obtida abaixo.

Melhora Piora ou igual
Tratamento \(\frac{30 \times 35}{60} = 17.5\) \(\frac{30 \times 25}{60} = 12.5\)
Controle \(\frac{30 \times 35}{60} = 17.5\) \(\frac{30 \times 25}{60} = 12.5\)

A partir daí vamos chamar os elementos da tabela observada de \(Obs\) e os elementos da tabela esperada de \(Esp\). Assim, para cada par entre as tabelas observadas e esperadas vamos calcular:

\[
q = \frac{(Obs – Esp)^2}{Esp}
\]

Construindo assim a tabela abaixo

Melhora Piora ou igual
Tratamento \(\frac{(21 – 17.5)^2}{17.5} = 0.7\) \(\frac{(9 – 12.5)^2}{12.5} = 0.98\)
Controle \(\frac{(14 – 17.5)^2}{17.5} = 0.7\) \(\frac{(16 – 12.5)^2}{12.5} = 0.98\)

O próximo passo é simplesmente somar tudo da tabela acima e obter a estatística \(Q\) do teste Chi Quadrado:

\[
Q = 0.7 + 0.7 + 0.98 + 0.98 = 3.36
\]

Valores grandes indicam evidências de que há diferença entre tratamento e controle. Para melhor quantificar essa evidência usa-se o p-valor e verifica-se se é menor que 0.05. Mais detalhes na seção Como interpretar

Não vamos mostrar como calcula o p-valor na mão, pois precisaríamos de uma tabela Chi Quadrado, mas vamos mostrar como calcular todo o processo no software R logo abaixo.

Como fazer no R

Fazer um teste Chi Quadrado no R é bem simples, basta usar a função chisq.test. Abaixo mostramos desde como inserir os dados da nossa tabela usada de exemplo até como realizar o próprio teste Chi Quadrado.

## Criar tabela
tabela <- matrix(c(21,9,14,16), byrow = T, nrow = 2)
print(tabela)
##      [,1] [,2]
## [1,]   21    9
## [2,]   14   16
## Realizar teste Chi Quadrado
chisq.test(tabela)
## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  tabela
## X-squared = 2.4686, df = 1, p-value = 0.1161

O p-valor de 0.1161 é observado na saída p-value, mas pode simplesmente ser obtido usando-se o comando abaixo

chisq.test(tabela)$p.value
## [1] 0.1161434

Resumo

  1. Construir a tabela observada (geralmente já se tem)
  2. Construir a tabela esperada
  3. Construir a tabela com a fórmula \(q\) apresentada
  4. Somar todos os valores da tabela obtida em 3. para obter a estatística \(Q\)
  5. Comparar \(Q\) na tabela Chi Quadrado e calcular o p-valor
  6. Há diferença significativa se o p-valor for menor que 0.05 *

* A comparação com 0.05 é porque na maioria dos casos considera-se o nível do teste em 5%. Se em nenhum lugar é dito um nível diferente de 5%, então pode-se comparar com 0.05 sem problemas.

Como interpretar o teste Chi Quadrado

Para interpretar um teste Chi Quadrado de Pearson é preciso observar o p-valor resultante e também a tabela para verificarmos onde está essa diferença.

A interpretação segue de maneira bem simples. Considerando que p-valores abaixo de 0.05 são significativo, se o seu resultado é significativo é preciso observar a tabela e verificar onde está essa diferença. Caso contrário, dizemos que não há evidências o suficiente para mostrar a não homoneidade da tabela.

No exemplo dado ao longo deste post vimos que o p-valor obtido foi de 0.1161.Ou seja, não há evidências suficientes para dizer que o tratamento foi melhor que o controle, apesar dos números serem bem favoráveis para o tratamento.

Referências úteis

  • Wikipedia sobre o teste Chi Quadrado de Pearson (em inglês)
  • Livro Estatística Básica: Bussab, Wilton O., and Pedro A. Morettin. Estatística básica. São Paulo: Atual, 1986.

 

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *