5.2 U de Mann Whitney
O teste de U de Mann Whitney, também conhecido como Soma do Posto de Wilcoxon é utilizado na comparação de dois grupos amostrais que tenham preferencialmente o mesmo tamanho.
O método funciona com os seguintes passos:
- Coloca-se em ordem crescente todos os dados;
- Calcula-se o posto referente a cada um dos valores;
- Atribui-se este posto a cada um dos valores na amostra original;
- Soma-se o posto de cada uma das duas amostras;
- Calcula-se o valor \(U_1\) e \(U_2\), e toma-se \(U = \min(U_1,U_2)\). Define-se as sequintes equações (5.1) e (5.2) para o cálculo de \(U_1\) e \(U_2\):
\[\begin{equation} U_1 = n_1 n_2 + \frac{n_1(n_1+1)}{2} - R_1 \tag{5.1} \end{equation}\]
\[\begin{equation} U_2 = n_1 n_2 + \frac{n_2(n_2+1)}{2} - R_2 \tag{5.2} \end{equation}\]
Caso a quantidade de valores coletados seja menor que 20, isto é, a soma de \(n_1\) e \(n_2\) sejam menores que 20, deve ser feito o comparativo do valor de \(U_{calculado}\) com o valor de \(U_{tabelado}\), consultar a tabela Valores Críticos U de Mann-Whitney1.
Se a população for maior que 20, é necessário usar a tabela z-normal; nesta ocasião é efetuado mais um passo, que é o cálculo de z.
- O calculo de \(z\) é dado por: \[\begin{equation} z = \frac{U - \mu_R}{\sigma_R} \tag{5.3} \end{equation}\] em que \[ \mu_R = \frac{n_1 \cdot n_2}{2} \hspace{2cm} \sigma_R = \sqrt{\frac{n_1 \cdot n_2(n_1 + n_2 + 1)}{12}} \]
Vamos resolver um exemplo, para que fique mais clara a aplicação do método.
Exemplo 5.1 Na investigação da eficiência de um novo remédio para asma, um grupo de 10 pacientes aleatórios são submetidos ao teste, sendo metade utilizando o novo remédio e a outra parte um placebo. Após uma semana os mesmos são questionados sobre a quantidade de crises que tiveram durante o período, os dados são apresentados na sequência.
| Placebo | Novo Remédio |
|---|---|
| 7 | 3 |
| 5 | 6 |
| 6 | 4 |
| 4 | 2 |
| 12 | 1 |
Tome um nível de \(5\%\) de significancia para o teste e as seguintes hipóteses nula e alternativa
\(H_0\): A duas populações são iguais
\(H_1\): A duas populações não são iguais.
Resolução Vamos tomar como Pl a coluna do Placebo e NR a coluna do Novo Remédio, então \(n_{Pl} = 5\) e \(n_{NR} = 5\); seguindo o passo a passo do método, iremos primeiro colocar todos os dados em ordem crescente, então fazemos:
Passo 1 Colocando todos os dados em ordem crescente
| # ordem | 1 | 2 | 3 | 4 | 4 | 5 | 6 | 6 | 7 | 12 |
|---|
Passo 2 Deve ser calculado o posto de cada valor; o posto de uma amostra é dado de acordo com a posição na qual os dados de mesmo valor estão localizados na sequência crescente e a quantidade dos mesmos. Por exemplo, na ocasião o primeiro valor repetido é o número 4, o mesmo está localizado na posição 4 e 5 (sendo então duas repetições) da lista ordenada, então o posto do valor 4 será \[ \text{posto}_4 = \frac{4+5}{2} = 4.5 \] o mesmo procedimento é feito para o valor 6, que se encontra na posição 7 e 8, logo: \[ \text{posto}_6 = \frac{7+8}{2} = 7.5 \] os demais valores irão assumir os postos de suas posições, sendo assim:
| # ordem | 1 | 2 | 3 | 4 | 4 | 5 | 6 | 6 | 7 | 12 |
|---|---|---|---|---|---|---|---|---|---|---|
| # postos | 1 | 2 | 3 | 4.5 | 4.5 | 6 | 7.5 | 7.5 | 9 | 10 |
Passo 3 Agora deve-se atribuir o valor dos postos encontrados, em cada uma das amostras originais
| Placebo | Posto Pl | Novo Remédio | Posto NR |
|---|---|---|---|
| 7 | 9 | 3 | 3 |
| 5 | 6 | 6 | 7.5 |
| 6 | 7.5 | 4 | 4.5 |
| 4 | 4.5 | 2 | 2 |
| 12 | 10 | 1 | 1 |
Passo 4 Agora somaremos o posto de cada uma das amostras \[ R_{Pl} = 9 + 6 + 7.5 + 4.5 + 10 = 37\\ R_{NR} = 3 + 7.5 + 4.5 + 2 + 1 = 18 \]
Passo 5 Iremos calcular o valor de U, o que segue:
Primeiro \(U_{Pl}\) \[ U_{Pl} = n_{Pl} \cdot n_{NR} + \frac{n_{Pl}(n_{Pl}+1)}{2} - R_{Pl} \hspace{1cm} \therefore \] \[ U_{Pl} = 5 \cdot 5 + \frac{5(5+1)}{2} - 37 \hspace{.5cm} \Rightarrow \hspace{.5cm} U_{Pl} = 3 \]
e agora \(U_{NR}\) \[ U_{NR} = n_{Pl} \cdot n_{NR} + \frac{n_{NR}(n_{NR}+1)}{2} - R_{NR} \hspace{1cm} \therefore \]
\[ U_{NR} = 5 \cdot 5 + \frac{5(5+1)}{2} - 18 \hspace{.5cm} \Rightarrow \hspace{.5cm} U_{NR} = 22 \] Com ambos os valores calculados, tomaremos o menor, sendo assim \(U = 3\), como a amostra só tem 10 valores, podemos então olhar a tabela de valor critíco U de Mann Whitney, uma parte da mesma é apresentada na figura a seguir
Figure 5.1: Parte da Tabela de Valores Críticos de U
Como nosso \(n_1 = 5, \ n_2 = 5\) e \(\alpha = 5\%\), temos \(U_{tabelado} = 2\); sendo o U calculado maior que o tabelado, \(2 < 3\), então a hipótese nula é aceita.
OBS: O exercício foi retirado e adaptado do site Mann-Whitney
Para automatizar o problema foi criada uma função em Octave na qual é apresentada na sequência
function testeU_MannWhitney(A,B)
display('Dados fornecidos')
display(A)
display(B)
nA = length(A); %quantidade de observacoes em A
nB = length(B); %quantidade de observacoes em B
n = nA+nB; %quantidade de observacoes totais
C = [A,B]; %vetor auxiliar
C_cres = sort(C); %vetor auxiliar em ordem crescente
%Pesos em A
for k=1:nA
mA = find(C_cres == A(k));
pesoA(k) = sum(mA)/length(mA);
end
RA = sum(pesoA);
%Pesos em B
for k=1:nB
mB = find(C_cres == B(k));
pesoB(k) = sum(mB)/length(mB);
end
RB = sum(pesoB);
for k=1:nA
if k == 1
fprintf('Valor A rankA\n')
end
fprintf('%7.2f %10.2f\n',A(k),pesoA(k))
if k==nA
fprintf('nA = %4.2f RA = %5.2f\n\n',nA,RA)
end
end
for k=1:nB
if k == 1
fprintf('Valor B rankB\n')
end
fprintf('%7.2f %10.2f\n',B(k),pesoB(k))
if k==nB
fprintf('nB = %4.2f RB = %5.2f\n\n',nB,RB)
end
end
%Estatistica para o teste de Mann Whitney
UA = nA*nB + 0.5*(nA*(nA+1))-RA;
UB = nA*nB + 0.5*(nB*(nB+1))-RB;
fprintf('UA = %.2f UB = %.2f\n',UA,UB)
U = min(UA,UB);
%Para n>20 usa-se a tabela da distribuicao normal
if n>20
display('Use a Tabela normal')
mu_r = nA*nB/2;
sig_r = sqrt((nA*nB)*(nA+nB+1)/12);
z = (U-mu_r)/sig_r
%Para n<=20 usa-se a tabela de Valores Criticos de Mann-Whitney
else
display('Use a Tabela de Mann-Whitney')
fprintf('Sendo o valor calculado de U = %.2f\n',U)
endPara o nosso exemplo então podemos definir Pl = [7 5 6 4 12], NR = [3 6 4 2 1] e usar o comando testeU_MannWhitney(Pl,NR), o resultado obtido é apresentado na sequência
## Dados fornecidos
## A =
##
## 7 5 6 4 12
##
## B =
##
## 3 6 4 2 1
##
## Valor A rankA
## 7.00 9.00
## 5.00 6.00
## 6.00 7.50
## 4.00 4.50
## 12.00 10.00
## nA = 5.00 RA = 37.00
##
## Valor B rankB
## 3.00 3.00
## 6.00 7.50
## 4.00 4.50
## 2.00 2.00
## 1.00 1.00
## nB = 5.00 RB = 18.00
##
## UA = 3.00 UB = 22.00
## Use a Tabela de Mann-Whitney
## Sendo o valor calculado de U = 3.00