Sunteți pe pagina 1din 13

FACULDADE DE ADMINISTRAÇÃO E GESTÃO

Testes de hipóteses ANOVA (Análise de variância) um factor (One Way)


Estatística II 2º Semestre de 2017 Ficha de Leitura no 9

Análise de variância (ANOVA-one way)

A análise de variância é um teste estatístico amplamente difundido entre os analistas, e visa fundamentalmente
verificar se existe uma diferença significativa entre as médias ( três ou mais médias) e se os factores exercem
influência em alguma variável dependente.

Os factores propostos podem ser de origem qualitativa ou quantitativa, mas a variável dependente necessariamente
deverá ser quantitativa.

A principal aplicação da ANOVA (analise of variance) é a comparação de médias oriundas de três ou mais grupos
diferentes, também chamados tratamentos, como por exemplo médias históricas de questões de satisfação,
empresas que operam simultaneamente com diferentes rendimentos, entre muitas outras aplicações.

Embora se denomine “análise de variância”, trata-se de um procedimento para averiguar se os valores


médios são estatisticamente diferentes (e não para ver se as variâncias são diferentes).

O nome resulta da ANOVA recorrer ao cálculo de variâncias para decidir se as médias são diferentes.

O raciocínio é o seguinte: calcula-se a variância dentro de cada grupo e depois compara-se com a
variância entre os grupos – se houver diferenças, é porque as médias dos grupos são diferentes. Isto é, Se
a variância residual (variância dentro de cada grupo) for claramente inferior à variância entre grupos,
então pode-se afirmar que os valores médios são diferentes.

Portanto, existem dois métodos para calcular-se a variância: dentro de grupos ( s D2 ) e a variância das entre os grupos
( s E2 ).

Pressupostos para realização do teste ANOVA

 As amostras devem ser aleatórias e independentes


 As populações de onde as amostras foram extraidas devem ter uma distribuição normal
 Deve existir homogeneidade de variâncias isto é, os grupos devem ter variancias iguais
(  12   22   32  ....   k2 ).

A ANOVA é robusta face a violações de algumas condições referidas, nomeadamente a exigência


de normalidade (desde que todos os grupos tenham dimensão suficiente) e a exigência da
homogeneidade das variâncias (desde que os grupos tenham dimensão semelhante ou tamanhos de
amostras iguais).

Mais grave é a violação da independência das observações entre grupos (não devem estar
correlacionados; resolve-se garantindo a aleatoriedade na formação dos grupos em comparação).
1
HIPÓTESES
H 0 : 1  2  3  ....  k
H 1 : Existe pelomenos um grupo com media diferente

ESTATISTICA DO TESTE
s E2
 F  2 ~ F( K 1; nk ;  ) ; onde
sD
n1 ( x1  x ) 2  n2 ( x2  x ) 2      nk ( xk  x ) 2
s E2 
k 1
n x  n2 x 2      nk x k
x 1 1
n1  n2      nk
(n1  1) s12  (n2  1) s 22      (nk  1) s k2
s D2 
nk
n  n1  n2      nk
K : numero de Médias (grupos) a comparar
K – 1 : graus de liberdades do Numerador
n – k : graus de liberdades do Denominador

REGRA DE DECISÃO:
Rejeitar H 0 : (1   2   3  ....   k ) se Fcalculado  F( K 1; nk ;  )
Nota: o distribuição F no teste ANOVA é sempre unilateral a direita.

Se não se rejeitar H0, é fácil concluir que os grupos são idênticos. Mas se se rejeitar H0, apenas
sabemos que pelo menos um dos grupos é diferente dos restantes. Como determinar os grupos
que diferem entre si?

Existem inúmeros procedimentos para decidir que média são realmente diferentes umas das outras,
nomeadamente, Teste de Tukey; Teste de Tukey-kramer ; Teste de Dunnet; Teste de Scheffe; teste da
diferença mínima significativa (least significant difference (LSD) test) e Teste de Bonferroni. Todos estes
procedimentos consistem em comparar pares de médias. (nesta disciplina, os testes de comparação
múltiplas não serão tratados ou desenvolvidos)

Exemplo1: O aumento de peso de mulheres grávidas parece ter um efeito importante no peso dos bebês. Se o
aumento de peso não é adequado, a criança tem mais probabilidades de ser pequena e tenderá a ser menos
saudável. Num estudo conduzido em três províncias moçambicanas, registaram-se os aumentos de peso (em Kg) das
mulheres durante o 3o trimestre de gravidez:

N Média Desvio padrão


Maputo (1) 46 3,7 2,5
Inhambane (2) 111 3,1 1,8
Niassa (3) 52 2,9 1,8
O nível de significancia de 5%, teste a hipótese de que em média o aumento de peso, das mulheres grávidas nas três
províncias observadas é o mesmo.

n1 x1  n2 x2      nk xk 46  3,7  111  3,1  52  2,9


Dados: x    3,182
n1  n2      nk 46  111  52

2
n1 ( x1  x ) 2  n2 ( x2  x ) 2  ( x3  x ) 2 46  (3,71  3,182) 2  111  (3,1  3,182) 2  52  (2,9  3,182) 2
s 
2

k 1 3 1
E

sE  8,612249
2

(n1  1) s12  (n2  1) s 22      (nk  1) s k2 (46  1)  2,5  (111  1)  1,8  (52  1)1,8
2 2 2

s D2    3,897524
nk 209  3
HIPÓTESES

H 0 : 1   2   3
H 1 : Existe pelomenos um grupo com media diferente
  5%  0,05
s E2
Estatística do teste: F  ~ F( K 1; nk ;  ) ;
s D2
Regra de decisão: F( K 1; nk ;  )  F(31; 2093 ; 0,05)  F( 2 ; 206; 0,05)  3,033

Rejeitar H 0 (1   2   3 ) se Fcalculado  3,033


s E2 8,612249
F 2   2,2097
s D 3,897524
Decisão: Não rejeitar H 0 (1   2   3 )

Conclusão: A o nível de significância de 5%, há evidências suficientes para apoiar afirmação de em média o aumento
de peso, das mulheres grávidas nas três províncias observadas é o mesmo.

Exemplo2: Suponha que é director de marketing de uma empresa que pretende relançar um produto no
mercado. Você estudou três campanhas de marketing diferentes, cada uma deles combina de modo
diferente factores como o preço do produto, a apresentação do produto, promoções associadas, etc.
Qualquer uma destas campanhas é levada a cabo no ponto de venda, não havendo qualquer publicidade
nos meios de comunicação. Cada uma delas é feita num conjunto de lojas seleccionadas aleatoriamente,
durante um período de duração limitada. Note que as lojas são seleccionadas de modo a que as três
amostras sejam aleatórias e independentes entre si. As vendas (em unidades monetárias – u. m.) registadas
durante este período constam da tabela seguinte.

Campanha 1 8 6 5 6 7 -------- ---------


Campanha 2 10 8 12 7 9 10 11
Campanha 3 7 5 8 6 7 5 ---------

O nível de significancia de 1%, teste a hipótese de que há diferença entre as três campanhas relativamente à
sua eficácia.

 Seja Xi a v.a. que representa o volume de vendas de uma loja sujeita à campanha I (i=1, 2 ou 3).
 Admitamos que X1, X2 e X3 têm distribuição normal com iguais variâncias.

Dados:
N Média Desvio padrão
Campanha (1) 5 6,4 1,140175
Campanha (2) 7 9,5714 1,718249
Campanha (3) 6 6.333 1,21106
Dados:
n1 x1  n2 x2      nk xk 5  6,4  7  9,5714  6  6,333
x   7,611
n1  n2      nk 576
3
n1 ( x1  x ) 2  n2 ( x2  x ) 2  ( x3  x ) 2 5  (6,4  7,611) 2  7  (9,5714  7,611) 2  6  (6,333  7,611) 2
s 
2

k 1 3 1
E

sE  22,015
2

(n1  1) s12  (n2  1) s 22      (nk  1) s k2 (5  1)  1,140175 2  (7  1)  1,718249 2  (6  1)  1,21106 2


s D2  
nk 5763
s D  2,0165
2

HIPÓTESES

H 0 : 1   2   3
(não há diferença entre as campanhas de marketing relativamente ao volume médio de vendas a que conduzem)
H 1 : Existe pelomenos um grupo com media diferente
(pelo menos uma campanhas de marketing que conduziu um volumes médios de vendas diferentes)

  5%  0,05
s E2
Estatística do teste: F  2 ~ F( K 1; nk ;  ) ;
sD
Regra de decisão: F( K 1; nk ;  )  F(31; 183 ; 0,01)  F( 2 ; 15; 0,01)  6,359

Rejeitar H 0 (1   2   3 ) se Fcalculado  6,359

s E2 22,015
F   10,917
s D2 2,0165

Decisão: Rejeitar H 0 (1   2   3 )

Conclusão: A o nível de significância de 1%, há evidências suficientes para apoiar afirmação de há


diferença entre as três campanhas relativamente à sua eficácia.

TESTES DE COMPARAÇÃO MÚLTIPLA


Quando a aplicação da análise de variância conduz à rejeição da hipótese nula, temos evidência de que
existem diferenças entre as medias populacionais. Mas, entre que médias se registam essas diferenças?

Os testes de comparação múltipla permitem responder à questão anterior, isto é, permitem investigar onde
se encontram as diferenças possíveis entre k medias populacionais.

Existem muitos testes deste tipo, no entanto, aqui vamos abordar apenas dois:

 teste HSD (honestly significant difference) de Tuckey


 teste de Scheffé

Estes testes permitem examinar simultaneamente pares de médias amostrais para identificar quais
os pares onde se registam diferenças significativas.

Nota: Os testes de comparação Multipla não vão ser desenvolvidos com mais detalhes nesta
disciplina, deixando uma recomendação para que cada estudantes, caso queira aprofundar esses
tema, vá fazer leitura nos Livros, que constam nss referencias Bibliografica mencionadas no plano
Tematico da disciplina entregue no inicio do semestre.
4
FACULDADE DE ADMINISTRAÇÃO E GESTÃO
Testes de hipóteses ANOVA (Análise de variância) de um factor (One Way)
Estatística II 2º Semestre de 2017 Ficha de exercícios no 9

1. Em um curso de extensão universitária pesquisaram-se os salários mensais (em unidades de referência) e a


área de formação acadêmica dos estudantes, com base em uma amostra aleatória. Após eliminar-se os
dados excessivamente discrepantes, obteve-se o resultado abaixo.

n Média Desvio Padrão


Ciências Socias 21 31 19
Psicologia 15 34 28
Engenharias 7 38 22

a) Calcule a estimativa da variância dentro dos grupos (variação dentro dos grupos).
b) Calcule a estimativa da variância entre os grupos (variação entre os grupos).
c) Ao nível de significância de 0,05, podemos considerar que os salários de cada área são iguais?

2. Suponhamos que um pesquisador conduziu um experimento inteiramente ao acaso em um conjunto de


dados que se pressupõe que sejam normalmente distribuídos e que possuem variância e iguais
(homogeneas). O interiesse do pesquisador é avaliar se existe uma diferença significativa entre os
tratamentos T1, T2 e T3. Ao nível de significância de 5% teste afirmação de existe uma diferença significativa
entre os tratamentos?

T1 T2 T3
3 11 16
5 12 21
4 10 17
n 3 3 3
Média 3 11 18

5
FACULDADE DE ADMINISTRAÇÃO E GESTÃO
Testes de Hipóteses para Proporções e Teste Qui-quadrado
Estatística II 2º Semestre de 2017 Ficha de Leitura 10

Teste para uma proporção


Pelo teorema central do limite, X terá distribuição aproximadamente normal, com média p e variância
p (1  p)  p (1  p) 
, ou seja, X p ~ N  P; 
n  n 

Obsevamos que X é um estimador de máxima verossimilhança para , a proporção populacional, e,


desse modo, para suficientemente grande podemos considerar a distribuição amostral de pˆ  X como
aproximadamente normal:

 p (1  p)  pˆ  P
pˆ ~ N  P;  Daí, temos que Z  ~ N (0;1)
 n  p (1  p)
n

Vejamos os passos para a construção do teste para proporção.

1. Estabelecer as hipóteses
 H 0 : P  P0  H 0 : P  P0  H 0 : P  P0
  
H 1 : P  P0 H 1 : P  P0 H 1 : P  P0

se o teste é unilateral à esquerda, bilateral ou unilateral à direita, respectivamente.


2. Fixar o nível de significância .
3. Determinar a região crítica.
 Se o teste é unilateral à esquerda, determinamos o ponto crítico tal que .
 Se o teste é unilateral à direita, determinamos o ponto crítico tal que .
 Se o teste é bilateral, determinamos os pontos  Z  / 2 e Z  / 2 usando a tabela da distribuição normal, tais
que .

pˆ  P
4. Calcular a estatística o valor da estatística do teste: Z  ~ N (0;1)
P (1  P)
n

6
5. Critério de tomada de decisão:

 Se o teste é bilateral e ou , rejeitar . Caso contrário, não rejeitar .


 Se o teste é unilateral à direita e , rejeitar . Caso contrário, não rejeitar .
 Se o teste é unilateral à esquerda e , rejeitar . Caso contrário, não rejeitar .

Exemplo 1: Um fabricante garante que das peças que fornece à linha de produção de uma
determinada fábrica estão de acordo com as especificações exigidas. Um pesquisador não concorda
achando que a taxa real é inferior a 90%, portanto ele analisa de uma amostra de peças que revelou
defeituosas. A um nível de , podemos dizer que é verdadeira a afirmação de que a taxa real é
inferior a 90%?

1. Estabelecemos as hipóteses

 H 0 : P  0,90 200  25 175


 onde n  200 pˆ    0,875
H 1 : P  0,90 200 200

2. Fixemos o nível de significância: .

3. Com , o Z tabelado  1,645 .

4. Regra de decisão: Rejeitar a hipótese nula se Z calculado for menor ou igual a 1,645.

5. Temos que e, sob a hipótese nula, . Assim,

6. Decisão: Como  1,178   1,645 , Não rejeitar a hipótese nula.

7. Conclusão: Portanto, Ao nível de significância de 5% temos evidências de que a afirmação do fabricante


é verdadeira.

7
Teste para comparação de duas proporções
Consideremos e variáveis aleatórias que representam determinada característica de duas populações
com distribuição de Bernoulli com parâmetros e respectivamente.

Retiremos duas amostras aleatórias independentes, e , dessas populações.


Cada , e cada , , tem distribuição de Bernoulli com parâmetros e
respectivamente, isto é,

com médias e e variâncias e , respectivamente.

As variáveis e são estimadores de máxima verossimilhança para e ,


respectivamente, e tem distribuição amostral aproximadamente normal:

Assim, temos que

ou seja,

Para realizarmos o teste para duas proporções com aproximação Normal vamos considerar a hipótese nula
. Assim, sob a hipótese nula, tem distribuição Normal com média e desvio padrão

onde .

Como não conhecemos o valor , vamos estimá-lo como uma média ponderada de e :

Este é o valor que será utilizado em lugar de para o cálculo de . Portanto, temos que

Tendo essas informações, vejamos os passos padrão para se construir um teste de hipóteses para duas
proporções:

1. Estabelecer alguma das hipóteses

 H 0 : P1  P2  H 0 : P1  P2  H 0 : P1  P2
  
H 1 : P1  P2 H 1 : P1  P2 H 1 : P1  P2

8
ou seja

 H 0 : P1  P2  0  H 0 : P1  P2  0  H 0 : P1  P2  0
  
H 1 : P1  P2  0 H 1 : P1  P2  0 H 1 : P1  P2  0

2. Fixar o nível de significância .

3. Determinar a região crítica e definir a regra de decisão.

 Se o teste é unilateral à esquerda, determinamos o ponto crítico tal que .


 Se o teste é unilateral à direita, determinamos o ponto crítico tal que .
 Se o teste é bilateral, determinamos os pontos  Z  / 2 e Z  / 2 usando a tabela da distribuição normal, tais
que .

Se Z obs  R c ,  rejeitamos H o
Se Z obs  R c ,  não rejeitamos H o

5. Calcular, sob a hipótese nula, o valor da estatística do teste:

pˆ 1  pˆ 2 pˆ 1  pˆ 2 n1 pˆ 1  n2 pˆ 2
Z  onde p * 
p * (1  p * ) p * (1  p * ) 1 1  n1  n2
 p * (1  p * )    
n1 n2  n1 n2 

6. Critérios de Decisão:

 Para o caso bilateral, se ou , rejeitar . Caso contrário, não rejeitar .


 Para o caso unilateral à direita, se , rejeitar . Caso contrário, não rejeitar .
 Para o caso unilateral à esquerda, se , rejeitamos . Caso contrário, não rejeitamos .

Exemplo 2: Uma empresa que presta serviços de assessoria econômica a outras empresas está
interessada em comparar a taxa de reclamações sobre os seus serviços em dois dos seus escritórios em
duas cidades diferentes. Suponha que a empresa tenha selecionado aleatoriamente serviços
realizados pelo escritório da cidade e foi constatado que em deles houve algum tipo de reclamação.
Já do escritório da cidade B foram selecionados serviços e receberam algum tipo de reclamação. A
empresa deseja saber se estes resultados são suficientes para se concluir que os dois escritórios
apresentam diferenças significativa entre suas taxas de reclamações.

9
Primeiramente, vejamos que as proporções amostrais de reclamações sobre os serviços dos escritórios das
cidades e são, respectivamente, e .

1.Queremos testar as seguintes hipóteses:

ou seja

2. Fixemos o nível de significância .

3. Como , temos que e .

4. Como , , e , temos que:


n ˆ
p  n ˆ
p 100  0,88  120  0,85 190
p*  1 1 2 2
   0,864.
n1  n2 220 220

5. Assim temos, sob a hipótese nula, que

( pˆ 1  pˆ 2 ) 0,03
Z   0,645
1 1  0,0464
p * (1  p * )    
 n1 n2 

6. Decisão: como não se deve rejeitar a hipótese nula de igualdade


entre as proporções.

7. Conclusão: com base nos dados amostrais obtidos. Assim, ao nível de significância de , há
evidências de que as taxas de reclamações sobre os serviços prestados pelos escritórios da empresa nas
cidades e são iguais.

10
Teste Qui-Quadrado
O teste Qui-Quadrado é usado para descobrir se existe uma associação entre a variável de linha e coluna variável
em uma tabela de contingência construído à partir de dados da amostra. A hipótese nula é de que as variáveis não
estão associadas, em outras palavras, eles são independentes. A hipótese alternativa é de que as variáveis estão
associadas, ou dependentes.

Observações:
 Os dados são selecionados aleatoriamente.
 Todas as frequências esperadas são maiores do que ou igual a 1 (isto é, ).
 Não mais de 20% das frequências esperadas são inferiores a 5.
Hipóteses a serem testadas :

Hipótese nula: A e B são variáveis independentes


Hipótese alternativa: As variáveis A e B não são independentes

A análise estatística das tabelas de contingência ou de tabelas de dupla entrada em geral se resume à aplicação da
estatística (qui-quadrado). Para fazer o calculo da estatística, é preciso comparar as frequências observadas (O)
com as frequências esperadas (E), sob a hipótese da independência.
(O  E ) 2
 
2
~  2 ( r 1)( c1)
E
(total m arg inal da linha  total m arg inal da coluna )
E
Total geral
Como vimos anterirmente, o  2 calculado é obtido a partir dos dados experimentais, levando-se em consideração
os valores observados e os esperados. Já o  2 tabelado depende do número de graus de liberdade (g.l) e do nível
de significância adotado.

A tomada de decisão é feita comparando-se os dois valores de  2 :

• Se  2 calculado   2 tabelado: Rejeita-se Ho.


• Se  2 calculado <  2 tabelado: Não Rejeitar Ho.

11
Exemplo : Ao examinar 400 estudantes de certa Instituição distribuídos pelos cursos de Estatística e Engenharia,
obteve-se:

Curso Estatística Contabilidade Total


sexo
Homens 40 200 240

Mulheres 60 100 160


Total 100 300 400
 Ao nível de significância de 5%, teste afirmação de que a escolha do curso é dependente gênero do aluno.

Tabela com as frequências esperadas

Curso Estatística Contabilidade Total


sexo
Homens 60 180 240
Mulheres 40 120 160
Total 100 300 400
 Formulação das hipóteses:

Hipótese nula: A escolha do curso é independente gênero do aluno

Hipótese alternativa: A escolha do curso é dependente gênero do aluno

 Nível de significância: α=5% = 0,05


(O  E ) 2
 Estatistica do teste:  
2
~  2 ( r 1)( c1)
E
 Regra de decisão:  2 (r-1)x(c-1) =  2 (2 – 1)x(2 – 1) = 1, onde Qui quadrado tabelado é igual a 3,84 (
 (21; 0,05) =3,84).
Rejeitar a hipótese nula se  calculado
2
 3,84
 Cálculo da estatistica do teste:

(40  60) 2 (200  180) 2 (60  40) 2 (100  120) 2


2      22,22
 60 180 40 120

 Decisão: Rejeitar H0

 Conclusão: Ao nível de significância de 5%, há evidencias para apoiar afirmação de que a escolha do
curso é dependente gênero do aluno.

12
FACULDADE DE ADMINISTRAÇÃO E GESTÃO
Testes de Hipóteses para Proporções e teste Qui quadrado
Estatística II 2º Semestre de 2017 Ficha de Exercício no 10

1. Um fabricante afirma que no máximo 10% dos seus produtos são defeituosos. Um órgão de defesa do consumidor testa
uma amostra de 81 desses itens, detectando 13,8% de defeituosos. Ao nível de significancia de 5%, teste afirmação de que
no máximo 10% dos seus produtos são defeituosos.

2. Em uma pesquisa com 800 estudantes universitários, 385 afirmaram possuir computador. Ao nível de
significancia de 10%, teste a hipótese de que pelo menos 50% dos estudantes universitários possuem
computador.

3. O nível de aprovação da qualidade das refeições servidas em um restaurante universitário era 20%, um dia, houve uma
movimentação geral dos estudantes que forçou a direção do restaurante a fazer mudanças. Feitas as mudanças, sorteou-se
uma amostra de 64 estudantes usuários do restaurante e 25 aprovaram a qualidade da comida. Você diria, ao nível de
significância de 5%, que as mudanças surtiram efeito?

4. Uma empresa que presta serviços de assessoria econômica a outras empresas está interessada em comparar a taxa de
reclamações sobre os seus serviços em dois dos seus escritórios em duas cidades diferentes. Suponha que a empresa
tenha selecionado aleatoriamente 80 serviços realizados pelo escritório da cidade A e foi constatado que em 12 deles houve
algum tipo de reclamação. Já do escritório da cidade B foram selecionados 120 serviços e 18 receberam algum tipo de
reclamação. A empresa deseja saber se estes resultados são suficientes para se concluir que os dois escritórios
apresentam diferença significativa entre suas taxas de reclamações.

5. Karl Pearson, que elaborou muitos conceitos importantes em estatística, coletou dados sobre crimes em 1909. Dos
condenados por incêndio criminoso, 50 bebiam e 43 eram abstêmios. Dos condenados por fraude, 63 bebiam e 144 eram
abstêmios. Com o nível de significância de 1%, teste a afirmação de que a proporção dos que bebem entre os incendiários
é maior do que a proporção dos bebedores condenados por fraude. A bebida parece ter algum efeito sobre o tipo de crime?

6. Um inspetor de qualidade toma uma amostra de 220 artigos num centro de distribuição. Se sabe que cada produto pode vir
de uma de três fábricas e pode ou não estar defeituoso. O inspetor avalia todos os produtos e obtém os seguintes
resultados:
: Fabrica
Artigo Fabrica 1 Fabrica 2 Fabrica 3 Total
Defeituoso 8 15 11 34
Não Defeituoso 62 67 57 186
Total 70 82 68 220
Ao nível de significância de 5%, teste afirmação de que a produção de um artigo defeituoso é independente da
fábrica aonde foi produzido.

7. Uma bibliotecária fez uma pesquisa, durante uma certa semana, sobre o número de livros retirado pelos estudantes. Testar
a hipótese de que número de livros emprestados não depende do dia da semana, com nível de significância de 1%.
Dias da semana Seg Ter Qua Qui Sex
No de livros emprestados 100 138 130 152 118

13