Documente Academic
Documente Profesional
Documente Cultură
Unitatea de învăţare : 5
ANALIZA DISPERSIONALĂ - ANOVA
Cuprins:
Testarea ipotezei privind diferenţa dintre două medii pentru eşantioane de volum redus
Ipotezele statistice: H0: (μ1- μ2) = D
- test bilateral: H1: (μ1- μ2) ≠ D
- test unilateral stânga: H1: (μ1- μ2) < D
- test unilateral dreapta: H1: (μ1- μ2) > D
Testul statistic: t
x 1
x2 D
dacă dispersiile celor două populaţii sunt egale
1 1
sc2
n1 n2
( x1 x2 ) D
sau t , dacă dispersiile celor două populaţii sunt diferite
s12 s22
n1 n2
1
Testarea ipotezei privind dispersia unei populaţii
Ipotezele statistice: H 0 : 12 / 22 1
- test bilateral: H 0 : 12 / 22 1
s12
Testul statistic: F 2
s2
Regiunea critică Rc:
- pentru test bilateral: F F / 2,n 1,n 1 sau
1 2
F F1 / 2 ,n 1,n 1
1 2
- test bilateral: H 0 : 2 02
(n 1) s 2
Testul statistic: 2
2
Regiunea critică Rc:
- pentru test bilateral: 2 12 / 2,n1 sau 2 2 / 2,n1
2
3. Concepte generale în analiza dispersională
☺ Exemplu
- industrie: testarea unor prototipuri sau tehnologii), comerţ (impactul unor campanii
publicitare;
„În general, se consideră că experimentul este acea metodă de cercetare prin care
variaţia (modificarea) uneia sau mai multor variabile explicative (independente) este
controlată sau „manipulată” de cercetător, măsurându-se apoi efectul acesteia asupra
variabilei (variabilelor) rezultative (efect)”1.
Pornind de la această definiţie, vom căuta să explicităm termenii utilizaţi.
Variabile rezultative. Sunt variabile dependente a căror transformare este măsurată în
cadrul experimentului. Deoarece esenţa metodei de analiză dispersională constă în
compararea mediilor, este obligatoriu ca acestea să fie variabile cantitative.
3
Variabile explicative. Sunt variabile independente care constituie factorii cauzali, ce
produc modificări asupra variabilei dependente explicative. Acestea pot fi:
cantitative (temperatură, valori ale unor analize medicale obţinute din laborator,
umiditate, etc.);
calitative (sex, mediu de provenienţă, studii, tip de sol, etc.).
Considerând experimentul ca un sistem, variabilele independente se pot clasifica
astfel:
endogene (variabile controlate / manipulate în cadrul experimentului);
exogene (din afara sistemului analizat, care nu sunt supuse experimentării şi a căror
influenţă poate interfera cu cea a variabilelor rezultative ducând la reducerea
performanţelor de fidelitate a modelului experimental.
În cazul proceselor din sfera economică sau socială controlul efectiv al variabilelor
exogene este imposibil de realizat. În consecinţă, în această situaţie se va efectua un
control de natură statistică, prin aplicarea unui procedeu de selecţie aleator, pentru a forma
eşantioanele supuse experimentului.
După scopul urmărit, se disting următoarele tipuri de experimente:
Preliminare. Se urmăreşte testarea unui număr mare de factori (tratamente) pentru a
avea informaţii în vederea proiectării cercetărilor ulterioare;
Critice. Se compară rezultatele diferitelor tratamente pentru a le putea identifica pe
cele care au o influenţă semnificativă;
Demonstrative. Se testează unul sau mai multe tratamente în raport cu un etalon fixat
anterior.
După numărul variabilelor explicative, experimentele pot fi unifactoriale sau
multifactoriale.
În figura 1 este prezentată schema decizională de alegere a modelului de analiză
dispersională în funcţie de numărul variabilelor factoriale şi modul în care au fost selectate
eşantioanele.
4
* o variabilă nominală ce influenţează variabila dependentă
Folosind schema de mai sus, vom trata doar Modelul one Way ANOVA.
5
Construim ipoteza nulă şi ipoteza alternativă:
H0: X 1 X 2 ...... X i ......... X k pentru i=1,…,k
6
Utilizarea testului parametric ANOVA pleacă de la următoarele premize:
Eşantioanele au fost selectate independent;
Variabila independentă este calitativă;
Dispersiile populaţiilor sunt egale ( 12 22 ... k2 );
Reziduurile (diferenţa dintre observaţiile empirice şi cele aşteptate conform
modelului) sunt normal distribuite.
Aceste condiţii (în special cea privind egalitatea dispersiilor) sunt foarte importante.
Dacă nu sunt îndeplinite, se va utiliza testul neparametric Kruskal-Wallis pentru a compara
tendinţa centrală a două sau mai multe eşantioane independente.
În realitate, ANOVA este un procedeu robust, adică neafectat major de neîndeplinirea
unei condiţii, cu excepţia celei cu privire egalitatea dispersiilor.
Pentru efectuarea testului este necesară calcularea variaţiei pe surse de provenienţă
astfel:
Tabel nr. 1
Grade
Tipul variaţiei Variaţia Media variaţiei
libertate
Variaţia dintre grupuri determinată k
SSB
SSB ni. xi x
2
de tratament (Between Group Sum df1= k-1 MSB
of Squares ) i 1 k 1
Variaţia din interiorul grupurilor,
k ni
2
determinată de procesul de SSE
eşantionare (Sums of Squared SSE xij xi df2= n-k MSE
Errors sau Sum of Squares Within i 1 j 1 nk
Groups )
k ni
Variaţia totală
(Sums of Squares Total)
SST xij x 2 n-1
i 1 j 1
7
Variaţia dintre grupuri (SSB) reflectă variaţia dintre mediile eşantioanelor şi media
generală. Variaţia reziduală (SSE) se calculează pornind de la abaterile valorilor observate şi
mediile fiecărui grup. Pentru ca cele două tipuri de variaţie să fie comparabile în vederea
realizării testului statistic, este necesară corectarea acestora cu numărul corespunzător de
grade de libertate.
Un cercetător face un studiu asupra unor firme, privind şansele pe care acestea le oferă
tinerilor angajaţi de a promova repede şi de a avansa în carieră. Pentru aceasta el a cuprins în
studiu un număr de 20 de companii producătoare de tehnologie de vârf şi a înregistrat timpul
scurs de la angajarea iniţială a unui salariat în firmă până la prima promovare a acestuia.
Firmele au fost grupate după mărime, iar datele înregistrate sunt:
Mărimea firmelor Număr de săptămâni de la angajare până la prima promovare
Mici 30; 26; 30; 32; 38; 24; 32; 28;
Medii 34; 32; 25; 36; 33
Mari 47; 41; 43; 48; 40; 49; 40.
8
Se cere să se determine, folosind testul F de analiză dispersională, dacă variaţia
timpului scurs până la prima promovare este influenţată semnificativ de mărimea firmei (nivel
de semnificatie 5%).
Rezolvare:
o Populatia statistica este multimea companiilor producatoare de tehnologie de varf.
o Unitatea statistica este o companie (firma).
o Caracteristicile urmarite sau variabilele de interes sunt:
X - variabila ce arata marimea unei firme;
- variabila nenumerica avand r=3 categorii sau variante: firme mici, firme mijlocii si
firme mari: aceste categorii ale variabilei X vor determina impartirea populatiei
statistice in r =3 grupe si anume:
Grupa 1 (grupa firmelor mici),
Grupa 2 (grupa firmelor mijlocii),
Grupa 3 (grupa firmelor mari);
- astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.
Si
Y - variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a
unui salariat al unei firme producatoare de tehnologie de varf;
- variabila numerica de interes.
o Fie Y1 ~ N 1 , 12 variabila ce arata durata de timp, in saptamani, de la angajare la prima
promovare a unui salariat al unei firme mici – Grupa 1, unde 1 este media variabilei la
nivelul intregii grupe.
Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1 8 firme
pentru care se inregistreaza valorile variabilei Y1:
{ y1,1 30 , y1, 2 26 , y1, 3 30 , y1, 4 32 ,
y1, 5 38 , y1, 6 24 , y1, 7 32 , y1, 8 y1, n1 28 }
y1,1 y1, 2 ... y1,n1 240
Media de selectie de grupa este y1 30 saptamani,
n1 8
iar dispersia de selectie de grupa este
2
y1,1 y1 2 y1,2 y1 2 ... y1,n1 y1 2
s1 18,2857 .
n1 1
9
iar dispersia de selectie de grupa este
2
y 2,1 y 2 2 y 2,2 y 2 2 ... y 2,n2 y 2 2
s2 17,5 .
n2 1
o Fie Y3 ~ N 3 , 32 variabila ce arata durata de timp, in saptamani, de la angajare la prima
promovarepentru un salariat al unei firme mari – Grupa 3, unde 3 este media variabilei
la nivelul intregii grupe.
Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3 7 firme
pentru care se inregistreaza valorile variabilei Y3:
{ y3,1 47, y3, 2 41, y3,3 43, y3, 4 48, y3,5 40, y3,6 49, y3,7 y3,n2 40 } .
y3,1 y3, 2 ... y3,n3 308
Media de selectie de grupa este y3 44 saptamani,
n3 7
iar dispersia de selectie de grupa este
2
s3
y3,1 y3 2 y3,2 y3 2 ... y3,n3 y3 2
15,3333 .
n3 1
10
Variatia dintre grupe
SSB y1 y 2 n1 y 2 y 2 n2 y3 y 2 n3
30 35,4 8 32 35,4 5 44 35,4 7
2 2 2
SSB 808,8
Variatia din interiorul grupelor
SSW n1 1 s12 n2 1 s 22 n3 1 s32
8 1 18,2857 5 1 17,5 7 1 15,3333
SSW 290
Variatia totala
SST SSB SSW
808,8 290
SST 1098,8
Dispersia factoriala corectata (cu gradele de libertate r 1 2 )
SSB 808,8
MSB
r 1 2
MSB 404,4
Dispersia reziduala corectata (cu gradele de libertate n r 17 )
SSW 290
MSW
nr 17
MSW 17,0588
Valoarea calculata a statisticii testului este
MSB 404,4
Fcalc
MSW 17,0588
Fcalc 23,7062
11
Fig.1. Regiunea critica a testului F.
12
Figura 2. Introducerea datelor si alegerea Anova: Single Factor din submeniul Data Analysis.
13
Figura 3. Fereastra de dialog pentru Anova: Single Factor.
Output-ul consta din doua tabele: primul contine rezultatele obtinute in urma prelucrarii datelor din
fiecare grupa, iar cel de-al doilea este tabelul ANOVA.
SUMMARY
2
Groups Count ( ni ) Sum Average ( y i ) Variance ( si )
8
Grupa 1
(firme mici)
8 n1 240 y
j 1
1, j 30 y1 18.2857 s1
2
8
Grupa 2
(firme mijlocii)
5 n2 160 y
j 1
2, j 32 y 2 17.5 s 2
2
7
Grupa 3
(firme mari)
7 n3 308 y
j 1
3, j 44 y 3 15.3333 s3
2
14
ANOVA
Source of
Variation SS df MS F P-value F crit
Observatii:
P-value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului pentru care ipoteza nula H 0 poate fi respinsa, adica aria subgraficului
densitatii repartitiei Fisher la dreapta lui Fcalc, vezi, Figura 1.
Daca este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
daca P-value > , adica Fcalc < Fcritic, atunci nu exista suficiente motive sa
respingen ipoteza nula H0, adica factorul
de grupare nu influenteaza semnificativ
variatia variabilei numerice de interes;
daca P-value < , adica Fcalc > Fcritic, atunci se respinge ipoteza nula H0 si,
prin urmare, se accepta ipoteza
alternativa H1, adica rezultatul este
semnificativ statistic, ceea ce inseamna
ca factorul de grupare influenteaza
semnificativ variatia lui Y.
Observaţie:
SSB
Coeficientul de determinaţie R 2 0;1, exprimat procentual, arată proporţia din
SST
variaţia totală a variabilei numerice de interes Y explicată de factorul de grupare X, la nivelul
eşantionului.
SSB 808.8
Astfel, la nivelul eşantionului, R 2 0.7361 , adică 73,61% din variaţia totală
SST 1098.8
a duratei de timp de la angajare pana la prima promovare a unui salariat este explicată de
marimea companiei producătoare de tehnologie de vârf, restul de 26,39% din variaţia totală a
duratei de timp fiind influenţată de alţi factori.
15
În rândul elevilor de liceu din capitală s-a realizat un sondaj pe un eşantion de 570
persoane. În urma centralizării datelor s-a obţinut repartiţia bidimensională prezentată în
tabelul de mai jos. Aplicând tehnica de analiză dispersională ANOVA să se pună în evidenţă
influenţa variabilei factoriale “Clasa” asupra variabilei “nr. ore petrecute la calculator”.
Pentru a putea calcula tipurile de variaţie este necesar ca mai întâi să se calculeze toate
tipurile de medii.
J j
Mediile grupelor se calculează după relaţia xi x j nij nij astfel:
j 1 j 1
60 120 100 0 280
x1 =2,33h/zi
120 120
40 180 200 70 490
x2 =3,27h/zi
150 150
10 60 400 210 680
x3 =4,86h/zi
140 140
20 270 200 70 560
x4 =3,5h/zi
160 160
16
Calculăm tipurile de variaţie.
k
SSB ni. xi x =170,78+10,11+247,95,0,11=428,98
2
i 1
k ni
SSW x j xi 2 nij =266,67+469,33+357,14+360=1453,14
i 1 j 1
df1=4-1=3
df2=570-4=566
428,98 3
F MSSB = =55,57
MSSW 1453,14 566
F 0,05; df 1 3; df 2 566 =2,62
Deoarece valoarea calculată a testului este mai mare decât cea teoretică se respinge ipoteza
egalităţii mediilor.
Test de autoevaluare 1
Un producător de sucuri de mere a realizat un nou produs: concentrat lichid. Acest
nou produs are următoarele avantaje faţă de vechiul produs: este mai practic de utilizat,
are o calitate cel puţin la fel de bună şi cost semnificativ mai mic. Pentru a decide pe
care dintre cele trei avantaje să-şi axeze strategia de marketing, directorul acestui
departament a realizat un studiu în trei oraşe. În oraşul A campania de publicitate s-a
axat pe uşurinţa de utilizare a noului produs. În oraşul B campania de publicitate s-a
axat pe calitatea noului produs. În oraşul C campania de publicitate s-a axat pe preţul
mai mic al noului produs. În toate cele 3 oraşe s-a înregistrat numărul de bucăţi vândute
în 20 de săptămâni.
Vanzari
Tip
Unităţi vândute
campanie
Uşurința 529 658 793 514 663 719 711 606 461 529
folosirii 498 663 604 495 485 557 353 557 542 614
Calitate 804 630 774 717 679 604 620 697 706 615
492 719 787 699 572 523 584 634 580 624
Preţ 672 531 443 596 602 502 659 689 675 512
691 733 698 776 561 572 469 581 679 532
17
Directorul de marketing ar dori să ştie dacă există diferenţe semnificative între
numărul de bucăţi vândute, în medie pe săptămână, în cele trei oraşe după terminarea
campaniei de publicitate, considerand un nivel de semnificatie de 5%.
Test de autoevaluare 1
Problema 1. Rezolvare:
o Unitatea statistica este noul produs concentrat lichid al respectivului producator de sucuri.
o Caracteristicile urmarite sunt:
X - variabila ce arata tipul de publicitate pe care s-a axat campania de promovare a noului produs;
- variabila nenumerica avand r=3 categorii sau variante de raspuns: avantaje legate de usurinta
folosirii, avantaje legate de calitate si avantaje legate de pret;
- aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe si anume:
Grupa 1 (grupa produselor promovate in orasul A unde campania de publicitate s-a axat pe
usurinta folosirii),
Grupa 2 (grupa produselor promovate in orasul B unde campania de publicitate s-a axat pe
calitate),
Grupa 3 (grupa produselor promovate in orasul C unde campania de publicitate s-a axat pe
pret);
- astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.
si
Y - variabila ce arata numarul de bucati vandute intr-o saptamana;
- variabila numerica de interes.
o
Fie Y1 ~ N 1 , 1 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul A – Grupa 1,
2
o Fie
Y2 ~ N 2 , 22 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul B – Grupa 2,
unde 2 este media variabilei la nivelul intregii grupe.
In Grupa 2 se realizeaza o selectie de volum n2 20 saptamani pentru care se inregistreaza valorile
variabilei Y2 – numarul de bucati vandute:
{ y 2 , 1 804 , y 2 , 2 630 , ..., y 2 , 20 y 2 , n2 624 } bucati.
Media de selectie de grupa este
18
y 2, 1 y 2, 2 ... y 2, n2 13060
y2 653 bucati/saptamana,
n2 20
iar dispersia de selectie de grupa este
y 2, 1
2 2
y 2 y 2, 2 y 2 ... y 2, n2 y 2 2
s
2
2 7238,105 .
n2 1
o Fie
Y3 ~ N 3 , 32 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul C – Grupa 3,
unde 3 este media variabilei la nivelul intregii grupe.
In Grupa 3 se se realizeaza o selectie de volum n3 20 firme pentru care se inregistreaza valorile
variabilei Y3 – numarul de bucati vandute:
{ y3, 1 672, y3, 2 531, ... , y3, 20 y3 n2 532 } bucati.
Media de selectie de grupa este
y 3, 1 y 3, 2 ... y 3, n3 12173
y3 608,65 bucati/saptamana,
n3 20
iar dispersia de selectie de grupa este
y 3, 1
2 2
y 3 y 3, 2 y 3 ... y 3, n3 y 3
2
s
2
3 8670,239 .
n3 1
19
Anova: Single Factor
SUMMARY
Groups Count Sum Average Variance
Grupa 1 Usurinta folosirii 20 11551 577,55 10775
Grupa 2 Calitate 20 13060 653 7238,105
Grupa 3 Pret 20 12173 608,65 8670,239
20
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 57512,23 2 28756,12 3,233041 0,046773 3,158846
Within Groups 506983,5 57 8894,447
Total 564495,7 59
8. Lucrare de verificare
21