Sunteți pe pagina 1din 8

lOMoARcPSD|4922868

Problema rezolvata analiza dispersionala ( Anova)

Statistica Statistics (Academia de Studii Economice din București)

StuDocu nu este sponsorizat sau avizat de nicio universitate


Desc?rcat de alina mihai (alina@germino.ro)
lOMoARcPSD|4922868

Csie, Statistica, anul I, 2017-2018, Problema rezolvata - ANOVA

Analiza dispersionala (ANOVA) - Problema rezolvata

Un cercetător face un studiu asupra unor firme, privind şansele pe care acestea le oferă
tinerilor angajaţi de a promova repede şi de a avansa în carieră. Pentru aceasta el a cuprins în
studiu un număr de 20 de companii producătoare de tehnologie de vârf şi a înregistrat timpul
scurs de la angajarea iniţială a unui salariat în firmă până la prima promovare a acestuia. Firmele
au fost grupate după mărime, iar datele înregistrate sunt:
Mărimea firmelor Număr de săptămâni de la angajare până la prima promovare
Mici 30; 26; 30; 32; 38; 24; 32; 28;
Medii 34; 32; 25; 36; 33
Mari 47; 41; 43; 48; 40; 49; 40.
Se cere să se determine, folosind testul F de analiză dispersională, dacă variaţia timpului
scurs până la prima promovare este influenţată semnificativ de mărimea firmei (nivel de
semnificatie 5%).
Rezolvare:
o Populatia statistica este multimea companiilor producatoare de tehnologie de varf.
o Unitatea statistica este o companie (firma).
o Caracteristicile urmarite sau variabilele de interes sunt:
X - variabila ce arata marimea unei firme;
- variabila nenumerica avand r=3 categorii sau variante: firme mici, firme mijlocii
si firme mari: aceste categorii ale variabilei X vor determina impartirea populatiei
statistice in r =3 grupe si anume:
Grupa 1 (grupa firmelor mici),
Grupa 2 (grupa firmelor mijlocii),
Grupa 3 (grupa firmelor mari);
- astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.
si
Y - variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare
a unui salariat al unei firme producatoare de tehnologie de varf;
- variabila numerica de interes.

 
o Fie Y1 ~ N 1 ,  12 variabila ce arata durata de timp, in saptamani, de la angajare la prima
promovare a unui salariat al unei firme mici – Grupa 1, unde 1 este media variabilei la
nivelul intregii grupe.
Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1  8 firme
pentru care se inregistreaza valorile variabilei Y1:
{ y1,1  30, y1, 2  26, y1,3  30, y1, 4  32,
y1,5  38, y1, 6  24, y1, 7  32, y1,8  y1,n1  28 }
y1,1  y1, 2  ...  y1,n1 240
Media de selectie de grupa este y1    30 saptamani,
n1 8
iar dispersia de selectie de grupa este

y1,1  y1 2  y1,2  y1 2  ...  y1,n1  y1 2
s1 
2
 18,2857 .
n1  1

Desc?rcat de alina mihai (alina@germino.ro)


lOMoARcPSD|4922868

Csie, Statistica, anul I, 2017-2018, Problema rezolvata - ANOVA

o Fie Y2 ~ N  2 ,  22  variabila ce arata durata de timp, in saptamani, de la angajare la prima


promovare pentru un salariat al unei firme mijlocii – Grupa 2, unde  2 este media
variabilei la nivelul intregii grupe.
Din Grupa 2 (grupa firmelor mijlocii) se selecteaza un subesantion de volum n2  5 firme
pentru care se inregistreaza valorile variabilei Y2:
{ y2,1  34, y2, 2  32, y2,3  25, y2, 4  36, y2,5  y2,n2  33} .
y 2,1  y 2, 2  ...  y 2,n2 160
Media de selectie de grupa este y 2    32 saptamani,
n2 5
iar dispersia de selectie de grupa este

y 2,1  y 2 2  y 2,2  y 2 2  ...  y 2,n2  y 2 2
s2 
2
 17,5 .
n2  1

 
o Fie Y3 ~ N 3 ,  32 variabila ce arata durata de timp, in saptamani, de la angajare la prima
promovarepentru un salariat al unei firme mari – Grupa 3, unde  3 este media variabilei
la nivelul intregii grupe.
Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3  7 firme
pentru care se inregistreaza valorile variabilei Y3:
{ y3,1  47, y3,2  41, y3,3  43, y3,4  48, y3,5  40, y3,6  49, y3,7  y3,n2  40 } .
y3,1  y3, 2  ...  y3,n3 308
Media de selectie de grupa este y3    44 saptamani,
n3 7
iar dispersia de selectie de grupa este

s3 
2

y3,1  y3 2  y3,2  y3 2  ...  y3,n3  y3 
2
 15,3333 .
n3  1

o Media totala la nivelul intregului esantion de volum n  n1  n2  n3  20 firme este


y  n  y 2  n2  y3  n3 30  8  32  5  44  7
y 1 1 
n1  n2  n3 20
 y  35,4 saptamani.

o Ipotezele statistice sunt:


H 0 : 1   2   3 (factorul de grupare – marimea companiei nu influenteaza semnificativ
variatia duratei de timp pana la prima promovare a unui salariat)
H1 : k , l  1,2,3, k  l astfel incat  k   l (cel putin doua medii sunt semnificativ
diferite, adica factorul de grupare – marimea companiei influenteaza
semnificativ variatia duratei de timp pana la prima promovare a unui
salariat)

o Statistica testului este


SSB
 r  1  Fisherr 12, n  r 17  .
MSB
F
MSW SSW
nr

o Pe baza datelor de selectie calculam:


2

Desc?rcat de alina mihai (alina@germino.ro)


lOMoARcPSD|4922868

Csie, Statistica, anul I, 2017-2018, Problema rezolvata - ANOVA

 Variatia dintre grupe


SSB   y1  y 2  n1   y 2  y 2  n2   y3  y 2  n3 
 30  35,4  8  32  35,4  5  44  35,4  7
2 2 2

 SSB  808,8
 Variatia din interiorul grupelor
SSW  n1  1  s12  n2  1  s 22  n3  1  s32
 8  1  18,2857  5  1  17,5  7  1  15,3333
 SSW  290
 Variatia totala
SST  SSB  SSW
 808,8  290
 SST  1098,8
 Dispersia factoriala corectata (cu gradele de libertate r  1  2 )
SSB 808,8
MSB  
r 1 2
 MSB  404,4
 Dispersia reziduala corectata (cu gradele de libertate n  r  17 )
SSW 290
MSW  
nr 17
 MSW  17,0588
 Valoarea calculata a statisticii testului este
MSB 404,4
Fcalc  
MSW 17,0588
 Fcalc  23,7062

o Nivelul de semnificatie al testului este   0,05 ,


iar valoarea critica a testului este Fcritic  F ; r 1, nr  F0,05; 2,17  3,59 ,
deci regiunea critica este Rc  Fcritic ;  3,59;    sau Rc : F  Fcritic .
Observatie: Valoarea critica a testului Fisher se poate obtine in excel 2010 astfel:
Fcritic = Fα; r-1,n-r = F.INV.RT(α, r-1, n-r)

o Cum Fcalc  Fcritic  Fcalc  Rc , respingem ipoteza nula H0 si acceptam ipoteza


alternativa H1, concluzionand ca datele de selectie sustin ipoteza alternativa, adica
marimea companiei influenteaza semnificativ variatia duratei de timp pana la prima
promovare pentru un salariat, la un nivel de semnificatie de 5%.

Desc?rcat de alina mihai (alina@germino.ro)


lOMoARcPSD|4922868

Csie, Statistica, anul I, 2017-2018, Problema rezolvata - ANOVA

Fig.1. Regiunea critica a testului F.

o Calculele pot fi organizate in urmatorul tabel ANOVA


MS mean of
SS sum
df – degrees
Source (sum of squares
of freedom
of variation of squares (dispersiile F Fcritic
(gradele de
(Sursa variatiei) (suma corectate cu
libertate)
patratelor) gradele de
libertare)
Between groups SSB MSB
(Variatia explicata MSB  Fcalc  Fcritic=F0,05; 2, 17
de factorul
SSB = 404,4 r-1 = 3 r 1 MSW =3,59
de grupare X) = 404,4 =23,0762
SSW
Within Groups MSW 
(Variatia reziduala)
SSW = 290 n-r = 17 nr
=17,0588
SST=SSB+SSW
Total n-1 = 19
= 1098,8

Problema poate fi rezolvata in Excel dupa cum urmeaza:


 Intr-o foaie de lucru se introduc datele din cele trei subesantioane pe coloane, asa cum
se arata in Figura 2;
 In Excel 2003, din meniul principal Tools, submeniul Data Analysis, se alege Anova:
Single Factor;
 In Excel 2007, Excel 2010 sau Excel 2013, din meniul principal Data, submeniul Data
Analysis, se alege Anova: Single Factor;

Desc?rcat de alina mihai (alina@germino.ro)


lOMoARcPSD|4922868

Csie, Statistica, anul I, 2017-2018, Problema rezolvata - ANOVA

Figura 2. Introducerea datelor si alegerea Anova: Single Factor din submeniul Data Analysis.

 Fereastra de dialog este prezentata in Figura 3.

Figura 3. Fereastra de dialog pentru Anova: Single Factor.

Desc?rcat de alina mihai (alina@germino.ro)


lOMoARcPSD|4922868

Csie, Statistica, anul I, 2017-2018, Problema rezolvata - ANOVA

 Output-ul consta din doua tabele: primul contine rezultatele obtinute in urma
prelucrarii datelor din fiecare grupa, iar cel de-al doilea este tabelul ANOVA.

Anova: Single Factor

SUMMARY
2
Groups Count ( n i ) Sum Average ( yi ) Variance ( si )
8
Grupa 1
(firme mici)
8  n1 240  y
j 1
1, j 30  y1 18.2857  s1
2

8
Grupa 2
(firme mijlocii)
5  n2 160  y
j 1
2, j 32  y2 17.5  s 2
2

7
Grupa 3
(firme mari)
7  n3 308  y
j 1
3, j 44  y3 15.3333  s3
2

ANOVA

Source of
Variation SS df MS F P-value F crit
Between Groups 808.8=SSB 2=r-1 404.4=MSB 23.7062=Fcalc 1.21E-05 3.59
Within Groups 290=SSW 17=n-r 17.0588=MSW
Total 1098.8=SST 19=n-1

Observatii:
P-value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului pentru care ipoteza nula H 0 poate fi respinsa, adica aria subgraficului
densitatii repartitiei Fisher la dreapta lui Fcalc, vezi, Figura 1.

Daca  este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
 daca P-value >  , adica Fcalc < Fcritic,
atunci nu exista suficiente motive
sa respingen ipoteza nula H0, adica
factorul de grupare nu influenteaza
semnificativ variatia variabilei numerice
de interes;
 daca P-value <  , adica Fcalc > Fcritic, atunci se respinge ipoteza nula H0 si, prin
urmare, se accepta ipoteza alternativa H1,
adica rezultatul este semnificativ statistic,
ceea ce inseamna ca factorul de grupare
influenteaza semnificativ variatia lui Y.

In cazul nostru, nivelul de semnificatie al testului este  =0,05,


iar P-value = 1,21E-5 = 1,21 x 10-5 = 0,0000121,
deci P-value <  , prin urmare respingem H0 si acceptam H1, ceea ce înseamnă că factorul de
grupare X, adică marimea companiei, influențează semnificativ variația variabilei numerice de
interes Y, durata de timp de la angajare pana la prima promovare a unui salariat, pentru un nivel
de semnificație de 5%,.

Desc?rcat de alina mihai (alina@germino.ro)


lOMoARcPSD|4922868

Csie, Statistica, anul I, 2017-2018, Problema rezolvata - ANOVA

Observație:
 0;1 , exprimat procentual, arată proporția din
SSB
Coeficientul de determinație R 2 
SST
variația totală a variabilei numerice de interes Y explicată de factorul de grupare X, la nivelul
eșantionului.
SSB 808.8
Astfel, la nivelul eșantionului, R 2    0.7361 , adică 73,61% din variația totală
SST 1098 .8
a duratei de timp de la angajare pana la prima promovare a unui salariat este explicată de
marimea companiei producătoare de tehnologie de vârf, restul de 26,39% din variația totală a
duratei de timp fiind influențată de alți factori.

Observatii:

In Excel 2013, submeniul Data Analysis se instaleaza astfel:


- intr-o foie obisnuita de lucru, dati click pe File
- apoi alegeți Options și dați click pe Add-Ins
- din partea dreaptă a ferestrei selectați Analysis ToolPack și dați click pe butonul Go
- apare o noua fereastra in care bifati Analysis ToolPack si de asemenea Analysis
ToolPack VBA, iar apoi click pe OK
- se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul
principal Data

In Excel 2007, submeniul Data Analysis se instaleaza astfel:


- intr-o foie obisnuita de lucru, dati click pe Office Button (cerculetul stanga sus)
- click pe Excel Options
- apoi click pe Add Ins
- selectati cu un singur click Analisys Toolpack din partea deapta a ferestrei de la Add Ins
si apoi click GO
- apare o noua fereastra in care bifati Analysis ToolPack si de asemenea Analysis
ToolPack VBA, iar apoi click pe OK
- se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul principal
Data.

In Excel 2003, submeniul Data Analysis se instaleaza astfel:


- intr-o foie obisnuita de lucru, din meniul principal Tools, alegeti Add Ins
- apare o fereastra in care bifati Analysis ToolPack si de asemenea Analysis ToolPack
VBA, iar apoi click pe OK
- se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul principal
Tools.

Desc?rcat de alina mihai (alina@germino.ro)

S-ar putea să vă placă și