Sunteți pe pagina 1din 18

Analiza dispersionala ANOVA Problema rezolvata Un cercettor face un studiu asupra unor firme, privind ansele pe care acestea

a le ofer tinerilor angajai de a promova repede i de a avansa n carier. Pentru aceasta el a cuprins n studiu un numr de 20 de companii productoare de tehnologie de vrf i a nregistrat timpul scurs de la angajarea iniial a unui salariat n firm pn la prima promovare a acestuia. Firmele au fost grupate dup mrime, iar datele nregistrate sunt: Mrimea firmelor Mici Medii Mari Numr de promovare 30; 26; 30; 34; 32; 25; 47; 41; 43; sptmni de la angajare pn la prima 32; 38; 24; 32; 28; 36; 33 48; 40; 49; 40.

Se cere s se determine, folosind testul F de analiz dispersional, dac variaia timpului scurs pn la prima promovare este influenat semnificativ de mrimea firmei? (nivel de semnificatie 5%) Rezolvare: Populatia statistica este multimea companiilor producatoare de tehnologie de varf. o Unitatea statistica este o companie (firma). o Caracteristicile urmarite sunt: o X - variabila ce arata marimea unei firme; - variabila nenumerica avand r=3 categorii sau variante: firme mici, firme mijlocii si firme mari: aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe si anume: Grupa 1 (grupa firmelor mici), Grupa 2 (grupa firmelor mijlocii), Grupa 3 (grupa firmelor mari); - astfel, variabila X, marimea firmei, se mai numeste si factor de grupare. - variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a unui salariat al unei firme producatoare de tehnologie de varf; - variabila numerica de interes.

si Y

o Fie Y1 ~ N 1 , 12 variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a unui salariat al unei firme mici Grupa 1, unde 1 este media variabilei la nivelul intregii grupe. Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1 = 8 firme pentru care se inregistreaza valorile variabilei Y1:

{ y1,1 = 30, y1,2 = 26, y1,3 = 30, y1,4 = 32, y1,5 = 38, y1,6 = 24, y1,7 = 32, y1,8 = y1,n1 = 28 }
Media de selectie de grupa este y1 =
y1,1 + y1, 2 + ... + y1,n1 n1 = 240 = 30 saptamani, 8

iar dispersia de selectie de grupa este ( y1,1 y1 ) 2 + ( y1,2 y1 ) 2 + ... + y1,n1 y1 2 s1 = n1 1

)2

= 18,2857 .

2 o Fie Y2 ~ N 2 , 2 variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare pentru un salariat al unei firme mijlocii Grupa 2, unde 2 este media variabilei la nivelul intregii grupe. Din Grupa 2 (grupa firmelor mijlocii) se selecteaza un subesantion de volum n2 = 5 firme pentru care se inregistreaza valorile variabilei Y2: { y 2,1 = 34, y 2, 2 = 32, y 2,3 = 25, y 2, 4 = 36, y 2,5 = y 2,n2 = 33} . y 2,1 + y 2, 2 + ... + y 2,n2 160 = = 32 saptamani, Media de selectie de grupa este y 2 = n2 5 iar dispersia de selectie de grupa este ( y 2,1 y 2 ) 2 + ( y 2,2 y 2 ) 2 + ... + y 2,n2 y 2 2 2 s2 = = 17,5 . n2 1

2 o Fie Y3 ~ N 3 , 3 variabila ce arata durata de timp, in saptamani, de la angajare la prima promovarepentru un salariat al unei firme mari Grupa 3, unde 3 este media variabilei la nivelul intregii grupe. Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3 = 7 firme pentru care se inregistreaza valorile variabilei Y3: { y 3,1 = 47, y3, 2 = 41, y 3,3 = 43, y3, 4 = 48, y 3,5 = 40, y3, 6 = 49, y3, 7 = y 3,n2 = 40 } . y 3,1 + y 3, 2 + ... + y 3,n3 308 = = 44 saptamani, Media de selectie de grupa este y3 = n3 7 iar dispersia de selectie de grupa este ( y3,1 y3 ) 2 + ( y3,2 y3 ) 2 + ... + y3,n3 y3 2 2 s3 = = 15,3333 . n3 1

o Media totala la nivelul intregului esantion de volum n = n1 + n2 + n3 = 20 firme este y n + y n + y 3 n3 30 8 + 32 5 + 44 7 y= 1 1 2 2 = n1 + n2 + n3 20 y = 35,4 saptamani.

o Ipotezele statistice sunt:


H 0 : 1 = 2 = 3 (factorul de grupare marimea companiei nu influenteaza

semnificativ variatia duratei de timp pana la prima promovare a unui salariat) H 1 : k , l {1,2,3} , k l astfel incat k l (cel putin doua medii sunt semnificativ diferite, adica factorul de grupare marimea companiei influenteaza semnificativ variatia duratei de timp pana la prima promovare a unui salariat) o Statistica testului este
SSB MSB F= = r 1 Fisher( r 1=2, n r =17 ) . SSW MSW n r

o Pe baza datelor de selectie calculam: Variatia dintre grupe

SSB = ( y1 y ) 2 n1 + ( y 2 y ) 2 n2 + ( y 3 y ) 2 n3 =

= ( 30 35,4 ) 2 8 + ( 32 35,4) 2 5 + ( 44 35,4 ) 2 7 SSB = 808,8

2 2 2 SSW = ( n1 1) s1 + ( n 2 1) s 2 + ( n3 1) s3

Variatia din interiorul grupelor

SSW = 290 Variatia totala

= ( 8 1) 18,2857 + ( 5 1) 17,5 + ( 7 1) 15,3333

SST = SSB + SSW = 808,8 + 290 SST =1098,8

Dispersia factoriala corectata (cu gradele de libertate r 1 = 2 )


SSB 808,8 = r 1 2

MSB =

MSB = 404,4

Dispersia reziduala corectata (cu gradele de libertate n r = 17 )


SSW 290 = n r 17

MSW =

MSW = 17,0588

Valoarea calculata a statisticii testului este

MSB 404,4 = MSW 17,0588 Fcalc = 23,7062 Fcalc =

o Nivelul de semnificatie al testului este = 0,05 , iar valoarea critica a testului este Fcritic = F; r 1, n r = F0,05; 2,17 = 3,59 , deci regiunea critica este Rc = ( Fcritic ;+) = ( 3,59; + ) .

o Cum Fcalc > Fcritic Fcalc Rc , respingem ipoteza nula H0 si acceptam ipoteza alternativa H1, concluzionand ca la un nivel de semnificatie de 5% si pe baza acestor date de selectie, marimea companiei influenteaza semnificativ variatia duratei de timp pana la prima promovare pentru un salariat. o Calculele pot fi organizate in urmatorul tabel ANOVA Source of variation (Sursa variatiei) Between groups (Factorul de grupare X) Within Groups (Reziduala) Total SS (sum of squares (suma patratelor) SSB = 404,4 SSW = 290 SST=SSB+SS W = 1098,8 df degrees of freedom (gradele de libertate) r-1 = 3 n-r = 17 n-1 = 19 MS mean of sum of squares (dispersiile corectate)
MSB =

F
MSB MSW

Fcritic

= 404,4

SSB r 1

Fcalc =

=23,0762

Fcritic=F0,05; 2, 17 =3,59

SSW MSW = n r

=17,0588

Problema poate fi rezolvata in Excel dupa cum urmeaza: Intr-o foaie de lucru se introduc datele din cele trei subesantioane pe coloane, asa cum apare in Figura 1; In Excel 2003, din meniul principal Tools, submeniul Data Analysis, se alege Anova: Single Factor; In Excel 2007, din meniul principal Data, submeniul Data Analysis, se alege Anova: Single Factor;

Figura 1. Introducerea datelor si alegerea Anova: Single Factor din submeniul Data Analysis. Fereastra de dialog este prezentata in Figura 2. 4

Figura 2. Fereastra de dialog pentru Anova: Single Factor. Output-ul consta din doua tabele: primul contine rezultatele obtinute in urma prelucrarii datelor din fiecare grupa, iar cel de-al doilea este tabelul ANOVA.
Anova: Single Factor SUMMARY Groups Grupa 1 (firme mici) Grupa 2 (firme mijlocii) Grupa 3 (firme mari) Count ( ni ) 8= Sum 240 Average ( y i ) 30 = y1 32 = y 2 44 = y 3 Variance ( si2 )
2 18.2857 = s1

n1

= y1 j
j= 1

5 = n2 7 = n3

160 = y
j =1

2j

2 17.5 = s 2

308

= y3 j
j= 1

2 15.3333 = s3

ANOVA Source of Variation Between Groups SS 808.8=SSB df 2=r-1 MS 404.4=MSB 17.0588=MS Within Groups 290=SSW 17=n-r F 23.7062=Fcalc P-value 1.21E-05 F crit 3.59

Total

1098.8=SST

19=n-1

Observatii: In Excel 2007, submeniul Data Analysis se instaleaza astfel: - intr-o foie obisnuita de lucru, dati click pe Office Button (cerculetul stanga sus) - click pe Excel Options - apoi click pe Add Ins - selectati cu un singur click Analisys Toolpack din partea deapta a ferestrei de la Add Ins si apoi click GO - apare o noua fereastra in care bifati Analysis ToolPack si de asemenea Analysis ToolPack VBA, iar apoi click pe OK - se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul principal Data. In Excel 2003, submeniul Data Analysis se instaleaza astfel: - intr-o foie obisnuita de lucru, din meniul principal Tools, alegeti Add Ins - apare o fereastra in care bifati Analysis ToolPack si de asemenea Analysis ToolPack VBA, iar apoi click pe OK - se instaleaza aceasta optiune si va aparea ca submeniul Data Analysis din meniul principal Tools.

Alte probleme analiza dispersionala (ANOVA)

Problema 1. Un productor de sucuri de mere a realizat un nou produs: concentrat lichid. Acest nou produs are urmtoarele avantaje fa de vechiul produs: este mai practic de utilizat, are o calitate cel puin la fel de bun i cost semnificativ mai mic. Pentru a decide pe care dintre cele trei avantaje s-i axeze strategia de marketing, directorul acestui departament a realizat un studiu n trei orae. n oraul A campania de publicitate s-a axat pe uurina de utilizare a noului produs. n oraul B campania de publicitate s-a axat pe calitatea noului produs. n oraul C campania de publicitate s-a axat pe preul mai mic al noului produs. n toate cele 3 orae s-a nregistrat numrul de buci vndute n 20 de sptmni. Uurina folosirii: Calitate: Pre: 529 498 804 492 672 691 658 663 630 719 531 733 793 604 774 787 443 698 514 495 717 699 596 776 663 485 679 572 602 561 719 557 604 523 502 572 711 353 620 584 659 469 606 557 697 634 689 581 461 542 706 580 675 679 529 614 615 624 512 532

Directorul de marketing ar dori s tie dac exist diferene semnificative ntre numrul de buci vndute, n medie pe sptmn, n cele trei orae dup terminarea campaniei de publicitate, considerand un nivel de semnificatie de 5%. (Se cere rezolvarea in Excel).

Problema 2. Directorul unei companii pentru fabricarea mobilei de birou, crede ca productivitatea lucratorilor depinde, printre altele si de succesiunea operatiilor pe care trebuie sa le execute muncitorul. Pentru producerea unui birou ergonomic sunt considerate doua variante de realizarea a acestuia ( din punctul de vedere al succesiunii operatiilor). Pentru a decide care varianta este mai buna au fost selectati aleator 50 de muncitori care asamblau birouri si au fost inregistrati timpii de asamblare. Timpii de asamblare (ore) Varianta A 6,8; 5,0; 7,9; 5,2; 7,6; 5,0; 5,9; 5,2; 6,5; 7,4; 6,1; 6,2; 7,1; 4,6; 6,0; 7,1; 6,1; 5,0; 6,3; 7,0; 6,4; 6,1; 6,6; 7,7; 6,4; 5,2; 6,7 Varianta B 5,7; 6,6; 8,5; 6,5; 5,9; 6,7; 6,6; 4,2; 4,2; 4,5; 5,3; 7,9; 7,0; 5,9; 7,1; 5,8; 7,0; 5,7; 5,9; 4,9; 5,3; 4,2; 7,1 Directorul doreste sa afle daca pentru un nivel de semnificatie de 5%, timpii de asamblare in cele doua variate difera. (Se cere rezolvarea in Excel). Problema 3. Pentru 7 magazine situate n cartierul A al unui ora si 5 magazine situate in cartierul B al aceluiasi oras, se cunosc valorile vnzrilor (mil. lei). In urma aplicarii metodei de analiza dispersionala ANOVA si a prelucrarii datelor cu Excel, s-au obtinut urmatoarele rezultate:
ANOVA Source of Variation Between Groups Within Groups Total SS . . .. df 1 . MS . 7,891429 F 17,96283 F crit 4,964603

Se cere s se determine datele lipsa si sa se interpreteze rezultatele prelucrarii. Influenteaza cartierul in care sunt amplasate magazinele variatia vanzarilor in mod semnificativ? Testati pentru un nivel de semnificatie de 5%. Problema 4. Managerul unui lan de supermarketuri dorete s deschid un nou magazin n unul din cele 4 cartiere principale ale unui oras. Unul din factorii importanti luati in considerare in luarea deciziei de amplasare este venitul mediu lunar al rezidentilor fiecarui cartier. Se selecteaz astfel un eantion de 80 gospodarii i se nregistreaz veniturile (mii lei). n urma prelucrrii datelor in Excel s-au obinut rezultatele:
Groups Cartierul A Cartierul B Cartierul C Cartierul D Count 19 24 16 21 Sum 44,2 78,3 33,6 57,3 Average 2,33 3,26 2,10 2,73 Varianc e 0,24 0,33 0,17 0,46

Testai, folosind testul Fisher, pentru o probabilitate de 95% (Fcritic = 2,73) dac exist diferene semnificative ntre veniturile gospodariilor, diferene generate de cartierul de reziden.

Problema 1. Rezolvare: o Unitatea statistica este noul produs concentrat lichid al respectivului producator de sucuri. o Caracteristicile urmarite sunt: X - variabila ce arata tipul de publicitate pe care s-a axat campania de promovare a noului produs; - variabila nenumerica avand r=3 categorii sau variante de raspuns: avantaje legate de usurinta folosirii, avantaje legate de calitate si avantaje legate de pret; - aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe si anume: Grupa 1 (grupa produselor promovate in orasul A unde campania de publicitate s-a axat pe usurinta folosirii), Grupa 2 (grupa produselor promovate in orasul B unde campania de publicitate s-a axat pe calitate), Grupa 3 (grupa produselor promovate in orasul C unde campania de publicitate s-a axat pe pret); - astfel, variabila X, marimea firmei, se mai numeste si factor de grupare. si Y - variabila ce arata numarul de bucati vandute intr-o saptamana; - variabila numerica de interes.

o Fie Y1 ~ N 1 , 12 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul A Grupa 1, unde 1 este media variabilei la nivelul intregii grupe. In Grupa 1 se realizeaza o selectie de volum n1 = 20 saptamani pentru care se inregistreaza valorile variabilei Y1 numarul de bucati vandute: { y1, 1 = 529, y1, 2 = 658, ..., y1, 20 = y1, n = 614 } bucati. Media de selectie de grupa este y1, 1 + y1, 2 + ... + y1, n1 11551 y1 = = = 577,55 bucati/saptamana, n1 20 iar dispersia de selectie de grupa este ( y1, 1 y1 ) 2 + ( y1, 2 y1 ) 2 + ... + ( y1, n1 y1 ) 2 2 s1 = = 10775 . n1 1
1

2 o Fie Y2 ~ N 2 , 2 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul B Grupa 2, unde 2 este media variabilei la nivelul intregii grupe. In Grupa 2 se realizeaza o selectie de volum n2 = 20 saptamani pentru care se inregistreaza valorile variabilei Y2 numarul de bucati vandute: { y2 , 1 = 804, y2 , 2 = 630, ..., y2 , 20 = y2 , n = 624} bucati. Media de selectie de grupa este y 2, 1 + y 2, 2 + ... + y 2, n2 13060 y2 = = = 653 bucati/saptamana, n2 20
2

iar dispersia de selectie de grupa este ( y 2, 1 y 2 ) 2 + ( y 2, 2 y 2 ) 2 + ... + ( y 2, n2 y 2 ) 2 2 s2 = = 7238,105 . n2 1


2 o Fie Y3 ~ N 3 , 3 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul C Grupa 3, unde 3 este media variabilei la nivelul intregii grupe. In Grupa 3 se se realizeaza o selectie de volum n3 = 20 firme pentru care se inregistreaza valorile variabilei Y3 numarul de bucati vandute: { y 3, 1 = 672, y 3, 2 = 531, ... , y3, 20 = y 3 n2 = 532 } bucati. Media de selectie de grupa este y 3, 1 + y 3, 2 + ... + y 3, n3 12173 y3 = = = 608,65 bucati/saptamana, n3 20 iar dispersia de selectie de grupa este ( y3, 1 y3 ) 2 + ( y3, 2 y3 ) 2 + ... + ( y3, n3 y3 ) 2 2 s3 = = 8670,239 . n3 1

o Media totala la nivelul intregului esantion de volum n = n1 + n2 + n3 = 60 este y n + y 2 n2 + y 3 n3 577,55 20 + 653 20 + 608,65 20 y= 1 1 = n1 + n2 + n3 60 y = 613,06 bucati/saptamana. o Ipotezele statistice sunt:
H 0 : 1 = 2 = 3 (factorul de grupare tipul de publicitate pe care s-a axat campania

de promovare a noului produs nu influenteaza semnificativ variatia numarului de bucati vandute intr-o saptamana)
H 1 : k , l {1,2,3} , k l astfel incat k l (cel putin doua medii sunt semnificativ diferite, adica factorul de grupare tipul de publicitate influenteaza semnificativ variatia numarului de bucati vandute intr-o saptamana)

o Pragul de semnificatie al testului este = 0,05 . o Statistica testului este


SSB MSB F= = r 1 Fisher( r 1=2, nr =57 ) . SSW MSW n r

o Introducerea datelor intr-o foaie de lucru in Excel, apelarea optiunii Data Analysis si Anova: Single Factor, precum si rezultatele prelucrarii datelor sunt prezentate in imaginile de mai jos.

Anova: Single Factor SUMMARY Groups

Count

Sum

Averag

Variance

10

Grupa 1 Usurinta folosirii Grupa 2 Calitate Grupa 3 Pret

20 20 20

11551 13060 12173

e 577,55 653 608,65

10775 7238,105 8670,239

ANOVA Source of Variation Between Groups Within Groups Total

SS 57512,23 506983,5 564495,7

df 2 57 59

MS 28756,12 8894,447

F 3,233041

P-value 0,046773

F crit 3,158846

o Valoarea calculata a statisticii testului este Fcalc = 3,233 , iar Fcritic = F; r 1, n r = F0, 05; 2 , 57 = 3,158 , deci regiunea critica este Rc = ( Fcritic ; ) = ( 3,158; ) o Cum Fcalc = 3,233 Rc , respingem ipoteza nula H0 si acceptam ipoteza alternativa H1, concluzionand ca tipul de publicitate pe care se bazeaza campania de promovare, adica prezentarea diferitelor avantaje ale noului produs, are o influenta semnificativa asupra variatiei numarului de bucati vandute. Problema 2. Rezolvare: o Populatia statistica este multimea birourilor realizate intr-o fabrica de mobila. o Unitatea statistica este un birou. o Caracteristicile urmarite sunt: X - variabila ce arata varianta de realizare a unui birou; - exista are r=2 variante numite simbolic varianta A si varianta B; astfel ca multimea birourilor realizate in acea fabrica va fi impartita in r =2 grupe si anume: Grupa 1 (grupa birourilor realizate in varianta A), Grupa 2 (grupa birourilor realizate in varianta B); - variabila X, varianta de realizare, se mai numeste si factor de grupare. si Y - variabila ce arata durata de timp, in ore, in care un muncitor asambleaza un birou; - variabila numerica de interes. o Fie Y1 ~ N 1 , 12 variabila ce arata durata de timp, in ore, in care un muncitor asambleaza un birou prin varianta A Grupa 1, unde 1 este media variabilei la nivelul intregii grupe. Din Grupa 1 se selecteaza n1 = 27 muncitori pentru care se inregistreaza timpii de realizare a birourilor prin varianta A, adica se inregistreaza valorile variabilei Y1: { y1, 1 = 6,8; y1, 2 = 5,0; ..., y1, 27 = y1, n = 6,7 } ore. Media de selectie de grupa este
1

11

n1 iar dispersia de selectie de grupa este ( y1, 1 y1 ) 2 + ( y1, 2 y1 ) 2 + ... + y1, n1 y1 s12 = n1 1

y1 =

y1, 1 + y1, 2 + ... + y1, n1

169,1 = 6,2629 ore, 27

= 0,8339 .

2 o Fie Y2 ~ N 2 , 2 variabila ce arata durata de timp, in ore, in care un muncitor asambleaza un birou prin varianta B Grupa 2, unde 2 este media variabilei la nivelul intregii grupe. Din Grupa 2 se selecteaza n1 = 23 muncitori pentru care se inregistreaza timpii de realizare a birourilor prin varianta B, adica se inregistreaza variabilei Y2: { y 2, 1 = 5,7; y 2, 2 = 6,6; ..., y 2, 23 = y 2, n = 7,1 } ore. Media de selectie de grupa este y 2, 1 + y 2, 2 + ... + y 2, n2 138,5 y2 = = = 6,0217 ore, n2 23 iar dispersia de selectie de grupa este ( y 2, 1 y 2 ) 2 + ( y 2, 2 y 2 ) 2 + ... + ( y 2, n2 y 2 ) 2 2 s2 = = 1,3699 . n2 1
2

o Media totala la nivelul intregului esantion de volum n = n1 + n 2 = 50 este y n + y 2 n2 6,2629 27 + 6,0217 23 y= 1 1 = n1 + n 2 50 y = 6,1519 ore. o Ipotezele statistice sunt:
H 0 : 1 = 2

(factorul de grupare varianta de asamblare a unui birou nu influenteaza semnificativ variatia timpului de realizare a cestuia) H 1 : 1 2 (mediile sunt semnificativ diferite, cu alte cuvinte varianta de asamblare a unui birou influenteaza semnificativ variatia timpului de realizare a cestuia)

o Pragul de semnificatie al testului este = 0,05 . o Statistica testului este


SSB MSB F= = r 1 Fisher( r 1=1, n r =48 ) . SSW MSW n r
Grupa 1 (Varianta A) 6,8 5 7,9 5,2 7,6 Grupa 2 (Varianta B) 5,7 6,6 8,5 6,5 5,9

12

5 5,9 5,2 6,5 7,4 6,1 6,2 7,1 4,6 6 7,1 6,1 5 6,3 7 6,4 6,1 6,6 7,7 6,4 5,2 6,7

6,7 6,6 4,2 4,2 4,5 5,3 7,9 7 5,9 7,1 5,8 7 5,7 5,9 4,9 5,3 4,2 7,1

Rezultatele prelucrarii datelor in Excel se prezinta sub forma urmatoarelor doua tabele:
Anova: Single Factor SUMMARY Groups Grupa 1 (Varianta A) Grupa 2 (Varianta B) ANOVA Source of Variation Between Groups Within Groups Total

Count 27 23

Sum 169,1 138,5

Average 6,262963 6,021739

Variance 0,83396 1,36996

SS 0,722707 51,82209 52,5448

df 1 48 49

MS 0,722707 1,079627

F 0,669404

P-value 0,417303

F crit 4,042647

o Valoarea calculata a statisticii testului este Fcalc = 0,669 , iar Fcritic = F; r 1, n r = F0,05; 1, 48 = 4,042 , deci regiunea critica este Rc = ( Fcritic ; ) = ( 4,042; ) o Cum Fcalc = 0,669 Rc , nu avem suficiente motive pentru a respinge ipoteza nula H0, deci o acceptam, concluzionand ca varianta de realizare a unui birou nu influenteaza semnificativ variatia timpului in care un muncitor lucreaza pentru asamblare. Problema 3. Rezolvare: o Unitatea statistica este un magazin. 13

o X

Caracteristicile urmarite sunt: - variabila ce arata cartierul din oras unde se gaseste magazinul; - orasul are r=2 cartiere numite simbolic A si B, astfel ca multimea magazinelor din oras va fi impartita in r =2 grupe si anume: Grupa 1 (grupa magazinelor situate in cartierul A), Grupa 2 (grupa magazinelor situate in cartierul B); - astfel, variabila X, cartierul, se mai numeste si factor de grupare.

si Y

- variabila ce arata valoarea vanzarilor, in mil. lei, a unui magazin intr-o anumita perioada; - variabila numerica de interes.

o Fie Y1 ~ N 1 , 12 variabila ce arata valoarea vanzarilor unui magazin situat in cartierul A Grupa 1, unde 1 este media variabilei la nivelul intregii grupe. In Grupa 1 se realizeaza o selectie de volum n1 = 7 magazine pentru care se inregistreaza valorile variabilei Y1 valoarea vanzarilor: { y1, 1 , y1, 2 , ..., y1, 7 = y1, n } mil. lei. 2 Media de selectie de grupa este y1 mil.lei si dispersia de selectie de grupa este s1 .
1

2 o Fie Y2 ~ N 2 , 2 variabila ce arata valoarea vanzarilor unui magazin situat in cartierul B Grupa 2, unde 2 este media variabilei la nivelul intregii grupe. In Grupa 2 se realizeaza o selectie de volum n2 = 5 magazine pentru care se inregistreaza valorile variabilei Y2 valoarea vanzarilor: { y 2, 1 , y 2, 2 , ..., y 2, 5 = y 2, n2 } mil. lei. 2 Media de selectie de grupa este y 2 mil.lei si dispersia de selectie de grupa este s 2 .

o Volumul intregului esantion este n = n1 + n2 = 12 magazine. o Ipotezele statistice sunt: H 0 : 1 = 2 (cartierul in care este amplasat magazinul nu influenteaza semnificativ variatia vanzarilor) H 1 : 1 2 (mediile sunt semnificativ diferite, cu alte cuvinte factorul de grupare cartierul influenteaza semnificativ variatia vanzarilor) o Pragul de semnificatie al testului este = 0,05 . o Statistica testului este
SSB MSB F= = r 1 Fisher ( r 1 = 1, n r = 10 ) . SSW MSW nr

In urma prelucrarii datelor de selectie s-a obtinut urmatorul tabel ANOVA:


ANOVA Source of SS df MS F F crit

14

Variation Between Groups Within Groups Total

SSB=141,7523976 SSW=78,91429 SST=220,66

r-1 = 1 n-r = 10 n-1 = 11

MSB=141,7523976 MSW=7,891429

Fcalc =17,9628

4,9646

Cum Fcalc =

MSB MSB = MSW Fcalc = MSW

= 7,891429 17,96283

MSB =141,7523976

Cum MSB =

SSB SSB = ( r 1) MSB = r 1

SSB = 141,7523976

= ( 2 1) 141,7523976

Cum MSW =

SSW SSW = ( n r ) MSW = nr

SSW = 78,91429

= (12 2 ) 7,891429

Cum SST = SSB + SSW o Regiunea critica

SST = 220,66 .

a testului este Rc = ( Fcritic ; ) = ( 4,96; ) si cum Fcalc = 17,96 Rc , atunci respingem ipoteza nula H0 si acceptam ipoteza alternativa H1, cartierul in care este amplasat magazinul influenteaza semnificativ variatia vanzarilor.

Problema 4. Rezolvare: o Populatia statistica este multimea gospodariilor rezidentilor dintr-un oras. o Unitatea statistica este o gospodarie. o Caracteristicile urmarite sunt: X - variabila ce arata cartierul din oras unde se afla gospodaria; - orasul are r=4 cartiere numite simbolic A, B, C si D, astfel ca populatia statistica a gospodariilor rezidentilor acelui oras va fi impartita in r =4 grupe si anume: Grupa 1 (grupa gospodariilor situate in cartierul A), Grupa 2 (grupa gospodariilor situate in cartierul B), Grupa 3 (grupa gospodariilor situate in cartierul C),

15

Grupa 4 (grupa gospodariilor situate in cartierul D); - astfel, variabila X, cartierul, se mai numeste si factor de grupare. si Y - variabila ce arata venitul lunar, in mii lei, al unei gospodarii; - variabila numerica de interes. o Fie Y1 ~ N 1 , 12 variabila ce arata arata venitul lunar, in mii lei, al unei gospodarii din cartierul A Grupa 1, unde 1 este media variabilei la nivelul intregii grupe. In Grupa 1 se realizeaza o selectie de volum n1 = 19 gospodarii pentru care se inregistreaza valorile variabilei Y1: { y1, 1 , y1, 2 , ..., y1, 19 = y1, n } mii lei/luna. In urma prelucarii datelor din acest subesantion, se obtine media de selectie de grupa este y1, 1 + y1, 2 + ... + y1, n1 44,2 y1 = = = 2,33 mii lei/luna, n1 19
1

iar dispersia de selectie de grupa este s12 = 0,24 .


2 o Fie Y2 ~ N 2 , 2 variabila ce arata venitul lunar, in mii lei, al unei gospodarii din cartierul B Grupa 2, unde 2 este media variabilei la nivelul intregii grupe. In Grupa 2 se realizeaza o selectie de volum n 2 = 24 gospodarii pentru care se inregistreaza valorile variabilei Y2: { y 2, 1 , y 2, 2 , ..., y 2, 24 = y 2, n } mii lei/luna. In urma prelucarii datelor din acest subesantion, media de selectie de grupa este y 2, 1 + y 2, 2 + ... + y 2, n2 78,3 y2 = = = 3,26 mii lei/luna, n2 24
2

2 = 0,33 . iar dispersia de selectie de grupa este s 2

2 o Fie Y3 ~ N 3 , 3 variabila ce arata venitul lunar, in mii lei, al unei gospodarii din cartierul C Grupa 3, unde 3 este media variabilei la nivelul intregii grupe. In Grupa 3 se se realizeaza o selectie de volum n3 = 16 gospodarii pentru care se inregistreaza valorile variabilei Y3: { y3, 1 , y 3, 2 , ... , y 3, 16 = y3, n } mii lei/luna. In urma prelucarii datelor din acest subesantion, media de selectie de grupa este y 3, 1 + y 3, 2 + ... + y 3, n3 33,6 y3 = = = 2,10 mii lei/luna, n3 16
2

2 = 0,17 . iar dispersia de selectie de grupa este s3

2 o Fie Y4 ~ N 4 , 4 variabila ce arata venitul lunar, in mii lei, al unei gospodarii din cartierul D Grupa 4, unde 4 este media variabilei la nivelul intregii grupe. In Grupa 4se se realizeaza o selectie de volum n4 = 21 de gospodarii pentru care se inregistreaza valorile variabilei Y4:

16

{ y 4, 1 , y 4 , 2 , ... , y 4 , 21 = y 4, n4 } mii lei/luna. In urma prelucarii datelor din acest subesantion, media de selectie de grupa este y 4, 1 + y 4, 2 + ... + y 4, n4 57,3 y4 = = = 2,73 mii lei/luna, n4 21
2 = 0,46 . iar dispersia de selectie de grupa este s 4

o S-au selectat astfel, la nivelul intregului oras, n = n1 + n2 + n3 + n4 = 80 de gospodarii. o Ipotezele statistice sunt:
H 0 : 1 = 2 (cartierul de rezidenta al gospodariilor nu influenteaza semnificativ

variatia venitului lunar al acestora) H 1 : k , l {1,2,3,4}, k l astfel incat k l (cel putin doua medii sunt semnificativ diferite, adica factorul de grupare cartierul influenteaza semnificativ variatia venitului lunar al unei gospodarii) o Nivelul de incredere al testului este 95%, deci nivelul de semnificatie este = 0,05 . o Statistica testului este
SSB MSB F= = r 1 Fisher ( r 1 = 3, n r = 76 ) . SSW MSW nr In urma prelucrarii datelor de selectie se obtine:

Media totala la nivelul intregului esantion de volum n = n1 + n2 + n3 + n4 = 80 este y n + y 2 n 2 + y 3 n3 + y 4 n 4 2,33 19 + 3,26 24 + 2,10 16 + 2,73 21 y= 1 1 = n1 + n 2 + n3 + n 4 80 y = 2,668 mii lei/luna. Variatia dintre grupe
SSB = ( y1 y ) n1 + ( y 2 y ) n 2 + ( y 3 y ) n3 + ( y 4 y ) n 4 =
2 2 2 2

+ ( 2,10 2,668) 16 + ( 2,73 2,668) 21 SSB = 15,82448


2 2

= ( 2,33 2,668) 19 + ( 3,26 2,668) 24 +


2 2

Variatia din interiorul grupelor

2 2 2 SSW = ( n1 1) s12 + ( n 2 1) s 2 + ( n3 1) s3 + ( n 4 1) s 4 =

SSW = 23,66

= (19 1) 0,24 + ( 23 1) 0,33 + (16 1) 0,17 + ( 21 1) 0,46

Variatia totala

SST = SSB + SSW = 15,82448 + 23,66 SST = 39,48448

Dispersia factoriala corectata (cu gradele de libertate r 1 = 3 )

17

MSB =

MSB = 5,274826

SSB 15,82448 = r 1 3

Dispersia reziduala corectata (cu gradele de libertate n r = 76 )


MSW =
MSW = 0,311315

SSW 23,66 = n r 76

Valoarea calculata a statisticii testului este


MSB 5,274826 = MSW 0,311315 Fcalc = 16,9436 Fcalc =

Tabelul ANOVA:
ANOVA Source of Variation Between Groups Within Groups Total SS SSB=15,82448 SSW=23,66 SST=39,48448 df r-1 = 3 n-r = 76 n-1 = 79 MS MSB=5,274826 MSW=0,311315 F Fcalc =16,9436 F crit 2,73

o Cum Fcalc = 16,94 Rc = ( 2,73; ) , atunci respingem ipoteza nula H0 si acceptam ipoteza alternativa H1, cartierul in care se gaseste gospodaria influenteaza semnificativ variatia veniturilor.

18