UI5 - Analiza Dispersionala

CURS ECONOMETRIE
Unitatea de învăţare : 5
ANALIZA DISPERSIONALĂ - ANOVA
Cuprins:
1. Ce am învăţat în Unitatea de învăţare 4

2. Obiectivele Unităţii de învăţare 5
3. Concepte generale în analiza dispersională
4. Modele de analiza dispersională
5. Utilizarea modelelor de analiză dispersională unifactorială
6. Răspunsuri şi comentarii la testele de autoevaluare
7. Bibliografia Unităţii de învăţare 5
8. Lucrare de verificare
1. Ce am învăţat în Unitatea de învăţare 4
Testarea ipotezei privind diferenţa dintre două medii pentru eşantioane de volum redus
Ipotezele statistice: H0: (μ1- μ2) = D
- test bilateral: H1: (μ1- μ2) ≠ D
- test unilateral stânga: H1: (μ1- μ2) < D
- test unilateral dreapta: H1: (μ1- μ2) > D
Testul statistic: t
x 1

 x2  D
dacă dispersiile celor două populaţii sunt egale
1 1
sc2   
 n1 n2 
( x1  x2 )  D
sau t , dacă dispersiile celor două populaţii sunt diferite
s12 s22

n1 n2
Regiunea critică Rc:

- pentru test bilateral: t< - t α/2;df sau t > t α/2;df
- pentru test unilateral stânga: t < –tα;df
- pentru test unilateral dreapta: t > tα;df
1
Testarea ipotezei privind dispersia unei populaţii
Ipotezele statistice: H 0 :  12 /  22  1
- test bilateral: H 0 :  12 /  22  1
- test unilateral stânga: H 0 :  12 /  22  1
- test unilateral dreapta: H 0 :  12 /  22  1
s12
Testul statistic: F 2
s2
- pentru test bilateral: F  F / 2,n 1,n 1 sau
1 2
F  F1 / 2 ,n 1,n 1
1 2
- pentru test unilateral stânga: F  F ,n 1,n 1

1 2
- pentru test unilateral dreapta: F  F1 ,n 1,n 11 2
Testarea ipotezei privind raportul dintre două dispersii.

Ipotezele statistice: H 0 :  2   02
- test bilateral: H 0 :  2   02
- test unilateral stânga: H 0 :  2   02
- test unilateral dreapta: H 0 :  2   02
(n  1) s 2
Testul statistic: 2 
2
- pentru test bilateral:  2  12 / 2,n1 sau  2   2 / 2,n1
- pentru test unilateral stânga:  2  12 ,n1
- pentru test unilateral dreapta:  2   2 ,n1
2. Obiectivele Unităţii de învăţare 5
După studiul acestei unităţi de învăţare vei avea cunostinţe despre:

1. Tehnici de studiere a efectului variabilei/variabilelor independente asupra celei
dependente;
2. Particularităţi ale aplicării ANOVA în funcţie de tipul de eşantion;
3. Cum să utilizezi software-ul statistic Excel pentru ANOVA.
2
3. Concepte generale în analiza dispersională
Analiza dispersională, cunoscută şi sub numele de analiză de varianţă (ANOVA –

Analysis Of Variance), a fost introdusă de matematicianul R.A. Fisher. Pornind de la
observaţiile acumulate pe parcursul mai multor ani de experienţe agrotehnice, acesta a
fundamentat o serie de principii şi metode de programare şi dirijare a experimentelor precum
şi de interpretare statistică a rezultatelor. Rezultatele acestei cercetării au fost sintetizate în
două lucrări de referinţă chiar şi astăzi: „Statistical Methods for Research Workers” - 1925 şi
„The Design of Experiments” – 1935.
Demersul ştiinţific al acestuia a pornit de la compararea producţiilor medii ale unor
suprafeţe de teren cultivate cu diferite soiuri de cereale sau plante tehnice. Aceste suprafeţe
erau supuse unor tratamente diferenţiate (de exemplu: adâncimea arăturii, cantitatea şi
periodicitatea irigărilor sau a îngrăşămintelor folosite).
Metodele puse la punct de Fisher s-au concretizat ulterior în modele experimentale ce
şi-au găsit utilitatea în diverse domenii ca:
☺ Exemplu
- industrie: testarea unor prototipuri sau tehnologii), comerţ (impactul unor campanii
publicitare;
- medicină:fundamentarea diagnosticului şi estimarea efectului tratamentelor aplicate;
- mediu: impactul asupra mediului a factorilor poluanţi sau al tehnologiilor de depoluare;
- agricultură: efectul diferitelor proceduri de tratare/cultivare a solurilor asupra producţiei

medii obţinute sau în procesul de obţinere a soiurilor superioare.
„În general, se consideră că experimentul este acea metodă de cercetare prin care
variaţia (modificarea) uneia sau mai multor variabile explicative (independente) este
controlată sau „manipulată” de cercetător, măsurându-se apoi efectul acesteia asupra
variabilei (variabilelor) rezultative (efect)”1.
Pornind de la această definiţie, vom căuta să explicităm termenii utilizaţi.
Variabile rezultative. Sunt variabile dependente a căror transformare este măsurată în
cadrul experimentului. Deoarece esenţa metodei de analiză dispersională constă în
compararea mediilor, este obligatoriu ca acestea să fie variabile cantitative.
1Isaic-Maniu Al., Mitruţ C., Voineagu V. , Statistica pentru managementul afacerilor,

Editura Economică 1999, pg. 214
3
Variabile explicative. Sunt variabile independente care constituie factorii cauzali, ce
produc modificări asupra variabilei dependente explicative. Acestea pot fi:
 cantitative (temperatură, valori ale unor analize medicale obţinute din laborator,
umiditate, etc.);
 calitative (sex, mediu de provenienţă, studii, tip de sol, etc.).
Considerând experimentul ca un sistem, variabilele independente se pot clasifica
astfel:
 endogene (variabile controlate / manipulate în cadrul experimentului);
 exogene (din afara sistemului analizat, care nu sunt supuse experimentării şi a căror
influenţă poate interfera cu cea a variabilelor rezultative ducând la reducerea
performanţelor de fidelitate a modelului experimental.
În cazul proceselor din sfera economică sau socială controlul efectiv al variabilelor
exogene este imposibil de realizat. În consecinţă, în această situaţie se va efectua un
control de natură statistică, prin aplicarea unui procedeu de selecţie aleator, pentru a forma
eşantioanele supuse experimentului.
După scopul urmărit, se disting următoarele tipuri de experimente:
 Preliminare. Se urmăreşte testarea unui număr mare de factori (tratamente) pentru a
avea informaţii în vederea proiectării cercetărilor ulterioare;
 Critice. Se compară rezultatele diferitelor tratamente pentru a le putea identifica pe
cele care au o influenţă semnificativă;
 Demonstrative. Se testează unul sau mai multe tratamente în raport cu un etalon fixat
anterior.
După numărul variabilelor explicative, experimentele pot fi unifactoriale sau
multifactoriale.
În figura 1 este prezentată schema decizională de alegere a modelului de analiză
dispersională în funcţie de numărul variabilelor factoriale şi modul în care au fost selectate
eşantioanele.
4
* o variabilă nominală ce influenţează variabila dependentă
Folosind schema de mai sus, vom trata doar Modelul one Way ANOVA.
4. Modele de analiza dispersionala
A) Modele de analiză unifactorială, One-Way ANOVA

Cu ajutorul testului parametric de analiză dispersională ANOVA se pot examina două
sau mai multe eşantioane independente pentru a determina dacă mediile populaţiilor din care
provin ar putea fi egale, putându-se pune astfel în evidenţă influenţa factorului considerat sau
a tratamentului efectuat.
Practic, populaţiile se pot clasifica utilizând un singur criteriu, numit factor
(tratament) după cum se poate observa în figura nr. 2. Fiecare populaţie este determinată de
un nivel al factorului (sunt k niveluri).
5
Construim ipoteza nulă şi ipoteza alternativă:
H0: X 1  X 2  ......  X i  .........  X k pentru i=1,…,k
H1: există i  j astfel încât X i  X j
Fiecare observaţie individuală, considerată ca sumă a trei componente separate, poate

fi descrisă în termenii modelului 1, schițat în cele ce urmează.
În concordanţă cu acest model, fiecare observaţie (xij) asociată tratamentului j este
suma componentelor: media populaţiei pentru toate tratamentele, efectul tratamentului j şi
eroarea de eşantionare. În acest context, ipotezele pot fi reformulate astfel:
H0: i=0 pentru orice i=1,…,k
H1: i0 pentru cel puţin unul dintre i=1,…,k.
Dacă efectul fiecărui tratament i pentru orice i=1,…,k este nul, media fiecărei
populaţii X i este egală cu media totală.
6
Utilizarea testului parametric ANOVA pleacă de la următoarele premize:
 Eşantioanele au fost selectate independent;
 Variabila independentă este calitativă;
 Dispersiile populaţiilor sunt egale (  12   22  ...   k2 );
 Reziduurile (diferenţa dintre observaţiile empirice şi cele aşteptate conform
modelului) sunt normal distribuite.
Aceste condiţii (în special cea privind egalitatea dispersiilor) sunt foarte importante.
Dacă nu sunt îndeplinite, se va utiliza testul neparametric Kruskal-Wallis pentru a compara
tendinţa centrală a două sau mai multe eşantioane independente.
În realitate, ANOVA este un procedeu robust, adică neafectat major de neîndeplinirea
unei condiţii, cu excepţia celei cu privire egalitatea dispersiilor.
Pentru efectuarea testului este necesară calcularea variaţiei pe surse de provenienţă
astfel:
Tabel nr. 1
Grade
Tipul variaţiei Variaţia Media variaţiei
libertate
Variaţia dintre grupuri determinată k
SSB
SSB   ni. xi  x 
2
de tratament (Between Group Sum df1= k-1 MSB 
of Squares ) i 1 k 1
Variaţia din interiorul grupurilor,
k ni
 2
determinată de procesul de SSE
eşantionare (Sums of Squared SSE   xij  xi df2= n-k MSE 
Errors sau Sum of Squares Within i 1 j 1 nk
Groups )
k ni
Variaţia totală
(Sums of Squares Total)
SST   xij  x  2 n-1
i 1 j 1
7
Variaţia dintre grupuri (SSB) reflectă variaţia dintre mediile eşantioanelor şi media
generală. Variaţia reziduală (SSE) se calculează pornind de la abaterile valorilor observate şi
mediile fiecărui grup. Pentru ca cele două tipuri de variaţie să fie comparabile în vederea
realizării testului statistic, este necesară corectarea acestora cu numărul corespunzător de
grade de libertate.
Testul statistic este dat de relaţia: F  MSB .

MSE
Testul se realizează unilateral dreapta şi pentru un anumit nivel de siguranţă  se
respinge ipoteza nulă, dacă valoarea calculată F este mai mare decât cea teoretică,
corespunzătoare nivelului de semnificaţie ales şi numărului de grade de libertate df1 şi df2.
Ţinând cont de ipoteza egalităţii dispersiilor populaţiilor, intervalul de încredere
pentru estimarea mediilor eşantioanelor este dat de relaţia:

xi  t S p 
ni , unde Sp= MSE estimaţia abaterii standard în populaţii;
ni= numărul de elemente ce formează eşantionul i;

xi = media eşantionului j;
t= valoarea distribuţiei t corespunzătoare nivelului de semnificaţie ales şi numărului de grade

de libertate asociat variaţiei din interiorul grupurilor.
În cazul în care se compară mediile din două eşantioane testul ANOVA unifactorială
şi testul Student realizat pe baza dispersiei estimate sunt echivalente. Ambele testează ipoteza
egalităţii mediilor a două populaţii pe baza datelor din două eşantioane independente şi
pornesc de la premiza egalităţii varianţelor celor două populaţii, utilizând o estimaţie a
acesteia.
5. Utilizarea modelelor de analiza dispersionala unifactoriala în Excel
Analiza dispersionala (ANOVA) - Problema rezolvata
Problema 1, pag. 147-149 din Teorie si practica econometrie, V. Voineagu, E, Titan, R.

Serban, S. Ghita, D. Todose, C. Boboc, D. Pele, Ed. Meteor Press, 2007, Bucuresti
Un cercetător face un studiu asupra unor firme, privind şansele pe care acestea le oferă
tinerilor angajaţi de a promova repede şi de a avansa în carieră. Pentru aceasta el a cuprins în
studiu un număr de 20 de companii producătoare de tehnologie de vârf şi a înregistrat timpul
scurs de la angajarea iniţială a unui salariat în firmă până la prima promovare a acestuia.
Firmele au fost grupate după mărime, iar datele înregistrate sunt:
Mărimea firmelor Număr de săptămâni de la angajare până la prima promovare
Mici 30; 26; 30; 32; 38; 24; 32; 28;
Medii 34; 32; 25; 36; 33
Mari 47; 41; 43; 48; 40; 49; 40.
8
Se cere să se determine, folosind testul F de analiză dispersională, dacă variaţia
timpului scurs până la prima promovare este influenţată semnificativ de mărimea firmei (nivel
de semnificatie 5%).
Rezolvare:
o Populatia statistica este multimea companiilor producatoare de tehnologie de varf.
o Unitatea statistica este o companie (firma).
o Caracteristicile urmarite sau variabilele de interes sunt:
X - variabila ce arata marimea unei firme;
- variabila nenumerica avand r=3 categorii sau variante: firme mici, firme mijlocii si
firme mari: aceste categorii ale variabilei X vor determina impartirea populatiei
statistice in r =3 grupe si anume:
Grupa 1 (grupa firmelor mici),
Grupa 2 (grupa firmelor mijlocii),
Grupa 3 (grupa firmelor mari);
- astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.
Si
Y - variabila ce arata durata de timp, in saptamani, de la angajare la prima promovare a
unui salariat al unei firme producatoare de tehnologie de varf;
- variabila numerica de interes.
 
o Fie Y1 ~ N 1 ,  12 variabila ce arata durata de timp, in saptamani, de la angajare la prima
promovare a unui salariat al unei firme mici – Grupa 1, unde 1 este media variabilei la
nivelul intregii grupe.
Din Grupa 1 (grupa firmelor mici) se selecteaza un subesantion de volum n1  8 firme
pentru care se inregistreaza valorile variabilei Y1:
{ y1,1  30 , y1, 2  26 , y1, 3  30 , y1, 4  32 ,
y1, 5  38 , y1, 6  24 , y1, 7  32 , y1, 8  y1, n1  28 }
y1,1  y1, 2  ...  y1,n1 240
Media de selectie de grupa este y1    30 saptamani,
n1 8
iar dispersia de selectie de grupa este
2

y1,1  y1 2  y1,2  y1 2  ...  y1,n1  y1 2
s1   18,2857 .
n1  1
o Fie Y2 ~ N  2 ,  22  variabila ce arata durata de timp, in saptamani, de la angajare la prima

promovare pentru un salariat al unei firme mijlocii – Grupa 2, unde  2 este media
variabilei la nivelul intregii grupe.
Din Grupa 2 (grupa firmelor mijlocii) se selecteaza un subesantion de volum n2  5 firme
{ y 2 ,1  34 , y 2 , 2  32 , y 2 ,3  25 , y 2 , 4  36 , y 2 ,5  y 2 ,n2  33} .
y 2,1  y 2, 2  ...  y 2,n2 160
Media de selectie de grupa este y 2    32 saptamani,
n2 5
9
2

y 2,1  y 2 2  y 2,2  y 2 2  ...  y 2,n2  y 2 2
s2   17,5 .
n2  1
 
o Fie Y3 ~ N  3 ,  32 variabila ce arata durata de timp, in saptamani, de la angajare la prima
promovarepentru un salariat al unei firme mari – Grupa 3, unde  3 este media variabilei
la nivelul intregii grupe.
Din Grupa 3 (grupa firmelor mari) se selecteaza un subesantion de volum n3  7 firme
{ y3,1  47, y3, 2  41, y3,3  43, y3, 4  48, y3,5  40, y3,6  49, y3,7  y3,n2  40 } .
y3,1  y3, 2  ...  y3,n3 308
Media de selectie de grupa este y3    44 saptamani,
n3 7
2
s3 

y3,1  y3 2  y3,2  y3 2  ...  y3,n3  y3 2
 15,3333 .
n3  1
o Media totala la nivelul intregului esantion de volum n  n1  n2  n3  20 firme este

y  n  y 2  n2  y3  n3 30  8  32  5  44  7
y 1 1 
n1  n2  n3 20
 y  35,4 saptamani.
Presupunem ca dispersiile celor trei grupe sunt egale,  12   22   32 .
o Ipotezele statistice sunt:

H 0 : 1   2   3 (factorul de grupare – marimea companiei nu influenteaza semnificativ
variatia duratei de timp pana la prima promovare a unui salariat)
H 1 : k , l  1,2,3, k  l astfel incat  k   l (cel putin doua medii sunt semnificativ
diferite, adica factorul de grupare – marimea companiei influenteaza
semnificativ variatia duratei de timp pana la prima promovare a unui
salariat)
o Statistica testului este

SSB
MSB
F  r  1  Fisherr 1 2, n  r 17  .
MSW SSW
nr
o Pe baza datelor de selectie calculam:
10
 Variatia dintre grupe
SSB   y1  y 2  n1   y 2  y 2  n2   y3  y 2  n3 
 30  35,4   8  32  35,4   5  44  35,4   7
2 2 2
 SSB  808,8
 Variatia din interiorul grupelor
SSW  n1  1  s12  n2  1  s 22  n3  1  s32
 8  1  18,2857  5  1  17,5  7  1  15,3333
 SSW  290
 Variatia totala
SST  SSB  SSW
 808,8  290
 SST  1098,8
 Dispersia factoriala corectata (cu gradele de libertate r  1  2 )
SSB 808,8
MSB  
r 1 2
 MSB  404,4
 Dispersia reziduala corectata (cu gradele de libertate n  r  17 )
SSW 290
MSW  
nr 17
 MSW  17,0588
 Valoarea calculata a statisticii testului este
MSB 404,4
Fcalc  
MSW 17,0588
 Fcalc  23,7062
o Nivelul de semnificatie al testului este   0,05 ,

iar valoarea critica a testului este Fcritic  F ; r 1, n  r  F0,05; 2,17  3,59 ,
deci regiunea critica este Rc  Fcritic ;   3,59;    sau Rc : F  Fcritic .
Observatie: Valoarea critica a testului Fisher se poate obtine in excel 2010 astfel:
Fcritic = Fα; r-1,n-r = F.INV.RT(α, r-1, n-r)
o Cum Fcalc  Fcritic  Fcalc  Rc , respingem ipoteza nula H0 si acceptam ipoteza

alternativa H1, concluzionand ca datele de selectie sustin ipoteza alternativa, adica
marimea companiei influenteaza semnificativ variatia duratei de timp pana la prima
promovare pentru un salariat, la un nivel de semnificatie de 5%.
11
Fig.1. Regiunea critica a testului F.
o Calculele pot fi organizate in urmatorul tabel ANOVA

MS mean of
SS sum
df – degrees
Source (sum of squares
of freedom
of variation of squares (dispersiile F Fcritic
(gradele de
(Sursa variatiei) (suma corectate cu
libertate)
patratelor) gradele de
libertare)
Between groups SSB MSB
(Variatia explicata
SSB = 808,8 r-1 = 2
MSB  Fcalc  Fcritic=F0,05; 2, 17
de factorul r 1 MSW =3,59
de grupare X) = 404,4 =23,0762
SSW
Within Groups
SSW = 290 n-r = 17
MSW 
(Variatia reziduala) nr
=17,0588
SST=SSB+SSW
Total n-1 = 19
= 1098,8
Problema poate fi rezolvata in Excel dupa cum urmeaza:

 Intr-o foaie de lucru se introduc datele din cele trei subesantioane pe coloane, asa cum se arata in Figura
2;
 In Excel 2007, Excel 2010 sau Excel 2013, din meniul principal Data, submeniul Data Analysis, se
alege Anova: Single Factor;
12
Figura 2. Introducerea datelor si alegerea Anova: Single Factor din submeniul Data Analysis.
 Fereastra de dialog este prezentata in Figura 3.
13
Figura 3. Fereastra de dialog pentru Anova: Single Factor.
 Output-ul consta din doua tabele: primul contine rezultatele obtinute in urma prelucrarii datelor din
fiecare grupa, iar cel de-al doilea este tabelul ANOVA.
Anova: Single Factor
SUMMARY
2
Groups Count ( ni ) Sum Average ( y i ) Variance ( si )
8
Grupa 1
(firme mici)
8  n1 240  y
j 1
1, j 30  y1 18.2857  s1
2
8
Grupa 2
(firme mijlocii)
5  n2 160  y
j 1
2, j 32  y 2 17.5  s 2
2
7
Grupa 3
(firme mari)
7  n3 308  y
j 1
3, j 44  y 3 15.3333  s3
2
14
ANOVA
Source of
Variation SS df MS F P-value F crit
Between Groups 808.8=SSB 2=r-1 404.4=MSB 23.7062=Fcalc 1.21E-05 3.59
Within Groups 290=SSW 17=n-r 17.0588=MSW
Total 1098.8=SST 19=n-1
Observatii:
P-value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului pentru care ipoteza nula H 0 poate fi respinsa, adica aria subgraficului
densitatii repartitiei Fisher la dreapta lui Fcalc, vezi, Figura 1.
Daca  este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
 daca P-value >  , adica Fcalc < Fcritic, atunci nu exista suficiente motive sa
respingen ipoteza nula H0, adica factorul
de grupare nu influenteaza semnificativ
variatia variabilei numerice de interes;
 daca P-value <  , adica Fcalc > Fcritic, atunci se respinge ipoteza nula H0 si,
prin urmare, se accepta ipoteza
alternativa H1, adica rezultatul este
semnificativ statistic, ceea ce inseamna
ca factorul de grupare influenteaza
semnificativ variatia lui Y.
In cazul nostru, nivelul de semnificatie al testului este  =0,05,

iar P-value = 1,21E-5 = 1,21 x 10-5 = 0,0000121,
deci P-value <  , prin urmare respingem H0 si acceptam H1, ceea ce înseamnă că factorul de
grupare X, adică marimea companiei, influențează semnificativ variaţia variabilei numerice de
interes Y, durata de timp de la angajare pana la prima promovare a unui salariat, pentru un
nivel de semnificaţie de 5%,.
Observaţie:
SSB
Coeficientul de determinaţie R 2   0;1, exprimat procentual, arată proporţia din
SST
variaţia totală a variabilei numerice de interes Y explicată de factorul de grupare X, la nivelul
eşantionului.
SSB 808.8
Astfel, la nivelul eşantionului, R 2    0.7361 , adică 73,61% din variaţia totală
SST 1098.8
a duratei de timp de la angajare pana la prima promovare a unui salariat este explicată de
marimea companiei producătoare de tehnologie de vârf, restul de 26,39% din variaţia totală a
duratei de timp fiind influenţată de alţi factori.
15
În rândul elevilor de liceu din capitală s-a realizat un sondaj pe un eşantion de 570
persoane. În urma centralizării datelor s-a obţinut repartiţia bidimensională prezentată în
tabelul de mai jos. Aplicând tehnica de analiză dispersională ANOVA să se pună în evidenţă
influenţa variabilei factoriale “Clasa” asupra variabilei “nr. ore petrecute la calculator”.
Tabel de prezentare a informatiei

Numar de ore petrecute la calculator pe zi*
Clasa 0-2 2-4 4-6 peste 6 Total
a IX 60 40 20 0 120
aX 40 60 40 10 150
a XI 10 20 80 30 140
a XII 20 90 40 10 160
Total 130 210 180 50 570
*limita inf. este inclusa in interval
Ipotezele testului sunt:

H0: X1  X 2  ......  X i  .........  X k pentru i=1,…,k
H1: există i  j astfel încât X i  X j
Pentru a putea calcula tipurile de variaţie este necesar ca mai întâi să se calculeze toate
tipurile de medii.
J j
Mediile grupelor se calculează după relaţia xi   x j nij    nij astfel:
j 1 j 1
60  120  100  0 280
x1   =2,33h/zi
120 120
40  180  200  70 490
x2   =3,27h/zi
150 150
10  60  400  210 680
x3   =4,86h/zi
140 140
20  270  200  70 560
x4   =3,5h/zi
160 160
Media colectivităţii negrupate după variabila factorială se calculează astfel:

J J

x   x j n. j   nij 
130  630  900  350 2010
570

570
=3,53h/zi
j 1 j 1
unde J reprezintă numărul de grupe după variabila dependentă (număr ore petrecute la
calculator). Spre deosebire de prezentarea teoretică a modelului de data aceasta datele sunt
grupate după această variabilă.
16
Calculăm tipurile de variaţie.
k
SSB   ni. xi  x  =170,78+10,11+247,95,0,11=428,98
2
i 1
k ni
 
SSW   x j  xi 2 nij =266,67+469,33+357,14+360=1453,14
i 1 j 1
df1=4-1=3
df2=570-4=566
428,98 3
F  MSSB = =55,57
MSSW 1453,14 566
F  0,05; df 1 3; df 2  566 =2,62
Deoarece valoarea calculată a testului este mai mare decât cea teoretică se respinge ipoteza
egalităţii mediilor.
Test de autoevaluare 1
Un producător de sucuri de mere a realizat un nou produs: concentrat lichid. Acest
nou produs are următoarele avantaje faţă de vechiul produs: este mai practic de utilizat,
are o calitate cel puţin la fel de bună şi cost semnificativ mai mic. Pentru a decide pe
care dintre cele trei avantaje să-şi axeze strategia de marketing, directorul acestui
departament a realizat un studiu în trei oraşe. În oraşul A campania de publicitate s-a
axat pe uşurinţa de utilizare a noului produs. În oraşul B campania de publicitate s-a
axat pe calitatea noului produs. În oraşul C campania de publicitate s-a axat pe preţul
mai mic al noului produs. În toate cele 3 oraşe s-a înregistrat numărul de bucăţi vândute
în 20 de săptămâni.
Vanzari
Tip
Unităţi vândute
campanie
Uşurința 529 658 793 514 663 719 711 606 461 529
folosirii 498 663 604 495 485 557 353 557 542 614
Calitate 804 630 774 717 679 604 620 697 706 615
492 719 787 699 572 523 584 634 580 624
Preţ 672 531 443 596 602 502 659 689 675 512
691 733 698 776 561 572 469 581 679 532
17
Directorul de marketing ar dori să ştie dacă există diferenţe semnificative între
numărul de bucăţi vândute, în medie pe săptămână, în cele trei oraşe după terminarea
campaniei de publicitate, considerand un nivel de semnificatie de 5%.
6. Răspunsuri şi comentarii la testele de autoevaluare
Test de autoevaluare 1
Problema 1. Rezolvare:
o Unitatea statistica este noul produs concentrat lichid al respectivului producator de sucuri.
o Caracteristicile urmarite sunt:
X - variabila ce arata tipul de publicitate pe care s-a axat campania de promovare a noului produs;
- variabila nenumerica avand r=3 categorii sau variante de raspuns: avantaje legate de usurinta
folosirii, avantaje legate de calitate si avantaje legate de pret;
- aceste categorii ale variabilei X vor determina impartirea populatiei statistice in r =3 grupe si anume:
Grupa 1 (grupa produselor promovate in orasul A unde campania de publicitate s-a axat pe
usurinta folosirii),
Grupa 2 (grupa produselor promovate in orasul B unde campania de publicitate s-a axat pe
calitate),
Grupa 3 (grupa produselor promovate in orasul C unde campania de publicitate s-a axat pe
pret);
- astfel, variabila X, marimea firmei, se mai numeste si factor de grupare.
si
Y - variabila ce arata numarul de bucati vandute intr-o saptamana;
- variabila numerica de interes.
o  
Fie Y1 ~ N 1 ,  1 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul A – Grupa 1,
2
unde 1 este media variabilei la nivelul intregii grupe.

In Grupa 1 se realizeaza o selectie de volum n1  20 saptamani pentru care se inregistreaza valorile
variabilei Y1 – numarul de bucati vandute:
{ y1, 1  529 , y1, 2  658 , ..., y1, 20  y1, n1  614 } bucati.
Media de selectie de grupa este
y1, 1  y1, 2  ...  y1, n1 11551
y1    577,55 bucati/saptamana,
n1 20
y1, 1  y1 2  y1, 2  y1 2  ...  y1, n  y1 2
iar dispersia de selectie de grupa este s12  1
 10775 .
n1  1
o Fie  
Y2 ~ N  2 ,  22 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul B – Grupa 2,
In Grupa 2 se realizeaza o selectie de volum n2  20 saptamani pentru care se inregistreaza valorile
{ y 2 , 1  804 , y 2 , 2  630 , ..., y 2 , 20  y 2 , n2  624 } bucati.
18
y 2, 1  y 2, 2  ...  y 2, n2 13060
y2    653 bucati/saptamana,
n2 20
y 2, 1
2 2

 y 2    y 2, 2  y 2   ...  y 2, n2  y 2  2
s 
2
2  7238,105 .
n2  1
o Fie  
Y3 ~ N  3 ,  32 variabila ce arata numarul de bucati vandute intr-o saptamana in orasul C – Grupa 3,
In Grupa 3 se se realizeaza o selectie de volum n3  20 firme pentru care se inregistreaza valorile
{ y3, 1  672, y3, 2  531, ... , y3, 20  y3 n2  532 } bucati.
y 3, 1  y 3, 2  ...  y 3, n3 12173
y3    608,65 bucati/saptamana,
n3 20
y 3, 1
2 2

 y 3    y 3, 2  y 3   ...  y 3, n3  y 3 
2
s 
2
3  8670,239 .
n3  1
o Media totala la nivelul intregului esantion de volum n  n1  n2  n3  60 este

y1  n1  y 2  n2  y 3  n3 577,55  20  653  20  608,65  20
y 
n1  n2  n3 60
 y  613,06 bucati/saptamana.
o Ipotezele statistice sunt:
H 0 : 1   2   3 (factorul de grupare – tipul de publicitate pe care s-a axat campania

de promovare a noului produs nu influenteaza semnificativ
variatia numarului de bucati vandute intr-o saptamana)
H 1 : k , l  1,2,3, k  l astfel incat  k   l (cel putin doua medii sunt semnificativ

diferite, adica factorul de grupare – tipul de publicitate influenteaza
semnificativ variatia numarului de bucati vandute intr-o saptamana)
o Pragul de semnificatie al testului este   0,05 .

o Statistica testului este
SSB
MSB
F  r  1  Fisherr 12, n r 57  .
MSW SSW
nr
o Introducerea datelor intr-o foaie de lucru in Excel, apelarea optiunii Data Analysis si Anova: Single Factor,
precum si rezultatele prelucrarii datelor sunt prezentate in imaginile de mai jos.
19
Anova: Single Factor
SUMMARY
Groups Count Sum Average Variance
Grupa 1 Usurinta folosirii 20 11551 577,55 10775
Grupa 2 Calitate 20 13060 653 7238,105
Grupa 3 Pret 20 12173 608,65 8670,239
20
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 57512,23 2 28756,12 3,233041 0,046773 3,158846
Within Groups 506983,5 57 8894,447
Total 564495,7 59
o Valoarea calculata a statisticii testului este Fcalc  3,233 ,

iar Fcritic  F ; r 1, n  r  F0, 05; 2, 57  3,158 ,
deci regiunea critica este Rc  Fcritic ;    3,158;  
o Cum Fcalc  3,233  Rc , respingem ipoteza nula H0 si acceptam ipoteza alternativa H1, concluzionand ca
tipul de publicitate pe care se bazeaza campania de promovare, adica prezentarea diferitelor avantaje ale
noului produs, are o influenta semnificativa asupra variatiei numarului de bucati vandute.
7. Bibliografia Unităţii de învăţare 5
 I.-G. Niculescu-Aron, Miruna Mazurencu-Marinescu - Metode econometrice pentru

afaceri, Ed. ASE, 2007
 V.Voineagu, E.Ţiţan, R.Şerban, S.Ghiţă, D.Todose, C.Boboc, D.Pele – Teorie şi
practică econometricăm Ed; Meteor Press, 2007
 T. Andrei, Statistică şi econometrie, Ed. Economică, 2003
8. Lucrare de verificare
1. Când se recomandă utilizarea ANOVA?

2. Care sunt tipurile de varianţă utilizate în ANOVA şi ce reprezintă ele?
3. Ce sunt dispersiile corectate?
4. Cum se stabileşte regiunea critică pentru testul F?
21

UI5 - Analiza Dispersionala

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

UI5 - Analiza Dispersionala

Încărcat de

Drepturi de autor:

Formate disponibile

CURS ECONOMETRIE

1. Ce am învăţat în Unitatea de învăţare 4

1. Ce am învăţat în Unitatea de învăţare 4

Regiunea critică Rc:

- test unilateral stânga: H 0 :  12 /  22  1

- test unilateral dreapta: H 0 :  12 /  22  1

- pentru test unilateral stânga: F  F ,n 1,n 1

- pentru test unilateral dreapta: F  F1 ,n 1,n 11 2

Testarea ipotezei privind raportul dintre două dispersii.

- test unilateral stânga: H 0 :  2   02

- test unilateral dreapta: H 0 :  2   02

- pentru test unilateral stânga:  2  12 ,n1

- pentru test unilateral dreapta:  2   2 ,n1

2. Obiectivele Unităţii de învăţare 5

După studiul acestei unităţi de învăţare vei avea cunostinţe despre:

Analiza dispersională, cunoscută şi sub numele de analiză de varianţă (ANOVA –

- medicină:fundamentarea diagnosticului şi estimarea efectului tratamentelor aplicate;

- mediu: impactul asupra mediului a factorilor poluanţi sau al tehnologiilor de depoluare;

- agricultură: efectul diferitelor proceduri de tratare/cultivare a solurilor asupra producţiei

1Isaic-Maniu Al., Mitruţ C., Voineagu V. , Statistica pentru managementul afacerilor,

4. Modele de analiza dispersionala

A) Modele de analiză unifactorială, One-Way ANOVA

H1: există i  j astfel încât X i  X j

Fiecare observaţie individuală, considerată ca sumă a trei componente separate, poate

Testul statistic este dat de relaţia: F  MSB .

ni= numărul de elemente ce formează eşantionul i;

t= valoarea distribuţiei t corespunzătoare nivelului de semnificaţie ales şi numărului de grade

Problema 1, pag. 147-149 din Teorie si practica econometrie, V. Voineagu, E, Titan, R.

o Fie Y2 ~ N  2 ,  22  variabila ce arata durata de timp, in saptamani, de la angajare la prima

o Media totala la nivelul intregului esantion de volum n  n1  n2  n3  20 firme este

Presupunem ca dispersiile celor trei grupe sunt egale,  12   22   32 .

o Ipotezele statistice sunt:

o Statistica testului este

o Pe baza datelor de selectie calculam:

o Nivelul de semnificatie al testului este   0,05 ,

o Cum Fcalc  Fcritic  Fcalc  Rc , respingem ipoteza nula H0 si acceptam ipoteza

o Calculele pot fi organizate in urmatorul tabel ANOVA

Problema poate fi rezolvata in Excel dupa cum urmeaza:

 Fereastra de dialog este prezentata in Figura 3.

Anova: Single Factor

Between Groups 808.8=SSB 2=r-1 404.4=MSB 23.7062=Fcalc 1.21E-05 3.59

Within Groups 290=SSW 17=n-r 17.0588=MSW

Total 1098.8=SST 19=n-1

In cazul nostru, nivelul de semnificatie al testului este  =0,05,

Tabel de prezentare a informatiei

Ipotezele testului sunt:

Media colectivităţii negrupate după variabila factorială se calculează astfel:

6. Răspunsuri şi comentarii la testele de autoevaluare

unde 1 este media variabilei la nivelul intregii grupe.

o Media totala la nivelul intregului esantion de volum n  n1  n2  n3  60 este

o Ipotezele statistice sunt:

H 0 : 1   2   3 (factorul de grupare – tipul de publicitate pe care s-a axat campania

H 1 : k , l  1,2,3, k  l astfel incat  k   l (cel putin doua medii sunt semnificativ

o Pragul de semnificatie al testului este   0,05 .

o Valoarea calculata a statisticii testului este Fcalc  3,233 ,

7. Bibliografia Unităţii de învăţare 5

 I.-G. Niculescu-Aron, Miruna Mazurencu-Marinescu - Metode econometrice pentru

1. Când se recomandă utilizarea ANOVA?

S-ar putea să vă placă și