Documente Academic
Documente Profesional
Documente Cultură
Suport de Curs-Învățamântul la
distanță
1
Cuprins
2
4.1 Repartiţia normală normată (Z ) ................................................................................................... 48
4.2 Repartiţia χ
2
............................................................................................................................. 53
3
Lucrare de verificare 7A .................................................................................................................. 108
Test de autoevaluare 7B ................................................................................................................... 109
Rezumat .......................................................................................................................................... 114
Bibliografie ..................................................................................................................................... 115
Unitatea de învăţare 8 TESTAREA IPOTEZELOR PRIVIND DISPERSIILE
POPULAŢIILOR ........................................................................................................................ 116
Obiectivele Unităţii de Învăţare 8 ..................................................................................................... 116
8.1 Compararea dispersiei eşantionului cu dispersia colectivităţii generale ....................................... 116
8.2 Compararea dispersiei a două colectivităţi.................................................................................. 119
Lucrare de verificare 8A .................................................................................................................. 123
Test de autoevaluare 8B ................................................................................................................... 123
Rezumat .......................................................................................................................................... 125
Bibliografie ..................................................................................................................................... 126
Unitatea de învăţare 9 ANALIZĂ DISPERSIONALĂ (ANOVA) ........................................... 127
Obiectivele Unităţii de Învăţare 9 ..................................................................................................... 127
9.1 Analiza dispersională unifactorială............................................................................................. 127
9.2 Analiza dispersională bifactorială............................................................................................... 133
Lucrare de verificare 9A .................................................................................................................. 143
Test de autoevaluare 9B ................................................................................................................... 143
Rezumat .......................................................................................................................................... 146
Bibliografie ..................................................................................................................................... 146
Unitatea de învăţare 10 DETERMINAREA ŞI TESTAREA CORELAŢIILOR LINIARE
DINTRE VARIABILELE ECONOMICE.................................................................................. 147
Obiectivele Unităţii de Învăţare 10 ................................................................................................... 147
10.1 Corelația liniară simplă......................................................................................................... 147
10.2 Corelația multiplă ................................................................................................................. 152
Lucrare de verificare 10A ................................................................................................................ 155
Test de autoevaluare 10B ................................................................................................................. 156
Rezumat .......................................................................................................................................... 158
Bibliografie ..................................................................................................................................... 158
Unitatea de învăţare 11 MODELUL DE REGRESIE LINIARĂ UNIFACTORIALĂ ............ 159
Obiectivele Unităţii de Învăţare 11 ................................................................................................... 159
11.1 Ipotezele modelului .............................................................................................................. 159
4
11.2 Determinarea și validarea parametrilor modelului linear unifactorial .................................... 163
Lucrare de verificare 11A ................................................................................................................ 180
Test de autoevaluare 11B ................................................................................................................. 180
Rezumat .......................................................................................................................................... 183
Bibliografie ..................................................................................................................................... 184
Răspunsuri la testele de autoevaluare ......................................................................................... 185
Anexa 1 ....................................................................................................................................... 187
Anexa 2 ....................................................................................................................................... 190
Anexa 3 ....................................................................................................................................... 194
Anexa 4 ....................................................................................................................................... 202
Bibliografie ................................................................................................................................. 214
5
Unitatea de învăţare 1
INTRODUCERE ÎN ECONOMETRIE
Cuprins
După studiul acestei unităţi de învăţare, cursanţii vor avea cunoştinţe despre:
• Ce este econometria.
• Principalele obiective ale econometriei.
• Ce este modelul econometric.
• Ce este modelul economic.
• Diferenţa dontre modelele economice şi modelele econometrice.
• Tipologia modelelor econometrice.
• Etapele creării şi utilizării unui model econometric.
• Tipurile de date utlizate în econometrie.
6
În anul 1930 la Cleveland un grup de cercetători, printre care I. Fisher, L.V.
Borkiewicy, R. Frisch şi H. Hotelling, înfiinţează Societatea de Econometrie. Acesta este şi
momentul care marchează constituirea econometriei1 ca ştiinţă.
Fie sistemul reprezentat în figura 1.3. Variabilele de intrare xi , din punctul de vedere
al sistemului supus analizei, sunt variabile independente (nu depind de sistemul S ). Aceste
variabile influenţează (determină) valorile variabilei (variabilelor) de ieşire Y . Din acest
punct de vedere variabila Y este o variabilă dependentă. În aceste condiţii are loc relaţia:
Y = f (x ) + ε (1.1)
unde:
f este funcţia de transfer a sistemului reprezentând legea de manifestare a procesului
economic studiat;
x = ( xi )i =1, n este vectorul variabilelor independente;
1
Termenul “econometrie” a fost introdus de economistul şi statisticianul norvegian Ragnar Frisch şi provine
etimologic de la grecescul “eikonomia” – economie şi respectiv “metren” – măsură.
2
Definiţia a fost formulată de R. Frisch în primul număr al revistei Econometrica.
7
Econometria presupune investigarea fenomenelor
economice numai cu ajutorul modelelor aleatoare (stochastice, probabilistice); ea include
doa cercetările economice ce utilizează metodele inducţiei matematice la verificarea
relaţiilor cantitative formulate în teoria economică cu privire la fenimenele sau procesele
studiate3.
3
Definiţie propusă de Cowles Comission for Research în Econometrics.
4
Definiţe propusă de economiştii anglo-saxoni.
8
Figura 1.1. Proces studiat prin prisma modelării economice
( )
Y = yj j =1.m
este vectorul variabilelor dependente (rezultative).
ε
x1 y1
PROCES
x2 y2
ECONOMIC ym
xn
Y = f (X ) + ε (1.3)
La construirea şi utilizarea modelelor econometrice (figura 1.6) se porneşte de la
teoria economică pe baza căreia se construieşte un model care se presune că descrie relaţiile
cauzale dintre una sau mai multe variabile independente şi o variabilă dependentă (rezultat)
şi se obţine într-o primă fază un model economic. În funcţie de numărul de ecuaţii se
5
Ipoteza ceteris paribus.
9
introduc în model una sau mai multe variabile stochastice şi se obţine modelul econometric al
fenomenului studiat.
Pe baza datelor de selecţie reprezentând valorile variabilelor observabile din model se
estimează valorile parametrilor modelului obţinându-se o funcţie de date de observaţie (un
estimator).
Se validează modelul econometric obţinut în raport cu anumite condiţii (convergenţă,
verosimilitate etc.). Dacă modelul nu este valid se încearcă găsirea altui model care, în raport
cu condiţiile impuse sa fie valid (corect).
Dacă modelul este corect atunci acesta poate fi utilizat la testarea ipotezelor privind
valorile numerice ale parametrilor necunoscuţi ai populaţiei din care a fost selectat
eşantionul. De asemenea, validitatea modelului oferă posibilitatea efectuării unor predicţii ale
comportamentului populaţiei respective.
Selecţie
Model economic
Date de selecţie
Model econometric
Estimare
Validare
NU
Model valid?
DA
Testare ipoteze
Politici economice:predicţii/prognoză
10
Modelele econometrice formează o submulţime de modele inclusă în mulţimea modelelor
economico-matematice care, la rândul lor, pot fi categorisite după diferite criterii printre care
menţionăm:
o După numărul de ecuaţii
- modele cu o singură ecuaţie (conţin o singură variabilă rezultativă y , indiferent
de numărul n al elementelor vectorului variabilelor cauzale
X = (xi )i =1,n ) y = f ( X ) + ε
- modele multifactoriale
y = f (x1 , x 2 , K , x n ) + ε
modele autoregresive
y = f (x t , y t −k ) + ε
modele cu decalaj
y = f ( x t , x t −1 , K , x t − k ) + ε
11
Ca şi în cazul general al modelelor economico-matematice, în structura unui model
econometric intră variabilele modelului şi relaţiile dintre variabilele acestuia.
Pe lângă tipurile de variabile prezentate până acum (Variabile independente - cauzale
sau explicative -, variabile dependente - rezultative; variabile deterministe, variabile
stochastice; variabile endogene, variabile exogene) ne mai oprim asupra categorisirii
variabilelor modelelor econometrice în funcţie de valorile pe care le pot lua, şi anume:
Variabile cantitative. Provin din caracteristici care exprimă atribute cantitative ale
elementelor unei populaţii. Caracteristica principală a variabilelor catitative este
faptul ca iau valori dintr-o scară continuă, cu valorile lor putându-se efectua operaţii
aritmetice. În analizele econometrice, indicatorii statistici relevanţi calculaţi pe baza
valorilor observate sunt media şi abaterea medie pătratică.
Variabile categoriale (calitative) Provin din carscteristici care exprimă atribute
calitative. Denumirea acestora provine de la faptul că au două sau mai multe nivele de
valori numite categorii. La rândul lor, variabilele categoriale pot fi grupate în:
o Variabile nominale. Valoarea reprezintă codul unei categorii careia îi aparţine
elementul respectiv al pupulaţiei. De exemplu, variabila stare civilă poate
avea codificările:
0 – Nu (nepromovat), 1- Da (promovat).
o Variabile ordinale. Sunt variabile ale căror nivele sunt codificate astfel încât
să poată fi comparate între ele. De exemplu, variabila calitativă satisfacţie a
cărei valoare este dată de răspunsul la întrebarea:
12
Sunteţi mulţumit de calitatea serviciilor hotelului nostru? (2) – foarte
mulţumit; (1) – mulţumit; (0) – indiferent;
(-1) – nemulţumit; (-2) – foarte nemuţumit;
13
Lucrare de verificare 1A
1. Ce este econometria?
2. Care sunt principalele obiective ale econometriei?
3. Ce este modelul econometric?
4. Care este diferenţa dintre modelele economice şi modelele econometrice?
5. Care este tipologia modelelelor econometrice?
6. Ce tipuri de date sunt utilizate în econometrie.
7. Care este schema care prezintă etapele creării şi utilizării unui model econometric?
Test de autoevaluare 1B
14
a. dependenţele dintre variabilele cauzale şi cele rezultative;
b. independenţa dintre variabile;
c. dependenţele dintre variabilele cauzale;
d. dependenţele dintre variabilele rezultative;
15
8. Ce date sunt obţinute prin măsurători atât de natură statică căt şi dinamică asupra
aceloraşi elemente ale populaţiei:
a. date de tip serii de timp;
b. date de tip panel;
c. date de tip transversal;
d. date de tip profil.
10. Variabile ale căror nivele sunt codificate astfel încât să poată fi comparate între ele
sunt;
a. variabile ordinale;
b. variabile cantitative;
c. variabile binare;
d. variabile primare.
Rezumat
16
sau mai multe variabile Pe baza datelor de selecţie reprezentând valorile variabilelor
observabile din model se estimează valorile parametrilor modelului. După validarea
modelului pe baza acestuia se pot efectua predicţii ale comportamentului populaţiei
respective.
Modelele econometrice, pot fi categorisite după diferite criterii printre care după
numărul ecuaţiilor (cu o singură ecuaţie, cu mai multe ecuaţii), numărul factorilor
(unifactoriale), multifactoriale), forma dependenţei dintre variabile (liniare, neliniare),modul
în care este considerat factorul timp (madele statice, modele dinamice) etc.
Bibliografie
17
Unitatea de învăţare 2
NOŢIUNI PRIVIND VARIABILELE ALEATOARE
Cuprins
După studierea acestei unităţi de învăţare, cursanţii vor avea cunoştinţe despre teoria
probabilităţilor, şi anume:
• Ce este evenimentul.
• Tipuri de evenimente
• Ce este câmpul de evenimente
• Ce sunt variabilele aleatoare
• Ce sunt variabilele aleatore discrete
• Distribuţia variabilei aleatoare discrete
• Histograma şi pologonul distribuţeiei variabilei aleatoare discrete
• Funcţia de repartiţie a variabilei aleatoare discrete
• Ce sunt variabilele aleatoare continue
• Distribuţia variabilei aleatoare continue
• Reprezentarea grafică a variabilei aleatoare continue
• Funcţia de repartiţie a variabilei aleatoare continue
18
2.1. Eveniment. Câmp de Evenimente
Din punct de vedere al analizelor ce vor fi efectuate pe parcursul acestei lucrări orice
mulţime de elemente care printr-o proprietate comună pot fi considerate împreună constituie o
populaţie. Vom nota populaţia cu Γ , iar cu ϕ ∈ Γ un element generic al său. De exemplu, o
colectivitate de indivizi care au calitatea de a fi studenţi formează o populaţie.
Dacă în raport cu elementele populaţiei Γ considerăm una sau mai multe proprietăţi
spunem că am constituit un criteriu de cercetare. Astfel, dacă în raport cu populaţia „studenţi”
considerăm proprietatea de a fi integralist, am constituit un criteriu de cercetare.
Relizarea complexului de condiţii corespunzătoare criteriului de cercetate se numeşte
experienţă6. În sens larg, experienţa reprezintă un act care poate fi repetat în condiţii date şi care
permite verificarea practică a cunoştinţelor privind diverse fenomene şi procese din realitate.
O noţiune fundamentală în teoria probabilităţilor este cea de eveniment.
Definiţa 2.1. Evenimentul exprimă producerea sau neproducerea unui fenomen în cadrul unui
experienţe.
Evenimentul este rezultatul unui experiment (probă). Dacă în exemplul considerat mai
sus selectăm la întâmplare un element (student) din populaţia studenţi şi dacă acesta este
integralist, în raport cu criteriul ales, evenimentul evidenţiază producera fenomenului de
promovare a tuturor examenelor. Dacă studentul selectat nu este integralist, atunci evenimentul
evidenţiază neproducerea fenomenului de promovare a tuturor exemenelor.
Exemplul 2.1.
Să considerăm că dorim să vedem care sunt rezultatele posibile obţinute prin însumarea
feţelor a două zaruri care au fost aruncate.
Considerând că zarurile nu sunt măsluite, ţinând seama de faptul că feţele acestora pot lua
valori de la 1 la 6, atunci rezultă că suma feţelor la o aruncare poate avea valori în intervalul de
la 2 la 12 (2,3,4,5,6,7,8,9,10,11,12). Sumele feţelor, obţinute în toate cele 36 de combinaţii
posibele, sunt prezentate în tabelul 2.1.
6
Mihăilă N.,Popescu O., “Matematici speciale aplicate în economie”, Editura didactică şi pedagogică, Bucureşti,
1978.
19
Tabelul 2.1. Sumele feţelor obţinute prin aruncarea a două zaruri
Faţă zarul I
1 2 3 4 5 6
1 2 3 4 5 6 7
Faţă 2 3 4 5 6 7 8
zarul 3 4 5 6 7 8 9
II 4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
După cum se poate observa şi din tabelul 2.1 sunt numai n = 11 evenimente elementare
posibile (2,3,4,5,6,7,8,9,10,11,12).
Notăm: - cu Ω mulţimea tuturor evenimentelor
- cu ωi ∈ Ω evenimentul elementar i ,
Atunci,
{ωi }i =1,n reprezintă mulţimea evenimentelor elementare ale lui Ω .
alte evenimente obţinute din combinarea evenimentelor elementare, care formează, de asemenea,
părţi ale mulţimii Ω (submulţime).
De exemplu, un alt eveniment din mulţimea Ω poate fi “suma feţelor cuprinsă între 3 şi
12”, notat cu α .
Vom nota în continuare mulţimea tuturor evenimentelor (elementare şi neelementare) cu
{ei }i =1, N
Fiecărui eveniment ei i se poate asocia un eveniment contrar Cei (complementar) care
20
În cazul prezentat, evenimentul sigur reprezintă apariţia unei valori cuprinse în intervalul
închis de la 2 la 12. În consecinţă, evenimentul sigur în cazul dat este chiar mulţimea Ω .
Evenimentului sigur Ω i se asociază evenimentul imposibil notat cu Φ .
Oricare din evenimentele ei care pot să se producă sau nu la efectuarea unei probe
reprezintă un eveniment aleator.
Între două evenimente pot exista sau nu pot apărea relaţii de implicare. Dacă realizarea
evenimentului ei atrage după sine realizarea evenimentului e j (i ≠ j ) , atunci ei ⊂ e j adică
care formează mulţimea Ω , iar în continuare vom considera un Κ ca fiind mulţimea nevidă a
părţilor lui Ω care conţine toate evenimentele aleatoare {ei }i =1, N cu N finit.
Definiţia 2.3.
Perechea [Ω, Κ ] reprezintă un câmp finit de evenimente dacă:
∀ei ∈ Κ ⇒ Cei ∈ Κ ;
∀ei ∧ e j ∈ Κ ⇒ ei U e j ∈ Κ .
ei I e j = Φ∀i ≠ j.
Fie acum, {ωi }i =1,n o submulţime a mulţimii evenimentelor elementare ale câmpului de
ωi ≠ Φ∀i = 1, n
ωi I ω j = Φ∀i ≠ j
21
n
Uω = Ω
i =1
i
Este uşor de observat că mulţimea evenimentelor elementare din relaţia 2.1 satisface
proprietăţile de mai sus.
Trebuie remarcat aici faptul că, în relaţia 2.1 sunt puse în evidenţă numai evenimentele,
nu şi frecvenţele lor de apariţie. Fiecărui eveniment îi corespunde o anumită frecvenţă de
apariţie. Acestea pot fi egale sau nu.
Exemplul 2.2.
Frecvenţa de apariţie a evenimentelor elementare obţinute prin aruncarea a două zaruri este
calculate în tabelul 2.2.
Tabelul 2.2. Frecvenţa de apariţie a evenimentelor elementare obţinute prin aruncarea a două zaruri
Valoare 2 3 4 5 6 7 8 9 10 11 12
Frecvenţă 1 2 3 4 5 6 5 4 3 2 1
După cum se poate observa şi din tabelul 2.1 în cazul considerat frecvenţele de apariţie a
evenimentelor elementare diferă. Dacă le centralizăm obţinem situaţia din tabelul 1.2.
Frecvenţele de apariţie ale evenimentelor iau valori între 1 şi 6.
22
Definiţia 2.4.
Se numeşte variabilă aleatoare (stohastică) acea variabilă a cărei realizare constituie
evenimente întâmplătoare dintr-o mulţime care are un sistem determinat de evenimente.
După caracteristicile mulţimii pe care sunt definite, variabilele aleatoare se clasifică în:
• variabile aleatoare discrete definite pe mulţimi discrete cu număr finit de elemente;
• variabile aleatoare continue definite pe mulţimi continue reprezentate printr-un interval
finit sau infinit din ℜ .
Variabilele aleatoare se notează cu litere mari, iar valorile lor cu litere mici
corespunzătoare acestora. De regulă, sunt utilizate literele de la sfârşitul alfabetului (de exemplu,
variabila aleatoare X are la un moment dat valoarea x ).
Exemplul 2.3.
Aşa cum se poate observa din tabelul 2.2 la aruncarea a două zaruri este posibilă
obţinerea a 11 valori. Variabila aleatoare care modelează acest proces va fi:
2 3 4 5 6 7 8 9 10 11 12
Z : 1 2 3 4 5 6 5 4 3 2 1
36 36 36 36 36 36 36 36 36 36 36
Definiţia 2.5.
Fie X o variabilă aleatoare discretă cu xi , i = 1, n , valoarea acesteia la un moment dat şi
evenimentul ( X = xi ) cu probabilitatea P( X = xi ) = f ( xi ) = pi . Mulţimea perechilor ordonate
23
Simbolic variabila aleatoare X se notează cu:
x x
X i sau X i , i = 1, n (2.2)
f ( xi ) pi
10 f(xi ) ≥ 0
n
20 ∑ f(x ) = 1
i =1
i deoarece Ei = ( X = xi ), i = 1, n , constituie un sistem complet de
evenimente.
astfel încât mijlocul intervalului de ordinul i este considerat ca punct xi , iar pe ordonată valorile
Exemplul 2.4.
Pentru variabila aleatoare care modelează procesul de aruncare a două zaruri histograma
este este ilustrată în figura 2.1.
Dacă notăm cu M i ( xi , p i ) mijloacele segmentelor din partea de sus a dreptunghiurilor şi
le unim prin segmente de drepte, se obţine poligonul distribuţiei.
7
La constituirea histogramei trebuie să se ţină seama de tipul intervalelor de grupare. Dacă intervalele sunt egale
(ca in exemplul nostru) fiecare interval este luat egal cu unitatea de lungime. Dacă intervalele nu sunt
egale atunci acestea se dimensionează în aşa fel încât suprafaţa unei coloane să fie proporţională cu
produsul dintre mărimea intervalului şi frecvenţa sa.
24
Histogram
7
6
Frequency
5
4
3
2
1
0
2 3 4 5 6 7 8 9 10 11 12 More
Definiţia 2.6.
Se numeşte funcţie de repartiţie a variabilei aleatoare X , funcţia:
F ( x) = P( X < x)
P( X < x ) = ∑ P( X = x ) = ∑ f ( x ) , deci
xi ≤ x
i
xi ≤ x
i
F ( x) = P ( X < x ) = ∑ f ( x ),
xi ≤ x
i
Exemplul 2.5.
În cazul aruncării a două zaruri determinăm probabilitatea de a obţine o sumă a feţelor
mai mică decât 6 .
Pornim de la variabila aleatoare:
25
2 3 4 5 6 7 8 9 10 11 12
Z : 1 2 3 4 5 6 5 4 3 2 1
36 36 36 36 36 36 36 36 36 36 36
şi stabilim funcţia de repartiţie ca fiind:
F (6) = P(Z < 6) = suma probabilităţilor p i de la stânga lui 6.
1 2 3 4 10
F ( 6) = P ( Z < 6) = + + + = ≈ 0,277778
36 36 36 36 36
2 . Funcţia F(x) este nedescrescătoare. Dacă x1 < x2 sunt două valori ale argumentului
0
F ( x 2 ) − F ( x1 ) = P( x1 ≤ X < x 2 ) ≥ 0
rezultă:
F ( x 2 ) − F ( x1 ) ≥ 0, deci F ( x 2 ) ≥ F ( x1 ) .
3 0 . F(a)=0, F(b)=1 , unde a şi b sunt cea mai mică, respectiv cea mai mare valoare pe care o
poate lua argumentul variabilei X .
26
Definiţia 2.7.
x
Fie variabila aleatoare X : cu x ∈ [a, b ] , funcţia ϕ (x) se numeşte densitatea de
ϕ ( x)
probabilitate a variabilei aleatoare X .
Funcţia densitate de probabiitate ϕ (x ) se bucură de proprietăţile:
1 0 . ϕ ( x ) ≥ 0 , deoarece dP ≥ 0 şi dx > 0
b
2 0 . ∫ ϕ ( x)dx = 1 . .
a
ϕ (0 ) = 1
ϕ ( x) = e −1
S=1
0
x
27
Definiţia 2.8.
x
Fie variabila aleatoare X : cu x ∈ [a, b ] şi funcţia densitatea de probabilitate
ϕ ( x)
ϕ (x) .
Funcţia
F ( x ) = P( X < x) = ∫ ϕ (t )dt
x
(2.4)
a
ϕ (x)
1
x
∫
P( X < x) = F ( x) = ϕ (t )dt
0
ϕ ( x) = e − x
P ( X < 2)
0 x =1 x=2 x
x
şi al funcţiei de repartiţie P( X < x) = F ( x) = ∫ ϕ (t )dt
0
28
Lucrare deverificare 2A
1. Ce reprezintă un eveniment?
2. Cum de defineşte câmpul de evenimente.
3. Ce este variabila aleatoare?
4. Ce tipuri de variabile aleatoare cunoaşteţi?
5. Ce este variabila aleatore discretă?
6. Care sunt caracteristicile variabilei aleatoare?
7. Ce este variabila aleatoare continuă?
8. Ce înţelegeţi prin distribuţia variabilei aleatoare?
9. Care este funcţia de repartiţie a variabilei aleatoare continue?
10. Cum se reprezintă grafic variabila aleatoare continuă?
Test de autoevaluare 2B
29
a. variabile aleatoare nominale și variabile ordinale;
b. variabile aleatoare calitative și variabile aleatoare cantitative;
c. variabile aleatoare discrete și variabile aleatoare continue;
d. variabile aleatoare primare și variabile aleatoare secundare.
Rezumat
aleatoare care formează mulţimea Ω , Elementele {ei }i =1, N formează un sistem complet de
N
evenimente dacă: Ue i = Ω şi ei I e j = Φ∀i ≠ j.
i =1
30
Se numeşte variabilă aleatoare acea variabilă a cărei realizare constituie evenimente
întâmplătoare dintr-o mulţime care formează un sistem complet de evenimente. După
caracteristicile mulţimii pe care sunt definite variabilele aleatoare pot fi discrete sau continue.
Bibliografie
Bădiţă M., Baron T., Statistică pentru afaceri, Editura Eficient, Bucureşti, 1998
Korka M.
Chow G. Econometrics, McGraw Hill, New York, 1989
31
Unitatea de învăţare 3
CARACTERISTICILE DISTRIBUŢIEI VARIABILEI ALEATOARE
Cuprins
Unitatea de învăţare 3 CARACTERISTICILE DISTRIBUŢIEI VARIABILEI ALEATOARE 32
Obiectivele Unităţii de Învăţare 3 ............................................................................................. 32
3.1 Indicatorii caracteristici variabilei aleatoare privind tendinţa centrală de grupare ............. 33
3.2 Indicatorii caracteristici variabilei aleatoare privind împrăştierea distribuţiei variabilei
aleatoare .................................................................................................................................... 36
3.3 Particularităţi ale formei de distribuţie ................................................................................ 41
Lucrare de verificare 3A ........................................................................................................... 42
Test de autoevaluare 3B ............................................................................................................ 43
Rezumat ..................................................................................................................................... 46
Bibliografie................................................................................................................................ 47
După studiul acestei unităţi de învăţare, cursanţii vor avea cunoştinţe despre:
• cunoaşterea indicatoriilor caracteristici variabilei aleatoare privind tendinţa centrală de
grupare (valoarea medie, mediana, modulul),
• cunoaşterea indicatoriilor caracteristici variabilei aleatoare privind împrăştierea
distribuţiei variabilei aleatoare (intervalul de variaţie, dispersia, abaterea medie pătratică,
covarianţa, coeficientul de împrăştiere
• cunoaşterea indicatoriilor caracteristici variabilei aleatoare privind forma distribuţiei
(simetria şi asimetria, boltirea);
32
3.1 Indicatorii caracteristici variabilei aleatoare privind tendinţa centrală de
grupare
Valoarea medie
Definiţia 3.1.
Se numeşte valoare medie a unei variabile aleatoare X , discrete sau continue,
expresia:
n n
M ( X ) = ∑ pi xi = ∑ xi f ( xi ), (variabila discretă) (3.1)
i =1 i =1
b
M ( X ) = ∫ xϕ ( x)dx , (variabila continuă) (3.2)
a
−1 0 1 2
X :
0,2 0,1 0,4 0,3
x
X :
− x , x≥0
ϕ ( x) = e
∞ ∞
vom avea: M ( X ) = ∫ xe − x dx = Γ(2) = 1 , unde Γ(a ) = ∫ x a −1e − x dx este integrala Γ a lui Euler.
0 0
33
k
K :
Fie constanta 1 atunci M ( K ) = k ⋅ 1 = k
media sumei a două variabile aleatoare este egală cu suma mediilor acestora
M ( X + Y ) = M ( X ) + M (Y )
Valoarea mediană
Definiţia 3.2.
Se numeşte mediana variabilei aleatoare X , acea valoare M e pentru care, variabila
aleatoare are aceeaşi probabilitate de a fi mai mică sau mai mare ca ea, adică:
P( X < M e ) = P( X > M e ) (3.3)
Pentru variabilele aleatoare discrete mediana M e se deduce din
F ( M e ) = 1 − F ( M e ), sau 2 F ( M e ) = 1 .
1
fiind soluţia ecuaţiei: F ( x ) =
2
Pentru variabila aleatoare discretă
−1 0 1 2
X :
0,2 0,1 0,4 0,3
avem P( X < 1) = P ( X > 1) = 0.3 . În consecinţă M e = 1
Me 1
Pentru variabilele aleatoare continue, mediana M e este soluţia ecuaţiei ∫
i
ϕ ( x)dx =
2
.
34
Se numeşte modul (valoarea cea mai probabilă) variabilei aleatoare X , acea valoare
pentru care funcţia de pobabilitate f ( xi ) în cazul variabilelor aleatoare discrete, respectiv
densitatea de probabilitate ϕ (x ) în cazul variabilelor aleatoare continue este maximă.
Poziţionările celor trei indicatori ai tendinţei centrale de grupare prezentaţi mai sus
(valoarea medie, mediana şi modulul) sunt ilustrate în figura 3.1.
modulul modulul
mediana mediana
media media
Modulul=mediană=medie
c. Repartiţie simetrică
Figura 3.1. Poziţionarea valorii medii, medianei şi modulului pentru repartiţia simetrică şi
repartiţii asimetrice8
După cum se poate observa din figura 3.1.c., în cazul repartiţiei simetrice poziţiile celor
trei indicatori coincid. În cazul repartiţiilor asimetrice poziţiile medianei şi mediei (în această
ordine) se află în stânga modulului în cazul repartiţiei left skewed (figura 3.1.a.) respectiv în
dreapta modulului în cazul repartiţiei right skewed (figura 3.1.b.).
8
Spircu L., “Analiza datelor. Aplicaţii economice”, Editura ASE, Bucureşti 2005, pag. 19
35
3.2 Indicatorii caracteristici variabilei aleatoare privind împrăştierea
distribuţiei variabilei aleatoare
36
Fie variabila aleatoare X şi α o valoare oarecare din intervalul de variaţie respectiv,
se numeşte abatere a variabilei X , variabila aleatoare ξ , al cărui argument este dat de
diferenţa dintre argumentul lui X şi α , adică:
xi − α
ξ , (3.5)
f ( xi )
dacă X este variabilă aleatoare discretă, respectiv
x −α
ξ , (3.6)
ϕ (x)
dacă X este variabilă aleatoare continuă.
Teorema 3.1.
Media abaterii unei variabile X calculată faţă de valoarea medie, µ = M ( X ) ,
este nulă.
xi − µ
Demonstraţie: Fie variabila abatere ξ , avem
f ( xi )
n n n
M (ξ ) = ∑ ( xi − µ ) f ( xi ) = ∑ xi f ( xi ) − µ ∑ f ( xi ) = µ − µ = 0
i =1 i =1 i =1
Dacă în locul abaterii variabilei ξ definită mai sus utilizăm abaterea absolută
xi − µ
ξ a vom avea
f ( x )
i
∑x
i =1
i − µ ⋅ f ( xi ) în cazul variabilei aleatoare discrete, respectiv
+∞
∫−∞
x − µ ⋅ ϕ ( x)dx, în cazul variabile aleatoare continue,
care nu mai este nulă şi care, poate caracteriza împrăştierea variabilei aleatoare X în jurul valorii
ei medii m.
Dispersia
37
Pe lângă abaterea medie absolută definită anterior, o măsură larg utilizată a împrăştierilor
valorilor variabilei aleatoare faţă de media sa este dispersia.
Definiţia 3.6.
Se numeşte dispersie a variabilei aleatoare X , media M (ξ 2 ) a pătratului variabilei
aleatoare de abatere ξ :
(x − µ)2
ξ 2
(3.7)
f ( x )
Dispersia variabilei aleatoare X se notează de regulă fie cu σ x2 , fie cu D(X). În
consecinţă avem:
σ x2 = D( X ) = M (ξ 2 ) = M [( X − M ( X )) 2 ] = M ( X 2 ) − M 2 ( X )
Dacă variabila aleatoare X este discretă, atunci:
n
D ( X ) = ∑ ( xi − µ ) 2 ⋅ f ( xi ) , (3.8)
i =1
38
D( X − Y ) = D( X ) + D(Y ) sau σ x − y = σ x + σ y .
2 2 2
Într-adevăr avem:
D( X − Y ) = D( X + ( −1)Y ) = D( X ) + ( −1) 2 D(Y ) = D( X ) + D(Y )
n n
D ∑ (a k X k + bk ) = ∑ a k2 ⋅ D( X k ).
k =1 k =1
Teorema 3.2.
Dispersia mediei aritmetice a n variabile independente X j , j = 1, n care
urmează aceeaşi lege de distribuţie, este egală cu dispersia uneia din variabilele împarţită la
numărul variabilelor.
Demonstraţie:
n
∑ Xk
= 1
n
n ⋅ D( X ) D( X )
D k =1 ∑ D( X )= = .
n n2 k =1
k
n2 n
39
Se numeşte abaterea medie pătratică a variabilei X sau abaterea medie tip
(standard) valoarea medie de ordinul doi a abaterii, adică:
σ x = M (ξ 2 ) = D ( X ) (3.10)
D( X ) D( X ) σx
σ X = D( X ) = = = . (3.11)
n n n
∗ Covarianţă
Definiţia 2.16.
σ xy = M [( X − µ x ) ⋅ (Y − µ y )] , unde µ x = M ( X ), µ y = M (Y ) (3.12)
∗ Coeficientul de împrăştiere
Coeficientul de împrăştiere al unei variabile aleatoare X se exprimă ca raport dintre o
valoare a împrăştierii şi o mărime de aceeaşi natură şi are rolul de a înlătura influenţa naturii
variabilei aleatoare X asupra măsurii împrăştierii respective.
În practică, o expresie a coeficientului de împrăştiere frecvent utilizată este:
σx
V= ⋅ 100 . (3.14)
µx
40
X − µx
Z= (3.15)
σx
este numită normarea variabilei X la variabila Z .
X − µ M (X ) − µ
M (Z ) = M = = 0. (3.16)
σ σ
- dispersia şi abaterea medie pătratică ale variabilei normate sunt egale cu unitatea.
X − µ D( X ) σ
2
D( Z ) = D = = 2 = 1. (3.17)
σ σ2 σ
Simetria şi asimetria
Distribuţia unei variabile aleatoare X definită de funcţia f(x), este simetrică faţă de
valoarea medie m, dacă este satisfăcută de relaţia f (µ − ξ ) = f (µ + ξ ) , pentru orice abatere
ξ = x−µ.
Grafic aceasta înseamnă că, dacă două puncte M 1 si M 2 simetrice faţă de dreapta x = µ ,
de ordonate egale, se situează pe curba distribuţiei aceasta este simetrică, iar în caz contrar
distribuţia este asimetrică .
Pentru o distribuţie simetrică, media, mediana şi modul (pentru distribuţia unimodală) au
aceeaşi valoare.
Se dovedeşte că momentele centrate de ordin impar ale oricărei distribuţii simetrice sunt
nule.
41
Coeficientul care măsoară asimetria este notat cu α, şi este definit astfel ca pentru α = 0,
distribuţia să fie simetrică, iar pentru α ≠ 0, distribuţia este asimetrică.
Sunt folosiţi cu deosebire următorii coeficienţi de asimetrie:
M (X ) − M0 (X )
α1 = ( Pearson) , (3.18)
σx
µ3
α2 = ( Fisher) (3.19)
σ3
Boltirea (Turtirea)
Curbele de distribuţie pot avea boltiri sau turtiri diferite. Coeficientul de boltire folosit
este
µ4
β= (Fisher). (3.20)
σ4
Boltirea unei distribuţii oarecare se compară de obicei cu distribuţia normală9 pentru
care β = 3.
Diferenţa E = β – 3 este numită excesul distribuţiei.
Dacă E > 0, (deci β > 3), distribuţia este numită de tip leptokurtic.
Dacă E < 0, (deci β < 3), distribuţia este numită de tip platykurtic.
Lucrare de verificare 3A
9
Vezi în Capitolul III, “Distribuţiile clasice – baza verificării ipotezelor statistice în comerţ- turism-sevicii”,
subcaputolul 3.2.1., “Repartiţia normală normată ( Z )”.
42
6. Cum se definește dispersia?
7. Cum se definește abaterea medie pătratică?
Test de autoevaluare 3B
1. Modulul reprezintă:
a. Valoarea cea mai des întânită într-o serie statistică;
b. Valoarea din mijlocul unei serii statistice, în care observațiile au fost ordonate
crescător;
c. Valoarea cea mai puțin întânită într-o serie statistică;
d. Valoarea care imparte distribuția seriei statistice în două părți de volum egal;
2. Modulul reprezintă:
a. Valoarea cea mai des întânită într-o serie statistică;
b. Valoarea din mijlocul unei serii statistice, în care observațiile au fost ordonate
crescător;
c. Valoarea cea mai puțin întânită într-o serie statistică;
d. Valoarea care imparte distribuția seriei statistice în două părți de volum egal;
43
Vârsta (ani) 15-25 25-35 35-45 45-55 55-65
Nr. Pers. 7 12 20 8 3
44
7. Distribuţia elevilor unei clase de liceu în funcţie de numărul de absențe dintr-o lună se
prezintă astfel:
Nr. de absențe cumulate 14 15 16 17 18 19 20
Nr. elevi 2 6 10 15 8 5 4
45
Se obțin următăoarele valori pentru indicatorii sintetici ai variației:
a. dispersia 132,16 și abaterea medie pătratică 12,8 firme;
b. dispersia 11,6 și abaterea medie pătratică 134,56 firme;
c. dispersia 134,56 și abaterea medie pătratică 11,6 firme;
d. dispersia 13,56 și abaterea medie pătratică 1,6 firme.
Rezumat
46
Bibliografie
47
Unitatea de învăţare 4
DISTRIBUŢIILE CLASICE ÎN VERIFICAREA IPOTEZELOR
STATISTICE
Cuprins
Unitatea de învăţare 4 DISTRIBUŢIILE CLASICE ÎN VERIFICAREA IPOTEZELOR
STATISTICE ................................................................................................................................ 48
Obiectivele Unităţii de Învăţare 4 ............................................................................................. 48
4.2 Repartiţia χ
2
...................................................................................................................... 53
4.3 Repartiţia Student ( t ) .......................................................................................................... 55
4.4 Repartiţia Fisher-Snedecor ( F ) ......................................................................................... 56
Lucrare de verificare 4A ........................................................................................................... 57
Test de autoevaluare 4B ............................................................................................................ 57
Rezumat ..................................................................................................................................... 60
Bibliografie................................................................................................................................ 61
Dupa studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• Repartiţia normal normată Z ;
Repartiţia χ
2
•
• Repartiţia Student t
• Repartiţia Fisher-Snedecor F
48
Aplicarea unui model teoretic conduce la obţinerea unor rezultate care, deşi sunt
orientative, totuşi au un grad ridicat de utilitate.
În acest context, în multe situaţii, sunt utilizate repartiţiile teoretice pentru conturarea cât
mai exactă a rezultatelor necesare pentru definitivarea deciziilor manageriale.
Repartiţia normală normată este întâlnită şi sub numele de repartiţia normală standard sau
repartiţia normală redusă, tocmai pentru că redă un caz particular al repartiţiei normale.
Denumită şi repartiţia Gauss-Laplace, repartiţia normală este exprimată printr-o variabilă
aleatoare X cu media m şi dispersia σ 2 , normată X~N ( µ , σ 2 ), a cărei funcţia de repartiţie este:
(t −m)2
1 −
F (x) = P (X<x) = ∫ x
⋅e 2σ 2
dt, (4.1)
−∞ σ 2π
x ∈ R, σ > 0
cu
µ , σ − parametrii fun ct iei de repartitie [ M ( X ) = µ şi D ( X ) = σ ]
2 2
momente centrale
− de ordin impar egale cu zero : µ 2 K +1 = 0
(2 K )!
− de ordin par : µ 2 K = 2 K ⋅ K ! ⋅ σ
2K
dispersia σ i2
K K
µ = ∑ µ i şi σ 2 = ∑ σ i2
i =1 i =1
49
independente repartizate normal cu media µi şi dispersia σ i2 , atunci suma
Repartiţia normală normată se prezintă grafic printr-o curbă normală care se numeşte şi
clopotul lui Gauss, datorită următoarelor caracteristici:
- reprezentarea este simetrică faţă de dreapta x = µ , iar cele două părţii ale curbei tind
asimptotic spre axa absciselor Ox.
- distribuţia fiind unimodală, valoarea maximă va fii atinsă pentru x = µ în punctul:
1
σ 2π
50
Figura 4.2. Modificarea curbei repartiţiei normale
pentru σ variabil şi m constant
Un exemplu de curbă Gauss-Laplace pentru o repartiţie normală X ~ N (1,5;1) prezentat în
figura 4.3
0,4
0,2
51
0,4
0,2
-2 -1 1 2
(− z ) (+ z )
Figura 4.4. Graficul funcţiei de repartiţie normală normată
Funcţia de repartiţie a variabilei aleatoare normală normată este:
u2
1 −
F ( z) = ∫ e
z 2
du (4.3)
2π −∞
Deoarece curba este simetrică, deci F (0) = 0,5, din definiţia funcţiei repartiţiei avem:
F ( z ) = P (Z < z ) = α
Importantă din punct de vedere aplicativ este şi funcţia φ (z) ce prezintă aria de sub
ramura pozitivă a densităţii şi probabilităţii (figura 4.5) care se stabileşte în raport cu funcţia de
repartiţie normală redusă astfel:
1
φ ( z) = F ( z) − , z ≥ 0 (4.4)
2
f (z )
Φ(z )
-2 2
52
În această carte, este prezentată o Anexă 1 cu un tabel în care sunt incluse valorile
funcţiei φ (z ) .
Repartiţia χ
2
4.2
Definiţia 2.19.
Densitatea de probabilitate ϕ ( χ 2 ; a, g) a repartiţiei χ 2 este:
g x
1 −1 −
ϕ ( x) = g
⋅ x2 ⋅e 2a2
, x≥ 0 (4.5)
g
2 ⋅ a ⋅ Γ
2 g
2
unde: g – gradele de libertate ale repartiţiei
Γ - repartiţia Gamma
În cazul repartiţiei χ 2 întâlnim următoarele situaţii:
2
• dacă x < 0 , atunci ϕ ( x, g ) =0.
Funcţia de repartiţie este:
x
F ( x) = ∫ ϕ (t , g )dt
−∞
f (x : g ,1)
g =2
g =4
0,2
g =6
g = 15
0,1
x
5 10 20
Valorile teoretice sau tabelare ale lui χ 2 se preiau din Tabela χ 2 , prezentată în Anexa 2
o notare inversată a valorilor critice din stânga graficului. În locul lui − χ α2 ,n −1 există χ 12−α ,n −1 şi
54
4.3 Repartiţia Student ( t )
Definiţia 2.20.
Distribuţia Student este acea distribuţie a cărei densităţi de probabilitate este dată de
funcţia:
g +1
Γ
ϕ (t , g ) =
1
⋅ 2
⋅
1
, (4.7)
g +1
gπ g
Γ t 2 2
2 1 +
g
unde Γ ( x ) = funcţia gamma.
Funcţia de repartiţie a distribuţiei Student este:
x
F ( x) = ∫ ϕ (t , g )dt (4.8)
−∞
Observaţie
Dacă g > 30 , atunci lim f (t , g ) ≈ N (t ;0,1) , deci repartiţia Student (figura 4.7) este
g →∞
55
ϕ
0,4
distribuţia t
distribuţia N (x;0,1)
0,2
x
-2 -1 1 2
distribuţiei Student, t (Anexa 3), cu menţiunea că, acele valori α şi g care nu există în tabel se
utilizează aproximarea normală standard.
Definiţia 2.21.
Vom spune despre o variabilă aleatoare că are distribuţie Fisher-Snedecor dacă funcţia
densitatea de probabilitate a acesteia este de forma:
56
g + g2
Γ 1 g1 g2
g1
−1
ϕ (F ) = 2 ⋅ g1 ⋅ g 2 ⋅
2 2
F 2
, F≥ 0 (4.9)
g1 + g 2
g1 g 2
Γ ⋅ ( g1 + g 2 ) 2
F
2 2
unde: Γ ( p ) - funcţia Gamma
g1 şi g 2 - numărul gradelor de libertate
Funcţia de repartiţie este:
∞
P( F > F0 ) = ∫ ϕ ( F )dF = δ
0
Lucrare de verificare 4A
Test de autoevaluare 4B
57
b. distribuţie normală;
c. repartiţia Gauss-Laplace;
d. repartiţia student.
58
c. sumă a unor variabile aleatoare independente repartizate normal standard;
d. dieferenţă a unor variabile aleatoare independente repartizate normal standard.
a. χ 12−α ,n , χ 2 α , χ α2 , χ α2 ,n ;
1− , n ,n
2 2
b. χ α2 ,n −1 , χ α2 , χ α2 , χ α2 , n−1 ;
, n −1 , n −1
2 2
c. χ 12−α ,n −1 , χ 2 α , χ α2 , χ α2 , n−1 ;
1− , n −1 ,n −1
2 2
d. χ12−α , χ 2 α , χ α2 , χ α2 ;
1−
2 2
59
b. compararea mediilor populaţiilor normale luând în considerare modulul
colectivităţilor;
c. însumarea mediilor populaţiilor normale;
d. compararea mediilor populaţiilor normale luând în considerare împrăştierea
datelor ambelor colectivităţi.
Rezumat
Importantă din punct de vedere aplicativ este şi funcţia φ (z) (funcţia integrală a lui Laplace)
1
astfel încât F ( z) = + φ ( z ), z ≥ 0 . Valorile Foncţiilor φ (z) şi F(z) sunt tabelate (Anexa 1).
2
Repartiţia χ 2 este întotdeauna pozitivă. Valoarile tabelate ale repartiţiei χ 2 , sunt de
forma χ α2 , n−1 , unde n − 1 = g este numărul gradelor de libertate şi sunt prezentate în Anexa 2.
Repartiţia Student (ale cărei valori tabelate se găsesc în Anexa 3)este utilizată atunci când
numărul numărul gradelor de libertate este relativ mic (uzual) sub 30. Dacă g tinde către infinit
repartiţia Student converge către repartiţia normală normată.
y1 g 2
Repartiţia F caracterizează o variabilă aleatoare X de forma: X = ⋅ , unde: y1 , y 2 sunt
y 2 g1
60
Bibliografie
61
Unitatea de învăţare 5
IPOTEZE STATISTICE-ASPECTE TEORETICE
Cuprins
Dupa studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• Inferenţa statistică;
• Ipoteza statistică;
• Elementele teoretice care intervin în testarea ipotezelor statistice sunt:
• ipotezele: nulă şi alternativă;
• limita de semnificaţie şi valori critice de respingere;
• regiune de respingere (critică);
• statistica testului;
• verificarea ipotezei.
62
Metodologia corelaţiei simple liniare a cercetării ştiinţifice este precedată de o treaptă
esenţială care vizează stabilirea şi confirmarea sau infirmarea unor ipoteze ce cuprind anumite
aspecte importante necesar a fi studiate în legătură cu procesul sau fenomenul analizat.
Această treaptă include metode denumite inferenţiale deoarece, prin intermediul acestora,
se estimează caracteristicile unor colectivităţi statistice.
Definiţia 5.1. Inferenţa este o operaţiea logică de trecere de la un enunţ la altul şi în care
ultimul enunţ este dedus din primul.
Din punctul de vedere al acestei lucrări enunţurile sunt reprezentate prin ipoteze
statistice, iar inferenţa este reprezentată de procesul de extindere la nivelul colectivităţii generale
Γ a unor rezultate obţinute dintr-o subcolectivitate reprezentaivă γ ⊂ Γ (figura 5.1).
63
Extragere subpopulaţie
Subcolecti
Extindere Rezultate Colectivitate
vitate Estimare statistică
γ Γ
(eşantion
INFERENŢĂ
64
Verificare
IPOTEZE
Γ TESTĂRII γ
Stabilire
IPOTEZE
11
Vezi Capitolul II “2.2. Caracteristicile distribuţiei variabilei aleatoare”.
65
Cele două ipoteze (nulă şi alternativă) formează o pereche nelipsită în cadrul
metodologiei testării.
Definiţia 5.3. Se numeşte ipoteză nulă şi se notează cu H 0 acea presupunere prin care se
formulează supoziţia conform căreia nu există diferenţă semnificativă între parametrii
comparaţi (primează caracterul întâmplător).
Alternativa la H 0 , apare ca o altă alternativă care poate fi adevărată în condiţiile
respingerii ipotezei nule.
Definiţia 5.4. Se numeşte ipoteză alternativă şi se notează cu H 1 presupunerea conform căreia
există o diferenţă semnificativă (cazuri speciale: mai mare sau mai mică) între parametri
comparaţi.
Ambele ipoteze trebuiesc stabilite iniţial, ca prime etape în cadrul metodologiei testării
fiind considerate mutual exhaustive ca urmare a imposibilităţii împlinirii simultane a acestora,
dar cu realizarea obligatorie a uneia din ele (respingerea ipotezei nule H 0 conduce la stabilirea
ipotezei alternative H 1 ca fiind adevărate sau dacă ipoteza nulă H 0 este adevărată, atunci ipoteza
alternativă H 1 se respinge).
66
• probabiliatea evenimentului realizat ( E R ) sub H1 este mai mare decât sub H0, dar nu se
poate determina decât funcţia de celealtă.
Probabilitatea critică este interpretată a fi mică sau nu prea „mică” în raport cu un anumit
nivel denumit prag sau limită de semnificaţie notat cu α .
Regula de decizie se stabileşte în funcţie de probabilitatea critică ( PC ) astfel:
• dacă PC este mai „mică” de α ( PC ≤ α ), atunci H0 se respinge (evenimentul realizat se
consideră neaşteptat în contextul ipotezei H0, în timp ce ipoteza H1 îi asigură o
probabilitate mai mare de aspiraţie).
• Dacă PC este mai „mare” de α , atunci H0 nu se respinge (evenimentul realizat se
consideră aşteptat să se întâmple).
Limita de semnificaţie α poate lua valori cuprinse între 0,5 şi 0,0001 (cele mai utilizate
fiind 0,05 şi 0,01), acestea fiind stabilite teoretic.
Dacă α = 0,05 sau altfel spus α = 5% înseamnă că riscul de respingere al ipotezei nule
H0 este de 5% (când respingem ipoteza nulă H0 este posibil să se greşească în proporţie de 5%).
Limita de semnificaţie ( α ) are un rol esenţial în cadrul testării ipotezelor statistice
reprezentând acel prag sau linie care separă rezultatele ce resping ipoteza nulă de celelalte care
nu resping.
În acest context apare acea regiune de respingere (regiunea critică) notată Rr în care sunt
incluse rezultatele ce resping ipoteza nulă.
Definiţia 5.5. Punctele care determină regiunea de respingere se numesc valori critice ale
testului şi sunt reprezentate de Quantilele distribuţiei utilizate în aplicarea respectivului test.
Valorile critice de respingere vC .R sunt valori tabelare sau teoretice ale testelor ( Z α , Z α ,
2
67
Regiunea include probabilitatea de realizare a evenimentului alternativ, deci este
adevărată ipoteza alternativă H 1 .
În procesul de decizie al unui test statistic se pot produce erori care apar sub două forme
(tabelul 4.1).
• eroare de tip I. (de speţa întâi): se respinge ipoteza nulă H 0 , deşi ea este adevărată.
Riscul producerii unei erori de tip I este α .
• eroare de tip II (de apeţa a doua): nu se respinge ipoteza nulă H 0 , deşi ea este falsă.
f x ()
H0 H1
α
β
µ0 C µ1 x
68
12
Figura 5.3 Legătura dintre probabilităţile α şi β
Statistica testului
Testarea ipotezei
Verificarea ipotezei constă în compararea rezultatului obţinut prin aplicarea statisticii
testului la valorile calculate cu valoarea critică şi stabilirea deciziei finale ca find una din
situaţiile :
dacă valoarea calculată intră în regiunea de respingere, atunci ipoteza nulă H 0 se
12
Voineagu V., Ţiţan E., Şerban R., Chiţă S., Todose D., Boboc C., Pele D., Teorie şi practică econometrică,
Editura Meteor Press, Bucureşti, 2006, pag.89.
69
Stabilirea ipotezelor
- Ipoteza H 0
- Ipoteza H1
Alegerea
TIPULUI TESTULUI
Alegerea
Valoarea critică Regiunea
LIMITEI DE
vC . R SEMNIFICAŢIE de respingere
STATISTICA TESTULUI
NU DA
PER ∈ R R
Se acceptă H 0 Se respinge H 0
În funcţie de sensul abaterii inclusă în ipoteza alternativă H 1 apar trei tipuri de teste:
• Test unilateral stânga
• Test bilateral
70
• Test unilateral dreapta
H 1 : x1 < x 2
σ 12
H 0 : σ 12 = σ 22 sau H 0 : =1
σ 22
σ 12
H 1 : σ 12 < σ 22 sau H 1 : <1
σ 22
- Regiunea de respingere ( RR ) şi valoarea critică de respingere ( vC .R ) sunt prezentate în
figura 5.1
- Limita de semnificaţie este α
RR
vC . R
Testul bilateral
Pentru testul bilateral avem:
- ipotezele testului :
de exemplu, dacă se compară mediile a două eşantioane ( x1 şi x 2 ), avem:
71
H 0 : x1 = x 2
H 1 : x1 ≠ x2
σ 12
H 0 : σ 12 = σ 22 sau H 0 : =1
σ 22
σ 12
H 1 : σ ≠ σ sau H 1 : 2 ≠ 1
2 2
σ2
1 2
RR
RR
vC . R vC .R
negativă pozitivă
H 0 : x1 = x 2
H 1 : x1 > x 2
72
în alt exemplu, dacă se compară două dispersii ( σ 12 şi σ 22 ), vom avea:
σ 12
H 0 : σ 12 = σ 22 sau H 0 : =1
σ 22
σ 12
H 1 : σ > σ sau H 1 : 2 > 1
2 2
σ2
1 2
RR
vC . R
pozitivă
Figura 5.3. Baza teoretică grafică a testului unilateral dreapta
Procedeul testării ipotezelor statistice are în vedere nu numai tipul ipotezei alternative,
dar şi următoarele două elemente:
♦ volumul eşantionului ( n ), cu cele două cazuri: eşantion de volum mic ( n < 30 ) şi
eşantion de volum mare ( n ≥ 30 );
♦ dispersia colectivităţii generale ( σ 2 ) din care se extrag eşantioanele, cu cele două
situaţii: σ 2 cunoscut şi σ 2 necunoscut.
Lucrare de verificare 5A
73
3. Ce înţelegeţi prin procedeul de testare a ipotezelor statistice?
4. Ce reprezintă ipoteza nulă într-un proces de testare de ipoteze statistice?
5. Care este diferenţa dintre H0 şi H1?
6. În testarea ipotezelor, ce determină mărimea regiunii critice?
7. Ce reprezintă testul sau criteriul de semnificaţie?
8. Ce reprezintă regiunea critică?
9. Când se comite o eroare de gradul întâi?
10. Când se comite o eroare de gradul al doilea?
11. Care sunt paşii în construirea unui test statistic?
Test de autoevaluare 5B
74
4. În funcţie de sensul abaterii inclusă în ipoteza alternativă H 1 apar:
a. două tipuri de teste;
b. trei tipuri de teste;
c. patru tipuri de teste;
d. un singur test.
b. H 0 : x1 = x2 şi H 1 : x1 > x2 ;
c. H 0 : x1 > x 2 şi H 1 : x1 < x 2 ;
d. H 0 : x1 ≠ x 2 şi H 1 : x1 < x 2 .
a. H 0 : σ 12 = σ 22 şi H 1 : σ 12 ≠ σ 22 ;
b. H 0 : σ 12 = σ 22 şi H 1 : σ 12 > σ 22 ;
c. H 0 : σ 12 = σ 22 şi H 1 : σ 12 < σ 22 ;
d. H 0 : σ 12 ≠ σ 22 şi H 1 : σ 12 > σ 22 .
75
1
c. ;
α
α
d. .
2
RR
vC . R
RR
RR
vC . R vC .R
negativă pozitivă
76
Rezumat
Ipoteza statistică este o presupunere cu caracter provizoriu, formulată pe baza unor date
exterimentale existente la un moment dat. Testarea ipotezelor statistice presupune parcurgerea
următoarelor etape: formularea ipotezelor : H 0 (nulă) şi H 1 (alternativă), stabilirea pragului de
Bibliografie
Bădiţă M., Baron T., Statistică pentru afaceri, Editura Eficient, Bucureşti, 1998
Korka M.
Biji M., Biji E. Statistică teoretică, Editura Didactică şi Pedagogică,
Bucureşti, 1979
77
Unitatea de învăţare 6
TESTAREA IPOTEZELOR PRIVIND MEDIILE POPULAŢIILOR CU
EŞANTIOANE DE VOLUM MARE
Cuprins
Obiectivele Unităţii de Învăţare 6 .................................................................................................. 78
6.1 Compararea mediei eşantionului cu media colectivităţii generale ........................................ 78
6.2 Compararea mediilor a două eşantioane .................................................................................. 83
6.3 Compararea proporţiei eşantionului cu a colectivităţii generale ............................................ 86
Lucrare de verificare 6A ................................................................................................................. 90
Test de autoevaluare 6B ................................................................................................................. 91
Rezumat ........................................................................................................................................... 96
Bibliografie ...................................................................................................................................... 97
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• testarea ipotezei statistice privind compararea mediei eşantionului cu media
colectivităţii generale;
• testarea ipotezei statistice privind compararea mediilor a două eşantioane de
volum mare;
• testarea ipotezei statistice privind compararea proporţiei eşantionului cu a
colectivităţii generale;
78
În condiţiile utilizării unor eşantioane de volum mare ( n ≥ 30 ) s-a demonstrat necesitatea
aplicării statisticii Z
Aplicarea testului Z în cazul comparării mediei eşantionului γ de volum n cu media
colectivităţii generale Γ presupune studierea unei populaţii statistice, de variabilitate constantă,
pentru a stabili dacă valoarea mediei a acestuia este aceeaşi cu a eşantionului utilizat în cercetare
Repartiţia normală redusă care stă la baza testului Z are în vedere funcţia de repartiţie
N (µ , σ 2 ) , cu parametri µ = 0 şi σ = 1
2
colectivităţii generale ( σ ):
2
σ 2 cunoscut :
x − µ ip x − µ ip
Zc = = (6.1)
σ2 σ
n n
σ 2 necunoscut:
x − µ ip x − µ ip
Zc = = (6.2)
s2 s
n n
unde:
n - volumul eşantionului
µ ip - media ipotetică
x - media eşantionului
σ 2 - dispersia colectivităţii generale
σ - abaterea medie pătratică a colectivităţii generale
s 2 - estimaţia dispersiei colectivităţii generale
s - estimaţia abaterii medii pătratice a colectivităţii generale
În raport cu direcţia abaterii inclusă în ipoteza alternativă, testul Z aplicat poate
a. − unilateral stânga
fi: b. − bilateral
c. − unilateral dreapta
79
Testul Z unilateral stânga
Acest tip de test este utilizat în situaţia practică ce direcţionesză abaterea spre stânga, mai
precis ipoteza alternativă precizează că media populaţiei eşantionului este mai mică decât a
populaţiei.
Pe grafic (figura 6.1), densitatea de probabilitate este limitată la stânga de aria regiunii de
respingere a ipotezei nule. Această regiune este demarcată de valoarea critică − Z α . Pentru o
limită de semnificaţie α , valoarea lui Z denumit şi „Z tabelar sau teoretic” se preia din anexa 1,
tabelul cu valorile funcţiei Gauss Laplace.
RR
H 0 se respinge − Zα
adevărată ipoteza H 1 .
80
5. - se calculează valoarea statistică a testului cu una din relaţiile 4.2 sau 4.3, iar valoarea
obţinută se plasează pe grafic.
6. - se compară valoarea lui Z c cu - Z α şi se stabileşte dacă rezultatul statistic al testului
Testul Z bilateral
Aplicarea testului are în vedere ipoteza alternativă prin care se specifică faptul că media
eşantionului diferă semnificativ de media colectivităţii generale.
Graficul, figura 6.2, indică o limitare a densităţii de probabilitate în ambele părţi, atât la
stânga cât şi la dreapta de aria de respingere a ipotezei nule. Cele două regiuni de respingere sunt
prezentate pe grafic începând cu valorile critice - Z α , respectiv Z α .
2 2
RR
RR
H 0 se respinge H 0 se respinge
− Zα Zα
2 2
2. Ipoteza alternativă: H 1 : µ ≠ µ ip
81
► Z tabelar sau teoretic: Z α şi - Z α (anexă 1 cu valorile funcţiei Gauss Laplace), iar
2 2
adevărată ipoteza H 1 .
5. Se calculează valoarea statistică a testului cu una din relaţiile 4.2 sau 4.3, iar valoarea
obţinută se plasează pe grafic.
6. Se compară Z c cu Z α şi/sau cu - Z α , astfel urmărindu-se dacă se verifică una din relaţiile Rr
2 2
RR
Zα H 0 se respinge
Etapele care trebuiesc parcurse pentru aplicarea tetsului „z” unilateral dreapta sunt cele
prezentate anterior în cadrul celorlalte două tipuri de teste „z”.
1. Ipoteza nulă: H 0 : µ = µ ip
82
2. Ipoteza alternativă: H 1 : µ ≠ µ ip
ipoteza H 1 .
5. Se calculează valoarea statistică a testului cu una din relaţiile 4.2 sau 4.3, iar valoarea
obţinută se plasează pe grafic.
6. Se compară Z c cu Z α , astfel urmărindu-se dacă se verifică relaţia Rr şi se ia decizia adecvată
situaţiei.
În anumite situaţii practica necesită realizarea unei analize statistice prin compararea a
două medii ce reprezintă două eşantioane care trebuiesc studiate.
Principalele caracteristici ce permit aplicarea testului Z pentru compararea mediilor ce
revin celor două eşantioane sunt:
1. - eşantioanele sunt de volum mare ( n1 ≥ 30 şi n2 ≥ 30 )
( ) (
2. – variabilele au tendinţe de normalitate: X 1 ≈ N µ1 , σ 12 şi X 2 ≈ N µ 2 , σ 22 )
Statistica testului calculat este:
σ 2 cunoscut :
x1 − x 2
zc = (6.3)
σ 12 σ 22
+
n1 n2
σ 2 necunoscut:
x1 − x 2
zc = (6.4)
2 2
s1 s
+ 2
n1 n2
83
unde:
n1 – volumul primului eşantion
n 2 – volumul celui de-al doilea eşantion
x1 - media eşantionului 1
x2 − media eşantionului 2
Cazuri particulare:
1. - dacă dispersiile celor două populaţii eşantionate sunt egale, σ 1 2 = σ 2 2 = σ 2 , atunci
statistica testului calculat va fi:
σ 2 cunoscut :
x1 − x 2
zc = (6.5)
1 1
σ +
n1 n2
σ 2 necunoscut:
x1 − x 2
zc = (6.6)
1 1
s +
n1 n 2
2. - dacă cele două eşantioane au acelaşi volum n1 = n2 = n , atunci statistica testului calculat
va fi:
σ 2 cunoscut :
x1 − x 2
zc = (6.7)
σ 12 + σ 2 2
n
σ 2 necunoscut:
84
x1 − x 2
zc = (6.8)
s1 + s 2
2 2
n
Direcţia abaterii ipotezei alternative implică şi în cazul comparării mediilor celor două
eşantioane apariţia celor trei tipuri de teste:
• unilateral stânga
• bilateral
• unilateral dreapta
Etapele ce trebuiesc parcurse, în toate cele trei tipuri de teste, sunt prezentate după cum
urmează:
1. Se prezintă ipoteza nulă H 0 : µ1 = µ 2
adevărată ipoteza H 1 .
4.2. - testul bilateral:
► „Z” tabelar sau teoretic Z α (Anexa 1) şi valorile cu semnele „+” şi ”-„ se plasează
2
pe grafic.
85
► Regiunea de respingere Rr : dacă Z c < - Z α sau Z c > Z α atunci H o se respinge şi e
2 2
adevărată ipoteza H 1 .
4.3. - test unilateral dreapta:
► „Z” tabelar sau teoretic Z α (anexa 1) şi valoarea cu semnul „+„ se plasează pe
grafic.
► Regiunea de respingere Rr : dacă Z c > Z α , atunci H o se respinge şi este adevărată
ipoteza H 1 .
5. Se calculează valoarea statistică a testului calculat cu una din relaţiile 4.4 – 4.9, iar valoarea
obţinută se plasează pe grafic.
6. Se compară valoarea lui Z c cu una din valorile lui: - Z α , - Z α , Z α , sau Z α , şi se stabileşte
2 2
În practică apar cazuri care necesită testarea proporţiei unui eşantion cu testarea
proporţiei colectivităţii generale.
Aspectele pe care le vizează aplicarea testului Z în cazul comparării proporţiei
eşantionului cu cea a colectivităţii generale sunt:
∗ distribuţia repartizării proporţiilor trebuie să fie o distribuţie dihotomică ale cărei
caracteristici sunt modelate în general prin variabile repartizate binominal;
∗ distribuţia binominală este normală dacă:
n ⋅ p ≥ 5, n(1 − p ) ≥ 5 ,
86
♦ dacă „n” este mai mic (n<30), se utilizează probabilitatea elementului compus sub H o
printr-o sumă a probabilităţilor de apariţie a evenimentelor caracterizate de un număr de
„succese” mai mare sau egal cu „r”.
n
PH 0 = ∑ C n P0 (1 − p 0 ) n −i
i i
i=r
f = proporţia eşantionului
Ipoteza alternativă, prin direcţia abaterii pe care o prezintă, implică apariţia unuia dintre
cele trei tipuri de teste Z deja prezentate:
♦ unilateral stânga
♦ bilateral
♦ unilateral dreapta.
Aplicarea testului presupune parcurgerea următoarelor etape:
1. Se prezintă ipoteza nulă: H 0 : p = p o
87
4. În funcţie de nivelul de încredere ( 1 − α ) se determină limita de semnificaţie ( α ) cu ajutorul
căruia se stabileşte:
4.1. - testul unilateral stânga:
► „Z” tabelar sau teoretic Z α (anexa 1) şi valoarea cu semnul „-„ se plasează pe grafic
.
► regiunea de respingere Rr : dacă Z c < Z α , atunci H o se respinge şi este adevărată
ipoteza H 1 .
4.2. - testul bilateral:
► „Z” tabelar sau teoretic Z α (anexa 1) şi valorile cu semnele „+” şi ”-„ se plasează
2
pe grafic.
► regiunea de respingere Rr : dacă Z c > - Z α sau Z c > Z α , atunci H o se respinge şi
2 2
ipoteza H 1 .
5. Se calculează valoarea statistică a testului calculat cu relaţia (3.21), iar valoarea obţinută se
plasează pe grafic.
88
Exemplul 6.1.
Managerul unui lanţ hotelier s-a gândit să analizeze situaţia cheltuielilor ultimei luni, cu
scopul de a reduce pe viitor nivelul acestora. În acest context, s-a realizat un studiu privind
cheltuielile cu angajaţii trimişi la cursurile de training şi s-a stabilit că, pe fiecare angajat
cheltuiala este distribuită normal cu o medie de 980 UM şi o dispersie de 2500.
Se consideră că, această cheltuială medie pe angajat este mai mare decât cea stabilită la
980 UM. În vederea verificării afirmaţiei, se selectează aleatoriu un eşantion de 40 salariaţi
pentru care se înregistrează cheltuielile cu training-ul şi se stabileşte valoarea medie a acestor
cheltuieli la 1110 UM.
Pentru o probabilitate de 99,9%, poate managerul să concluzioneze că această cheltuială
medie pe angajat este mai mare de 980 UM?
Rezolvare:
Notaţii: µ ip = 980 UM
σ 2 = 2500
n = 40 salariaţi
x = 1110 UM
( 1 − α ) = 99,9%
1 Ipoteza nulă H 0 : µ = µ ip
(nu există diferenţă semnificativă între cheltuiala medie pe angajat şi cea stabilită
ipotetic la nivelul lanţului hotelier)
2 Ipoteza alternativă H 1 : µ > µ ip
( cheltuiala medie pe angajat este mai mare decât cea ipotetică stabilită la nivelul
lanţului hotelier)
3 Dacă n= 40 angajaţi >30, atunci se aplică testul Z (testul Z unilateral dreapta)
4 Se determină Z tabelar (teoretic) similar celor prezentate în exemplul 4.1 şi pentru α = 0.001
se obţine Z α = Z 0.001 = 3,085
5 Valoarea statistică a testului (valoarea calculată) este:
89
x − µ ip x − µ ip 1110 − 980 130
Zc = = = = = 16,43
σ σ2 2500 7,91
n n 40
Rr
Z α = 3,085 Z c = 16,43
H 0 se respinge
atunci H o se respinge şi este adevărată ipoteza H 1 , deci concluzia este că, managerul a
anticipat bine: cheltuiala medie pe angajat este mai mare de 980 UM.
Lucrare de verificare 6A
90
5. Într-un test în care se testează ipoteza nulă H0: µ =100 şi ipoteza alternative H1: µ>100 se
obţine valoarea testului z = 2,26, aflaţi pragul de semnificaţie corespunzător valorii
calculate a testului.
Test de autoevaluare 6B
1. Managerul unei structuri de primire turistică doreşte să verifice dacă durata medie a
sejurului turiştilor cazaţi este mai mică de 6 zile. Acesta presupune că durata medie a
unui sejur este de 6 zile, iar abaterea medie practică este de 2 zile. Testarea ipotezei este
completată prin selectarea aleatoare a unui eşantion de 80 turişti pentru care se stabileşte
că durata medie a sejurului este de 5 zile; nivelul de încredere este de 95%. Care sunt cele
două ipoteze?
a. H0: nu există diferenţă semnificativă între durata medie a sejurului şi cea
presupusă de manager
H1: durata medie a sejurului este mai mică decât cea presupusă de manager.
b. H0: nu există diferenţă semnificativă între durata medie a sejurului şi cea
presupusă de manager
H1: durata medie a sejurului este mai mare decât cea presupusă de manager.
c. H0: nu există diferenţă semnificativă între durata medie a sejurului şi cea
presupusă de manager.
H1: există diferenţă semnificativă între durata medie a sejurului şi cea presupusă
de manager.
d. H0: există diferenţă semnificativă între durata medie a sejurului şi cea presupusă
de manager
H1: durata medie a sejurului este mai mică decât cea presupusă de manager.
2. Managerul unei structuri de primire turistică doreşte să verifice dacă durata medie a
sejurului turiştilor cazaţi este mai mică de 6 zile. Acesta presupune că durata medie a
unui sejur este de 6 zile, iar abaterea medie practică este de 2 zile. Testarea ipotezei este
completată prin selectarea aleatoare a unui eşantion de 80 turişti pentru care se stabileşte
91
că durata medie a sejurului este de 5 zile; nivelul de încredere este de 95%. Valoarea
statistică a testului (valoarea calculată) este:
a. -4,55;
b. -3,55;
c. 2.35;
d. 7,25.
3. Un comerciant este de părere că, un român consumă în medie într-o lună mai puţin de 8
kg de pâine şi ar vrea să verifice această opinie. În acest sens, s-a realizat o anchetă pe un
eşantion aleatoriu de 49 familii din toate judeţele României şi a relevat un consum mediu
de 8,2 kg, cu o abatere medie pătratică de 1,7 kg. Dacă acceptăm un nivel de încredere de
95%, valoarea statistică a testului (valoarea calculată) este:
a. 0,95
b. 0,83
c. 1
d. 0,24.
4. Salariul mediu pe angajat stabilit pentru 35 agenţii de turism dintr-un judeţ este de 1600
lei. La nivelul regiunii care include judeţul respectiv s-a determinat pentru toate agenţiile,
un salariu mediu de 1585 lei pe angajat şi o abatere de 76,55 lei. Dacă cei interesaţi
doresc să arate, pentru o probabilitate de 99%, dacă salariul mediu pe angajat stabilit la
nivelul agenţiilor de turism ale judeţului diferă semnificativ de cel determinat pentru toate
agenţiile de turism din regiune, care sunt cele două ipoteze statistice?
a. H0: nu există diferenţă semnificativă salariul mediu pe angajat şi cel ipotetic.
H1:salariul mediu pe angajat este mai mic decât cel ipotetic.
b. H0: nu există diferenţă semnificativă între salariul mediu pe angajat şi cel ipotetic.
H1: există diferenţă semnificativă între salariul mediu pe angajat şi cel ipotetic.
c. H0: nu există diferenţă semnificativă salariul mediu pe angajat şi cel ipotetic.
H1:salariul mediu pe angajat este mai mare decât cel ipotetic.
d. H0: există diferenţă semnificativă salariul mediu pe angajat şi cel ipotetic.
H1:salariul mediu pe angajat este mai mic decât cel ipotetic.
92
5. Salariul mediu pe angajat stabilit pentru 35 agenţii de turism dintr-un judeţ este de 1600
lei. La nivelul regiunii care include judeţul respectiv s-a determinat pentru toate agenţiile,
un salariu mediu de 1585 lei pe angajat şi o abatere de 76,55 lei. Se doreşte testarea
ipotezei conform căreia salariul mediu pe angajat stabilit la nivelul agenţiilor de turism
ale judeţului diferă semnificativ de cel determinat pentru toate agenţiile de turism din
regiune. În urma testării acestei ipoteze pentru o probabilitate de 99% , putem afirma că:
a. Zcalculat = -1,16, se admite ipoteza nulă şi putem trage concluzia că nu există
diferenţă semnificativă între salariile medii stabilite la nivelul celor 35 agenţii de
turism şi la nivelul regiunii;
b. Zcalculat = 1,16, se respinge ipoteza nulă şi putem trage concluzia că există diferenţă
semnificativă între salariile medii stabilite la nivelul celor 35 agenţii de turism şi
la nivelul regiunii;
c. Zcalculat = 1,06, se admite ipoteza nulă şi putem trage concluzia că nu există
diferenţă semnificativă între salariile medii stabilite la nivelul celor 35 agenţii de
turism şi la nivelul regiunii;
d. Zcalculat = 1,16, se admite ipoteza nulă şi putem trage concluzia că nu există
diferenţă semnificativă între salariile medii stabilite la nivelul celor 35 agenţii de
turism şi la nivelul regiunii.
6. Managerul unui lanţ hotelier s-a gândit să analizeze situaţia cheltuielilor ultimei luni, cu
scopul de a reduce pe viitor nivelul acestora. În acest context, s-a realizat un studiu
privind cheltuielile cu angajaţii trimişi la cursurile de training şi s-a stabilit că, pe fiecare
angajat cheltuiala este distribuită normal cu o medie de 1090 UM.
Acesta consideră că, respectiva cheltuială medie pe angajat este mai mare decât cea
stabilită la 1090 UM. În vederea verificării afirmaţiei, se selectează aleatoriu un eşantion
de 40 salariaţi pentru care se înregistrează cheltuielile cu training-ul şi se stabileşte
valoarea medie de 1110 UM, iar abaterea standard de 50 UM. Pentru o probabilitate de
99,9%, valoarea statistică a testului (valoarea calculată) este:
a. 2,83
b. 2,53
c. 1,53
93
d. -2,55
7. Managerul unui lanţ hotelier s-a gândit să analizeze situaţia cheltuielilor ultimei luni, cu
scopul de a reduce pe viitor nivelul acestora. În acest context, s-a realizat un studiu
privind cheltuielile cu angajaţii trimişi la cursurile de training şi s-a stabilit că, pe fiecare
angajat cheltuiala este distribuită normal cu o medie de 1090 UM.
Acesta consideră că, respectiva cheltuială medie pe angajat este mai mare decât cea
stabilită la 1090 UM. În vederea verificării afirmaţiei, se selectează aleatoriu un eşantion
de 40 salariaţi pentru care se înregistrează cheltuielile cu training-ul şi se stabileşte
valoarea medie de 1110 UM, iar abaterea standard de 50 UM. Pentru o probabilitate de
99,9%, managerul concluzionează că:
a. această cheltuială medie pe angajat este mai mare decât cea presupusă de manager
de 1090 UM;
b. această cheltuiala medie pe angajat nu diferă semnificativ de cea presupusă de
manager de 1090 UM;
c. această cheltuială medie pe angajat este mai mică decât cea presupusă de manager
de 1090 UM;
d. această cheltuiala medie pe angajat diferă semnificativ de cea presupusă de
manager de 1090 UM.
În urma testării acestei ipoteze pentru o probabilitate de 99% , putem afirma că:
94
a. deoarece, Z c > − Z α (−1,15 > −1,645) , rezultă că ipoteza H0 se admite, ceea ce
înseamnă că profitul fermierului producător de lapte este mai mic după
cumpărarea aparatului;
b. deoarece, Z c < − Z α (−11,15 < −1,645) , rezultă că ipoteza H0 se admite, ceea ce
înseamnă că profitul fermierului producător de lapte este mai mică după
cumpărarea aparatului;
c. deoarece, Z c < − Z α (−11,15 < −1,645) , rezultă că ipoteza H0 se respinge şi este
adevărată ipoteza H1, ceea ce înseamnă că profitul fermierului producător de lapte
este mai mare după cumpărarea aparatului;
d. deoarece, Z c < − Z α (−12,5 < −1,645) , rezultă că ipoteza H0 se respinge şi este
adevărată ipoteza H1, ceea ce înseamnă că profitul fermierului producător de lapte
diferă semnificativ după cumpărarea aparatului;
95
d. Deoarece Z c (0,5) > Z α (0,45) , atunci se admite ipoteza H0, deci proporţia
reprezentanţilor din eşantion diferă semnificativ de cea a tuturor celor din ANAT.
Concluzia este că modificarea statului ANAT poate fi pusă în discuţia
reprezentanţilor în vederea aplicării ei.
10. Un manager al unui magazin afirmă că, 16% dintre clienţii magazinului sunt bărbaţi.
Unul dintre vânzători nu este de acord cu această afirmaţie. Pentru studiu se formează un
eşantion de 100 clienţi şi se stabileşte că 25% dintre aceştia sunt bărbaţi. Ne putem baza
pe afirmaţia managerului cu un nivel de încredere de 95%?
a. deoarece Z c (2,25) > Z α (1,96) , atunci ipoteza H0 se respinge, deci se acceptă
2
Rezumat
Pentru testarea indicatorului medie, pentru eşantioane mai mari de 30 de elemente se utilizează
testul Z. Sunt prezentate modalităţile de testare a mediei populaţiei generale, a mediilor a două
populaţii şi în particular a proporţiei existente într-o colectivitate.
96
Pentru testarea ipotezei privind media populaţiei generale statistica testului pentru σ 2
x − µ ip x − µ ip x − µ ip x − µ ip
cunoscut este Z c = = sau Z c = = în caz contrar. Regiunile critice
σ2 σ s2 s
n n n n
sunt determinate în funcţie de pragul de semnificaţie ales şi de enunţurile concrete ale ipotezelor
H 0 (nulă) şi H 1 (alternativă).
Similar, pentru testarea ipotezei privind mediile a două populaţii, statistica testului este
x1 − x 2 x1 − x 2 f − p ip
zc = sau z c = , iar pentru testatrea proporţiilor Z c = .
σ 12 σ 22 s1
2
s
2
f (1 − f )
+ + 2
n1 n2 n1 n2 n
Bibliografie
Cristache S.E., Şerban Lucrări aplicative de statistică şi econometrie pentru
D. administrarea afacerilor, Editura ASE, Bucureşti, 2007
97
Unitatea de învăţare 7
TESTAREA IPOTEZELOR PRIVIND MEDIILE POPULAŢIILOR CU
EŞANTIOANE DE VOLUM MIC
Bibliografie
Obiectivele Unităţii de Învăţare 7 ............................................................................................. 98
7.1 Compararea mediei unui eşantion de volum redus cu media colectivităţii generale .......... 98
7.2 Compararea mediilor a două eşantioane de volum redus .................................................. 102
Lucrare de verificare 7A ......................................................................................................... 108
Test de autoevaluare 7B .......................................................................................................... 109
Rezumat................................................................................................................................... 114
Bibliografie.................................................................................Error! Bookmark not defined.
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• testarea ipotezei statistice privind compararea unui eşantion de volum redus cu
media colectivităţii generale;
• testarea ipotezei statistice privind compararea mediilor a două eşantioane de
volum redus;
Eşantioanele de volum redus reprezintă acele eşantioane care sunt formate din mai puţin
de 30 elemente componente ( n < 30 ) extrase dintr-o colectivitate generală ce urmează a fi
cercetată.
Procesul de testare aplicat unor astfel de eşantioane se bazează pe aplicarea testului
STUDENT ( t ).
98
Caracteristicile ce stau la baza aplicării testului Student ( t ) care includ imposibilitatea
stabiliri dispersiei colectivităţii generale, deci implicit a abaterii medii pătratice, precum şi
formarea unor eşantioane de volum redus, cu mai puţin de 30 de componente, reprezintă
principalele elemente necesare în derularea analizei de comparare a mediei unui eşantion cu cea
a colectivităţii generale.
Testul t poate fi aplicat pornind de la considerentul că distribuţia normală redusă
caracterizează colectivitatea generală.
Deoarece în general, pentru astfel de eşantioane nu prea se cunoaşte dispersia
colectivităţii generale, deci nici abaterea medie pătratică, se va utiliza testul (t ) numai în condiţia
estimării abaterii standard a colectivităţii generale cu cea a eşantionului.
Fiind este vorba de un eşantion redus (n < 30 ) , abaterea medie pătratică (standard)
estimată se determină cu relaţia:
n
∑ (x
i =1
i − x)2
s = s2 = , (7.1)
n −1
Statistica testului calculat va fi:
x − µ ip x − µ ip
tc = = (7.2)
s2 s
n n
unde:
x − media eşantionului
99
Observaţie
De remarcat că, deoarece la repartiţia Student vorbim de gradele de libertate, atunci
valorile critice care limitează densitatea de probabilitate, deci valorile repartiţiei Student (Anexa
3) au formele
► ± tα , n −1 , pentru testul unilateral drepta, stânga
Rr
H 0 se respinge − tα ;n −1
100
Figura 7.1 Aplicarea testului t unilateral stânga
(compararea mediei eşantionului cu a colectivităţii generale)
pe grafic.
► regiunea de respingere Rr : dacă t c < - t α sau t c > t α atunci H o se respinge
, n −1 , n −1
2 2
Rr
Rr
H 0 se respinge H 0 se respinge
− tα tα
;n −1 ; n −1
2 2
grafic.
► regiunea de respingere Rr : dacă t c > tα , n −1 , atunci H o se respinge
Rr
tα ;n −1 H 0 se respinge
101
(compararea mediei eşantionului cu a colectivităţii generale)
5. Se calculează valoarea statistică a testului determinată cu relaţia (3.28), iar valoarea obţinută
se plasează pe grafic.
6. Se compară valoarea t c cu una din valorile - tα ,n −1 , - t α , tα , tα , n−1 şi se stabileşte dacă
, n −1 , n −1
2 2
De multe ori deciziile din activitatea economică, din afaceri, trebuiesc stabilite prin
compararea unor informaţii destul de reduse.
În aceste condiţii, se poate vorbi despre compararea a două eşantioane de volum mic (n<
30) caracterizate astfel:
un eşantion de volum n1 < 30 cu media x1 şi dispersia s12 este extras dintr-o colectivitate
alt eşantion de volum n2 < 30 , cu media x 2 şi dispersia s 22 este extras dintr-o colectivitate
102
Repartiţia Student tabelară sau teoretică va avea n1 + n2 − 2 grade de libertate, iar
statistica testului calculat va fi:
x1 − x2 x1 − x 2
tc = = (7.3)
1 1 1
+
1
s e2 ⋅ + se
n1 n 2 n1 n 2
(n1 − 1) s12 + (n 2 − 1) s 22
se = (7.4)
n1 + n2 − 2
Atât ipotezele testului Student, cât şi regiunile de respingere sunt asemănătoare cu cele
prezentate anterior, exceptând valorile critice în care apare testul t tabelar care apar de forma:
tα ; n1 +n2 − 2 , pentru testul unilateral, respectiv t α , pentru testul bilateral.
, n1 + n2 − 2
2
► valoarea lui t tabelar sau teoretic tα ; n1 +n2 − 2 (Anexa 3), cu semnul ”-„ se plasează pe
grafic.
► regiunea de respingere Rr : dacă t c < −tα ; n1 + n2 − 2 , atunci H o se respinge şi este
adevărată ipoteza H 1 .
103
Rr
H 0 se respinge − tα ;n1 + n2 − 2
Rc
Rc
H 0 se respinge H 0 se respinge
− tα tα
; n1 + n2 − 2 ; n1 + n2 − 2
2 2
104
Rr
tα ; n1 +n2 − 2 H 0 se respinge
5. Se calculează statistica testului cu relaţia (3.29), iar valoarea obţinută se plasează pe grafic.
6. Se compară valoarea lui t c cu una din valorile - tα ; n1 +n2 − 2 , - t α , tα , tα ; n1 +n2 − 2 şi se
; n1 + n2 − 2 ; n1 + n2 − 2
2 2
Particularitatea acestei ipostaze constă în faptul că deoarece dispersiile nu sunt egale, deci
nici abaterile standard nu pot avea aceaşi valoare, se va aplica testul utilizând estimaţia abaterii
standard la nivelul fiecărui eşantion:
n1
∑ (x
i =1
i1 − x1 ) 2
s1 = s12 = (7.5)
n1 − 1
n2
∑ (x
i =1
i2 − x2 ) 2
s 2 = s 22 = (7.6)
n2 − 1
x1 − x 2
tc = (7.7)
2 2
s1 s
+ 2
n1 n2
105
Ipotezele testului Student şi regiunile de respingere vor fi similare celor prezentate în
ipostaza anterioară, pentru eşantioanele independente provenind din colectivităţi generale cu
abateri standard egale.
În aceste condiţii avem, următoarele etape:
1. Se prezintă ipoteza nulă H 0 : x1 = x 2
106
Exemplul 7.1.
Într-o zonă montană, între două tipuri de pensiuni turistice rurale (1 margaretă şi 2
margarete), cu acelaşi număr de camere, se testează ipoteza conform căreia nu există diferenţă
semnificativă privind cheltuielile medii de întreţinere din sezonul turistic de iarnă.
Ştiind că, probabilitatea luată în considerare este de 98%, testarea se realizează pentru 6
pensiuni de 1 margaretă şi 4 unităţi de 2 margarete de la care sunt preluate datele privind
cheltuielile de întreţinere din sezonul turistic de iarnă şi sunt prelucrate. Rezultatele testării sunt
prezentate în tabelul 4.2:
Tabelul 7.2. - Caracteristicile eşantioanelor din cele două pensiuni
Pensiunea de 1 margaretă Pensiunea de 2 margarete
n1= 6 n2 = 4
Rezolvare:
1. Ipoteza nulă H 0 : x1 = x 2
(nu există diferenţă semnificativă între cheltuielile medii de întreţinere ale pensiunilor
turistice rurale de o margaretă şi ale celor de două margarete).
2. Ipoteza alternativă H 1 : x1 ≠ x 2
(există diferenţă semnificativă între cheltuielile medii de întreţinere ale pensiunilor
turistice rurale de o margaretă şi ale celor de două margarete).
3. Dacă n1 = 6 şi n 2 = 4, ambele mai mici de 30, atunci se aplică testul t (testul t bilateral)
4. Fiind test " t " bilateral probabilitatea de 98% va fi evidenţiată prin
α
= 0,02 ⇒ t α = t 0,02;8 = 2,896
2 2
; n1 + n2 − 2
107
(n1 − 1) s12 + (n2 − 1) s 22 (6 − 1) ⋅ 0,15 2 + (4 − 1) ⋅ 0,44 2
se = = = 0,29
n1 + n2 − 2 6+4−2
s e = 0,0867 = 0,29
x1 − x 2 4,5 − 4,84
tc = = = − 1,82
1 1 1 1
se + 0,29 ⋅ +
n1 n2 6 4
Deoarece
− tα (−2,896) < t c (− 1,82) < t α (2,896) ,
; n1 + n2 − 2 ; n1 + n 2 − 2
2 2
Rr
Rr
H 0 se respinge H 0 se respinge
− tα = −2,896 tα = 2,896
; n1 +n2 − 2 ;n1 + n2 − 2
2
t c = −1,82 2
Se acceptă H 0
o
Figura 7. 7. Testarea ipotezei H 0 :
nu există diferenţă semnificativă între cheltuielile medii de întreţinere ale celor două
categorii de pensiuni
6. Concluzia (figura 7.7) este că nu există diferenţă semnificativă între cheltuielile medii de
întreţinere ale pensiunilor turistice rurale de o margaretă şi cele ale pensiunilor de două
margrete.
Lucrare de verificare 7A
108
2. Cum se testează ipoteza privind compararea mediilor a două eşantioane de volum redus?
3. Pentru o valoare de -1,71 a testului student (t) critic, schiţaţi distribuţia lui t şi indicaţi
locul regiunii critice.
4. Pentru o valoare de 2,33 a testului (t) critic, schiţaţi distribuţia lui t şi indicaţi locul
regiunii critice.
5. Pentru 1 − α = 95% şi t calculat=0,40 specificaţi dacă ipoteza nulă este respinsă în cazul
testului unilateral stânga.
Test de autoevaluare 7B
1. În vederea verificării greutăţii produselor dintr-un lot de piese se extrage aleator simplu şi
repetat un eşantion format din 25 piese. La nivelul eşantionului observat se obţine o
greutate medie de 340 g şi o abatere standard de 10g. Se studiază ipoteza potrivit căreia
greutatea medie a unei piese din întregul lot concordă cu greutatea medie prevăzută în
normele STAS, µ 0 = 330 g . (riscul asumat este α = 0,05 ). Valoarea statistică a testului
(valoarea calculată) este:
a. 4
b. 5
c. 4,75
d. 5,25
2. În vederea verificării greutăţii produselor dintr-un lot de piese se extrage aleator simplu şi
repetat un eşantion format din 25 piese. La nivelul eşantionului observat se obţine o
greutate medie de 340 g şi o abatere standard de 10g. Se studiază ipoteza potrivit căreia
greutatea medie a unei piese din întregul lot concordă cu greutatea medie prevăzută în
normele STAS, µ 0 = 330 g . (riscul asumat este α = 0,05 ). Care sunt cele două ipoteze
statistice?
a. H 0 : µ ≠ µ 0 (există diferenţă semnificativă între greutatea medie a unei piese
din întregul lot şi greutatea medie prevăzută în normele STAS).
H 1 : µ > µ 0 (greutatea medie a unei piese din întregul lot este mai mare
decăt greutatea medie prevăzută în normele STAS).
109
b. H 0 : µ = µ 0 (nu există diferenţă semnificativă între greutatea medie a unei
piese din întregul lot şi greutatea medie prevăzută în normele STAS).
H 1 : µ < µ 0 (greutatea medie a unei piese din întregul lot este mai mică
decât greutatea medie prevăzută în normele STAS).
c. H 0 : µ = µ 0 (nu există diferenţă semnificativă între greutatea medie a unei
piese din întregul lot şi greutatea medie prevăzută în normele STAS).
H 1 : µ ≠ µ 0 (există diferenţă semnificativă între greutatea medie a unei piese
din întregul lot şi greutatea medie prevăzută în normele STAS).
d. H 0 : µ ≠ µ 0 (există diferenţă semnificativă între greutatea medie a unei piese
din întregul lot şi greutatea medie prevăzută în normele STAS).
H 1 : µ < µ 0 (greutatea medie a unei piese din întregul lot este mai mica
decât greutatea medie prevăzută în normele STAS).
3. Patronul unei pensiuni turistice rurale, în vederea ridicări calităţii activităţilor desfăşurate,
doreşte să-şi analizeze mai atent cheltuielile şi presupune că, în medie, cheltuiala zilnică
în perioada de sezon este de 400 UM pe turist. Testarea ipotezei presupune o selectare
aleatorie a 25 de zile, pentru care se înregistreză valorile (UM): 430, 280, 300, 250, 330,
280, 400, 410, 400, 380, 330, 350, 380, 280, 330, 390, 290, 380, 450, 370, 380, 330, 410,
390, 380. În urma testării potezei conform căreia, pentru o probabilitate de 95%, în medie
cheltuiala zilnică în perioada de sezon este mai mică de 400 UM pe turist, se poate trage
următoarea concluzie:
a. deoarece t c (−4,13) < −tα ,n −1 (−1,711) , rezultă că între cheltuielile medii
110
4. Se extrag aleator, simplu, repetat, două eşantioane, primul format din 8 persoane de sex
masculin, iar al doilea din 10 persoane de sex feminin. Ştiind că, probabilitatea luată în
considerare este de 99%, iar rezultatele prelucrării datelor sunt următoarele:
În urma testării ipotezei statistice potrivit căreia vârsta medie a persoanelor de sex
masculin este mai mare decât a celor de sex feminine, valoarea calculate a testului este:
a. 1,82;
b. 2, 28;
c. -1,82;
d. -2,28.
5. Într-o zonă montană, între două tipuri de pensiuni turistice rurale (1 margaretă şi 2
margarete), cu acelaşi număr de camere, se testează ipoteza conform căreia nu există
diferenţă semnificativă privind cheltuielile medii de întreţinere din sezonul turistic de
iarnă. Ştiind că, probabilitatea luată în considerare este de 98%, testarea se realizează
pentru 6 pensiuni de 1 margaretă şi 4 unităţi de 2 margarete de la care sunt preluate datele
privind cheltuielile de întreţinere din sezonul turistic de iarnă şi sunt prelucrate.
Caracteristicile eşantioanelor din cele două pensiuni sunt următoarele:
111
b. există diferenţă semnificativă între cheltuielile medii de întreţinere ale
pensiunilor turistice rurale de o margaretă şi cele ale pensiunilor de două
margarete deoarece (t calculat = -2,896);
c. există diferenţă semnificativă între cheltuielile medii de întreţinere ale
pensiunilor turistice rurale de o margaretă şi cele ale pensiunilor de două
margarete deoarece (t calculat = 2,896);
d. cheltuielile medii de întreţinere ale pensiunilor turistice rurale de o margaretă
sunt mai mari decât cele ale pensiunilor de două margarete deoarece (t calculat =
-2,896);
112
d. Ipoteza nulă: există diferenţă semnificativă între consumul de timp realizat de
noua metodă şi cel realizat de vechea metodă;
Ipoteza alternativă: consumul de timp realizat de noua metodă este
semnificativ mai mic decât cel realizat de vechea metodă;
În urma testării, cu o probabilitate de 95%, a ipotezei conform căreia noua metodă duce la
un consum de timp semnificativ mai mic, putem spune că:
a. se admite ipoteza nulă, nu există diferenţă semnificativă între consumul de
timp realizat de noua metodă şi cel realizat de vechea metodă;
b. se respinge ipoteza nulă, există diferenţă semnificativă între consumul de timp
realizat de noua metodă şi cel realizat de vechea metodă;;
c. se respinge ipoteza nulă, consumul de timp realizat de noua metodă este
semnificativ mai mic decât cel realizat de vechea metodă;
d. se admite ipoteza nulă, există diferenţă semnificativă între consumul de timp
realizat de noua metodă şi cel realizat de vechea metodă;
8. Se doreşte testarea ipotezei conform căreia între două mărci de imprimante nu există
diferenţe semnificative privind cheltuielile de funcţionare. Pentru aceasta, 20 de posesori
de imprimante (8 posesori ai primei mărci, 12 posesori ai celei de a doua) sunt rugaţi să
ţină evidenţa cheltuielor de funcţionare pe o perioadă de un an de zile. Rezultatele
prelucrării datelor sunt:
Marca 1 Marca 2
n1= 8 n 2 = 12
x1 = 56,96 UM x 2 = 52,73 UM
s1 = 4,9 s2 = 6,4
113
Pentru o probabilitate de 90%, putem spune că:
a. nu există diferenţe semnificative privind cheltuielile de funcţionare ale celor
două mărci de imprimante;
b. există diferenţe semnificative privind cheltuielile de funcţionare ale celor două
mărci de imprimante;
c. cheltuielile de funcţionare cu prima marcă de imprimantă sunt semnificativ
mai mari decăt cheltuielile de funcţionare cu cea de-a doua marcă de
imprimantă;
d. cheltuielile de funcţionare cu prima marcă de imprimantă sunt semnificativ
mai mici decăt cheltuielile de funcţionare cu cea de-a doua marcă de
imprimantă;
Rezumat
Pentru testarea ipotezei privind media populaţiei generale statistica testului este
n
x − µ ip x − µ ip ∑ (x
i =1
i − x)2
tc = = unde s = s 2 = . Regiunile critice sunt determinate în
s2 s n −1
n n
Similar, pentru testarea ipotezei privind mediile a două populaţii, statistica testului este
x1 − x 2 x1 − x 2 (n1 − 1) s12 + (n 2 − 1) s 22
sau t c = = , unde s e = .
1 1 1 1 n1 + n2 − 2
s e2 ⋅ + se +
n1 n2 n1 n 2
114
Bibliografie
Bădiţă M., Baron T., Statistică pentru afaceri în comerţ – turism, vol 1, 2,
Cristache S.E. Editura Luceafărul, Bucureşti, 2002
115
Unitatea de învăţare 8
TESTAREA IPOTEZELOR PRIVIND DISPERSIILE POPULAŢIILOR
Cuprins
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• testarea ipotezei statistice privind compararea dispersiei eşantionului cu dispersia
colectivităţii generale;
• testarea ipotezei statistice privind compararea dispersiei a două colectivităţi;
Cei mai utilizaţi indicatori în procesul inferenţei statistice sunt: media, dispersia şi
proporţia. Un rol important în cadrul inferenţei o au şi testările ipotezelor statistice aplicate în
condiţiile comparării dispersiilor.
Repartiţia χ 2 este utilizată cu preponderenţă în testarea ipotezelor statistice permiţând
studierea mai detaliată, chiar şi sub aspect calitativ, a colectivităţilor statistice.
Statistica testului calculat este:
116
(n − 1) s 2
χ c2 = (5.1)
σ2
În aceste condiţii, etapele de aplicare a testului χ 2 sunt următoarele:
grafic.
► regiunea de respingere Rr : dacă χ 2 c < χ 21−α , n −1 , atunci H o se respinge şi este
adevărată ipoteza H 1 .
Rr
117
► regiunea de respingere Rr : dacă χ c2 < χ 2 α sau χ c2 > χ α2 , atunci H o se
1− , n −1 ,n −1
2 2
Rr
Rr
H 0 se respinge H 0 se respinge
χ2α χ α2
1− ; n −1 ; n −1
2 2
grafic.
► regiunea de respingere Rr : dacă, χ c2 > χ α2 ,n −1 , atunci H o se respinge şi este
adevărată ipoteza H 1 .
Rr
χα2 ; n −1 H 0 se respinge
118
6. Se compară valoarea lui χ c2 cu una din valorile χ12−α , n −1 , χ 2 α , χ α2 , χ α2 , n −1 conformă
1− , n −1 , n −1
2 2
tipului testului aplicat şi se stabileşte dacă rezultatul statistic al testului calculat χ c2 intră în
Compararea dispersiilor a două colectivităţi se poate realiza fie direct, fie utilizând
raportul acestora.
Aplicarea testului presupune următoarele:
• colectivităţile comparate să fie formate din variabile aleatoare: X 1 şi X 2 ;
119
- pentru testul unilateral dreapta: Fα ; n1 −1; n2 −1 ,
în care:
α - limita de semnificaţie
n1 -1= g1 = gradele de libertate pentru variabila aleatoare Y1
n 2 -1= g 2 = gradele de libertate pentru variabila aleatoare Y2
Graficele testului în funcţie de tipul acestuia îmbracă formele:
• testul unilateral stânga (figura 5.4):
► F tabelar sau teoretic F1−α ; n1 −1; n2 −1 (Anexa 4) şi valoarea se plasează pe grafic.
adevărată ipoteza H 1 .
Rr
120
Rr
Rr
H 0 se respinge H 0 se respinge
F α Fα
1− ; n1 −1; n2 −1 ; n1 −1; n2 −1
2 2
adevărată ipoteza H 1 .
Rr
Exemplul 8.1.
Departamentul de vânzări al unei firme comerciale dispune de următoarele date privind
cererea unui produs. 80, 59, 66, 83, 36, 58, 55, 64, 63, 66. Datele u fost selectate dintr-o
colectivitate normal distribuită. pentru o probabilitate de 95% să se testeze ipotezele:
H0: σ2=100, respectiv H1: σ2>100.
121
Rezolvare:
Primele două etape ce trebuiesc parcurse pentru testarea ipotezelor statistice prin
aplicarea testului χ2 au fost prezentate în enunțul problemei:
1. Ipoteza nulă: σ2=100
2. Ipoteza altenativă: H1: σ2>100
3. Datele inițiale ne conduc la concluzia că se aplică testul χ2 (se compară dispersiile).
4. Deoarece (1-α)=95% ⇒ α=0,05, iar n=10 trebuiesc determinate elementele:
χ2 teoretic:
Rr
6. Deoarece, χ c2 (15,42) < χ α2;n −1 (16,92) atunci H0 este adevărat, şi anume, gradul de împrăştiere
Test de autoevaluare 8B
1. Statistica testului calculat este:
n ⋅ s2
a. χ c2 =
σ2
(n − 1) s 2
b. χ c2 = ;
σ2
(n + 1) s 2
c. χ c2 = ;
σ2
(n − 1) s
d. χ c2 = .
σ2
2. Patronul unei pensiuni turistice rurale testează în 10 zile consumul zilnic de lapte (litri):
10, 8, 10, 9, 7, 11, 10, 12, 7, 10. Presupunând că selecţia se realizează dintr-o colectivitate
normal distribuită, pentru o probabilitate de 95% să se testeze ipotezele:
H 0 : σ 2 = 4 , respectiv H 1 : σ 2 > 4 .
b. χ c2 > χ α2 ;n −1 ;
c. χ c2 > χ α2 ;
; n −1
2
123
d. χ c2 > χ n2−1 .
3. Patronul unei pensiuni turistice rurale testează în 10 zile consumul zilnic de lapte (litri):
10, 8, 10, 9, 7, 11, 10, 12, 7, 10. Presupunând că selecţia se realizează dintr-o colectivitate
normal distribuită, pentru o probabilitate de 95% să se testeze ipotezele:
H 0 : σ 2 = 4 , respectiv H 1 : σ 2 > 4 .
a. 6,1;
b. 5,9;
c. 6,5;
d. 5,5.
124
σ 12 σ 12
b. H 0 : = 1 şi H : < 1;
σ 22 σ 22
1
σ 12 σ 12
c. H 0 : 2 = 1 şi H 1 : 2 ≠ 1 ;
σ2 σ2
σ 12 σ 12
d. H 0 : = 1 şi H : > 1.
σ 22 σ 22
1
Rezumat
125
Similar, pentru testarea ipotezei privind dispersiile a două populaţii, statistica testului este sau
S12 σ 22 S12
Fc = ⋅ . Dacă σ 2
= σ 2
, atunci statistica testului calculat devine F = ..
S 22 σ 12
1 2 c
S 22
Testările se efectuează parcurgând secvenţial etapele prezentate în unitatea de învăţare 5.
Bibliografie
126
Unitatea de învăţare 9
ANALIZĂ DISPERSIONALĂ (ANOVA)
Cuprins
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• testarea ipotezei statistice privind compararea dispersiei eşantionului cu dispersia
colectivităţii generale;
• testarea ipotezei statistice privind compararea dispersiei a două colectivităţi;
• utilizarea intrumentelor Excel în aplicarea testului ANOVA.
127
• variabilă dependentă – reprezintă variabila rezultativă, obligatoriu cantitativă, după care
se compară grupele şi este supusă analizei;
• variabila independent – este exprimată prin factorul care influenţează într-o anumită
măsură variabila dependentă.
În fucţie de numărul factorilor, analiza dispersională poate fi:
∗ unifactorială
∗ bifactorială
∗ multifactorială
Modelul de bază al analizei dispersionale constă în însumarea a două elemente
componente ce reprezintă efectele unor cauze sistematice şi întâmplătoare.
În cazul analizei dispersionale unifactoriale, cauzele sistematice sunt rezumate sub forma
unui singur factor cu acţiune esenţială.
Analiza dispersională, implicit cea unifactorială presupune utilizarea testului parametric
ANOVA, adică a testului Fisher (testul F ), care se bazează pe următoarele considerente:
1. - populaţiile Γ din care se extrag k eşantioane γ trebuie să fie normal distribuite;
2. - dispersiile populaţiilor trebuie să fie egale
( σ 12 = σ 22 = σ 32 = ... = σ k2 = σ );
3. - eşantioanele selectate trebuie să fie independente.
Neîndeplinirea celei de-a doua reguli transformă testul parametric într-unul neparametric
cunoscut sub denumirea de testul lui Kruskal Wallis, care constă în compararea tendinţei centrale
a două sau mai multe eşantioane independente.
Testul F stabileşte dacă mediile eşantioanelor comparate diferă semnificativ.
Ipoteza nulă ( H 0 ) este cea prin care se menţionează că mediile eşantioanelor comparate
sunt egale (figura 5.7) sau altfel spus, mediile de grupă ale fiecărui eşantion nu diferă
semnificativ, deci factorul esenţial nu are o influenţă relevantă asupra variabilei rezultative.
H 0 : µ1 = µ 2 = µ 3 = ... = µ k
Prin ipoteza alternativă H 1 se presupune că, dacă cel puţin între două medii de grupă ale
eşantioanelor comparate există o diferenţă semnificativă, atunci factorul de grupare ( x ) are o
influenţă însemnată asupra variabilei rezultative y .
128
y
y
yr
y2
y1=y2= =yr
y1
o x1 x2 ...... xr x o x1 x2 ..... xr x
H0 H1
Dacă dintr-o populaţie Γ au fost extrase eşantioane γ j sub forma grupelor, acestea pot
Serii simple
În cazul seriilor simple, datele statistice apar într-o tabelă a cărei formă generală este
dată în tabelul 5.1.
129
Mediile utilizate sunt:
- media de grupă ( y1 , y 2 , y 3 , ..., yi , ..., y r ) :
ni
∑y j =1
ij
yi = (9.1.)
ni
- media generală ( y 0 )
r ni r
∑∑
i =1 j =1
yij ∑yn i i
i =1
y0 = r
= r
(9.2.)
∑n
i =1
i ∑n
i =1
i
Serii cu frecvenţe
Pentru seriile cu frecvenţe, datele statistice sunt prezentate pentru analiză într-o tabelă
a cărei formă generală este dată prin tabelul 5.2.
Relaţiile de calcul ale mediilor utilizate în acest caz, necesare în vederea aplicării testului
F , sunt următoarele:
- media de grupă ( y1 , y 2 , y 3 , ..., yi , ..., y r )
130
m
∑y n
j =1
j ij
yi = m
(9.3.)
∑n
j =1
ij
- media generală ( y 0 )
m r
∑y n
j =1
j j ∑yn i i
i =1
y0 = m
= r
(9.4.)
∑n j =1
j ∑n
i =1
i
Totală i =1 j =1
df 0 = df 1 + df 2
S 0 = S1 + S 2
131
r
S1 ∑(y
i =1
i − y 0 ) 2 ni
S12 = = (9.6.)
r −1 r −1
în care:
r
S 1 = ∑ ( y i − y 0 ) 2 ni (9.7.)
i =1
S2
∑∑
i =1 j =1
( y ij − yi ) 2
S 22 = = (9.8.)
n−r n−r
în care:
r ni
S 2 = ∑∑ ( yij − yi ) 2 (9.9.)
i =1 j =1
132
nu există diferenţe semnificative între mediile de grupă comparate (nu există
diferenţe semnificative între eşantioanele comparate);
factorul x nu este semnificativ statistic, adică nu influenţează semnificativ variabila
rezultativă y .
2. - dacă Fc > Fα , r −1, n − r , atunci se respinge ipoteza nulă H0, deci:
133
. . . . . .
. . . . . .
x h11 ... x hj1 ... x hq1
. . . . .
F.Ih . . . . .
. . . . .
x h1n ... x hjn ... x hqn
eşantionul corespunzător grupei nivelului „ i ” al primului factor (F.I) şi nivelului „ j ” al celui de-
al doilea factor (F.II)
Aplicarea testului F , a cărei formă a tabelului ANOVA este prezentată în tabelul 9.5.,
presupune calcularea tuturor indicatorilor auxiliari, astfel:
134
Varianţa
Varianţa factorului F.I ( S1 )
- se determină ca sumă a abaterilor pătrate ale mediilor liniilor de la media generală,
datorate primului factor (F.I);
- este indicator de comensurare a variaţiei explicate de F.II;
- se calculează cu relaţia:
h 2
S 2 = hn∑ (x* j − x )
q
(9.11.)
j =1
Varianţa reziduală ( S3 )
- se determină ca sumă reziduală a pătratelor celor doi factori, stabilind variaţia internă a
grupului;
- este indicator de comensurare a variaţiei neexplicate a interacţiunii ambilor factori;
- se calculează cu relaţia:
2
Varianţa totală ( S0 )
135
S 0 = S 1 + S 2 + S1 _ 2 + S 3
2
S 0 = ∑∑∑ (xijk − x )
h q n
(9.14.)
i =1 j =1 k =1
Gradele de libertate
Gradele de libertate corespunzătoare factorului F.I ( df1 )
df1 = h − 1 (9.15.)
Gradele de libertate corespunzătoare factorului F.II ( df2 )
df 2 = q − 1 (9.16.)
Gradele de libertate corespunzătoare interacţiunii factorului F.I cu factorul F.II ( df1_2)
df 1 _ 2 = (h − 1) ⋅ (q − 1) (9.17.)
Dispersia corectată
Dispersia corectată a factorului F.I ( S12 )
S1
S12 = (9.20.)
df1
S2
S 22 = (9.21.)
df 2
S1 _ 2
S12_ 2 = (9.22.)
df1 _ 2
136
S3
S 32 = (9.23.)
df 3
Completarea tabelului (9.5) cu rezultatele obţinute prin aplicarea formulelor prezentate
permit continuarea metodologiei de aplicare a testului F prin testarea ipotezelor privind
semnificaţia contribuţiei factorilor la precizarea variaţiei variabilei dependente.
În cazul analizei dispersionale bifactoriale apar trei seturi de ipoteze care, în funcţie de
factorii la care se referă, sunt:
Pentru factorul F.I:
H0: factorul F.I nu este semnificativ (mediile determinate la nivelul liniilor nu diferă
semnificativ)
H1: factorul F.I este semnificativ (mediile determinate la nivelul liniilor diferă în mod
semnificativ)
Pentru factorul F.II,
H0: factorul F.II nu este semnificativ (mediile determinate la nivelul coloanelor nu
diferă semnificativ)
H1: factorul F.II este semnificativ (mediile determinate la nivelul coloanelor diferă în
mod semnificativ)
137
Analiza dispersională bifactorială, în raport cu modul de formare a nivelurilor factorilor,
cuprinde următoarele modele:
• model cu efecte sistematice – reprezentat de modelul în care datele statistice ale
nivelurilor factorilor se formează din întreaga colectivitate; între respectivele date statistice
apar diferenţe sistematice datorate doar clasificării după cei doi factori; acest model include
elemente ca: x , α i , β j , δ ij şi σ 2 care sunt mărimi fixe necunoscute;
• model cu efecte întâmplătoare – este un model în care datele statistice ale nivelurilor
factorilor se extrag aleatoriu dintr-o colectivitate supusă cercetării; abaterile ce se pot stabili
între datele statistice ale nivelurilor vor fi întâmplătoare; elementele incluse în model vor fi:
o α i , β j , δ ij - mărimi aleatorii cu dispersiile σ α2 , σ β2 , σ α2 ,β ,
• model cu efecte mixte – este modelul care cuprinde date statistice pe fiecare nivel al
factorilor implicaţi, ce s-au format astfel: după un factor se extrag şi se formează sistematic, iar
după celălalt factor se obţin aleatoriu; diferenţele care apar între datele statistice la fiecare nivel
sunt de tip sistematic după un factor şi aleatoriu după celălalt, în funcţie de cum s-au format
respectivele date;
Presupunând că primul factor este întâmplător, atunci elementele specifice modelului
vor fi:
x şi β j - mărimi nealeatorii
α i şi δ ij - mărimi aleatorii
Exemplul 9.1.
Situaţia privind tarifele practicate pentru 25 de pensiuni în perioada de sezon din 2008
situate în mediul rural sau urban, dintr-o regiune turistică este prezentată în tabelul 9.6.
Să se verifice dacă mediul unde este construită pensiunea influenţează semnificativ
variaţia încasărilor, folosind testul F de analiză dispersională (ANOVA). Nivelul de
semnificaţie ales este α = 0,05.
138
Tabelul 9.6. Tarifele practicate de două categorii de pensiuni
Medii Valoarea tarifelor practicate ( lei ) Număr pensiuni
Rural 140, 138, 150, 142, 140, 140, 135, 148, 147, 135, 140, 138, 139, 145, 140 15
Urban 120, 141, 137, 152, 152, 148, 145, 145, 135, 145 10
Rezolvare:
Notaţii:
x – variabila factorială care formează grupele (mediul: rural şi urban)
y – variabila rezultativă (valoarea tarifelor practicate)
( 1 − α ) = 95 %
1. Ipoteza nulă H 0 : µ R = µU
(valoarea medie a tarifelor practicate în mediul rural nu diferă semnificativ de valoarea medie a
tarifelor practicate în mediul urban)
2. Ipoteza alternativă H 1 : µ R ≠ µU
(valoarea medie a tarifelor practicate în mediul rural diferă semnificativ de valoarea medie a
tarifelor practicate în mediul urban)
3. Datele aplicaţiei conduc la utilizarea testului Fisher (testul F unilateral dreapta)
4. Deoarece ( 1 − α )100=95, atunci, utilizând valorile tabelate ale funcţiei F (Anexa 4),
pentru α =0,05 rezultă:
Fα , r −1, n − r = F0, 05; 2 −1; 25−1 = F0 , 05;1; 24 = 4,26
∑ yij
j =1 2117
∑y
j =1
ij
1420
yR = = = 141,13 lei yU = = = 142 lei
ni 15 ni 10
2
∑yn
i =1
i i
141,13 ⋅ 15 + 142 ⋅ 10
y0 = 2
= = 141,48 lei
25
∑n
i =1
i
S12 =
(141,13 − 141,48)2 ⋅ 15 + (142 − 141,48)2 ⋅ 10 = 4,54
2 −1
139
Se determină, cu relaţiile (5.30) şi (5.31), dispersia corectată reziduală:
σ i2 ( σ R2 , σ U2 )
∑ (y − yR ) ∑ (y − yU )
15 10
2 2
ij ij
281,73 822
σ R2 = i =1
= = 18,78 lei σ U2 = i =1
= = 82 lei
n 15 n 10
18,78 ⋅ 15 + 82 ⋅ 10 1101,7
S 22 = = = 47,9 lei
25 − 2 23
S12 4,54
Statistica testului va fi: Fc = = = 0,09
S 32 47,9
6. Deoarece Fc (0,09) < Fα ;r −1;n − r ( 4,26) , iar Fc nu intră în Rr , atunci H o este adevărată, deci
concluzia este că, valoarea medie a tarifelor practicate în mediul rural nu diferă
semnificativ de cea a mediului urban.
Exemplul 9.1.
O agenţie de turism realizează un nou pachet turistic pe care-l consideră avantajos din
punct de vedere al raportului calitate-preţ. Managerul agenţiei trebuie să studieze dacă există
diferenţe semnificative între numărul pachetelor care s-ar vinde în medie zilnic în cele trei zone
turistice spre care-şi îndreaptă atenţia (zona montană, balneară şi de litoral).
În vederea stabilirii de către manager cărei zone să se adreseze cu precădere pachetul
turistic, acesta declanşează o campanie publicitară atât în regiunea montană, în cea balneară cât
şi în cea de litoral. După încheierea campaniei publicitare, timp de o jumătate de lună (15 zile),
se derulează o cercetare cu privire la preferinţele clienţilor în ceea ce priveşte pachetul turistic ce
se doreşte a fi lansat pe piaţă, rezultatele obţinute fiind prezentate în tabelul 9.7.
Rezolvare:
140
În funcţie de datele aplicaţiei şi ipotezele stabilite, trebuie să se aplice ANOVA: Single Factor
(analiză de varianţă cu un singur factor) din EXCEL, parcurgând etapele:
1-se introduc datele cu noţiunile din capul de tabel, în primele trei coloane începând cu A1,
B1, C1, până la A16, B16, C16;
2- se selectează toate datele din coloane, inclusiv capul de tabel, de la A1 la C16
3- din meniu se selectează Tools şi se parcurg paşii: Data Analysis - ANOVA: Single Factor
4- în fereastra deschisă:
la Input Range se selectează datele de la A1 la C16
se activează Labels in First
se specifică Grouped by Columns
se activează Output Range şi se selectează o căsuţă în care se doreşte să se
poziţioneze rezultatele
OK
Rezultatele sunt ilustrate în tabel 9.8:
Tabelul 9.8. Tabelul ANOVA cu rezultatele analizei
Anova: Single Factor
SUMMARY
Groups Count Sum Average Variance
Z.Montană 15 248 16,53333 4,695238
Z.Balneară 15 198 13,2 6,742857
Z.de Litoral 15 145 9,666667 2,238095
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 353,7333 2 176,8667 38,79735 0,0000 3,219942
Within Groups 191,4667 42 4,55873
Total 545,2 44
141
în ANOVA – elementele sunt prezentate în tabelul 9.3 din cadrul subcapitolului 9.1 (mai
precis, la 5.2.1- analiza factorială unifactorială)
∗ SS este varianţa (suma pătratelor, notată cu S în tabelul 5.3), obţinută:
► pe varianta factorială, Between Groups (între grupe): S1 = 353,7333
142
confirmat şi prin valoarea pragului de semnificaţie P-value de 0,00000000028595 care
este mai mic decât 0,05.
Lucrare de verificare 9A
Test de autoevaluare 9B
143
2. Managerul unei fabrici de pâine doreşte înlocuirea unor utilaje aflate în dotare. În vederea
fundamentării acestei decizii, managerul solicită o analiză a vechimii utilajelor şi a
costului de întreţinere anual al acestora. Astfel, utilajele din dotarea fabricii, în număr de
20, au fost grupate după vechime (ani) în 3 grupe: utilaje cu vechime mică (<5 ani), utilaje
cu vechime medie (5-10 ani) și utilaje cu vechime mare (>10 ani) şi s-a înregistrat costul
de întreținere al acestora (u.m.). În urma aplicării metodei ANOVA de analiză
dispersională, și a prelucrării datelor cu Excel, s-au obținut următoarele rezultate:
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 6.792595238 …… …………. …………. 0.01153 3.591531
Within Groups ………………. 0.578641
Total 16.6295 19
a. Statistica F este 3,59, gradele de libertate df1 pentru varianta factorială este 1
şi dispersia corectată pentru varianta factorială este 6,79;
b. Statistica F este 5,87, gradele de libertate df1 pentru varianta factorială este 2
şi dispersia corectată pentru varianta factorială este 3,40;
c. Statistica F este 5,87, gradele de libertate df1 pentru varianta factorială este 1
şi dispersia corectată pentru varianta factorială este 3,40;
d. Statistica F este 3,40, gradele de libertate df1 pentru varianta factorială este 3
şi dispersia corectată pentru varianta factorială este 5,87.
3. Conducerea unei facultăţi dorește să determine dacă existenţa unei platform de e-learning
ajută studenții să învețe. Pentru aceasta se formează 2 grupe de studiu: studenții din
Grupul A nu beneficiază de platform e-learning la pregătirea cursurilor, studenții din
Grupul B beneficiază de pregătire suplimentară prin utilizarea platformei de e-learning.
După prima sesiune de examene, studenții primesc notele obţinute. Mediile studenţiilor
după prima sesiune sunt prezentate în tabelul următor:
144
Să se stabilească dacă utilizarea platformei e-learning a influențat rezultatele obținute la
examene de către studenți (nivel de semnificație 5%).
a. Deoarece Fc (3,29) < F0, 05;18;19 (4,42) , iar Fc intră în Rr , concluzia este că,
145
Rezumat
În studiul legăturilor dintre fenomenele şi procesele economice o metodă deosebit de utilă
este analiza dispersională, aceasta oferind posibilitatea verificării afirmaţiilor privind existenţa
legăturii, precum şi testarea validităţii modelului de regresie. În funcţie de numărul factorilor,
analiza dispersională poate fi unifactorială, bifactorială sau multifactorială.
Analiza dispersională, presupune utilizarea testului parametric ANOVA, care se bazează
pe următoarele considerente: populaţiile Γ din care se extrag k eşantioane γ trebuie să fie
Prin ipoteza alternativă H 1 se presupune că, cel puţin între două medii de grupă ale
eşantioanelor comparate există o diferenţă semnificativă, şi în consecinţă, factorul de grupare ( x )
are o influenţă însemnată asupra variabilei rezultative y .
În procesul testării ipotezei nule ( H 0 ) se utilizează tabelul ANOVA. Pentru testare este
utilizat este Fisher (F).
Bibliografie
146
Unitatea de învăţare 10
DETERMINAREA ŞI TESTAREA CORELAŢIILOR LINIARE DINTRE
VARIABILELE ECONOMICE
Cuprins
Obiectivele Unităţii de Învăţare 10 ......................................................................................... 147
10.1 Corelația liniară simplă ................................................................................................ 147
10.2 Corelația multiplă ......................................................................................................... 152
Lucrare de verificare 10A ....................................................................................................... 155
Test de autoevaluare 10B ........................................................................................................ 156
Rezumat ................................................................................................................................... 158
Bibliografie.............................................................................................................................. 158
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• aplicabilitatea modelelor econometrice de analiză a legăturilor prin intermediul
coeficienților de corelație;
• testarea coeficientului de corelație;
147
• pentru o serie bidimensională simplă:
n
∑ (x
i =1
i − x )( y i − y )
cov( x; y ) σ xy
r= = = (10.1)
nσ xσ y σ xσ y σ xσ y
care, după efectuarea calculelor are forma:
n
∑ (x
i =1
i − x )( y i − y )
r= (10.2)
n 2
n
2
(x i − x ) ⋅ ( y i − y )
∑ ∑
i =1 i =1
respectiv:
n n n
n ∑
i =1
xi y i − ∑ ∑y
i =1
xi ⋅
i =1
i
r= (10.3)
n n n 2 n
2
2
∑
xi − xi ⋅ y i −
i =1
2
∑
y i ∑ ∑
i =1 i =1 i =1
variabile xy
• pentru o serie bidimensională cu frecvenţe:
n
∑ (x
i =1
i − x )( y i − y )n xy
r= n
(10.4)
∑n
i =1
xy σ xσ y
∑∑ n ⋅ ∑∑ xyn − ∑ xn ⋅ ∑ yn
i =1 j =1
xy
i =1 i =1
xy
i =1
x
i =1
y
(10.5)
r
n n n
n
2
n n n
n
2
∑∑ n ∑ x n
i =1 n =1
xy
i =1
2
x ∑
− xnx
i =1
∑∑ n ∑ y n
i =1 i =1
xy
i =1
2
y ∑
− yn y
i =1
Dacă acest coeficient de corelaţie se determină la nivelul unui eşantion, atunci relaţia
(6.4) pentru o serie bidimensională simplă devine:
148
cov( x, y ) s xy
r= sau r= (10.6)
sx ⋅ s y sx ⋅ s y
ambelor variabile xy
149
Determinarea coeficientului de corelaţie la nivelul unui eşantion şi interpretarea acestuia,
reprezintă o prima etapă necesară aplicării metodologiei econometrice de stabilire a semnificaţiei
coeficientului de corelaţie al colectivităţii generale din care a fost selectat eşantionul cercetat.
Procesul testării semnificaţiei coeficientului de corelaţie ( ρ ) în raport cu cel al
eşantionului ( r ) se desfăşoară pornind de la următoarele aspecte:
• variabila rezultativă y şi cea factorială x să fie repartizate normal;
• coeficientul de corelaţie al colectivităţii generale ( ρ ) s-ar determina astfel:
∑ (X − X )(Yi − Y )
n
cov( X , Y ) σ xy i
ρ= = = i =1
[(X ][ ]
(10.7)
σ xσ y σ xσ y − X ) ⋅ (Yi − Y )
2 2
i
• estimatorul coeficientului de corelaţie (r), în condiţiile unui eşantion de volum redus ( n < 30 )
se prezintă ca un estimator:
- absolut corect cu: M (r ) = ρ şi σ 2 (r ) → 0
1− r2
- cu abaterea medie pătratică: s r =
n−2
1− r 2
- având distribuţia normală: N ρ ,
n−2
Etapele parcurse pentru testarea semnificaţiei coeficientului de corelaţie sunt:
1. Ipoteza nulă H 0 : ρ = 0 (coeficientul de corelaţie al colectivităţii nu este semnificativ
statistic, deci nu diferă semnificativ de zero),
2. Ipoteza alternativă H 1 : ρ ≠ 0 (coeficientul de corelaţie al colectivităţii este semnificativ
statistic, deci diferă semnificativ de zero).
2.1. - testul unilateral stânga: H 1 : ρ < 0 (coeficientul de corelaţie al colectivităţii este
semnificativ statistic, deci mai mic semnificativ de zero)
2.2. - testul bilateral: H 1 : ρ ≠ 0 (coeficientul de corelaţie al colectivităţii este
semnificativ statistic, deci diferă semnificativ de zero)
2.3. - test unilateral dreapta: H 1 : ρ > 0 (coeficientul de corelaţie al colectivităţii este
semnificativ statistic, deci mai mare semnificativ de zero)
3. În raport cu datele şi cerinţele aplicaţiei se utilizează testul t
150
( Student)
4. Se stabileşte limita de semnificaţie α şi regiunea de respingere
4.1. - testul unilateral stânga:
► „t” tabelar sau teoretic tα ; n − 2 (Anexa 3) şi valoarea cu semnul ”-„ se plasează pe
grafic.
► regiunea de respingere Rr : dacă t c < −tα ; n − 2 , atunci H o se respinge, deci
plasează pe grafic.
► regiunea de respingere Rr : dacă t c < - t α sau t c > t α atunci H o deci
; n−2 ; n−2
2 2
grafic.
► regiunea de respingere Rr : dacă t c > tα ; n − 2 , atunci H o se respinge, deci
dacă rezultatul statistic al testului calculat t c intră sau nu, în regiunea de respingere Rr ,
luându-se decizia adecvată situaţiei.
13
Vezi Capitolul II “Distribuţii utilizate în analize econometrice”, Subcapitolul 2.3.. “Distribuţii clasice în
verificarea ipotezelor statistice”, în 2.3.3. “Repartiţia Student”
151
Testarea semnificaţiei coeficientului de corelaţie simplă liniară se poate realiza şi cu
ajutorul testului Fisher14 (testul F ), utilizând aceeaşi metodologie ca şi în cazul testării
raportului de corelaţie, numai că, statistica testului este:
r2
Fc = ⋅ (n − 2 ) (10.9)
1− r2
Pentru comparaţie, valoarea tabelară (teoretică) a testului se preia tot din Anexa 4, pentru:
F1−α ;k ;n − k −1 , F α , Fα Fα ;k ;n −k −1 .
1− ; k ; n − k −1 ; k ; n − k −1
2 2
∑ (y )
n
− yˆ x1 , x2 ,..., xn
2
i
i =1
R y / x1, , x2 ,..., xn = 1 − n
(10.10)
∑ (y − y)
2
i
i =1
∑ (y )
n
− yˆ x1 , x2 ,... xn n x1, 2 , 3,..., n
2
i
i =1
R y / x1x2 ,... xn = 1 − n
(10.11)
∑ (y − y) ny
2
i
i =1
14
Ibidem,în subcapitolul 2.3 “2.3.4. Repartiţia Fisher-Snedecor”
152
pentru factori interpendenţi:
∑ x1i − ∑ x1i ∑ i ∑ i
⋅ y − y
i =1 i =1 i =1 i =1
n n n
n ∑ x 2 i y i − ∑ x 2i ⋅ ∑ y i
i =1 i =1 i =1
ry / x 2 = (10.15)
n 2 n n
2
n
2
∑ x 2i − ∑ x 2i ⋅ ∑ yi2 − ∑ yi
i =1 i =1 i =1 i =1
n n n
n∑ x1i x 2 i − ∑ x1i ⋅ ∑ x 2 i
i =1 i =1 i =1
rx1x2 = (10.16)
n
n 2
n
n
2
∑ x12i − ∑ x1i ∑ 2 i
⋅ − ∑ 2i
2
x x
i =1 i =1 i =1 i =1
153
• când caracteristica x 2 este constantă, coeficientul de corelaţie parţială între y şi x1
este:
σ y2 / x − σ x2 x σ x2 x
ry / x1 ( x2 ) = 2 1 2
= 1− 1 2
(10.19)
σ y2 / x 2
σ y2 / x 2
sau
ry / x1 − ry / x2 ⋅ rx1x2
ry / x1 ( x2 ) = (10.20)
(1 − r )(1 − r )
2
y / x2
2
x1 x2
doilea factor ( x 2 ).
σ y2 / x − σ x2 x σ x2 x
ry / x2 ( x1 ) = 1 1 2
= 1− 1 2
(10.21)
σ 2
y / x1 σ 2
y / x1
sau
ry / x2 − ry / x1 ⋅ rx1x2
ry / x2 ( x1 ) = (10.22)
(1 − r )(1 − r )
2
y / x1
2
x1 x2
caracteristici factoriale ( x1 ).
Studierea legăturii dintre mai multe caracteristici factoriale şi cea rezultativă, prin
utilizarea coeficienţilor de corelaţie parţiali, presupune o reflectare a influenţei fiecărei variabile
factoriale în parte, asupra celei rezultative, în condiţiile menţinerii constante a influenţei
celeilalte variabile factoriale.
Ca şi în cazul coeficientului de corelaţie simplă liniară, determinarea coeficientului de
corelaţie multiplă are în vedere aplicarea indicatorului, printr-o metodologie econometrică
adecvată şi în cazul testării semnificaţiei acestuia la nivelul colectivităţii generale din care a fost
selectat eşantionul aflat în studiu.
154
Verificarea semnificaţiei coeficientului de corelaţie multiplă, cât şi a coeficienţilor
parţiali reprezintă un proces de testare a valorii acestora în sensul de a stabili dacă valorile
rezultate sunt reale sau se datorează în cea mai mare parte acţiunii erorilor aleatoare care apar în
urma derulării sondajului.
Metodologia testării semnificaţiei este aceeaşi cu cea utilizată la testarea coeficientului de
corelaţie simplă liniară.
După stabilirea ipotezelor (nulă şi alternativă), se precizează limita de semnificaţie şi
regiunea de respingere, pentru ca în următoarea etapă, să se aplice unul testele prezentate mai
sus:
o Testul Student ( t ), cu statistica (relaţia 6.8):
r
tc = ⋅ n−2
1− r2
o Testul Fisher – Snedecor ( F ), cu statistica (relaţia 6.9):
r2
Fc = ⋅ (n − 2 )
1− r2
Decizia finală are în vedere o comparare a valorii determinate pentru t c sau Fc cu una
se dacă rezultatul statistic al testului calculat t c , respectiv Fc intră sau nu, în regiunea de
respingere Rr , luându-se decizia adecvată situaţiei (dacă valoarea calculată intră în regiunea de
respingere atunci ipoteza nulă se respinge, iar coeficientul este considerat semnificativ statistic)
Esenţa utilizări coeficienţilor de corelaţie simpli, multipli sau parţiali în cadrul modelelor
econometrice constă în stabilirea gradului în care valorile determinate prin aplicarea
metodologiilor de calcul adecvate, sunt reale sau se datorează în cea mai mare parte erorilor
întâmplătoare de sondaj.
155
2. Care sunt valorile coeficientului de corelație ce stabilesc gradul de intensitate a
legăturii dintre variabilele analizate?
3. Care sunt etapele ce trebuiesc parcurse pentru testarea semnificației coeficientului de
corelație?
4. Care este formula cu care se calculează statistica testului coeficientului de corelație?
5. Care este testul cu ajutorul căruia se testează semnificația coeficientului de corelație
simplă liniară?
156
4. Un agent economic urmăreşte creşterea profitului activităţii sale, prin utilizarea
optimă a capacităţilor de producţie. Pentru analiză utilizează date din cinci luni,
astfel:
Profitul 7 9 11 12 14
Capacit de producție 9 12 14 11 16
157
Rezumat
Pentru determinarea corelaţiilor dintre două sau mai multe variabile economice un
indicator foarte des utilizat este coeficientul de corelaţie liniară (r). În cazul corelaţiei liniare
n n n
n ∑
i =1
xi y i − ∑ ∑y
i =1
xi ⋅
i =1
i
simple acesta are forma: r = .
n n n 2 n
2
2
∑
i =1 i =1
∑
xi − xi ⋅ y i −
2
i =1
i =1
∑
y i
∑
Valorile lui r ∈ [− 1;1] şi indică direcţia şi intensitatea legăturii dintre cele două variabile.
Coeficientul de corelaţie multiplă în cazul în care variabila rezultativă este influenţată de
ry2/ x1 + ry2/ x2 − 2ry / x1 ry / x2 rx1 x2
doi factori are forma ry / x1 , x2 = pentru factori interpendenţi, respectiv
1 − rx21 x2
r2
Fc = ⋅ (n − 2) . Testările se efectuează parcurgând secvenţial etapele prezentate în unitatea
1− r2
de învăţare 5.
Bibliografie
158
Unitatea de învăţare 11
MODELUL DE REGRESIE LINIARĂ UNIFACTORIALĂ
Bibliografie
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• ipotezele modelului regresie unifactorial;
• determinarea și validarea modelului de regresie unifactorial;
Conceptul statistic de regresie15 a fost utilizat pentru prima dată în 1886 de biologul
englez Francis Golton (1822-1894).
Utilizarea regresiei presupune aplicarea unei metode statistice care să vizeze depistarea,
stabilirea şi comensurarea unei relaţii constituite între două sau mai multe variabile, în care una
15
Termenul provine din latinescul „regresia” s-a conturat pe baza rezultatelor observării şi analizei
orientate spre „întoarcerea spre medie”.
159
este rezultativă (dependentă), iar cealaltă sau celelalte sunt explicative (apar sub forma factorilor
esenţiali de influenţă).
Metoda regresiei este fundamentată pe măsurarea şi previzionarea influenţei pe care unul
sau mai mulţi factori o poate avea asupra evoluţiei unui fenomen sau proces economic.
Deoarece, în cadrul metodei apar valori perechi de variabile utilizate şi parametri
corespunzători acestora sub forma mediilor, dispersiilor, abaterilor standard, etc, ea reprezintă o
componentă a metodelor parametrice de măsurare şi analiză a legăturilor formate în cadrul
derulării unor procese sau fenomene economice.
Elementul fundamental în cadrul metodei regresiei îl reprezintă funcţia de regresie.
Definiţia 6.1. Numim funcţie de regresie acea funcţie care sintetizează forma dependenţei
( )
variabilei rezultative Y , de variabilele factoriale X x1 , x 2 , K , x n .
În acest context, funcţia de regresie este o funcţie de modulare sub forma ecuaţiei medie
de tendinţă, ca rezultat a utilizării unor ecuaţii de estimare.
Funcţia de regresie poate să apară sub forma unei reprezentări grafice şi poate fi validată
prin intermediul testului F (Fisher Snedecor) de analiză dispersională.
Activitatea practică impune să se acorde o atenţie deosebită în alegerea corectă a funcţiei
de regresie pentru că, în studierea legăturilor dintre fenomenele şi procese economice este cea
mai importantă şi exprimă foarte clar relaţia dintre variabilele studiate (rezultativă şi factorială /
factoriale).
Tipul funcţiei de regresie este stabilit în raport cu reprezentarea grafică a norului de
puncte, corespunzătoare distribuţiei studiate („scalter diagram”- diagrama împrăşterii punctelor
pe grafic).
Astfel, o analiză detaliată şi cât mai exactă a unui proces sau fenomen economic impune
o studiere clară a tipului funcţiei de regresie după o clasificare realizată în raport cu
variabilele şi parametrii incluşi în model, după cum urmează:
• liniar în raport cu parametrii, în care atât variabilele modelului cât şi parametrii sunt la
puterea întâi. În cazul regresiei statistice, reprezentarea grefică a unui astfel de model se
rezumă la o linie dreaptă crescătoare sau descrescătoare care străbate mijlocul norului de
puncte urmând sensul alungirii acestuia; liniaritatea este dată de ecuaţia:
yˆ = a 0 + a1 x (11.1)
în cazul unifactorial respectiv,
160
yˆ = a 0 + a1 x1 + ... + a K x K (11.2)
în cazul multifactorial.
• neliniar cu următoarele variante:
► neliniar în raport cu variabilele dar liniar în raport cu parametri–este acea
reprezentare în care cel puţin una dintre variabilele explicative este la o putere
diferită de putera întâi de forme precum:
yˆ = a 0 + a1 x + a 2 x 2 ; yˆ = aX a Z β ( a ≠ 1, β ≠ 1 ), (11.3)
yˆ = a 0 + a1 (1 / x) etc.
► neliniar în raport cu parametrii dar liniar în raport cu variabilele, caz în care cel
puţin un parametru este la o putere diferită de puterea întâi, precum:
yˆ = a + a 2 x , yˆ = a x etc. (11.4)
► neliniar în raport cu variabilele şi cu parametrii - caz în care cel puţin o variabilă şi
cel puţin un parametru sunt la o putere diferită de puterea întâi, cum ar fi:
yˆ = a 2 x + a x 2 etc. (11.5)
Importanţa deosebită acordată funcţiei regresiei se transpune printr-o eficienţă
ridicată în utilizarea metodelor regresiei la nivelul multor domenii de activitate.
Conjunctura în care se aplică modelul unifactorial de regresie liniară vizează atingerea
unor ipoteze sintezate prin patru aspecte:
1. Stabilirea soluţiilor – are în vedere ca date utilizate:
• să fie obţinute fără erori simetrice de observare;
• să fie în număr suficient de mare (mai mare decât numărul parametilor astimaţi).
2. Variabila factorială (x)
• este nestocastică;
• are acelaşi valori în condiţiile repetării sondajului;
• este evidenţiată datorită variabilităţii nivelurilor înregistrate în cadrul eşantionului
(dispersia σ x2 ).
3. Modelul de regresie
• este liniar în raport cu parametrii;
• este corect stabilit prin:
161
∗ alegerea potrivită a formei funcţionale:
- liniară
- neliniară transformată în liniară
∗ cuprinderea celor mai importanţi factori verificată printr-o valoare destul de mare
a coeficienţilor de determinaţie ( R 2 ).
y
M (Y | X = X i ) = α + β X i
erori
pozitive
erori
negative
x1 x2 x3 x
• cuprinde o împrăştiere egală (figura 6.1) pentru diferite segmente de valori xi ceea
ce reprezintă ipoteza de homoscedasticitate:
Var (ε i ) = σ 2 constantă (∀ i )
16
Voineagu V., Ţiţan E., Şerban R., Ghiţă S., Todose D., Boboc C., Pele D., “Teorie şi practică econometrică”,
Editura Meteor Press, Bucureşti 2007, pag. 170
162
Y
X
0
Varianta 1:
17
Vezi Capitolul VII “Modelul regresiei liniare”, subcapitolul 7.1.1. “Stabilirea şi aplicarea modelului unifactorial
de regresie liniară”
163
n
n ∑y
i =1
i
n n
∆b
∑x ∑x y
i =1
i
i =1
i i
r= = , care conduce la
∆⋅∆y n n
n ∑x
i =1
i n ∑y
i =1
i
n n
⋅ n n
∑ xi
i =1
∑ xi2
i =1
∑ yii =1
∑y
i =1
2
i
relaţia:
n n n
n∑ xi y i − ∑ xi ⋅ ∑ y i
i =1 i =1 i =1
r= (11.6)
n
n 2
n
n
2
∑ xi2 − ∑ xi ∑ i
⋅ y 2
− ∑ i
y
i =1 i =1 i =1 i =1
Varianta 2:
s xy s xy
Din relaţiile r = şi b = rezultă că:
sx ⋅ s y s x2
sx
r = b⋅ (11.7)
sy
care va indica direcţia legăturii (vor avea aceeaşi interpretare în ceea ce priveşte direcţia
legăturii).
Tendinţa de liniaritate a legăturii dintre o variabilă rezultativă şi alta explicativă, de tip
factorial, este reflectată nu numai printr-o reprezentare grafică însoţită de aplicarea modelului de
regresie liniar, dar şi prin egalitatea dintre raportul de corelaţie ( R ) şi coeficientul de corelaţie
( r ): R = r .
► la nivelul eşantionului: y = f ( xi )
► pentru eşantion: yˆ i = a + b xi
Posibilităţile de aplicare practică a modelului de regresie unifactorială liniară are în
vedere următoarea reprezentare grafică din figura 7.2.
3
0,5 β = 0,5
2
1
y = 1 + 0,5 ⋅ x
1
α =1
x
1 2 3 4
165
Yi = Yˆi + ε i (11.9)
unde Yˆi = α + β xi .
y i = a + b xi + ei (11.10)
care poate şi scrisă şi sub forma:
yi = yˆ i + ei (11.11)
în care yˆ i = a + b xi
ε i = Yi − Υˆ i (11.12)
► pentru eşantion
ei = yi − yˆ i (11.13)
ne indică diferenţele ce apar între valorile reale (empirice) şi cele rezultate prin observare ( Υi
sau yi ).
Modelul unifactorial de regresie liniară poate fi aplicat la nivelul unui eşantion numai
dacă există posibilitatea estimării parametrilor incluşi în respectivul model.
166
Estimarea parametrilor (a, b ) se poate realiza prin aplicarea unei metode statistico-
matematice, cum ar fi: metoda celor mai mici pătrate, metodele bayesiene, metoda verosimilităţii
maxime.
Alegerea metodei celei mai fidele şi adecvate situaţiei în care se prezintă procesul studiat,
precum şi obţinerea unei calităţi ridicate a estimatorilor necesită respectarea următoarelor
criterii18:
• să fie cât mai mare gradul de determinare ( R 2 );
• abaterile stabilite între valorile empirice ( yi ) şi cele teoretice obţinute prin ajustare
∑ (y − yˆ i ) = minim;
2
( ŷi ) să fie cât mai reduse, a.î. i
i
n
Notând cu S = ∑ ( y i − a − bxi ) 2 , din condiţiile de optim de ordinul întâi:
i =1
∂S n
∂a = 0
∑
2 ( y i − a − bxi )(−1) = 0
⇒ i =n1 ⇒
∂S = 0 2 ( y − a − bx )(− x ) = 0
∂b ∑
i =1
i i i
n n n n
∑
2 ( a + bxi − y i ) = 0
i =1
∑
a+
i =1
∑
i =1
xi − ∑
i =1
yi = 0
n ⇒ n n n
2 ( ax + bx 2 − x y ) = 0 a x + b x 2 −
∑
i =1
i i i i ∑
i =1
i ∑
i =1
i
i =1
∑xi y i = 0
18
Pecican E. Ş., “Econometrie pentru... economişti”, Editura economică, Bucureşti 2007, pag. 64.
167
n n
na + b ∑
i =1
x i = ∑
i =1
yi
n n n (11.15)
a ∑ xi + b∑ xi2 = ∑ xi y i
i =1 i =1 i =1
∑y
i =1
i ∑x i =1
i
n n
∆a
∑ xi y i
i =1
∑x
i =1
2
i
a= = , de unde rezultă:
∆ n
n ∑xi =1
i
n n
∑ xi
i =1
∑x
i =1
2
i
n n n n
∑ yi ⋅ ∑ xi2 − ∑ xi ⋅ ∑ xi yi
i =1 i =1 i =1 i =1
a= 2
(11.16)
n
n
n∑ x 2i − ∑ xi
i =1 i =1
respectiv
n
n ∑x
i =1
i
n n
∆
∑ xi
i =1
∑x y
i =1
i i
n n
∑x
i =1
i ∑x
i =1
i
2
n n n
n ∑ xi y i − ∑ xi ⋅ ∑ y i
i =1 i =1 i =1
b= 2
(11.17)
n
n
n ∑ x − ∑ xi
i
2
i =1 i =1
Utilizarea modelului regresiei unifactoriale liniare nu permite numai stabilirea funcţiei de
regresie şi determinarea cu ajutorul sistemului de ecuaţii normale a parametrilor acestuia, ci
permite şi interpretarea estimatorilor determinaţi astfel:
168
Parametrul estimator a :
- este denumit şi termen liber;
- are caracter de mărime medie – indică valoarea variabilei rezultative y când toţi
factorii neesenţiali au o acţiune constantă (este nivelul mediu al variabilei y
determinată prin influenţa celorlalţi factori, în afara lui xi ).
169
Confirmarea de alegere şi utilizare corectă a modelului unifactorial de regresie liniară
este completă numai după parcurgerea următoarelor etape:
- testarea validităţii modelul unifactorial de regresie liniară utilizând metod ANOVA
- stabilirea şi testarea semnificaţiei raportului de corelaţie (R).
- testarea semnificaţiei parametrii modelului regresiei unifactoriale liniare şi estimarea lor pe
interval de încredere.
Exemplul 11.1.
În cadrul unui proiect este inclusă o cercetare care necesită studierea unui
eşantion format din 15 supermarket-uri. Studiul care trebuie realizat vizează analiza legăturii
care se stabileşte între salariul mediu acordat salariaţilor şi profitul înregistrat de respectivele
supermarket-uri, pe baza datelor din tabelul 6.2.
Profit
8 6 4 9 11 4 7 8 10 4 12 9 5 12 11
(mil. lei)
Salariul
mediu 32 22 18 30 40 15 25 24 35 21 35 27 20 36 33
(mii lei)
Se cere:
1 Să se stabilească direcţia şi intensitatea legăturii dintre salariul mediu acordat salariaţilor şi
profitul înregistrat de respectivele supermarket-uri.
2 Testaţi semnificaţia coeficientului de corelaţie determinat
Rezolvare:
yi - variabila dependentă = salariul mediu pe salariat (mii lei) acordat la nivelul fiecărui
supermarket
170
Determinarea coeficientului de corelaţie presupune parcurgerea algoritmului din tabelul
11.3.
∑ (x
i =1
i − x )( y i − y )
r=
n 2
n
2
( xi − x ) ⋅ ( y i − y )
∑ ∑
i =1 i =1
Valoarea coeficientului de corelaţie, r = + 0,93 ne arată că, între salariul mediu acordat
salariaţilor şi profitul înregistrat de respectivele supermarket-uri, există o legătură directă
puternică, deoarece r ∈ (0,75 ; 0,95) .
∑ (xi − x )( yi − y ) ∑ ( xi − x ) ∑ (y − y)
15
∑y
2 2
∑x
i =1
i i
i =1 i =1 i =1
i
i =1
= 120 = 413 = 279,53 = 118 = 763,49
171
2. Testarea semnificaţiei coeficientului de corelaţie
H o se respinge, deci coeficientul de corelaţie este semnificativ mai mare decât zero.
5. Statistica testului:
r 0,93
tc = ⋅ n−2 = ⋅ 15 − 2 = 9,13
1− r2 1 − 0,93 2
respinge, prin urmare coeficientul de corelaţie este semnificativ statistic (fiind semnificativ
mai mare decât zero).
172
4. Se stabileşte limita de semnificaţie α = 0,05 , de unde testul F tabelar sau teoretic este
atunci H o se respinge, deci coeficientul de corelaţie este semnificativ mai mare decât zero.
5. Statistica testului:
r2 0,932
Fc = ⋅ (n − 2 ) = ⋅ (15 − 2) = 83,23
1− r2 1 − 0,932
6. Concluzia se stabileşte în funcţie de relaţia: Fc > Fα ;1;n − 2 ( 83,23 > 4,67 ), deci H o se respinge,
prin urmare coeficientul de corelaţie este semnificativ statistic (fiind semnificativ mai mare
decât zero).
Exemplul 11.2.
Managerul unei structuri de primire turistică doreşte să stabilească, pe baza
unui model econometric, gradul de dependenţă a valorii încasărilor de numărul de turişti şi
durata medie a sejurului. Datele înregistrate de acesta sunt cele din tabelul (6.4).
Tabelul 11.4. Valoarea încasărilor pentru diverse durate ale sejurului şi numărul de turişti la nivelul
unei pensiuni
Valoarea încasărilor (UM) 7,4 6,7 6,0 6,3 6,8 7,9 10,5 8,8 8,4 6,3 5,9 9,5
Număr turişti (mii) 5,0 2,4 1,8 1,7 1,2 1,6 4,7 3,9 3,0 1,1 2,0 5,1
Durata medie a sejurului
4,5 3,5 4,0 4,5 5,0 5,5 6,0 6,5 5,0 4,0 4,0 4,5
(zile)
Se cere:
1. Să se stabilească direcţia şi intensitatea legăturilor dintre valoarea încasărilor,
numărul turiştilor şi durata medie a sejurului.
2. Testaţi semnificaţia coeficienţilor de corelaţie determinaţi
Rezolvare:
1. Stabilirea direcţiei şi intensităţii legăturilor dintre valoarea încasărilor, numărul
turiştilor şi durata medie a sejurului.
173
Valoarea încasărilor = f (nr. turişti, durata medie a sejurului)
Notaţii : yi - valoarea încasărilor (caracteristică dependentă)
Valoarea
Număr
încasărilor
2 2
turişti (mii) x1i yi x1i yi
(UM)
x1i
yi
∑ x1i ∑ yi ∑x ∑x ∑y
2 2
1i y i 1i i
i =1 i =1 i =1 i =1 i =1
= 33,5 = 90,5 = 271,44 = 118,41 = 706,99
174
n n n
n∑ x1i yi − ∑ x1i ⋅ ∑ y i
i =1 i =1 i =1
ry / x1 =
n
n
2
n
n
2
∑ x12i − ∑ x1i ∑ i ∑ i
⋅ y 2
− y
i =1 i =1 i =1 i =1
Durata
Valoarea
medie a
încasărilor 2 2
sejurului x 2i y i x 2i yi
(UM)
(zile)
yi
x 2i
4,5 7,4 33,30 20,25 54,76
3,5 6,7 23,45 12,25 44,89
4,0 6,0 24,00 16,00 36,00
4,5 6,3 28,35 20,25 39,69
5,0 6,8 34,00 25,00 46,24
5,5 7,9 43,45 30,25 62,41
6,0 10,5 63,00 36,00 110,25
6,5 8,8 57,20 42,25 77,44
5,0 8,4 42,00 25,00 70,50
4,0 6,3 25,20 16,00 39,69
4,0 5,9 23,60 16,00 34,81
4,5 9,5 42,75 20,25 90,25
12 12 12 12 12
∑x ∑ yi ∑ x 2i y i ∑ x 2i ∑y
2 2
2i i
i =1 i =1 i =1 i =1 i =1
= 57,00 = 90,50 = 440,30 = 279,50 = 706,93
n n n
n ∑ x 2 i y i − ∑ x 2i ⋅ ∑ y i
i =1 i =1 i =1
ry / x 2 =
n 2 n n 2 n
2
2
∑ x 2 i − ∑ x 2i ⋅ ∑ y i − ∑ y i
i =1 i =1 i =1 i =1
175
12 ⋅ 440,30 − 57 ⋅ 90,50
r y / x2 = = 0,71 valoare care ne indică existenţa unei
12 ⋅ 279,50 − 57 2 ⋅ 12 ⋅ 706,93 − 90,50 2
legături de intensitate medie stabilită între durata medie a sejurului şi valoarea încasărilor.
Se verifica dacă există interdependenţă între variabilele factoriale x1 (numărul turiştilor)
şi x2 (durata medie a sejurului). (tabelul 11.7)
Tabelul 11.7. Tabelul cu algoritmul de calcul pentru coeficientul de corelaţie ( rx1 ,x2 )
Durata
Număr
medie a
turişti 2 2
sejurului x1i x 2i x1i x2i
(mii)
(zile)
x1i
x 2i
5,0 4,5 22,50 25,00 20,25
2,4 3,5 8,40 5,76 12,25
1,8 4,0 7,20 3,24 16,00
1,7 4,5 7,65 2,89 20,25
1,2 5,0 6,00 1,44 25,00
1,6 5,5 8,80 2,56 30,25
4,7 6,0 28,2 22,09 36,00
3,9 6,5 25,35 15,21 42,25
3,0 5,0 15,00 9,00 25,00
1,1 4,0 4,40 1,21 16,00
2,0 4,0 8,00 4,00 16,00
5,1 4,5 22,95 26,01 20,25
12 12 12 12 12
n n n
n∑ x1i x 2 i − ∑ x1i ⋅ ∑ x 2 i
i =1 i =1 i =1
rx1x2 =
n 2 n n 2 n
2
2
∑ x1i − ∑ x1i ⋅ ∑ x 2 i − ∑ x 2 i
i =1 i =1 i =1 i =1
176
0,76 2 + 0,712 − 2 ⋅ 0,76 ⋅ 0,71 ⋅ 0,36
R y / x1 , x2 = ry / x1 , x2 = = 0,89
1 − 0,36 2
Coeficientul de corelaţie liniară multiplă obţinut indică existenţa unei legături puternice
între valoarea încasărilor şi cei doi factori principali de influenţă (numărul turiştilor şi durata
medie a sejurului).
Studierea legăturii dintre caracteristicile factoriale (numărul turiştilor şi durata medie a
sejurului) şi cea rezultativă (valoarea încasărilor), prin utilizarea coeficienţilor de corelaţie
parţiali, presupune stabilirea gradul de influenţă a fiecărei variabile factoriale în parte, asupra
celei rezultative, în condiţiile menţinerii constante a influenţei celeilalte variabile factoriale.
Astfel, rezultă:
ry / x1 − ry / x2 ⋅ rx1x2 0,76 − 0,71 ⋅ 0,36
ry / x1 ( x2 ) = = ≅ 0,77
(1 − r )(1 − r )
2
y / x2
2
x1 x2 (1 − 0,71 )⋅ (1 − 0,36 )
2 2
O influenţă de intensitate medie, dar destul de apropiată de cea puternică este remarcată
şi în cazul duratei medii a sejurului asupra valorii încasărilor, în condiţiile în care numărul mediu
al turiştilor s-a menţinut constant, fapt confirmat prin valoarea coeficientului de corelaţie:
ry / x2 ( x1 ) = 0,72 , deoarece ry / x2 ( x1 ) ∈ (0,5 ; 0,75) .
H o se respinge, deci coeficientul de corelaţie este semnificativ mai mare decât zero.
5. Statisticile testului calculate pentru cei trei indicatori sunt:
pentru coeficientul de corelaţie multiplă ( R y / x1 , x2 = ry / x1 , x2 = 0,89 ):
( )
t c ry / x1 , x2 =
r
⋅ n−2 =
0,89
⋅ 12 − 2 = 6,17
1− r 2
1 − 0,89 2
( )
t c ry / x1 ( x2 ) =
r
⋅ n−2 =
0,77
⋅ 12 − 2 = 3,81
1− r 2
1 − 0,77 2
( )
t c ry / x2 ( x1 ) =
r
⋅ n−2 =
0,72
⋅ 12 − 2 = 3,28
1− r 2
1 − 0,72 2
( )
t c ry / x1 ( x2 ) = 3,81 > 2,228 = tα ;n − 2 , deci H o se respinge, prin urmare acest
coeficient de corelaţie parţial este semnificativ statistic (fiind semnificativ mai mare
decât zero).
• pentru coeficientul de corelaţie parţial, cu factoriala x1 constantă
: t c (ry / x2 ( x1 ) ) = 3,28 > 2,228 = tα ;n − 2 , deci H o se respinge, prin urmare acest
178
coeficient de corelaţie parţial este semnificativ statistic (fiind semnificativ mai mare
decât zero).
Fc = Fα ;k ;n − k −1 = F0, 05;1;112 − 2 = F0, 05;1;10 = 4,96 şi regiunea de respingere Rr : dacă Fc > Fα ;1;n − 2 ,
atunci H o se respinge, deci coeficientul de corelaţie este semnificativ mai mare decât zero.
5. Statisticile testului calculate pentru cei trei indicatori sunt:
pentru coeficientul de corelaţie multiplă ( R y / x1 , x2 = ry / x1 , x2 = 0,89 ):
( )
F ry / x1 , x2 =
r2
⋅ (n − 2 ) =
0,89 2
⋅ (12 − 2) = 38,10
1− r2 1 − 0,89 2
pentru coeficientul de corelaţie parţial, cu factoriala x 2 constantă ( ry / x1 ( x2 ) = 0,77 ):
( )
F ry / x1 ( x2 ) =
r2
⋅ (n − 2 ) =
0,77 2
⋅ (12 − 2) = 14,56
1− r2 1 − 0,77 2
pentru coeficientul de corelaţie parţial, cu factoriala x1 constantă ( ry / x2 ( x1 ) = 0,72 ):
( )
F ry / x2 ( x1 ) =
r2
⋅ (n − 2 ) =
0,72 2
⋅ (12 − 2) = 10,76
1− r2 1 − 0,72 2
6. Concluzia se stabileşte în funcţie de regiunea de respingere şi valoarea calculată f c , astfel:
• pentru coeficientul de corelaţie multiplă: F (ry / x1 , x2 ) = 38,10 > 4,96 = Fα ;1;n− 2 , deci
179
• pentru coeficientul de corelaţie parţial, cu factoriala x2 constantă
: F (ry / x1 ( x2 ) ) = 14,56 > 4,96 = Fα ;1;n − 2 , deci H o se respinge, prin urmare acest
coeficient de corelaţie parţial este semnificativ statistic (fiind semnificativ mai mare
decât zero).
• pentru coeficientul de corelaţie parţial, cu factoriala x1 constantă
: F (ry / x2 ( x1 ) ) = 10,76 > 4,96 = Fα ;1;n − 2 , deci H o se respinge, deci H o se respinge,
prin urmare acest coeficient de corelaţie parţial este semnificativ statistic (fiind
semnificativ mai mare decât zero).
180
d. se realizează aplicând testul Student.
6. Se cunosc informații despre prețul a 5 case vândute în Ploiești, în zona de Sud, în anul
2012 și suprafața locuibilă a acestora.
Suprafața locuită 1,6 1,7 1,9 2,05 2,27
Prețul 2,5 2,6 2,7 2,7 2,8
181
Ecuația de regresie este:
a. Y=0,41+1,89 X
b. Y=0,32+1,22 X
c. Y=1,88+0,41 X
d. Y=2,33+1,56 X
7. Se cunosc informații despre prețul a 5 case vândute în Ploiești, în zona de Sud, în anul
2012 și suprafața locuibilă a acestora.
Suprafața locuită 1,6 1,7 1,9 2,05 2,27
Prețul 2,5 2,6 2,7 2,7 2,8
182
9. Se cunosc informații cu privire la notele obținute de 10 studenți la disciplina
econometrie, precum și numărul de absențe acumulate de aceștia.
X (Nr absente) 8 3 0 5 2 4 1 3 5 1
Y (Nota) 4 8 10 6 8 7 9 9 5 10
Rezumat
Metoda regresiei este fundamentată pe măsurarea şi previzionarea influenţei pe care unul
sau mai mulţi factori o poate avea asupra evoluţiei unui fenomen sau proces economic. În cazul
modelului liniar unifactorial numărul factorilor este egal cu 1. Deoarece, în cadrul metodei apar
valori perechi de variabile utilizate şi parametri corespunzători acestora sub forma mediilor,
183
dispersiilor, abaterilor standard, etc, aceasta reprezintă o componentă a metodelor parametrice de
măsurare şi analiză a legăturilor formate în cadrul derulării unor procese sau fenomene
economice.
Forma generală a modelului ce reflectă influenţa factorului x asupra rezultativei y
Estimarea parametrilor (a, b ) se poate realiza prin aplicarea unei metode statistico-
matematice, cum ar fi: metoda celor mai mici pătrate, metodele bayesiene, metoda verosimilităţii
maxime.
Testarea validităţii modelului şi a semnificaţiei statistice a parametrilor acestuia se
efectuează cu ajutorul ANOVA. De asemenea se determină şi se testează raportul de corelaţie şi
coeficientul de detrminaţie.
Bibliografie
184
Răspunsuri la testele de autoevaluare
Test de autoevaluare 1B 9. c;
1. a; 10. c.
2. A: a+b+c;
Test de autoevaluare 4B
3. a;
1. c;
4. b;
2. c;
5. b;
3. a;
6. d;
4. a;
7. c;
5. b;
8. b;
6. c;
9. a;
7. c;
10. a.
8. a;
Test de autoevaluare 2B 9. d;
1. b; 10. a.
2. b;
Test de autoevaluare 5B
3. c;
1. a;
4. b;
2. a;
5. d.
3. a;
Test de autoevaluare 3B 4. b;
1. d; 5. a;
2. a; 6. A;
3. c; 7. b;
4. b; 8. d;
5. b; 9. c;
6. a; 10. b.
7. b;
8. a;
185
2. b
Test de autoevaluare 6B 3. c
4. d
1. a;
2. a; Test de autoevaluare 10B
3. b; 1. d
4. b; 2. a
5. d; 3. C
6. b; 4. b
7. b; 5. c
8. c; 6. b
9. b;
10. a.
Test de autoevaluare 11B
Test de autoevaluare 7B
1. B
1. b;
2. b
2. c;
3. b
3. a;
4. d
4. c;
5. b
5. a;
6. a
6. c;
7. c
7. c;
8. c
8. b.
9. a
Test de autoevaluare 8B 10. a
1. b;
2. b;
3. a;
4. d;
5. c.
Test de autoevaluare 9B
1. b
186
Anexa 1
Distribuţia normală.
x2
z 1 −
Funcţia integrală a lui Laplace Φ (z ) = ∫ e 2 dx
0 2π
0,00 0,00000 0,30 0,11790 0,60 0,22575 0,90 0,31595 1,20 0,38495
0,01 0,00400 0,31 0,12170 0,61 0,22905 0,91 0,31860 1,21 0,38685
0,02 0,00800 0,32 0,12550 0,62 0,23235 0,92 0,32120 1,22 0,38875
0,03 0,01195 0,33 0,12930 0,63 0,23565 0,93 0,32380 1,23 0,39065
0,04 0,01595 0,34 0,13305 0,64 0,23890 0,94 0,32640 1,24 0,39250
0,05 0,01995 0,35 0,13685 0,65 0,24215 0,95 0,32895 1,25 0,39435
0,06 0,02390 0,36 0,14060 0,66 0,24535 0,96 0,33145 1,26 0,39615
0,07 0,02790 0,37 0,14430 0,67 0,24855 0,97 0,33400 1,27 0,39795
0,08 0,03190 0,38 0,14805 0,68 0,25175 0,98 0,33645 1,28 0,39975
0,09 0,03585 0,39 0,15175 0,69 0,25490 0,99 0,33890 1,29 0,40150
0,10 0,03985 0,40 0,15540 0,70 0,25805 1,00 0,34135 1,30 0,40320
0,11 0,04380 0,41 0,15910 0,71 0,26115 1,01 0,34375 1,31 0,40490
0,12 0,04775 0,42 0,16275 0,72 0,26425 1,02 0,34615 1,32 0,40660
0,13 0,05170 0,43 0,16640 0,73 0,26730 1,03 0,34850 1,33 0,40825
0,14 0,05565 0,44 0,17005 0,74 0,27035 1,04 0,35085 1,34 0,40990
0,15 0,05960 0,45 0,17365 0,75 0,27335 1,05 0,35315 1,35 0,41150
0,16 0,06355 0,46 0,17725 0,76 0,27635 1,06 0,35545 1,36 0,41310
0,17 0,06750 0,47 0,18130 0,77 0,27935 1,07 0,35770 1,37 0,41465
187
z Ф(z) z Ф(z) z Ф(z) z Ф(z) z Ф(z)
0,18 0,07140 0,48 0,18440 0,78 0,28230 1,08 0,35995 1,38 0,41620
0,19 0,07535 0,49 0,18795 0,79 0,28525 1,09 0,36215 1,39 0,41775
0,20 0,07925 0,50 0,19145 0,80 0,28815 1,10 0,36435 1,40 0,41925
0,21 0,08315 0,51 0,19495 0,81 0,29105 1,11 0,36650 1,41 0,42075
0,22 0,08705 0,52 0,19845 0,82 0,29390 1,12 0,36875 1,42 0,42220
0,23 0,09095 0,53 0,20195 0,83 0,29675 1,13 0,37075 1,43 0,42365
0,24 0,09485 0,54 0,20540 0,84 0,29955 1,14 0,37285 1,44 0,42505
0,25 0,09870 0,55 0,20885 0,85 0,30235 1,15 0,37495 1,45 0,42645
0,26 0,10255 0,56 0,21225 0,86 0,30510 1,16 0,37700 1,46 0,42785
0,27 0,10640 0,57 0,21565 0,87 0,30785 1,17 0,37800 1,47 0,42920
0,28 0,11025 0,58 0,21655 0,88 0,31055 1,18 0,38100 1,48 0,43055
0,29 0,11410 0,59 0,22240 0,89 0,31325 1,19 0,38300 1,49 0,43190
188
Distribuţia normală
x2
z 1 −
Funcţia integrală a lui Laplace Φ (z ) = ∫ e 2 dx (continuare)
0 2π
1,50 0,43320 1,72 0,45730 1,94 0,47380 2,32 0,48985 2,76 0,49710
1,51 0,43450 1,73 0,45820 1,95 0,47440 2,34 0,49035 2,78 0,49730
1,52 0,43575 1,74 0,45905 1,96 0,47500 2,36 0,49085 2,80 0,49745
1,53 0,43700 1,75 0,45995 1,97 0,47560 2,38 0,49135 2,82 0,49760
1,54 0,43820 1,76 0,46080 1,98 0,47615 2,40 0,49180 2,84 0,49775
1,55 0,43945 1,77 0,46165 1,99 0,47670 2,42 0,49225 2,86 0,49790
1,56 0,44060 1,78 0,46245 2,00 0,47725 2,44 0,49265 2,88 0,49800
1,57 0,44180 1,79 0,46325 2,02 0,47830 2,46 0,49305 2,90 0,49810
1,58 0,44295 1,80 0,46405 2,04 0,47935 2,48 0,49345 2,92 0,49825
1,59 0,44410 1,81 0,46485 2,06 0,48030 2,50 0,49380 2,94 0,49835
1,60 0,44520 1,82 0,46560 2,08 0,48125 2,52 0,49415 2,96 0,49845
1,61 0,44630 1,83 0,46640 2,10 0,48215 2,54 0,49445 2,98 0,49855
1,62 0,44740 1,84 0,46710 2,12 0,48300 2,56 0,49475 3,00 0,49865
1,63 0,44845 1,85 0,46785 2,14 0,48380 2,58 0,49505 3,20 0,49930
1,64 0,44950 1,86 0,46855 2,16 0,48460 2,60 0,49535 3,40 0,49965
1,65 0,45055 1,87 0,46925 2,18 0,48535 2,62 0,49560 3,60 0,49984
1,66 0,45155 1,88 0,46995 2,20 0,48610 2,64 0,49585 3,80 0,49993
1,67 0,45255 1,89 0,47060 2,22 0,48670 2,66 0,49610 4,00 0,49996
1,68 0,45350 1,90 0,47130 2,24 0,48745 2,68 0,49630 4,50 0,49999
1,69 0,45450 1,91 0,47195 2,26 0,48810 2,70 0,49655 5,00 0,50000
189
Anexa 2
Distribuţia χ
2
α
0,990 0,975 0,950 0,900 0,100
l
190
α
0,990 0,975 0,950 0,900 0,100
l
191
Distribuţia χ2
Funcţie de probabilitatea P( χ 2 > χα2 ) = δ
(continuare)
α
0,050 0,025 0,010 0,001
l
192
α
0,050 0,025 0,010 0,001
l
193
Anexa 3
Distribuţia Student (t )
α
0,50 0,20 0,10 0,05 0,02
l
194
Nivel de semnificaţie pentru testul bilateral
α
0,50 0,20 0,10 0,05 0,02
l
195
Distribuţia Student (t )
Funcţia P(t ≤ tα ) şi numărul l al gradelor de libertate
(continuare)
α Nivel de semnificaţie pentru testul bilateral
196
α Nivel de semnificaţie pentru testul bilateral
α
0,25 0,10 0,05 0,025 0,01
. ƒ
197
Distribuţia Student (t )
(continuare)
α
0,01 0,002 0,001 0,0001
l
198
17 2,898 3,646 3,965 5,014
α
0,01 0,002 0,001 0,0001
l
199
Distribuţia Student (t )
(continuare)
Nivel de semnificaţie pentru testul bilateral
α
0,01 0,002 0,001 0,0001
l
200
α
0,01 0,002 0,001 0,0001
l
α
0,005 0,001 0,0005 0,00005
l
201
Anexa 4
Distribuţia Fisher-Snedecor (F )
202
22 4,30 3,44 3,05 2,92 2,66
I1 1 2 3 4 5
I2
23 4,28 3,42 3,03 2,80 2,64
203
Distribuţia Fisher-Snedecor (F )
204
22 2,55 2,40 2,23 2,03 1,78
I1 . a 6 7 8 12
I2 ∞
205
Distribuţia Fisher-Snedecor (F )
206
23 7,88 5,66 4,76 4,26 3,94
I1 1 2 3 4 5
I2
24 7,82 5,61 4,72 4,22 3,90
207
Distribuţia Fisher-Snedecor (F )
208
22 3,76 3,45 3,12 2,75 2,31
I1 . a 6 8 12 24
I2 ∞
209
Distribuţia Fisher-Snedecor (F )
210
22 14,38 9,61 7,80 6,81 6,19
I1 1 2 3 4 5
I2
23 14,19 9,47 7,67 6,67 6,08
211
Distribuţia Fisher-Snedecor (F )
212
22 5,76 5,19 4,58 3,92 3,15
I1 . a 6 8 12 24
I2 ∞
213
Bibliografie
Bădiţă M., Baron T., Statistică pentru afaceri, Editura Eficient, Bucureşti, 1998
Korka M.
Bădiţă M., Baron T., Statistică pentru afaceri în comerţ – turism, vol 1, 2,
Cristache S.E. Editura Luceafărul, Bucureşti, 2002
214
M., Rate Evolution in Romania”, in Recent Advances in
Fuzzy Systems, Proceedings of the 10th WSEAS
Int.Conf. on Fuzzy Systems (FS’09), p.116-121, Prague,
Czech Republic, 2009, (ISI/SCI)
Hannan E.J., Deistler The Statistical Theory of Linear Systems, New York:
M. Wiley, 1988
Oprescu Gh., Spircu L., Bazele ciberneticii economice, Editura Inforec Bucureşti,
Zaharia M. 1997
215
Şerban R., Ghiţă S., 2007
Tudose D., Boboc C.,
Pele D.
Wonnacott T.H., Introductory Statistics for Business and Economics, New
Wonnacott R.J., York:Wiley,1990
Zaharia M., Zaheu I., Study Regarding SNP Petrom Stock List Evolution by
Stan E. R. Using Autoregressive Models, International Conference
Economy and Business Sunny Beach Bulgaria, in
„Economic & Business / International Scientific
Publications 2008”, vol 2, Part 1, 2008
216
Econometrie
Suport de Curs-Învățamântul la
distanță
1
Cuprins
2
4.1 Repartiţia normală normată (Z ) ................................................................................................... 48
4.2 Repartiţia χ
2
............................................................................................................................. 53
3
Lucrare de verificare 7A .................................................................................................................. 108
Test de autoevaluare 7B ................................................................................................................... 109
Rezumat .......................................................................................................................................... 114
Bibliografie ..................................................................................................................................... 115
Unitatea de învăţare 8 TESTAREA IPOTEZELOR PRIVIND DISPERSIILE
POPULAŢIILOR ........................................................................................................................ 116
Obiectivele Unităţii de Învăţare 8 ..................................................................................................... 116
8.1 Compararea dispersiei eşantionului cu dispersia colectivităţii generale ....................................... 116
8.2 Compararea dispersiei a două colectivităţi.................................................................................. 119
Lucrare de verificare 8A .................................................................................................................. 123
Test de autoevaluare 8B ................................................................................................................... 123
Rezumat .......................................................................................................................................... 125
Bibliografie ..................................................................................................................................... 126
Unitatea de învăţare 9 ANALIZĂ DISPERSIONALĂ (ANOVA) ........................................... 127
Obiectivele Unităţii de Învăţare 9 ..................................................................................................... 127
9.1 Analiza dispersională unifactorială............................................................................................. 127
9.2 Analiza dispersională bifactorială............................................................................................... 133
Lucrare de verificare 9A .................................................................................................................. 143
Test de autoevaluare 9B ................................................................................................................... 143
Rezumat .......................................................................................................................................... 146
Bibliografie ..................................................................................................................................... 146
Unitatea de învăţare 10 DETERMINAREA ŞI TESTAREA CORELAŢIILOR LINIARE
DINTRE VARIABILELE ECONOMICE.................................................................................. 147
Obiectivele Unităţii de Învăţare 10 ................................................................................................... 147
10.1 Corelația liniară simplă......................................................................................................... 147
10.2 Corelația multiplă ................................................................................................................. 152
Lucrare de verificare 10A ................................................................................................................ 155
Test de autoevaluare 10B ................................................................................................................. 156
Rezumat .......................................................................................................................................... 158
Bibliografie ..................................................................................................................................... 158
Unitatea de învăţare 11 MODELUL DE REGRESIE LINIARĂ UNIFACTORIALĂ ............ 159
Obiectivele Unităţii de Învăţare 11 ................................................................................................... 159
11.1 Ipotezele modelului .............................................................................................................. 159
4
11.2 Determinarea și validarea parametrilor modelului linear unifactorial .................................... 163
Lucrare de verificare 11A ................................................................................................................ 180
Test de autoevaluare 11B ................................................................................................................. 180
Rezumat .......................................................................................................................................... 183
Bibliografie ..................................................................................................................................... 184
Răspunsuri la testele de autoevaluare ......................................................................................... 185
Anexa 1 ....................................................................................................................................... 187
Anexa 2 ....................................................................................................................................... 190
Anexa 3 ....................................................................................................................................... 194
Anexa 4 ....................................................................................................................................... 202
Bibliografie ................................................................................................................................. 214
5
Unitatea de învăţare 1
INTRODUCERE ÎN ECONOMETRIE
Cuprins
După studiul acestei unităţi de învăţare, cursanţii vor avea cunoştinţe despre:
• Ce este econometria.
• Principalele obiective ale econometriei.
• Ce este modelul econometric.
• Ce este modelul economic.
• Diferenţa dontre modelele economice şi modelele econometrice.
• Tipologia modelelor econometrice.
• Etapele creării şi utilizării unui model econometric.
• Tipurile de date utlizate în econometrie.
6
În anul 1930 la Cleveland un grup de cercetători, printre care I. Fisher, L.V.
Borkiewicy, R. Frisch şi H. Hotelling, înfiinţează Societatea de Econometrie. Acesta este şi
momentul care marchează constituirea econometriei1 ca ştiinţă.
Fie sistemul reprezentat în figura 1.3. Variabilele de intrare xi , din punctul de vedere
al sistemului supus analizei, sunt variabile independente (nu depind de sistemul S ). Aceste
variabile influenţează (determină) valorile variabilei (variabilelor) de ieşire Y . Din acest
punct de vedere variabila Y este o variabilă dependentă. În aceste condiţii are loc relaţia:
Y = f (x ) + ε (1.1)
unde:
f este funcţia de transfer a sistemului reprezentând legea de manifestare a procesului
economic studiat;
x = ( xi )i =1, n este vectorul variabilelor independente;
1
Termenul “econometrie” a fost introdus de economistul şi statisticianul norvegian Ragnar Frisch şi provine
etimologic de la grecescul “eikonomia” – economie şi respectiv “metren” – măsură.
2
Definiţia a fost formulată de R. Frisch în primul număr al revistei Econometrica.
7
Econometria presupune investigarea fenomenelor
economice numai cu ajutorul modelelor aleatoare (stochastice, probabilistice); ea include
doa cercetările economice ce utilizează metodele inducţiei matematice la verificarea
relaţiilor cantitative formulate în teoria economică cu privire la fenimenele sau procesele
studiate3.
3
Definiţie propusă de Cowles Comission for Research în Econometrics.
4
Definiţe propusă de economiştii anglo-saxoni.
8
Figura 1.1. Proces studiat prin prisma modelării economice
( )
Y = yj j =1.m
este vectorul variabilelor dependente (rezultative).
ε
x1 y1
PROCES
x2 y2
ECONOMIC ym
xn
Y = f (X ) + ε (1.3)
La construirea şi utilizarea modelelor econometrice (figura 1.6) se porneşte de la
teoria economică pe baza căreia se construieşte un model care se presune că descrie relaţiile
cauzale dintre una sau mai multe variabile independente şi o variabilă dependentă (rezultat)
şi se obţine într-o primă fază un model economic. În funcţie de numărul de ecuaţii se
5
Ipoteza ceteris paribus.
9
introduc în model una sau mai multe variabile stochastice şi se obţine modelul econometric al
fenomenului studiat.
Pe baza datelor de selecţie reprezentând valorile variabilelor observabile din model se
estimează valorile parametrilor modelului obţinându-se o funcţie de date de observaţie (un
estimator).
Se validează modelul econometric obţinut în raport cu anumite condiţii (convergenţă,
verosimilitate etc.). Dacă modelul nu este valid se încearcă găsirea altui model care, în raport
cu condiţiile impuse sa fie valid (corect).
Dacă modelul este corect atunci acesta poate fi utilizat la testarea ipotezelor privind
valorile numerice ale parametrilor necunoscuţi ai populaţiei din care a fost selectat
eşantionul. De asemenea, validitatea modelului oferă posibilitatea efectuării unor predicţii ale
comportamentului populaţiei respective.
Selecţie
Model economic
Date de selecţie
Model econometric
Estimare
Validare
NU
Model valid?
DA
Testare ipoteze
Politici economice:predicţii/prognoză
10
Modelele econometrice formează o submulţime de modele inclusă în mulţimea modelelor
economico-matematice care, la rândul lor, pot fi categorisite după diferite criterii printre care
menţionăm:
o După numărul de ecuaţii
- modele cu o singură ecuaţie (conţin o singură variabilă rezultativă y , indiferent
de numărul n al elementelor vectorului variabilelor cauzale
X = (xi )i =1,n ) y = f ( X ) + ε
- modele multifactoriale
y = f (x1 , x 2 , K , x n ) + ε
modele autoregresive
y = f (x t , y t −k ) + ε
modele cu decalaj
y = f ( x t , x t −1 , K , x t − k ) + ε
11
Ca şi în cazul general al modelelor economico-matematice, în structura unui model
econometric intră variabilele modelului şi relaţiile dintre variabilele acestuia.
Pe lângă tipurile de variabile prezentate până acum (Variabile independente - cauzale
sau explicative -, variabile dependente - rezultative; variabile deterministe, variabile
stochastice; variabile endogene, variabile exogene) ne mai oprim asupra categorisirii
variabilelor modelelor econometrice în funcţie de valorile pe care le pot lua, şi anume:
Variabile cantitative. Provin din caracteristici care exprimă atribute cantitative ale
elementelor unei populaţii. Caracteristica principală a variabilelor catitative este
faptul ca iau valori dintr-o scară continuă, cu valorile lor putându-se efectua operaţii
aritmetice. În analizele econometrice, indicatorii statistici relevanţi calculaţi pe baza
valorilor observate sunt media şi abaterea medie pătratică.
Variabile categoriale (calitative) Provin din carscteristici care exprimă atribute
calitative. Denumirea acestora provine de la faptul că au două sau mai multe nivele de
valori numite categorii. La rândul lor, variabilele categoriale pot fi grupate în:
o Variabile nominale. Valoarea reprezintă codul unei categorii careia îi aparţine
elementul respectiv al pupulaţiei. De exemplu, variabila stare civilă poate
avea codificările:
0 – Nu (nepromovat), 1- Da (promovat).
o Variabile ordinale. Sunt variabile ale căror nivele sunt codificate astfel încât
să poată fi comparate între ele. De exemplu, variabila calitativă satisfacţie a
cărei valoare este dată de răspunsul la întrebarea:
12
Sunteţi mulţumit de calitatea serviciilor hotelului nostru? (2) – foarte
mulţumit; (1) – mulţumit; (0) – indiferent;
(-1) – nemulţumit; (-2) – foarte nemuţumit;
13
Lucrare de verificare 1A
1. Ce este econometria?
2. Care sunt principalele obiective ale econometriei?
3. Ce este modelul econometric?
4. Care este diferenţa dintre modelele economice şi modelele econometrice?
5. Care este tipologia modelelelor econometrice?
6. Ce tipuri de date sunt utilizate în econometrie.
7. Care este schema care prezintă etapele creării şi utilizării unui model econometric?
Test de autoevaluare 1B
14
a. dependenţele dintre variabilele cauzale şi cele rezultative;
b. independenţa dintre variabile;
c. dependenţele dintre variabilele cauzale;
d. dependenţele dintre variabilele rezultative;
15
8. Ce date sunt obţinute prin măsurători atât de natură statică căt şi dinamică asupra
aceloraşi elemente ale populaţiei:
a. date de tip serii de timp;
b. date de tip panel;
c. date de tip transversal;
d. date de tip profil.
10. Variabile ale căror nivele sunt codificate astfel încât să poată fi comparate între ele
sunt;
a. variabile ordinale;
b. variabile cantitative;
c. variabile binare;
d. variabile primare.
Rezumat
16
sau mai multe variabile Pe baza datelor de selecţie reprezentând valorile variabilelor
observabile din model se estimează valorile parametrilor modelului. După validarea
modelului pe baza acestuia se pot efectua predicţii ale comportamentului populaţiei
respective.
Modelele econometrice, pot fi categorisite după diferite criterii printre care după
numărul ecuaţiilor (cu o singură ecuaţie, cu mai multe ecuaţii), numărul factorilor
(unifactoriale), multifactoriale), forma dependenţei dintre variabile (liniare, neliniare),modul
în care este considerat factorul timp (madele statice, modele dinamice) etc.
Bibliografie
17
Unitatea de învăţare 2
NOŢIUNI PRIVIND VARIABILELE ALEATOARE
Cuprins
După studierea acestei unităţi de învăţare, cursanţii vor avea cunoştinţe despre teoria
probabilităţilor, şi anume:
• Ce este evenimentul.
• Tipuri de evenimente
• Ce este câmpul de evenimente
• Ce sunt variabilele aleatoare
• Ce sunt variabilele aleatore discrete
• Distribuţia variabilei aleatoare discrete
• Histograma şi pologonul distribuţeiei variabilei aleatoare discrete
• Funcţia de repartiţie a variabilei aleatoare discrete
• Ce sunt variabilele aleatoare continue
• Distribuţia variabilei aleatoare continue
• Reprezentarea grafică a variabilei aleatoare continue
• Funcţia de repartiţie a variabilei aleatoare continue
18
2.1. Eveniment. Câmp de Evenimente
Din punct de vedere al analizelor ce vor fi efectuate pe parcursul acestei lucrări orice
mulţime de elemente care printr-o proprietate comună pot fi considerate împreună constituie o
populaţie. Vom nota populaţia cu Γ , iar cu ϕ ∈ Γ un element generic al său. De exemplu, o
colectivitate de indivizi care au calitatea de a fi studenţi formează o populaţie.
Dacă în raport cu elementele populaţiei Γ considerăm una sau mai multe proprietăţi
spunem că am constituit un criteriu de cercetare. Astfel, dacă în raport cu populaţia „studenţi”
considerăm proprietatea de a fi integralist, am constituit un criteriu de cercetare.
Relizarea complexului de condiţii corespunzătoare criteriului de cercetate se numeşte
experienţă6. În sens larg, experienţa reprezintă un act care poate fi repetat în condiţii date şi care
permite verificarea practică a cunoştinţelor privind diverse fenomene şi procese din realitate.
O noţiune fundamentală în teoria probabilităţilor este cea de eveniment.
Definiţa 2.1. Evenimentul exprimă producerea sau neproducerea unui fenomen în cadrul unui
experienţe.
Evenimentul este rezultatul unui experiment (probă). Dacă în exemplul considerat mai
sus selectăm la întâmplare un element (student) din populaţia studenţi şi dacă acesta este
integralist, în raport cu criteriul ales, evenimentul evidenţiază producera fenomenului de
promovare a tuturor examenelor. Dacă studentul selectat nu este integralist, atunci evenimentul
evidenţiază neproducerea fenomenului de promovare a tuturor exemenelor.
Exemplul 2.1.
Să considerăm că dorim să vedem care sunt rezultatele posibile obţinute prin însumarea
feţelor a două zaruri care au fost aruncate.
Considerând că zarurile nu sunt măsluite, ţinând seama de faptul că feţele acestora pot lua
valori de la 1 la 6, atunci rezultă că suma feţelor la o aruncare poate avea valori în intervalul de
la 2 la 12 (2,3,4,5,6,7,8,9,10,11,12). Sumele feţelor, obţinute în toate cele 36 de combinaţii
posibele, sunt prezentate în tabelul 2.1.
6
Mihăilă N.,Popescu O., “Matematici speciale aplicate în economie”, Editura didactică şi pedagogică, Bucureşti,
1978.
19
Tabelul 2.1. Sumele feţelor obţinute prin aruncarea a două zaruri
Faţă zarul I
1 2 3 4 5 6
1 2 3 4 5 6 7
Faţă 2 3 4 5 6 7 8
zarul 3 4 5 6 7 8 9
II 4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
După cum se poate observa şi din tabelul 2.1 sunt numai n = 11 evenimente elementare
posibile (2,3,4,5,6,7,8,9,10,11,12).
Notăm: - cu Ω mulţimea tuturor evenimentelor
- cu ωi ∈ Ω evenimentul elementar i ,
Atunci,
{ωi }i =1,n reprezintă mulţimea evenimentelor elementare ale lui Ω .
alte evenimente obţinute din combinarea evenimentelor elementare, care formează, de asemenea,
părţi ale mulţimii Ω (submulţime).
De exemplu, un alt eveniment din mulţimea Ω poate fi “suma feţelor cuprinsă între 3 şi
12”, notat cu α .
Vom nota în continuare mulţimea tuturor evenimentelor (elementare şi neelementare) cu
{ei }i =1, N
Fiecărui eveniment ei i se poate asocia un eveniment contrar Cei (complementar) care
20
În cazul prezentat, evenimentul sigur reprezintă apariţia unei valori cuprinse în intervalul
închis de la 2 la 12. În consecinţă, evenimentul sigur în cazul dat este chiar mulţimea Ω .
Evenimentului sigur Ω i se asociază evenimentul imposibil notat cu Φ .
Oricare din evenimentele ei care pot să se producă sau nu la efectuarea unei probe
reprezintă un eveniment aleator.
Între două evenimente pot exista sau nu pot apărea relaţii de implicare. Dacă realizarea
evenimentului ei atrage după sine realizarea evenimentului e j (i ≠ j ) , atunci ei ⊂ e j adică
care formează mulţimea Ω , iar în continuare vom considera un Κ ca fiind mulţimea nevidă a
părţilor lui Ω care conţine toate evenimentele aleatoare {ei }i =1, N cu N finit.
Definiţia 2.3.
Perechea [Ω, Κ ] reprezintă un câmp finit de evenimente dacă:
∀ei ∈ Κ ⇒ Cei ∈ Κ ;
∀ei ∧ e j ∈ Κ ⇒ ei U e j ∈ Κ .
ei I e j = Φ∀i ≠ j.
Fie acum, {ωi }i =1,n o submulţime a mulţimii evenimentelor elementare ale câmpului de
ωi ≠ Φ∀i = 1, n
ωi I ω j = Φ∀i ≠ j
21
n
Uω = Ω
i =1
i
Este uşor de observat că mulţimea evenimentelor elementare din relaţia 2.1 satisface
proprietăţile de mai sus.
Trebuie remarcat aici faptul că, în relaţia 2.1 sunt puse în evidenţă numai evenimentele,
nu şi frecvenţele lor de apariţie. Fiecărui eveniment îi corespunde o anumită frecvenţă de
apariţie. Acestea pot fi egale sau nu.
Exemplul 2.2.
Frecvenţa de apariţie a evenimentelor elementare obţinute prin aruncarea a două zaruri este
calculate în tabelul 2.2.
Tabelul 2.2. Frecvenţa de apariţie a evenimentelor elementare obţinute prin aruncarea a două zaruri
Valoare 2 3 4 5 6 7 8 9 10 11 12
Frecvenţă 1 2 3 4 5 6 5 4 3 2 1
După cum se poate observa şi din tabelul 2.1 în cazul considerat frecvenţele de apariţie a
evenimentelor elementare diferă. Dacă le centralizăm obţinem situaţia din tabelul 1.2.
Frecvenţele de apariţie ale evenimentelor iau valori între 1 şi 6.
22
Definiţia 2.4.
Se numeşte variabilă aleatoare (stohastică) acea variabilă a cărei realizare constituie
evenimente întâmplătoare dintr-o mulţime care are un sistem determinat de evenimente.
După caracteristicile mulţimii pe care sunt definite, variabilele aleatoare se clasifică în:
• variabile aleatoare discrete definite pe mulţimi discrete cu număr finit de elemente;
• variabile aleatoare continue definite pe mulţimi continue reprezentate printr-un interval
finit sau infinit din ℜ .
Variabilele aleatoare se notează cu litere mari, iar valorile lor cu litere mici
corespunzătoare acestora. De regulă, sunt utilizate literele de la sfârşitul alfabetului (de exemplu,
variabila aleatoare X are la un moment dat valoarea x ).
Exemplul 2.3.
Aşa cum se poate observa din tabelul 2.2 la aruncarea a două zaruri este posibilă
obţinerea a 11 valori. Variabila aleatoare care modelează acest proces va fi:
2 3 4 5 6 7 8 9 10 11 12
Z : 1 2 3 4 5 6 5 4 3 2 1
36 36 36 36 36 36 36 36 36 36 36
Definiţia 2.5.
Fie X o variabilă aleatoare discretă cu xi , i = 1, n , valoarea acesteia la un moment dat şi
evenimentul ( X = xi ) cu probabilitatea P( X = xi ) = f ( xi ) = pi . Mulţimea perechilor ordonate
23
Simbolic variabila aleatoare X se notează cu:
x x
X i sau X i , i = 1, n (2.2)
f ( xi ) pi
10 f(xi ) ≥ 0
n
20 ∑ f(x ) = 1
i =1
i deoarece Ei = ( X = xi ), i = 1, n , constituie un sistem complet de
evenimente.
astfel încât mijlocul intervalului de ordinul i este considerat ca punct xi , iar pe ordonată valorile
Exemplul 2.4.
Pentru variabila aleatoare care modelează procesul de aruncare a două zaruri histograma
este este ilustrată în figura 2.1.
Dacă notăm cu M i ( xi , p i ) mijloacele segmentelor din partea de sus a dreptunghiurilor şi
le unim prin segmente de drepte, se obţine poligonul distribuţiei.
7
La constituirea histogramei trebuie să se ţină seama de tipul intervalelor de grupare. Dacă intervalele sunt egale
(ca in exemplul nostru) fiecare interval este luat egal cu unitatea de lungime. Dacă intervalele nu sunt
egale atunci acestea se dimensionează în aşa fel încât suprafaţa unei coloane să fie proporţională cu
produsul dintre mărimea intervalului şi frecvenţa sa.
24
Histogram
7
6
Frequency
5
4
3
2
1
0
2 3 4 5 6 7 8 9 10 11 12 More
Definiţia 2.6.
Se numeşte funcţie de repartiţie a variabilei aleatoare X , funcţia:
F ( x) = P( X < x)
P( X < x ) = ∑ P( X = x ) = ∑ f ( x ) , deci
xi ≤ x
i
xi ≤ x
i
F ( x) = P ( X < x ) = ∑ f ( x ),
xi ≤ x
i
Exemplul 2.5.
În cazul aruncării a două zaruri determinăm probabilitatea de a obţine o sumă a feţelor
mai mică decât 6 .
Pornim de la variabila aleatoare:
25
2 3 4 5 6 7 8 9 10 11 12
Z : 1 2 3 4 5 6 5 4 3 2 1
36 36 36 36 36 36 36 36 36 36 36
şi stabilim funcţia de repartiţie ca fiind:
F (6) = P(Z < 6) = suma probabilităţilor p i de la stânga lui 6.
1 2 3 4 10
F ( 6) = P ( Z < 6) = + + + = ≈ 0,277778
36 36 36 36 36
2 . Funcţia F(x) este nedescrescătoare. Dacă x1 < x2 sunt două valori ale argumentului
0
F ( x 2 ) − F ( x1 ) = P( x1 ≤ X < x 2 ) ≥ 0
rezultă:
F ( x 2 ) − F ( x1 ) ≥ 0, deci F ( x 2 ) ≥ F ( x1 ) .
3 0 . F(a)=0, F(b)=1 , unde a şi b sunt cea mai mică, respectiv cea mai mare valoare pe care o
poate lua argumentul variabilei X .
26
Definiţia 2.7.
x
Fie variabila aleatoare X : cu x ∈ [a, b ] , funcţia ϕ (x) se numeşte densitatea de
ϕ ( x)
probabilitate a variabilei aleatoare X .
Funcţia densitate de probabiitate ϕ (x ) se bucură de proprietăţile:
1 0 . ϕ ( x ) ≥ 0 , deoarece dP ≥ 0 şi dx > 0
b
2 0 . ∫ ϕ ( x)dx = 1 . .
a
ϕ (0 ) = 1
ϕ ( x) = e −1
S=1
0
x
27
Definiţia 2.8.
x
Fie variabila aleatoare X : cu x ∈ [a, b ] şi funcţia densitatea de probabilitate
ϕ ( x)
ϕ (x) .
Funcţia
F ( x ) = P( X < x) = ∫ ϕ (t )dt
x
(2.4)
a
ϕ (x)
1
x
∫
P( X < x) = F ( x) = ϕ (t )dt
0
ϕ ( x) = e − x
P ( X < 2)
0 x =1 x=2 x
x
şi al funcţiei de repartiţie P( X < x) = F ( x) = ∫ ϕ (t )dt
0
28
Lucrare deverificare 2A
1. Ce reprezintă un eveniment?
2. Cum de defineşte câmpul de evenimente.
3. Ce este variabila aleatoare?
4. Ce tipuri de variabile aleatoare cunoaşteţi?
5. Ce este variabila aleatore discretă?
6. Care sunt caracteristicile variabilei aleatoare?
7. Ce este variabila aleatoare continuă?
8. Ce înţelegeţi prin distribuţia variabilei aleatoare?
9. Care este funcţia de repartiţie a variabilei aleatoare continue?
10. Cum se reprezintă grafic variabila aleatoare continuă?
Test de autoevaluare 2B
29
a. variabile aleatoare nominale și variabile ordinale;
b. variabile aleatoare calitative și variabile aleatoare cantitative;
c. variabile aleatoare discrete și variabile aleatoare continue;
d. variabile aleatoare primare și variabile aleatoare secundare.
Rezumat
aleatoare care formează mulţimea Ω , Elementele {ei }i =1, N formează un sistem complet de
N
evenimente dacă: Ue i = Ω şi ei I e j = Φ∀i ≠ j.
i =1
30
Se numeşte variabilă aleatoare acea variabilă a cărei realizare constituie evenimente
întâmplătoare dintr-o mulţime care formează un sistem complet de evenimente. După
caracteristicile mulţimii pe care sunt definite variabilele aleatoare pot fi discrete sau continue.
Bibliografie
Bădiţă M., Baron T., Statistică pentru afaceri, Editura Eficient, Bucureşti, 1998
Korka M.
Chow G. Econometrics, McGraw Hill, New York, 1989
31
Unitatea de învăţare 3
CARACTERISTICILE DISTRIBUŢIEI VARIABILEI ALEATOARE
Cuprins
Unitatea de învăţare 3 CARACTERISTICILE DISTRIBUŢIEI VARIABILEI ALEATOARE 32
Obiectivele Unităţii de Învăţare 3 ............................................................................................. 32
3.1 Indicatorii caracteristici variabilei aleatoare privind tendinţa centrală de grupare ............. 33
3.2 Indicatorii caracteristici variabilei aleatoare privind împrăştierea distribuţiei variabilei
aleatoare .................................................................................................................................... 36
3.3 Particularităţi ale formei de distribuţie ................................................................................ 41
Lucrare de verificare 3A ........................................................................................................... 42
Test de autoevaluare 3B ............................................................................................................ 43
Rezumat ..................................................................................................................................... 46
Bibliografie................................................................................................................................ 47
După studiul acestei unităţi de învăţare, cursanţii vor avea cunoştinţe despre:
• cunoaşterea indicatoriilor caracteristici variabilei aleatoare privind tendinţa centrală de
grupare (valoarea medie, mediana, modulul),
• cunoaşterea indicatoriilor caracteristici variabilei aleatoare privind împrăştierea
distribuţiei variabilei aleatoare (intervalul de variaţie, dispersia, abaterea medie pătratică,
covarianţa, coeficientul de împrăştiere
• cunoaşterea indicatoriilor caracteristici variabilei aleatoare privind forma distribuţiei
(simetria şi asimetria, boltirea);
32
3.1 Indicatorii caracteristici variabilei aleatoare privind tendinţa centrală de
grupare
Valoarea medie
Definiţia 3.1.
Se numeşte valoare medie a unei variabile aleatoare X , discrete sau continue,
expresia:
n n
M ( X ) = ∑ pi xi = ∑ xi f ( xi ), (variabila discretă) (3.1)
i =1 i =1
b
M ( X ) = ∫ xϕ ( x)dx , (variabila continuă) (3.2)
a
−1 0 1 2
X :
0,2 0,1 0,4 0,3
x
X :
− x , x≥0
ϕ ( x) = e
∞ ∞
vom avea: M ( X ) = ∫ xe − x dx = Γ(2) = 1 , unde Γ(a ) = ∫ x a −1e − x dx este integrala Γ a lui Euler.
0 0
33
k
K :
Fie constanta 1 atunci M ( K ) = k ⋅ 1 = k
media sumei a două variabile aleatoare este egală cu suma mediilor acestora
M ( X + Y ) = M ( X ) + M (Y )
Valoarea mediană
Definiţia 3.2.
Se numeşte mediana variabilei aleatoare X , acea valoare M e pentru care, variabila
aleatoare are aceeaşi probabilitate de a fi mai mică sau mai mare ca ea, adică:
P( X < M e ) = P( X > M e ) (3.3)
Pentru variabilele aleatoare discrete mediana M e se deduce din
F ( M e ) = 1 − F ( M e ), sau 2 F ( M e ) = 1 .
1
fiind soluţia ecuaţiei: F ( x ) =
2
Pentru variabila aleatoare discretă
−1 0 1 2
X :
0,2 0,1 0,4 0,3
avem P( X < 1) = P ( X > 1) = 0.3 . În consecinţă M e = 1
Me 1
Pentru variabilele aleatoare continue, mediana M e este soluţia ecuaţiei ∫
i
ϕ ( x)dx =
2
.
34
Se numeşte modul (valoarea cea mai probabilă) variabilei aleatoare X , acea valoare
pentru care funcţia de pobabilitate f ( xi ) în cazul variabilelor aleatoare discrete, respectiv
densitatea de probabilitate ϕ (x ) în cazul variabilelor aleatoare continue este maximă.
Poziţionările celor trei indicatori ai tendinţei centrale de grupare prezentaţi mai sus
(valoarea medie, mediana şi modulul) sunt ilustrate în figura 3.1.
modulul modulul
mediana mediana
media media
Modulul=mediană=medie
c. Repartiţie simetrică
Figura 3.1. Poziţionarea valorii medii, medianei şi modulului pentru repartiţia simetrică şi
repartiţii asimetrice8
După cum se poate observa din figura 3.1.c., în cazul repartiţiei simetrice poziţiile celor
trei indicatori coincid. În cazul repartiţiilor asimetrice poziţiile medianei şi mediei (în această
ordine) se află în stânga modulului în cazul repartiţiei left skewed (figura 3.1.a.) respectiv în
dreapta modulului în cazul repartiţiei right skewed (figura 3.1.b.).
8
Spircu L., “Analiza datelor. Aplicaţii economice”, Editura ASE, Bucureşti 2005, pag. 19
35
3.2 Indicatorii caracteristici variabilei aleatoare privind împrăştierea
distribuţiei variabilei aleatoare
36
Fie variabila aleatoare X şi α o valoare oarecare din intervalul de variaţie respectiv,
se numeşte abatere a variabilei X , variabila aleatoare ξ , al cărui argument este dat de
diferenţa dintre argumentul lui X şi α , adică:
xi − α
ξ , (3.5)
f ( xi )
dacă X este variabilă aleatoare discretă, respectiv
x −α
ξ , (3.6)
ϕ (x)
dacă X este variabilă aleatoare continuă.
Teorema 3.1.
Media abaterii unei variabile X calculată faţă de valoarea medie, µ = M ( X ) ,
este nulă.
xi − µ
Demonstraţie: Fie variabila abatere ξ , avem
f ( xi )
n n n
M (ξ ) = ∑ ( xi − µ ) f ( xi ) = ∑ xi f ( xi ) − µ ∑ f ( xi ) = µ − µ = 0
i =1 i =1 i =1
Dacă în locul abaterii variabilei ξ definită mai sus utilizăm abaterea absolută
xi − µ
ξ a vom avea
f ( x )
i
∑x
i =1
i − µ ⋅ f ( xi ) în cazul variabilei aleatoare discrete, respectiv
+∞
∫−∞
x − µ ⋅ ϕ ( x)dx, în cazul variabile aleatoare continue,
care nu mai este nulă şi care, poate caracteriza împrăştierea variabilei aleatoare X în jurul valorii
ei medii m.
Dispersia
37
Pe lângă abaterea medie absolută definită anterior, o măsură larg utilizată a împrăştierilor
valorilor variabilei aleatoare faţă de media sa este dispersia.
Definiţia 3.6.
Se numeşte dispersie a variabilei aleatoare X , media M (ξ 2 ) a pătratului variabilei
aleatoare de abatere ξ :
(x − µ)2
ξ 2
(3.7)
f ( x )
Dispersia variabilei aleatoare X se notează de regulă fie cu σ x2 , fie cu D(X). În
consecinţă avem:
σ x2 = D( X ) = M (ξ 2 ) = M [( X − M ( X )) 2 ] = M ( X 2 ) − M 2 ( X )
Dacă variabila aleatoare X este discretă, atunci:
n
D ( X ) = ∑ ( xi − µ ) 2 ⋅ f ( xi ) , (3.8)
i =1
38
D( X − Y ) = D( X ) + D(Y ) sau σ x − y = σ x + σ y .
2 2 2
Într-adevăr avem:
D( X − Y ) = D( X + ( −1)Y ) = D( X ) + ( −1) 2 D(Y ) = D( X ) + D(Y )
n n
D ∑ (a k X k + bk ) = ∑ a k2 ⋅ D( X k ).
k =1 k =1
Teorema 3.2.
Dispersia mediei aritmetice a n variabile independente X j , j = 1, n care
urmează aceeaşi lege de distribuţie, este egală cu dispersia uneia din variabilele împarţită la
numărul variabilelor.
Demonstraţie:
n
∑ Xk
= 1
n
n ⋅ D( X ) D( X )
D k =1 ∑ D( X )= = .
n n2 k =1
k
n2 n
39
Se numeşte abaterea medie pătratică a variabilei X sau abaterea medie tip
(standard) valoarea medie de ordinul doi a abaterii, adică:
σ x = M (ξ 2 ) = D ( X ) (3.10)
D( X ) D( X ) σx
σ X = D( X ) = = = . (3.11)
n n n
∗ Covarianţă
Definiţia 2.16.
σ xy = M [( X − µ x ) ⋅ (Y − µ y )] , unde µ x = M ( X ), µ y = M (Y ) (3.12)
∗ Coeficientul de împrăştiere
Coeficientul de împrăştiere al unei variabile aleatoare X se exprimă ca raport dintre o
valoare a împrăştierii şi o mărime de aceeaşi natură şi are rolul de a înlătura influenţa naturii
variabilei aleatoare X asupra măsurii împrăştierii respective.
În practică, o expresie a coeficientului de împrăştiere frecvent utilizată este:
σx
V= ⋅ 100 . (3.14)
µx
40
X − µx
Z= (3.15)
σx
este numită normarea variabilei X la variabila Z .
X − µ M (X ) − µ
M (Z ) = M = = 0. (3.16)
σ σ
- dispersia şi abaterea medie pătratică ale variabilei normate sunt egale cu unitatea.
X − µ D( X ) σ
2
D( Z ) = D = = 2 = 1. (3.17)
σ σ2 σ
Simetria şi asimetria
Distribuţia unei variabile aleatoare X definită de funcţia f(x), este simetrică faţă de
valoarea medie m, dacă este satisfăcută de relaţia f (µ − ξ ) = f (µ + ξ ) , pentru orice abatere
ξ = x−µ.
Grafic aceasta înseamnă că, dacă două puncte M 1 si M 2 simetrice faţă de dreapta x = µ ,
de ordonate egale, se situează pe curba distribuţiei aceasta este simetrică, iar în caz contrar
distribuţia este asimetrică .
Pentru o distribuţie simetrică, media, mediana şi modul (pentru distribuţia unimodală) au
aceeaşi valoare.
Se dovedeşte că momentele centrate de ordin impar ale oricărei distribuţii simetrice sunt
nule.
41
Coeficientul care măsoară asimetria este notat cu α, şi este definit astfel ca pentru α = 0,
distribuţia să fie simetrică, iar pentru α ≠ 0, distribuţia este asimetrică.
Sunt folosiţi cu deosebire următorii coeficienţi de asimetrie:
M (X ) − M0 (X )
α1 = ( Pearson) , (3.18)
σx
µ3
α2 = ( Fisher) (3.19)
σ3
Boltirea (Turtirea)
Curbele de distribuţie pot avea boltiri sau turtiri diferite. Coeficientul de boltire folosit
este
µ4
β= (Fisher). (3.20)
σ4
Boltirea unei distribuţii oarecare se compară de obicei cu distribuţia normală9 pentru
care β = 3.
Diferenţa E = β – 3 este numită excesul distribuţiei.
Dacă E > 0, (deci β > 3), distribuţia este numită de tip leptokurtic.
Dacă E < 0, (deci β < 3), distribuţia este numită de tip platykurtic.
Lucrare de verificare 3A
9
Vezi în Capitolul III, “Distribuţiile clasice – baza verificării ipotezelor statistice în comerţ- turism-sevicii”,
subcaputolul 3.2.1., “Repartiţia normală normată ( Z )”.
42
6. Cum se definește dispersia?
7. Cum se definește abaterea medie pătratică?
Test de autoevaluare 3B
1. Modulul reprezintă:
a. Valoarea cea mai des întânită într-o serie statistică;
b. Valoarea din mijlocul unei serii statistice, în care observațiile au fost ordonate
crescător;
c. Valoarea cea mai puțin întânită într-o serie statistică;
d. Valoarea care imparte distribuția seriei statistice în două părți de volum egal;
2. Modulul reprezintă:
a. Valoarea cea mai des întânită într-o serie statistică;
b. Valoarea din mijlocul unei serii statistice, în care observațiile au fost ordonate
crescător;
c. Valoarea cea mai puțin întânită într-o serie statistică;
d. Valoarea care imparte distribuția seriei statistice în două părți de volum egal;
43
Vârsta (ani) 15-25 25-35 35-45 45-55 55-65
Nr. Pers. 7 12 20 8 3
44
7. Distribuţia elevilor unei clase de liceu în funcţie de numărul de absențe dintr-o lună se
prezintă astfel:
Nr. de absențe cumulate 14 15 16 17 18 19 20
Nr. elevi 2 6 10 15 8 5 4
45
Se obțin următăoarele valori pentru indicatorii sintetici ai variației:
a. dispersia 132,16 și abaterea medie pătratică 12,8 firme;
b. dispersia 11,6 și abaterea medie pătratică 134,56 firme;
c. dispersia 134,56 și abaterea medie pătratică 11,6 firme;
d. dispersia 13,56 și abaterea medie pătratică 1,6 firme.
Rezumat
46
Bibliografie
47
Unitatea de învăţare 4
DISTRIBUŢIILE CLASICE ÎN VERIFICAREA IPOTEZELOR
STATISTICE
Cuprins
Unitatea de învăţare 4 DISTRIBUŢIILE CLASICE ÎN VERIFICAREA IPOTEZELOR
STATISTICE ................................................................................................................................ 48
Obiectivele Unităţii de Învăţare 4 ............................................................................................. 48
4.2 Repartiţia χ
2
...................................................................................................................... 53
4.3 Repartiţia Student ( t ) .......................................................................................................... 55
4.4 Repartiţia Fisher-Snedecor ( F ) ......................................................................................... 56
Lucrare de verificare 4A ........................................................................................................... 57
Test de autoevaluare 4B ............................................................................................................ 57
Rezumat ..................................................................................................................................... 60
Bibliografie................................................................................................................................ 61
Dupa studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• Repartiţia normal normată Z ;
Repartiţia χ
2
•
• Repartiţia Student t
• Repartiţia Fisher-Snedecor F
48
Aplicarea unui model teoretic conduce la obţinerea unor rezultate care, deşi sunt
orientative, totuşi au un grad ridicat de utilitate.
În acest context, în multe situaţii, sunt utilizate repartiţiile teoretice pentru conturarea cât
mai exactă a rezultatelor necesare pentru definitivarea deciziilor manageriale.
Repartiţia normală normată este întâlnită şi sub numele de repartiţia normală standard sau
repartiţia normală redusă, tocmai pentru că redă un caz particular al repartiţiei normale.
Denumită şi repartiţia Gauss-Laplace, repartiţia normală este exprimată printr-o variabilă
aleatoare X cu media m şi dispersia σ 2 , normată X~N ( µ , σ 2 ), a cărei funcţia de repartiţie este:
(t −m)2
1 −
F (x) = P (X<x) = ∫ x
⋅e 2σ 2
dt, (4.1)
−∞ σ 2π
x ∈ R, σ > 0
cu
µ , σ − parametrii fun ct iei de repartitie [ M ( X ) = µ şi D ( X ) = σ ]
2 2
momente centrale
− de ordin impar egale cu zero : µ 2 K +1 = 0
(2 K )!
− de ordin par : µ 2 K = 2 K ⋅ K ! ⋅ σ
2K
dispersia σ i2
K K
µ = ∑ µ i şi σ 2 = ∑ σ i2
i =1 i =1
49
independente repartizate normal cu media µi şi dispersia σ i2 , atunci suma
Repartiţia normală normată se prezintă grafic printr-o curbă normală care se numeşte şi
clopotul lui Gauss, datorită următoarelor caracteristici:
- reprezentarea este simetrică faţă de dreapta x = µ , iar cele două părţii ale curbei tind
asimptotic spre axa absciselor Ox.
- distribuţia fiind unimodală, valoarea maximă va fii atinsă pentru x = µ în punctul:
1
σ 2π
50
Figura 4.2. Modificarea curbei repartiţiei normale
pentru σ variabil şi m constant
Un exemplu de curbă Gauss-Laplace pentru o repartiţie normală X ~ N (1,5;1) prezentat în
figura 4.3
0,4
0,2
51
0,4
0,2
-2 -1 1 2
(− z ) (+ z )
Figura 4.4. Graficul funcţiei de repartiţie normală normată
Funcţia de repartiţie a variabilei aleatoare normală normată este:
u2
1 −
F ( z) = ∫ e
z 2
du (4.3)
2π −∞
Deoarece curba este simetrică, deci F (0) = 0,5, din definiţia funcţiei repartiţiei avem:
F ( z ) = P (Z < z ) = α
Importantă din punct de vedere aplicativ este şi funcţia φ (z) ce prezintă aria de sub
ramura pozitivă a densităţii şi probabilităţii (figura 4.5) care se stabileşte în raport cu funcţia de
repartiţie normală redusă astfel:
1
φ ( z) = F ( z) − , z ≥ 0 (4.4)
2
f (z )
Φ(z )
-2 2
52
În această carte, este prezentată o Anexă 1 cu un tabel în care sunt incluse valorile
funcţiei φ (z ) .
Repartiţia χ
2
4.2
Definiţia 2.19.
Densitatea de probabilitate ϕ ( χ 2 ; a, g) a repartiţiei χ 2 este:
g x
1 −1 −
ϕ ( x) = g
⋅ x2 ⋅e 2a2
, x≥ 0 (4.5)
g
2 ⋅ a ⋅ Γ
2 g
2
unde: g – gradele de libertate ale repartiţiei
Γ - repartiţia Gamma
În cazul repartiţiei χ 2 întâlnim următoarele situaţii:
2
• dacă x < 0 , atunci ϕ ( x, g ) =0.
Funcţia de repartiţie este:
x
F ( x) = ∫ ϕ (t , g )dt
−∞
f (x : g ,1)
g =2
g =4
0,2
g =6
g = 15
0,1
x
5 10 20
Valorile teoretice sau tabelare ale lui χ 2 se preiau din Tabela χ 2 , prezentată în Anexa 2
o notare inversată a valorilor critice din stânga graficului. În locul lui − χ α2 ,n −1 există χ 12−α ,n −1 şi
54
4.3 Repartiţia Student ( t )
Definiţia 2.20.
Distribuţia Student este acea distribuţie a cărei densităţi de probabilitate este dată de
funcţia:
g +1
Γ
ϕ (t , g ) =
1
⋅ 2
⋅
1
, (4.7)
g +1
gπ g
Γ t 2 2
2 1 +
g
unde Γ ( x ) = funcţia gamma.
Funcţia de repartiţie a distribuţiei Student este:
x
F ( x) = ∫ ϕ (t , g )dt (4.8)
−∞
Observaţie
Dacă g > 30 , atunci lim f (t , g ) ≈ N (t ;0,1) , deci repartiţia Student (figura 4.7) este
g →∞
55
ϕ
0,4
distribuţia t
distribuţia N (x;0,1)
0,2
x
-2 -1 1 2
distribuţiei Student, t (Anexa 3), cu menţiunea că, acele valori α şi g care nu există în tabel se
utilizează aproximarea normală standard.
Definiţia 2.21.
Vom spune despre o variabilă aleatoare că are distribuţie Fisher-Snedecor dacă funcţia
densitatea de probabilitate a acesteia este de forma:
56
g + g2
Γ 1 g1 g2
g1
−1
ϕ (F ) = 2 ⋅ g1 ⋅ g 2 ⋅
2 2
F 2
, F≥ 0 (4.9)
g1 + g 2
g1 g 2
Γ ⋅ ( g1 + g 2 ) 2
F
2 2
unde: Γ ( p ) - funcţia Gamma
g1 şi g 2 - numărul gradelor de libertate
Funcţia de repartiţie este:
∞
P( F > F0 ) = ∫ ϕ ( F )dF = δ
0
Lucrare de verificare 4A
Test de autoevaluare 4B
57
b. distribuţie normală;
c. repartiţia Gauss-Laplace;
d. repartiţia student.
58
c. sumă a unor variabile aleatoare independente repartizate normal standard;
d. dieferenţă a unor variabile aleatoare independente repartizate normal standard.
a. χ 12−α ,n , χ 2 α , χ α2 , χ α2 ,n ;
1− , n ,n
2 2
b. χ α2 ,n −1 , χ α2 , χ α2 , χ α2 , n−1 ;
, n −1 , n −1
2 2
c. χ 12−α ,n −1 , χ 2 α , χ α2 , χ α2 , n−1 ;
1− , n −1 ,n −1
2 2
d. χ12−α , χ 2 α , χ α2 , χ α2 ;
1−
2 2
59
b. compararea mediilor populaţiilor normale luând în considerare modulul
colectivităţilor;
c. însumarea mediilor populaţiilor normale;
d. compararea mediilor populaţiilor normale luând în considerare împrăştierea
datelor ambelor colectivităţi.
Rezumat
Importantă din punct de vedere aplicativ este şi funcţia φ (z) (funcţia integrală a lui Laplace)
1
astfel încât F ( z) = + φ ( z ), z ≥ 0 . Valorile Foncţiilor φ (z) şi F(z) sunt tabelate (Anexa 1).
2
Repartiţia χ 2 este întotdeauna pozitivă. Valoarile tabelate ale repartiţiei χ 2 , sunt de
forma χ α2 , n−1 , unde n − 1 = g este numărul gradelor de libertate şi sunt prezentate în Anexa 2.
Repartiţia Student (ale cărei valori tabelate se găsesc în Anexa 3)este utilizată atunci când
numărul numărul gradelor de libertate este relativ mic (uzual) sub 30. Dacă g tinde către infinit
repartiţia Student converge către repartiţia normală normată.
y1 g 2
Repartiţia F caracterizează o variabilă aleatoare X de forma: X = ⋅ , unde: y1 , y 2 sunt
y 2 g1
60
Bibliografie
61
Unitatea de învăţare 5
IPOTEZE STATISTICE-ASPECTE TEORETICE
Cuprins
Dupa studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• Inferenţa statistică;
• Ipoteza statistică;
• Elementele teoretice care intervin în testarea ipotezelor statistice sunt:
• ipotezele: nulă şi alternativă;
• limita de semnificaţie şi valori critice de respingere;
• regiune de respingere (critică);
• statistica testului;
• verificarea ipotezei.
62
Metodologia corelaţiei simple liniare a cercetării ştiinţifice este precedată de o treaptă
esenţială care vizează stabilirea şi confirmarea sau infirmarea unor ipoteze ce cuprind anumite
aspecte importante necesar a fi studiate în legătură cu procesul sau fenomenul analizat.
Această treaptă include metode denumite inferenţiale deoarece, prin intermediul acestora,
se estimează caracteristicile unor colectivităţi statistice.
Definiţia 5.1. Inferenţa este o operaţiea logică de trecere de la un enunţ la altul şi în care
ultimul enunţ este dedus din primul.
Din punctul de vedere al acestei lucrări enunţurile sunt reprezentate prin ipoteze
statistice, iar inferenţa este reprezentată de procesul de extindere la nivelul colectivităţii generale
Γ a unor rezultate obţinute dintr-o subcolectivitate reprezentaivă γ ⊂ Γ (figura 5.1).
63
Extragere subpopulaţie
Subcolecti
Extindere Rezultate Colectivitate
vitate Estimare statistică
γ Γ
(eşantion
INFERENŢĂ
64
Verificare
IPOTEZE
Γ TESTĂRII γ
Stabilire
IPOTEZE
11
Vezi Capitolul II “2.2. Caracteristicile distribuţiei variabilei aleatoare”.
65
Cele două ipoteze (nulă şi alternativă) formează o pereche nelipsită în cadrul
metodologiei testării.
Definiţia 5.3. Se numeşte ipoteză nulă şi se notează cu H 0 acea presupunere prin care se
formulează supoziţia conform căreia nu există diferenţă semnificativă între parametrii
comparaţi (primează caracterul întâmplător).
Alternativa la H 0 , apare ca o altă alternativă care poate fi adevărată în condiţiile
respingerii ipotezei nule.
Definiţia 5.4. Se numeşte ipoteză alternativă şi se notează cu H 1 presupunerea conform căreia
există o diferenţă semnificativă (cazuri speciale: mai mare sau mai mică) între parametri
comparaţi.
Ambele ipoteze trebuiesc stabilite iniţial, ca prime etape în cadrul metodologiei testării
fiind considerate mutual exhaustive ca urmare a imposibilităţii împlinirii simultane a acestora,
dar cu realizarea obligatorie a uneia din ele (respingerea ipotezei nule H 0 conduce la stabilirea
ipotezei alternative H 1 ca fiind adevărate sau dacă ipoteza nulă H 0 este adevărată, atunci ipoteza
alternativă H 1 se respinge).
66
• probabiliatea evenimentului realizat ( E R ) sub H1 este mai mare decât sub H0, dar nu se
poate determina decât funcţia de celealtă.
Probabilitatea critică este interpretată a fi mică sau nu prea „mică” în raport cu un anumit
nivel denumit prag sau limită de semnificaţie notat cu α .
Regula de decizie se stabileşte în funcţie de probabilitatea critică ( PC ) astfel:
• dacă PC este mai „mică” de α ( PC ≤ α ), atunci H0 se respinge (evenimentul realizat se
consideră neaşteptat în contextul ipotezei H0, în timp ce ipoteza H1 îi asigură o
probabilitate mai mare de aspiraţie).
• Dacă PC este mai „mare” de α , atunci H0 nu se respinge (evenimentul realizat se
consideră aşteptat să se întâmple).
Limita de semnificaţie α poate lua valori cuprinse între 0,5 şi 0,0001 (cele mai utilizate
fiind 0,05 şi 0,01), acestea fiind stabilite teoretic.
Dacă α = 0,05 sau altfel spus α = 5% înseamnă că riscul de respingere al ipotezei nule
H0 este de 5% (când respingem ipoteza nulă H0 este posibil să se greşească în proporţie de 5%).
Limita de semnificaţie ( α ) are un rol esenţial în cadrul testării ipotezelor statistice
reprezentând acel prag sau linie care separă rezultatele ce resping ipoteza nulă de celelalte care
nu resping.
În acest context apare acea regiune de respingere (regiunea critică) notată Rr în care sunt
incluse rezultatele ce resping ipoteza nulă.
Definiţia 5.5. Punctele care determină regiunea de respingere se numesc valori critice ale
testului şi sunt reprezentate de Quantilele distribuţiei utilizate în aplicarea respectivului test.
Valorile critice de respingere vC .R sunt valori tabelare sau teoretice ale testelor ( Z α , Z α ,
2
67
Regiunea include probabilitatea de realizare a evenimentului alternativ, deci este
adevărată ipoteza alternativă H 1 .
În procesul de decizie al unui test statistic se pot produce erori care apar sub două forme
(tabelul 4.1).
• eroare de tip I. (de speţa întâi): se respinge ipoteza nulă H 0 , deşi ea este adevărată.
Riscul producerii unei erori de tip I este α .
• eroare de tip II (de apeţa a doua): nu se respinge ipoteza nulă H 0 , deşi ea este falsă.
f x ()
H0 H1
α
β
µ0 C µ1 x
68
12
Figura 5.3 Legătura dintre probabilităţile α şi β
Statistica testului
Testarea ipotezei
Verificarea ipotezei constă în compararea rezultatului obţinut prin aplicarea statisticii
testului la valorile calculate cu valoarea critică şi stabilirea deciziei finale ca find una din
situaţiile :
dacă valoarea calculată intră în regiunea de respingere, atunci ipoteza nulă H 0 se
12
Voineagu V., Ţiţan E., Şerban R., Chiţă S., Todose D., Boboc C., Pele D., Teorie şi practică econometrică,
Editura Meteor Press, Bucureşti, 2006, pag.89.
69
Stabilirea ipotezelor
- Ipoteza H 0
- Ipoteza H1
Alegerea
TIPULUI TESTULUI
Alegerea
Valoarea critică Regiunea
LIMITEI DE
vC . R SEMNIFICAŢIE de respingere
STATISTICA TESTULUI
NU DA
PER ∈ R R
Se acceptă H 0 Se respinge H 0
În funcţie de sensul abaterii inclusă în ipoteza alternativă H 1 apar trei tipuri de teste:
• Test unilateral stânga
• Test bilateral
70
• Test unilateral dreapta
H 1 : x1 < x 2
σ 12
H 0 : σ 12 = σ 22 sau H 0 : =1
σ 22
σ 12
H 1 : σ 12 < σ 22 sau H 1 : <1
σ 22
- Regiunea de respingere ( RR ) şi valoarea critică de respingere ( vC .R ) sunt prezentate în
figura 5.1
- Limita de semnificaţie este α
RR
vC . R
Testul bilateral
Pentru testul bilateral avem:
- ipotezele testului :
de exemplu, dacă se compară mediile a două eşantioane ( x1 şi x 2 ), avem:
71
H 0 : x1 = x 2
H 1 : x1 ≠ x2
σ 12
H 0 : σ 12 = σ 22 sau H 0 : =1
σ 22
σ 12
H 1 : σ ≠ σ sau H 1 : 2 ≠ 1
2 2
σ2
1 2
RR
RR
vC . R vC .R
negativă pozitivă
H 0 : x1 = x 2
H 1 : x1 > x 2
72
în alt exemplu, dacă se compară două dispersii ( σ 12 şi σ 22 ), vom avea:
σ 12
H 0 : σ 12 = σ 22 sau H 0 : =1
σ 22
σ 12
H 1 : σ > σ sau H 1 : 2 > 1
2 2
σ2
1 2
RR
vC . R
pozitivă
Figura 5.3. Baza teoretică grafică a testului unilateral dreapta
Procedeul testării ipotezelor statistice are în vedere nu numai tipul ipotezei alternative,
dar şi următoarele două elemente:
♦ volumul eşantionului ( n ), cu cele două cazuri: eşantion de volum mic ( n < 30 ) şi
eşantion de volum mare ( n ≥ 30 );
♦ dispersia colectivităţii generale ( σ 2 ) din care se extrag eşantioanele, cu cele două
situaţii: σ 2 cunoscut şi σ 2 necunoscut.
Lucrare de verificare 5A
73
3. Ce înţelegeţi prin procedeul de testare a ipotezelor statistice?
4. Ce reprezintă ipoteza nulă într-un proces de testare de ipoteze statistice?
5. Care este diferenţa dintre H0 şi H1?
6. În testarea ipotezelor, ce determină mărimea regiunii critice?
7. Ce reprezintă testul sau criteriul de semnificaţie?
8. Ce reprezintă regiunea critică?
9. Când se comite o eroare de gradul întâi?
10. Când se comite o eroare de gradul al doilea?
11. Care sunt paşii în construirea unui test statistic?
Test de autoevaluare 5B
74
4. În funcţie de sensul abaterii inclusă în ipoteza alternativă H 1 apar:
a. două tipuri de teste;
b. trei tipuri de teste;
c. patru tipuri de teste;
d. un singur test.
b. H 0 : x1 = x2 şi H 1 : x1 > x2 ;
c. H 0 : x1 > x 2 şi H 1 : x1 < x 2 ;
d. H 0 : x1 ≠ x 2 şi H 1 : x1 < x 2 .
a. H 0 : σ 12 = σ 22 şi H 1 : σ 12 ≠ σ 22 ;
b. H 0 : σ 12 = σ 22 şi H 1 : σ 12 > σ 22 ;
c. H 0 : σ 12 = σ 22 şi H 1 : σ 12 < σ 22 ;
d. H 0 : σ 12 ≠ σ 22 şi H 1 : σ 12 > σ 22 .
75
1
c. ;
α
α
d. .
2
RR
vC . R
RR
RR
vC . R vC .R
negativă pozitivă
76
Rezumat
Ipoteza statistică este o presupunere cu caracter provizoriu, formulată pe baza unor date
exterimentale existente la un moment dat. Testarea ipotezelor statistice presupune parcurgerea
următoarelor etape: formularea ipotezelor : H 0 (nulă) şi H 1 (alternativă), stabilirea pragului de
Bibliografie
Bădiţă M., Baron T., Statistică pentru afaceri, Editura Eficient, Bucureşti, 1998
Korka M.
Biji M., Biji E. Statistică teoretică, Editura Didactică şi Pedagogică,
Bucureşti, 1979
77
Unitatea de învăţare 6
TESTAREA IPOTEZELOR PRIVIND MEDIILE POPULAŢIILOR CU
EŞANTIOANE DE VOLUM MARE
Cuprins
Obiectivele Unităţii de Învăţare 6 .................................................................................................. 78
6.1 Compararea mediei eşantionului cu media colectivităţii generale ........................................ 78
6.2 Compararea mediilor a două eşantioane .................................................................................. 83
6.3 Compararea proporţiei eşantionului cu a colectivităţii generale ............................................ 86
Lucrare de verificare 6A ................................................................................................................. 90
Test de autoevaluare 6B ................................................................................................................. 91
Rezumat ........................................................................................................................................... 96
Bibliografie ...................................................................................................................................... 97
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• testarea ipotezei statistice privind compararea mediei eşantionului cu media
colectivităţii generale;
• testarea ipotezei statistice privind compararea mediilor a două eşantioane de
volum mare;
• testarea ipotezei statistice privind compararea proporţiei eşantionului cu a
colectivităţii generale;
78
În condiţiile utilizării unor eşantioane de volum mare ( n ≥ 30 ) s-a demonstrat necesitatea
aplicării statisticii Z
Aplicarea testului Z în cazul comparării mediei eşantionului γ de volum n cu media
colectivităţii generale Γ presupune studierea unei populaţii statistice, de variabilitate constantă,
pentru a stabili dacă valoarea mediei a acestuia este aceeaşi cu a eşantionului utilizat în cercetare
Repartiţia normală redusă care stă la baza testului Z are în vedere funcţia de repartiţie
N (µ , σ 2 ) , cu parametri µ = 0 şi σ = 1
2
colectivităţii generale ( σ ):
2
σ 2 cunoscut :
x − µ ip x − µ ip
Zc = = (6.1)
σ2 σ
n n
σ 2 necunoscut:
x − µ ip x − µ ip
Zc = = (6.2)
s2 s
n n
unde:
n - volumul eşantionului
µ ip - media ipotetică
x - media eşantionului
σ 2 - dispersia colectivităţii generale
σ - abaterea medie pătratică a colectivităţii generale
s 2 - estimaţia dispersiei colectivităţii generale
s - estimaţia abaterii medii pătratice a colectivităţii generale
În raport cu direcţia abaterii inclusă în ipoteza alternativă, testul Z aplicat poate
a. − unilateral stânga
fi: b. − bilateral
c. − unilateral dreapta
79
Testul Z unilateral stânga
Acest tip de test este utilizat în situaţia practică ce direcţionesză abaterea spre stânga, mai
precis ipoteza alternativă precizează că media populaţiei eşantionului este mai mică decât a
populaţiei.
Pe grafic (figura 6.1), densitatea de probabilitate este limitată la stânga de aria regiunii de
respingere a ipotezei nule. Această regiune este demarcată de valoarea critică − Z α . Pentru o
limită de semnificaţie α , valoarea lui Z denumit şi „Z tabelar sau teoretic” se preia din anexa 1,
tabelul cu valorile funcţiei Gauss Laplace.
RR
H 0 se respinge − Zα
adevărată ipoteza H 1 .
80
5. - se calculează valoarea statistică a testului cu una din relaţiile 4.2 sau 4.3, iar valoarea
obţinută se plasează pe grafic.
6. - se compară valoarea lui Z c cu - Z α şi se stabileşte dacă rezultatul statistic al testului
Testul Z bilateral
Aplicarea testului are în vedere ipoteza alternativă prin care se specifică faptul că media
eşantionului diferă semnificativ de media colectivităţii generale.
Graficul, figura 6.2, indică o limitare a densităţii de probabilitate în ambele părţi, atât la
stânga cât şi la dreapta de aria de respingere a ipotezei nule. Cele două regiuni de respingere sunt
prezentate pe grafic începând cu valorile critice - Z α , respectiv Z α .
2 2
RR
RR
H 0 se respinge H 0 se respinge
− Zα Zα
2 2
2. Ipoteza alternativă: H 1 : µ ≠ µ ip
81
► Z tabelar sau teoretic: Z α şi - Z α (anexă 1 cu valorile funcţiei Gauss Laplace), iar
2 2
adevărată ipoteza H 1 .
5. Se calculează valoarea statistică a testului cu una din relaţiile 4.2 sau 4.3, iar valoarea
obţinută se plasează pe grafic.
6. Se compară Z c cu Z α şi/sau cu - Z α , astfel urmărindu-se dacă se verifică una din relaţiile Rr
2 2
RR
Zα H 0 se respinge
Etapele care trebuiesc parcurse pentru aplicarea tetsului „z” unilateral dreapta sunt cele
prezentate anterior în cadrul celorlalte două tipuri de teste „z”.
1. Ipoteza nulă: H 0 : µ = µ ip
82
2. Ipoteza alternativă: H 1 : µ ≠ µ ip
ipoteza H 1 .
5. Se calculează valoarea statistică a testului cu una din relaţiile 4.2 sau 4.3, iar valoarea
obţinută se plasează pe grafic.
6. Se compară Z c cu Z α , astfel urmărindu-se dacă se verifică relaţia Rr şi se ia decizia adecvată
situaţiei.
În anumite situaţii practica necesită realizarea unei analize statistice prin compararea a
două medii ce reprezintă două eşantioane care trebuiesc studiate.
Principalele caracteristici ce permit aplicarea testului Z pentru compararea mediilor ce
revin celor două eşantioane sunt:
1. - eşantioanele sunt de volum mare ( n1 ≥ 30 şi n2 ≥ 30 )
( ) (
2. – variabilele au tendinţe de normalitate: X 1 ≈ N µ1 , σ 12 şi X 2 ≈ N µ 2 , σ 22 )
Statistica testului calculat este:
σ 2 cunoscut :
x1 − x 2
zc = (6.3)
σ 12 σ 22
+
n1 n2
σ 2 necunoscut:
x1 − x 2
zc = (6.4)
2 2
s1 s
+ 2
n1 n2
83
unde:
n1 – volumul primului eşantion
n 2 – volumul celui de-al doilea eşantion
x1 - media eşantionului 1
x2 − media eşantionului 2
Cazuri particulare:
1. - dacă dispersiile celor două populaţii eşantionate sunt egale, σ 1 2 = σ 2 2 = σ 2 , atunci
statistica testului calculat va fi:
σ 2 cunoscut :
x1 − x 2
zc = (6.5)
1 1
σ +
n1 n2
σ 2 necunoscut:
x1 − x 2
zc = (6.6)
1 1
s +
n1 n 2
2. - dacă cele două eşantioane au acelaşi volum n1 = n2 = n , atunci statistica testului calculat
va fi:
σ 2 cunoscut :
x1 − x 2
zc = (6.7)
σ 12 + σ 2 2
n
σ 2 necunoscut:
84
x1 − x 2
zc = (6.8)
s1 + s 2
2 2
n
Direcţia abaterii ipotezei alternative implică şi în cazul comparării mediilor celor două
eşantioane apariţia celor trei tipuri de teste:
• unilateral stânga
• bilateral
• unilateral dreapta
Etapele ce trebuiesc parcurse, în toate cele trei tipuri de teste, sunt prezentate după cum
urmează:
1. Se prezintă ipoteza nulă H 0 : µ1 = µ 2
adevărată ipoteza H 1 .
4.2. - testul bilateral:
► „Z” tabelar sau teoretic Z α (Anexa 1) şi valorile cu semnele „+” şi ”-„ se plasează
2
pe grafic.
85
► Regiunea de respingere Rr : dacă Z c < - Z α sau Z c > Z α atunci H o se respinge şi e
2 2
adevărată ipoteza H 1 .
4.3. - test unilateral dreapta:
► „Z” tabelar sau teoretic Z α (anexa 1) şi valoarea cu semnul „+„ se plasează pe
grafic.
► Regiunea de respingere Rr : dacă Z c > Z α , atunci H o se respinge şi este adevărată
ipoteza H 1 .
5. Se calculează valoarea statistică a testului calculat cu una din relaţiile 4.4 – 4.9, iar valoarea
obţinută se plasează pe grafic.
6. Se compară valoarea lui Z c cu una din valorile lui: - Z α , - Z α , Z α , sau Z α , şi se stabileşte
2 2
În practică apar cazuri care necesită testarea proporţiei unui eşantion cu testarea
proporţiei colectivităţii generale.
Aspectele pe care le vizează aplicarea testului Z în cazul comparării proporţiei
eşantionului cu cea a colectivităţii generale sunt:
∗ distribuţia repartizării proporţiilor trebuie să fie o distribuţie dihotomică ale cărei
caracteristici sunt modelate în general prin variabile repartizate binominal;
∗ distribuţia binominală este normală dacă:
n ⋅ p ≥ 5, n(1 − p ) ≥ 5 ,
86
♦ dacă „n” este mai mic (n<30), se utilizează probabilitatea elementului compus sub H o
printr-o sumă a probabilităţilor de apariţie a evenimentelor caracterizate de un număr de
„succese” mai mare sau egal cu „r”.
n
PH 0 = ∑ C n P0 (1 − p 0 ) n −i
i i
i=r
f = proporţia eşantionului
Ipoteza alternativă, prin direcţia abaterii pe care o prezintă, implică apariţia unuia dintre
cele trei tipuri de teste Z deja prezentate:
♦ unilateral stânga
♦ bilateral
♦ unilateral dreapta.
Aplicarea testului presupune parcurgerea următoarelor etape:
1. Se prezintă ipoteza nulă: H 0 : p = p o
87
4. În funcţie de nivelul de încredere ( 1 − α ) se determină limita de semnificaţie ( α ) cu ajutorul
căruia se stabileşte:
4.1. - testul unilateral stânga:
► „Z” tabelar sau teoretic Z α (anexa 1) şi valoarea cu semnul „-„ se plasează pe grafic
.
► regiunea de respingere Rr : dacă Z c < Z α , atunci H o se respinge şi este adevărată
ipoteza H 1 .
4.2. - testul bilateral:
► „Z” tabelar sau teoretic Z α (anexa 1) şi valorile cu semnele „+” şi ”-„ se plasează
2
pe grafic.
► regiunea de respingere Rr : dacă Z c > - Z α sau Z c > Z α , atunci H o se respinge şi
2 2
ipoteza H 1 .
5. Se calculează valoarea statistică a testului calculat cu relaţia (3.21), iar valoarea obţinută se
plasează pe grafic.
88
Exemplul 6.1.
Managerul unui lanţ hotelier s-a gândit să analizeze situaţia cheltuielilor ultimei luni, cu
scopul de a reduce pe viitor nivelul acestora. În acest context, s-a realizat un studiu privind
cheltuielile cu angajaţii trimişi la cursurile de training şi s-a stabilit că, pe fiecare angajat
cheltuiala este distribuită normal cu o medie de 980 UM şi o dispersie de 2500.
Se consideră că, această cheltuială medie pe angajat este mai mare decât cea stabilită la
980 UM. În vederea verificării afirmaţiei, se selectează aleatoriu un eşantion de 40 salariaţi
pentru care se înregistrează cheltuielile cu training-ul şi se stabileşte valoarea medie a acestor
cheltuieli la 1110 UM.
Pentru o probabilitate de 99,9%, poate managerul să concluzioneze că această cheltuială
medie pe angajat este mai mare de 980 UM?
Rezolvare:
Notaţii: µ ip = 980 UM
σ 2 = 2500
n = 40 salariaţi
x = 1110 UM
( 1 − α ) = 99,9%
1 Ipoteza nulă H 0 : µ = µ ip
(nu există diferenţă semnificativă între cheltuiala medie pe angajat şi cea stabilită
ipotetic la nivelul lanţului hotelier)
2 Ipoteza alternativă H 1 : µ > µ ip
( cheltuiala medie pe angajat este mai mare decât cea ipotetică stabilită la nivelul
lanţului hotelier)
3 Dacă n= 40 angajaţi >30, atunci se aplică testul Z (testul Z unilateral dreapta)
4 Se determină Z tabelar (teoretic) similar celor prezentate în exemplul 4.1 şi pentru α = 0.001
se obţine Z α = Z 0.001 = 3,085
5 Valoarea statistică a testului (valoarea calculată) este:
89
x − µ ip x − µ ip 1110 − 980 130
Zc = = = = = 16,43
σ σ2 2500 7,91
n n 40
Rr
Z α = 3,085 Z c = 16,43
H 0 se respinge
atunci H o se respinge şi este adevărată ipoteza H 1 , deci concluzia este că, managerul a
anticipat bine: cheltuiala medie pe angajat este mai mare de 980 UM.
Lucrare de verificare 6A
90
5. Într-un test în care se testează ipoteza nulă H0: µ =100 şi ipoteza alternative H1: µ>100 se
obţine valoarea testului z = 2,26, aflaţi pragul de semnificaţie corespunzător valorii
calculate a testului.
Test de autoevaluare 6B
1. Managerul unei structuri de primire turistică doreşte să verifice dacă durata medie a
sejurului turiştilor cazaţi este mai mică de 6 zile. Acesta presupune că durata medie a
unui sejur este de 6 zile, iar abaterea medie practică este de 2 zile. Testarea ipotezei este
completată prin selectarea aleatoare a unui eşantion de 80 turişti pentru care se stabileşte
că durata medie a sejurului este de 5 zile; nivelul de încredere este de 95%. Care sunt cele
două ipoteze?
a. H0: nu există diferenţă semnificativă între durata medie a sejurului şi cea
presupusă de manager
H1: durata medie a sejurului este mai mică decât cea presupusă de manager.
b. H0: nu există diferenţă semnificativă între durata medie a sejurului şi cea
presupusă de manager
H1: durata medie a sejurului este mai mare decât cea presupusă de manager.
c. H0: nu există diferenţă semnificativă între durata medie a sejurului şi cea
presupusă de manager.
H1: există diferenţă semnificativă între durata medie a sejurului şi cea presupusă
de manager.
d. H0: există diferenţă semnificativă între durata medie a sejurului şi cea presupusă
de manager
H1: durata medie a sejurului este mai mică decât cea presupusă de manager.
2. Managerul unei structuri de primire turistică doreşte să verifice dacă durata medie a
sejurului turiştilor cazaţi este mai mică de 6 zile. Acesta presupune că durata medie a
unui sejur este de 6 zile, iar abaterea medie practică este de 2 zile. Testarea ipotezei este
completată prin selectarea aleatoare a unui eşantion de 80 turişti pentru care se stabileşte
91
că durata medie a sejurului este de 5 zile; nivelul de încredere este de 95%. Valoarea
statistică a testului (valoarea calculată) este:
a. -4,55;
b. -3,55;
c. 2.35;
d. 7,25.
3. Un comerciant este de părere că, un român consumă în medie într-o lună mai puţin de 8
kg de pâine şi ar vrea să verifice această opinie. În acest sens, s-a realizat o anchetă pe un
eşantion aleatoriu de 49 familii din toate judeţele României şi a relevat un consum mediu
de 8,2 kg, cu o abatere medie pătratică de 1,7 kg. Dacă acceptăm un nivel de încredere de
95%, valoarea statistică a testului (valoarea calculată) este:
a. 0,95
b. 0,83
c. 1
d. 0,24.
4. Salariul mediu pe angajat stabilit pentru 35 agenţii de turism dintr-un judeţ este de 1600
lei. La nivelul regiunii care include judeţul respectiv s-a determinat pentru toate agenţiile,
un salariu mediu de 1585 lei pe angajat şi o abatere de 76,55 lei. Dacă cei interesaţi
doresc să arate, pentru o probabilitate de 99%, dacă salariul mediu pe angajat stabilit la
nivelul agenţiilor de turism ale judeţului diferă semnificativ de cel determinat pentru toate
agenţiile de turism din regiune, care sunt cele două ipoteze statistice?
a. H0: nu există diferenţă semnificativă salariul mediu pe angajat şi cel ipotetic.
H1:salariul mediu pe angajat este mai mic decât cel ipotetic.
b. H0: nu există diferenţă semnificativă între salariul mediu pe angajat şi cel ipotetic.
H1: există diferenţă semnificativă între salariul mediu pe angajat şi cel ipotetic.
c. H0: nu există diferenţă semnificativă salariul mediu pe angajat şi cel ipotetic.
H1:salariul mediu pe angajat este mai mare decât cel ipotetic.
d. H0: există diferenţă semnificativă salariul mediu pe angajat şi cel ipotetic.
H1:salariul mediu pe angajat este mai mic decât cel ipotetic.
92
5. Salariul mediu pe angajat stabilit pentru 35 agenţii de turism dintr-un judeţ este de 1600
lei. La nivelul regiunii care include judeţul respectiv s-a determinat pentru toate agenţiile,
un salariu mediu de 1585 lei pe angajat şi o abatere de 76,55 lei. Se doreşte testarea
ipotezei conform căreia salariul mediu pe angajat stabilit la nivelul agenţiilor de turism
ale judeţului diferă semnificativ de cel determinat pentru toate agenţiile de turism din
regiune. În urma testării acestei ipoteze pentru o probabilitate de 99% , putem afirma că:
a. Zcalculat = -1,16, se admite ipoteza nulă şi putem trage concluzia că nu există
diferenţă semnificativă între salariile medii stabilite la nivelul celor 35 agenţii de
turism şi la nivelul regiunii;
b. Zcalculat = 1,16, se respinge ipoteza nulă şi putem trage concluzia că există diferenţă
semnificativă între salariile medii stabilite la nivelul celor 35 agenţii de turism şi
la nivelul regiunii;
c. Zcalculat = 1,06, se admite ipoteza nulă şi putem trage concluzia că nu există
diferenţă semnificativă între salariile medii stabilite la nivelul celor 35 agenţii de
turism şi la nivelul regiunii;
d. Zcalculat = 1,16, se admite ipoteza nulă şi putem trage concluzia că nu există
diferenţă semnificativă între salariile medii stabilite la nivelul celor 35 agenţii de
turism şi la nivelul regiunii.
6. Managerul unui lanţ hotelier s-a gândit să analizeze situaţia cheltuielilor ultimei luni, cu
scopul de a reduce pe viitor nivelul acestora. În acest context, s-a realizat un studiu
privind cheltuielile cu angajaţii trimişi la cursurile de training şi s-a stabilit că, pe fiecare
angajat cheltuiala este distribuită normal cu o medie de 1090 UM.
Acesta consideră că, respectiva cheltuială medie pe angajat este mai mare decât cea
stabilită la 1090 UM. În vederea verificării afirmaţiei, se selectează aleatoriu un eşantion
de 40 salariaţi pentru care se înregistrează cheltuielile cu training-ul şi se stabileşte
valoarea medie de 1110 UM, iar abaterea standard de 50 UM. Pentru o probabilitate de
99,9%, valoarea statistică a testului (valoarea calculată) este:
a. 2,83
b. 2,53
c. 1,53
93
d. -2,55
7. Managerul unui lanţ hotelier s-a gândit să analizeze situaţia cheltuielilor ultimei luni, cu
scopul de a reduce pe viitor nivelul acestora. În acest context, s-a realizat un studiu
privind cheltuielile cu angajaţii trimişi la cursurile de training şi s-a stabilit că, pe fiecare
angajat cheltuiala este distribuită normal cu o medie de 1090 UM.
Acesta consideră că, respectiva cheltuială medie pe angajat este mai mare decât cea
stabilită la 1090 UM. În vederea verificării afirmaţiei, se selectează aleatoriu un eşantion
de 40 salariaţi pentru care se înregistrează cheltuielile cu training-ul şi se stabileşte
valoarea medie de 1110 UM, iar abaterea standard de 50 UM. Pentru o probabilitate de
99,9%, managerul concluzionează că:
a. această cheltuială medie pe angajat este mai mare decât cea presupusă de manager
de 1090 UM;
b. această cheltuiala medie pe angajat nu diferă semnificativ de cea presupusă de
manager de 1090 UM;
c. această cheltuială medie pe angajat este mai mică decât cea presupusă de manager
de 1090 UM;
d. această cheltuiala medie pe angajat diferă semnificativ de cea presupusă de
manager de 1090 UM.
În urma testării acestei ipoteze pentru o probabilitate de 99% , putem afirma că:
94
a. deoarece, Z c > − Z α (−1,15 > −1,645) , rezultă că ipoteza H0 se admite, ceea ce
înseamnă că profitul fermierului producător de lapte este mai mic după
cumpărarea aparatului;
b. deoarece, Z c < − Z α (−11,15 < −1,645) , rezultă că ipoteza H0 se admite, ceea ce
înseamnă că profitul fermierului producător de lapte este mai mică după
cumpărarea aparatului;
c. deoarece, Z c < − Z α (−11,15 < −1,645) , rezultă că ipoteza H0 se respinge şi este
adevărată ipoteza H1, ceea ce înseamnă că profitul fermierului producător de lapte
este mai mare după cumpărarea aparatului;
d. deoarece, Z c < − Z α (−12,5 < −1,645) , rezultă că ipoteza H0 se respinge şi este
adevărată ipoteza H1, ceea ce înseamnă că profitul fermierului producător de lapte
diferă semnificativ după cumpărarea aparatului;
95
d. Deoarece Z c (0,5) > Z α (0,45) , atunci se admite ipoteza H0, deci proporţia
reprezentanţilor din eşantion diferă semnificativ de cea a tuturor celor din ANAT.
Concluzia este că modificarea statului ANAT poate fi pusă în discuţia
reprezentanţilor în vederea aplicării ei.
10. Un manager al unui magazin afirmă că, 16% dintre clienţii magazinului sunt bărbaţi.
Unul dintre vânzători nu este de acord cu această afirmaţie. Pentru studiu se formează un
eşantion de 100 clienţi şi se stabileşte că 25% dintre aceştia sunt bărbaţi. Ne putem baza
pe afirmaţia managerului cu un nivel de încredere de 95%?
a. deoarece Z c (2,25) > Z α (1,96) , atunci ipoteza H0 se respinge, deci se acceptă
2
Rezumat
Pentru testarea indicatorului medie, pentru eşantioane mai mari de 30 de elemente se utilizează
testul Z. Sunt prezentate modalităţile de testare a mediei populaţiei generale, a mediilor a două
populaţii şi în particular a proporţiei existente într-o colectivitate.
96
Pentru testarea ipotezei privind media populaţiei generale statistica testului pentru σ 2
x − µ ip x − µ ip x − µ ip x − µ ip
cunoscut este Z c = = sau Z c = = în caz contrar. Regiunile critice
σ2 σ s2 s
n n n n
sunt determinate în funcţie de pragul de semnificaţie ales şi de enunţurile concrete ale ipotezelor
H 0 (nulă) şi H 1 (alternativă).
Similar, pentru testarea ipotezei privind mediile a două populaţii, statistica testului este
x1 − x 2 x1 − x 2 f − p ip
zc = sau z c = , iar pentru testatrea proporţiilor Z c = .
σ 12 σ 22 s1
2
s
2
f (1 − f )
+ + 2
n1 n2 n1 n2 n
Bibliografie
Cristache S.E., Şerban Lucrări aplicative de statistică şi econometrie pentru
D. administrarea afacerilor, Editura ASE, Bucureşti, 2007
97
Unitatea de învăţare 7
TESTAREA IPOTEZELOR PRIVIND MEDIILE POPULAŢIILOR CU
EŞANTIOANE DE VOLUM MIC
Bibliografie
Obiectivele Unităţii de Învăţare 7 ............................................................................................. 98
7.1 Compararea mediei unui eşantion de volum redus cu media colectivităţii generale .......... 98
7.2 Compararea mediilor a două eşantioane de volum redus .................................................. 102
Lucrare de verificare 7A ......................................................................................................... 108
Test de autoevaluare 7B .......................................................................................................... 109
Rezumat................................................................................................................................... 114
Bibliografie.................................................................................Error! Bookmark not defined.
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• testarea ipotezei statistice privind compararea unui eşantion de volum redus cu
media colectivităţii generale;
• testarea ipotezei statistice privind compararea mediilor a două eşantioane de
volum redus;
Eşantioanele de volum redus reprezintă acele eşantioane care sunt formate din mai puţin
de 30 elemente componente ( n < 30 ) extrase dintr-o colectivitate generală ce urmează a fi
cercetată.
Procesul de testare aplicat unor astfel de eşantioane se bazează pe aplicarea testului
STUDENT ( t ).
98
Caracteristicile ce stau la baza aplicării testului Student ( t ) care includ imposibilitatea
stabiliri dispersiei colectivităţii generale, deci implicit a abaterii medii pătratice, precum şi
formarea unor eşantioane de volum redus, cu mai puţin de 30 de componente, reprezintă
principalele elemente necesare în derularea analizei de comparare a mediei unui eşantion cu cea
a colectivităţii generale.
Testul t poate fi aplicat pornind de la considerentul că distribuţia normală redusă
caracterizează colectivitatea generală.
Deoarece în general, pentru astfel de eşantioane nu prea se cunoaşte dispersia
colectivităţii generale, deci nici abaterea medie pătratică, se va utiliza testul (t ) numai în condiţia
estimării abaterii standard a colectivităţii generale cu cea a eşantionului.
Fiind este vorba de un eşantion redus (n < 30 ) , abaterea medie pătratică (standard)
estimată se determină cu relaţia:
n
∑ (x
i =1
i − x)2
s = s2 = , (7.1)
n −1
Statistica testului calculat va fi:
x − µ ip x − µ ip
tc = = (7.2)
s2 s
n n
unde:
x − media eşantionului
99
Observaţie
De remarcat că, deoarece la repartiţia Student vorbim de gradele de libertate, atunci
valorile critice care limitează densitatea de probabilitate, deci valorile repartiţiei Student (Anexa
3) au formele
► ± tα , n −1 , pentru testul unilateral drepta, stânga
Rr
H 0 se respinge − tα ;n −1
100
Figura 7.1 Aplicarea testului t unilateral stânga
(compararea mediei eşantionului cu a colectivităţii generale)
pe grafic.
► regiunea de respingere Rr : dacă t c < - t α sau t c > t α atunci H o se respinge
, n −1 , n −1
2 2
Rr
Rr
H 0 se respinge H 0 se respinge
− tα tα
;n −1 ; n −1
2 2
grafic.
► regiunea de respingere Rr : dacă t c > tα , n −1 , atunci H o se respinge
Rr
tα ;n −1 H 0 se respinge
101
(compararea mediei eşantionului cu a colectivităţii generale)
5. Se calculează valoarea statistică a testului determinată cu relaţia (3.28), iar valoarea obţinută
se plasează pe grafic.
6. Se compară valoarea t c cu una din valorile - tα ,n −1 , - t α , tα , tα , n−1 şi se stabileşte dacă
, n −1 , n −1
2 2
De multe ori deciziile din activitatea economică, din afaceri, trebuiesc stabilite prin
compararea unor informaţii destul de reduse.
În aceste condiţii, se poate vorbi despre compararea a două eşantioane de volum mic (n<
30) caracterizate astfel:
un eşantion de volum n1 < 30 cu media x1 şi dispersia s12 este extras dintr-o colectivitate
alt eşantion de volum n2 < 30 , cu media x 2 şi dispersia s 22 este extras dintr-o colectivitate
102
Repartiţia Student tabelară sau teoretică va avea n1 + n2 − 2 grade de libertate, iar
statistica testului calculat va fi:
x1 − x2 x1 − x 2
tc = = (7.3)
1 1 1
+
1
s e2 ⋅ + se
n1 n 2 n1 n 2
(n1 − 1) s12 + (n 2 − 1) s 22
se = (7.4)
n1 + n2 − 2
Atât ipotezele testului Student, cât şi regiunile de respingere sunt asemănătoare cu cele
prezentate anterior, exceptând valorile critice în care apare testul t tabelar care apar de forma:
tα ; n1 +n2 − 2 , pentru testul unilateral, respectiv t α , pentru testul bilateral.
, n1 + n2 − 2
2
► valoarea lui t tabelar sau teoretic tα ; n1 +n2 − 2 (Anexa 3), cu semnul ”-„ se plasează pe
grafic.
► regiunea de respingere Rr : dacă t c < −tα ; n1 + n2 − 2 , atunci H o se respinge şi este
adevărată ipoteza H 1 .
103
Rr
H 0 se respinge − tα ;n1 + n2 − 2
Rc
Rc
H 0 se respinge H 0 se respinge
− tα tα
; n1 + n2 − 2 ; n1 + n2 − 2
2 2
104
Rr
tα ; n1 +n2 − 2 H 0 se respinge
5. Se calculează statistica testului cu relaţia (3.29), iar valoarea obţinută se plasează pe grafic.
6. Se compară valoarea lui t c cu una din valorile - tα ; n1 +n2 − 2 , - t α , tα , tα ; n1 +n2 − 2 şi se
; n1 + n2 − 2 ; n1 + n2 − 2
2 2
Particularitatea acestei ipostaze constă în faptul că deoarece dispersiile nu sunt egale, deci
nici abaterile standard nu pot avea aceaşi valoare, se va aplica testul utilizând estimaţia abaterii
standard la nivelul fiecărui eşantion:
n1
∑ (x
i =1
i1 − x1 ) 2
s1 = s12 = (7.5)
n1 − 1
n2
∑ (x
i =1
i2 − x2 ) 2
s 2 = s 22 = (7.6)
n2 − 1
x1 − x 2
tc = (7.7)
2 2
s1 s
+ 2
n1 n2
105
Ipotezele testului Student şi regiunile de respingere vor fi similare celor prezentate în
ipostaza anterioară, pentru eşantioanele independente provenind din colectivităţi generale cu
abateri standard egale.
În aceste condiţii avem, următoarele etape:
1. Se prezintă ipoteza nulă H 0 : x1 = x 2
106
Exemplul 7.1.
Într-o zonă montană, între două tipuri de pensiuni turistice rurale (1 margaretă şi 2
margarete), cu acelaşi număr de camere, se testează ipoteza conform căreia nu există diferenţă
semnificativă privind cheltuielile medii de întreţinere din sezonul turistic de iarnă.
Ştiind că, probabilitatea luată în considerare este de 98%, testarea se realizează pentru 6
pensiuni de 1 margaretă şi 4 unităţi de 2 margarete de la care sunt preluate datele privind
cheltuielile de întreţinere din sezonul turistic de iarnă şi sunt prelucrate. Rezultatele testării sunt
prezentate în tabelul 4.2:
Tabelul 7.2. - Caracteristicile eşantioanelor din cele două pensiuni
Pensiunea de 1 margaretă Pensiunea de 2 margarete
n1= 6 n2 = 4
Rezolvare:
1. Ipoteza nulă H 0 : x1 = x 2
(nu există diferenţă semnificativă între cheltuielile medii de întreţinere ale pensiunilor
turistice rurale de o margaretă şi ale celor de două margarete).
2. Ipoteza alternativă H 1 : x1 ≠ x 2
(există diferenţă semnificativă între cheltuielile medii de întreţinere ale pensiunilor
turistice rurale de o margaretă şi ale celor de două margarete).
3. Dacă n1 = 6 şi n 2 = 4, ambele mai mici de 30, atunci se aplică testul t (testul t bilateral)
4. Fiind test " t " bilateral probabilitatea de 98% va fi evidenţiată prin
α
= 0,02 ⇒ t α = t 0,02;8 = 2,896
2 2
; n1 + n2 − 2
107
(n1 − 1) s12 + (n2 − 1) s 22 (6 − 1) ⋅ 0,15 2 + (4 − 1) ⋅ 0,44 2
se = = = 0,29
n1 + n2 − 2 6+4−2
s e = 0,0867 = 0,29
x1 − x 2 4,5 − 4,84
tc = = = − 1,82
1 1 1 1
se + 0,29 ⋅ +
n1 n2 6 4
Deoarece
− tα (−2,896) < t c (− 1,82) < t α (2,896) ,
; n1 + n2 − 2 ; n1 + n 2 − 2
2 2
Rr
Rr
H 0 se respinge H 0 se respinge
− tα = −2,896 tα = 2,896
; n1 +n2 − 2 ;n1 + n2 − 2
2
t c = −1,82 2
Se acceptă H 0
o
Figura 7. 7. Testarea ipotezei H 0 :
nu există diferenţă semnificativă între cheltuielile medii de întreţinere ale celor două
categorii de pensiuni
6. Concluzia (figura 7.7) este că nu există diferenţă semnificativă între cheltuielile medii de
întreţinere ale pensiunilor turistice rurale de o margaretă şi cele ale pensiunilor de două
margrete.
Lucrare de verificare 7A
108
2. Cum se testează ipoteza privind compararea mediilor a două eşantioane de volum redus?
3. Pentru o valoare de -1,71 a testului student (t) critic, schiţaţi distribuţia lui t şi indicaţi
locul regiunii critice.
4. Pentru o valoare de 2,33 a testului (t) critic, schiţaţi distribuţia lui t şi indicaţi locul
regiunii critice.
5. Pentru 1 − α = 95% şi t calculat=0,40 specificaţi dacă ipoteza nulă este respinsă în cazul
testului unilateral stânga.
Test de autoevaluare 7B
1. În vederea verificării greutăţii produselor dintr-un lot de piese se extrage aleator simplu şi
repetat un eşantion format din 25 piese. La nivelul eşantionului observat se obţine o
greutate medie de 340 g şi o abatere standard de 10g. Se studiază ipoteza potrivit căreia
greutatea medie a unei piese din întregul lot concordă cu greutatea medie prevăzută în
normele STAS, µ 0 = 330 g . (riscul asumat este α = 0,05 ). Valoarea statistică a testului
(valoarea calculată) este:
a. 4
b. 5
c. 4,75
d. 5,25
2. În vederea verificării greutăţii produselor dintr-un lot de piese se extrage aleator simplu şi
repetat un eşantion format din 25 piese. La nivelul eşantionului observat se obţine o
greutate medie de 340 g şi o abatere standard de 10g. Se studiază ipoteza potrivit căreia
greutatea medie a unei piese din întregul lot concordă cu greutatea medie prevăzută în
normele STAS, µ 0 = 330 g . (riscul asumat este α = 0,05 ). Care sunt cele două ipoteze
statistice?
a. H 0 : µ ≠ µ 0 (există diferenţă semnificativă între greutatea medie a unei piese
din întregul lot şi greutatea medie prevăzută în normele STAS).
H 1 : µ > µ 0 (greutatea medie a unei piese din întregul lot este mai mare
decăt greutatea medie prevăzută în normele STAS).
109
b. H 0 : µ = µ 0 (nu există diferenţă semnificativă între greutatea medie a unei
piese din întregul lot şi greutatea medie prevăzută în normele STAS).
H 1 : µ < µ 0 (greutatea medie a unei piese din întregul lot este mai mică
decât greutatea medie prevăzută în normele STAS).
c. H 0 : µ = µ 0 (nu există diferenţă semnificativă între greutatea medie a unei
piese din întregul lot şi greutatea medie prevăzută în normele STAS).
H 1 : µ ≠ µ 0 (există diferenţă semnificativă între greutatea medie a unei piese
din întregul lot şi greutatea medie prevăzută în normele STAS).
d. H 0 : µ ≠ µ 0 (există diferenţă semnificativă între greutatea medie a unei piese
din întregul lot şi greutatea medie prevăzută în normele STAS).
H 1 : µ < µ 0 (greutatea medie a unei piese din întregul lot este mai mica
decât greutatea medie prevăzută în normele STAS).
3. Patronul unei pensiuni turistice rurale, în vederea ridicări calităţii activităţilor desfăşurate,
doreşte să-şi analizeze mai atent cheltuielile şi presupune că, în medie, cheltuiala zilnică
în perioada de sezon este de 400 UM pe turist. Testarea ipotezei presupune o selectare
aleatorie a 25 de zile, pentru care se înregistreză valorile (UM): 430, 280, 300, 250, 330,
280, 400, 410, 400, 380, 330, 350, 380, 280, 330, 390, 290, 380, 450, 370, 380, 330, 410,
390, 380. În urma testării potezei conform căreia, pentru o probabilitate de 95%, în medie
cheltuiala zilnică în perioada de sezon este mai mică de 400 UM pe turist, se poate trage
următoarea concluzie:
a. deoarece t c (−4,13) < −tα ,n −1 (−1,711) , rezultă că între cheltuielile medii
110
4. Se extrag aleator, simplu, repetat, două eşantioane, primul format din 8 persoane de sex
masculin, iar al doilea din 10 persoane de sex feminin. Ştiind că, probabilitatea luată în
considerare este de 99%, iar rezultatele prelucrării datelor sunt următoarele:
În urma testării ipotezei statistice potrivit căreia vârsta medie a persoanelor de sex
masculin este mai mare decât a celor de sex feminine, valoarea calculate a testului este:
a. 1,82;
b. 2, 28;
c. -1,82;
d. -2,28.
5. Într-o zonă montană, între două tipuri de pensiuni turistice rurale (1 margaretă şi 2
margarete), cu acelaşi număr de camere, se testează ipoteza conform căreia nu există
diferenţă semnificativă privind cheltuielile medii de întreţinere din sezonul turistic de
iarnă. Ştiind că, probabilitatea luată în considerare este de 98%, testarea se realizează
pentru 6 pensiuni de 1 margaretă şi 4 unităţi de 2 margarete de la care sunt preluate datele
privind cheltuielile de întreţinere din sezonul turistic de iarnă şi sunt prelucrate.
Caracteristicile eşantioanelor din cele două pensiuni sunt următoarele:
111
b. există diferenţă semnificativă între cheltuielile medii de întreţinere ale
pensiunilor turistice rurale de o margaretă şi cele ale pensiunilor de două
margarete deoarece (t calculat = -2,896);
c. există diferenţă semnificativă între cheltuielile medii de întreţinere ale
pensiunilor turistice rurale de o margaretă şi cele ale pensiunilor de două
margarete deoarece (t calculat = 2,896);
d. cheltuielile medii de întreţinere ale pensiunilor turistice rurale de o margaretă
sunt mai mari decât cele ale pensiunilor de două margarete deoarece (t calculat =
-2,896);
112
d. Ipoteza nulă: există diferenţă semnificativă între consumul de timp realizat de
noua metodă şi cel realizat de vechea metodă;
Ipoteza alternativă: consumul de timp realizat de noua metodă este
semnificativ mai mic decât cel realizat de vechea metodă;
În urma testării, cu o probabilitate de 95%, a ipotezei conform căreia noua metodă duce la
un consum de timp semnificativ mai mic, putem spune că:
a. se admite ipoteza nulă, nu există diferenţă semnificativă între consumul de
timp realizat de noua metodă şi cel realizat de vechea metodă;
b. se respinge ipoteza nulă, există diferenţă semnificativă între consumul de timp
realizat de noua metodă şi cel realizat de vechea metodă;;
c. se respinge ipoteza nulă, consumul de timp realizat de noua metodă este
semnificativ mai mic decât cel realizat de vechea metodă;
d. se admite ipoteza nulă, există diferenţă semnificativă între consumul de timp
realizat de noua metodă şi cel realizat de vechea metodă;
8. Se doreşte testarea ipotezei conform căreia între două mărci de imprimante nu există
diferenţe semnificative privind cheltuielile de funcţionare. Pentru aceasta, 20 de posesori
de imprimante (8 posesori ai primei mărci, 12 posesori ai celei de a doua) sunt rugaţi să
ţină evidenţa cheltuielor de funcţionare pe o perioadă de un an de zile. Rezultatele
prelucrării datelor sunt:
Marca 1 Marca 2
n1= 8 n 2 = 12
x1 = 56,96 UM x 2 = 52,73 UM
s1 = 4,9 s2 = 6,4
113
Pentru o probabilitate de 90%, putem spune că:
a. nu există diferenţe semnificative privind cheltuielile de funcţionare ale celor
două mărci de imprimante;
b. există diferenţe semnificative privind cheltuielile de funcţionare ale celor două
mărci de imprimante;
c. cheltuielile de funcţionare cu prima marcă de imprimantă sunt semnificativ
mai mari decăt cheltuielile de funcţionare cu cea de-a doua marcă de
imprimantă;
d. cheltuielile de funcţionare cu prima marcă de imprimantă sunt semnificativ
mai mici decăt cheltuielile de funcţionare cu cea de-a doua marcă de
imprimantă;
Rezumat
Pentru testarea ipotezei privind media populaţiei generale statistica testului este
n
x − µ ip x − µ ip ∑ (x
i =1
i − x)2
tc = = unde s = s 2 = . Regiunile critice sunt determinate în
s2 s n −1
n n
Similar, pentru testarea ipotezei privind mediile a două populaţii, statistica testului este
x1 − x 2 x1 − x 2 (n1 − 1) s12 + (n 2 − 1) s 22
sau t c = = , unde s e = .
1 1 1 1 n1 + n2 − 2
s e2 ⋅ + se +
n1 n2 n1 n 2
114
Bibliografie
Bădiţă M., Baron T., Statistică pentru afaceri în comerţ – turism, vol 1, 2,
Cristache S.E. Editura Luceafărul, Bucureşti, 2002
115
Unitatea de învăţare 8
TESTAREA IPOTEZELOR PRIVIND DISPERSIILE POPULAŢIILOR
Cuprins
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• testarea ipotezei statistice privind compararea dispersiei eşantionului cu dispersia
colectivităţii generale;
• testarea ipotezei statistice privind compararea dispersiei a două colectivităţi;
Cei mai utilizaţi indicatori în procesul inferenţei statistice sunt: media, dispersia şi
proporţia. Un rol important în cadrul inferenţei o au şi testările ipotezelor statistice aplicate în
condiţiile comparării dispersiilor.
Repartiţia χ 2 este utilizată cu preponderenţă în testarea ipotezelor statistice permiţând
studierea mai detaliată, chiar şi sub aspect calitativ, a colectivităţilor statistice.
Statistica testului calculat este:
116
(n − 1) s 2
χ c2 = (5.1)
σ2
În aceste condiţii, etapele de aplicare a testului χ 2 sunt următoarele:
grafic.
► regiunea de respingere Rr : dacă χ 2 c < χ 21−α , n −1 , atunci H o se respinge şi este
adevărată ipoteza H 1 .
Rr
117
► regiunea de respingere Rr : dacă χ c2 < χ 2 α sau χ c2 > χ α2 , atunci H o se
1− , n −1 ,n −1
2 2
Rr
Rr
H 0 se respinge H 0 se respinge
χ2α χ α2
1− ; n −1 ; n −1
2 2
grafic.
► regiunea de respingere Rr : dacă, χ c2 > χ α2 ,n −1 , atunci H o se respinge şi este
adevărată ipoteza H 1 .
Rr
χα2 ; n −1 H 0 se respinge
118
6. Se compară valoarea lui χ c2 cu una din valorile χ12−α , n −1 , χ 2 α , χ α2 , χ α2 , n −1 conformă
1− , n −1 , n −1
2 2
tipului testului aplicat şi se stabileşte dacă rezultatul statistic al testului calculat χ c2 intră în
Compararea dispersiilor a două colectivităţi se poate realiza fie direct, fie utilizând
raportul acestora.
Aplicarea testului presupune următoarele:
• colectivităţile comparate să fie formate din variabile aleatoare: X 1 şi X 2 ;
119
- pentru testul unilateral dreapta: Fα ; n1 −1; n2 −1 ,
în care:
α - limita de semnificaţie
n1 -1= g1 = gradele de libertate pentru variabila aleatoare Y1
n 2 -1= g 2 = gradele de libertate pentru variabila aleatoare Y2
Graficele testului în funcţie de tipul acestuia îmbracă formele:
• testul unilateral stânga (figura 5.4):
► F tabelar sau teoretic F1−α ; n1 −1; n2 −1 (Anexa 4) şi valoarea se plasează pe grafic.
adevărată ipoteza H 1 .
Rr
120
Rr
Rr
H 0 se respinge H 0 se respinge
F α Fα
1− ; n1 −1; n2 −1 ; n1 −1; n2 −1
2 2
adevărată ipoteza H 1 .
Rr
Exemplul 8.1.
Departamentul de vânzări al unei firme comerciale dispune de următoarele date privind
cererea unui produs. 80, 59, 66, 83, 36, 58, 55, 64, 63, 66. Datele u fost selectate dintr-o
colectivitate normal distribuită. pentru o probabilitate de 95% să se testeze ipotezele:
H0: σ2=100, respectiv H1: σ2>100.
121
Rezolvare:
Primele două etape ce trebuiesc parcurse pentru testarea ipotezelor statistice prin
aplicarea testului χ2 au fost prezentate în enunțul problemei:
1. Ipoteza nulă: σ2=100
2. Ipoteza altenativă: H1: σ2>100
3. Datele inițiale ne conduc la concluzia că se aplică testul χ2 (se compară dispersiile).
4. Deoarece (1-α)=95% ⇒ α=0,05, iar n=10 trebuiesc determinate elementele:
χ2 teoretic:
Rr
6. Deoarece, χ c2 (15,42) < χ α2;n −1 (16,92) atunci H0 este adevărat, şi anume, gradul de împrăştiere
Test de autoevaluare 8B
1. Statistica testului calculat este:
n ⋅ s2
a. χ c2 =
σ2
(n − 1) s 2
b. χ c2 = ;
σ2
(n + 1) s 2
c. χ c2 = ;
σ2
(n − 1) s
d. χ c2 = .
σ2
2. Patronul unei pensiuni turistice rurale testează în 10 zile consumul zilnic de lapte (litri):
10, 8, 10, 9, 7, 11, 10, 12, 7, 10. Presupunând că selecţia se realizează dintr-o colectivitate
normal distribuită, pentru o probabilitate de 95% să se testeze ipotezele:
H 0 : σ 2 = 4 , respectiv H 1 : σ 2 > 4 .
b. χ c2 > χ α2 ;n −1 ;
c. χ c2 > χ α2 ;
; n −1
2
123
d. χ c2 > χ n2−1 .
3. Patronul unei pensiuni turistice rurale testează în 10 zile consumul zilnic de lapte (litri):
10, 8, 10, 9, 7, 11, 10, 12, 7, 10. Presupunând că selecţia se realizează dintr-o colectivitate
normal distribuită, pentru o probabilitate de 95% să se testeze ipotezele:
H 0 : σ 2 = 4 , respectiv H 1 : σ 2 > 4 .
a. 6,1;
b. 5,9;
c. 6,5;
d. 5,5.
124
σ 12 σ 12
b. H 0 : = 1 şi H : < 1;
σ 22 σ 22
1
σ 12 σ 12
c. H 0 : 2 = 1 şi H 1 : 2 ≠ 1 ;
σ2 σ2
σ 12 σ 12
d. H 0 : = 1 şi H : > 1.
σ 22 σ 22
1
Rezumat
125
Similar, pentru testarea ipotezei privind dispersiile a două populaţii, statistica testului este sau
S12 σ 22 S12
Fc = ⋅ . Dacă σ 2
= σ 2
, atunci statistica testului calculat devine F = ..
S 22 σ 12
1 2 c
S 22
Testările se efectuează parcurgând secvenţial etapele prezentate în unitatea de învăţare 5.
Bibliografie
126
Unitatea de învăţare 9
ANALIZĂ DISPERSIONALĂ (ANOVA)
Cuprins
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• testarea ipotezei statistice privind compararea dispersiei eşantionului cu dispersia
colectivităţii generale;
• testarea ipotezei statistice privind compararea dispersiei a două colectivităţi;
• utilizarea intrumentelor Excel în aplicarea testului ANOVA.
127
• variabilă dependentă – reprezintă variabila rezultativă, obligatoriu cantitativă, după care
se compară grupele şi este supusă analizei;
• variabila independent – este exprimată prin factorul care influenţează într-o anumită
măsură variabila dependentă.
În fucţie de numărul factorilor, analiza dispersională poate fi:
∗ unifactorială
∗ bifactorială
∗ multifactorială
Modelul de bază al analizei dispersionale constă în însumarea a două elemente
componente ce reprezintă efectele unor cauze sistematice şi întâmplătoare.
În cazul analizei dispersionale unifactoriale, cauzele sistematice sunt rezumate sub forma
unui singur factor cu acţiune esenţială.
Analiza dispersională, implicit cea unifactorială presupune utilizarea testului parametric
ANOVA, adică a testului Fisher (testul F ), care se bazează pe următoarele considerente:
1. - populaţiile Γ din care se extrag k eşantioane γ trebuie să fie normal distribuite;
2. - dispersiile populaţiilor trebuie să fie egale
( σ 12 = σ 22 = σ 32 = ... = σ k2 = σ );
3. - eşantioanele selectate trebuie să fie independente.
Neîndeplinirea celei de-a doua reguli transformă testul parametric într-unul neparametric
cunoscut sub denumirea de testul lui Kruskal Wallis, care constă în compararea tendinţei centrale
a două sau mai multe eşantioane independente.
Testul F stabileşte dacă mediile eşantioanelor comparate diferă semnificativ.
Ipoteza nulă ( H 0 ) este cea prin care se menţionează că mediile eşantioanelor comparate
sunt egale (figura 5.7) sau altfel spus, mediile de grupă ale fiecărui eşantion nu diferă
semnificativ, deci factorul esenţial nu are o influenţă relevantă asupra variabilei rezultative.
H 0 : µ1 = µ 2 = µ 3 = ... = µ k
Prin ipoteza alternativă H 1 se presupune că, dacă cel puţin între două medii de grupă ale
eşantioanelor comparate există o diferenţă semnificativă, atunci factorul de grupare ( x ) are o
influenţă însemnată asupra variabilei rezultative y .
128
y
y
yr
y2
y1=y2= =yr
y1
o x1 x2 ...... xr x o x1 x2 ..... xr x
H0 H1
Dacă dintr-o populaţie Γ au fost extrase eşantioane γ j sub forma grupelor, acestea pot
Serii simple
În cazul seriilor simple, datele statistice apar într-o tabelă a cărei formă generală este
dată în tabelul 5.1.
129
Mediile utilizate sunt:
- media de grupă ( y1 , y 2 , y 3 , ..., yi , ..., y r ) :
ni
∑y j =1
ij
yi = (9.1.)
ni
- media generală ( y 0 )
r ni r
∑∑
i =1 j =1
yij ∑yn i i
i =1
y0 = r
= r
(9.2.)
∑n
i =1
i ∑n
i =1
i
Serii cu frecvenţe
Pentru seriile cu frecvenţe, datele statistice sunt prezentate pentru analiză într-o tabelă
a cărei formă generală este dată prin tabelul 5.2.
Relaţiile de calcul ale mediilor utilizate în acest caz, necesare în vederea aplicării testului
F , sunt următoarele:
- media de grupă ( y1 , y 2 , y 3 , ..., yi , ..., y r )
130
m
∑y n
j =1
j ij
yi = m
(9.3.)
∑n
j =1
ij
- media generală ( y 0 )
m r
∑y n
j =1
j j ∑yn i i
i =1
y0 = m
= r
(9.4.)
∑n j =1
j ∑n
i =1
i
Totală i =1 j =1
df 0 = df 1 + df 2
S 0 = S1 + S 2
131
r
S1 ∑(y
i =1
i − y 0 ) 2 ni
S12 = = (9.6.)
r −1 r −1
în care:
r
S 1 = ∑ ( y i − y 0 ) 2 ni (9.7.)
i =1
S2
∑∑
i =1 j =1
( y ij − yi ) 2
S 22 = = (9.8.)
n−r n−r
în care:
r ni
S 2 = ∑∑ ( yij − yi ) 2 (9.9.)
i =1 j =1
132
nu există diferenţe semnificative între mediile de grupă comparate (nu există
diferenţe semnificative între eşantioanele comparate);
factorul x nu este semnificativ statistic, adică nu influenţează semnificativ variabila
rezultativă y .
2. - dacă Fc > Fα , r −1, n − r , atunci se respinge ipoteza nulă H0, deci:
133
. . . . . .
. . . . . .
x h11 ... x hj1 ... x hq1
. . . . .
F.Ih . . . . .
. . . . .
x h1n ... x hjn ... x hqn
eşantionul corespunzător grupei nivelului „ i ” al primului factor (F.I) şi nivelului „ j ” al celui de-
al doilea factor (F.II)
Aplicarea testului F , a cărei formă a tabelului ANOVA este prezentată în tabelul 9.5.,
presupune calcularea tuturor indicatorilor auxiliari, astfel:
134
Varianţa
Varianţa factorului F.I ( S1 )
- se determină ca sumă a abaterilor pătrate ale mediilor liniilor de la media generală,
datorate primului factor (F.I);
- este indicator de comensurare a variaţiei explicate de F.II;
- se calculează cu relaţia:
h 2
S 2 = hn∑ (x* j − x )
q
(9.11.)
j =1
Varianţa reziduală ( S3 )
- se determină ca sumă reziduală a pătratelor celor doi factori, stabilind variaţia internă a
grupului;
- este indicator de comensurare a variaţiei neexplicate a interacţiunii ambilor factori;
- se calculează cu relaţia:
2
Varianţa totală ( S0 )
135
S 0 = S 1 + S 2 + S1 _ 2 + S 3
2
S 0 = ∑∑∑ (xijk − x )
h q n
(9.14.)
i =1 j =1 k =1
Gradele de libertate
Gradele de libertate corespunzătoare factorului F.I ( df1 )
df1 = h − 1 (9.15.)
Gradele de libertate corespunzătoare factorului F.II ( df2 )
df 2 = q − 1 (9.16.)
Gradele de libertate corespunzătoare interacţiunii factorului F.I cu factorul F.II ( df1_2)
df 1 _ 2 = (h − 1) ⋅ (q − 1) (9.17.)
Dispersia corectată
Dispersia corectată a factorului F.I ( S12 )
S1
S12 = (9.20.)
df1
S2
S 22 = (9.21.)
df 2
S1 _ 2
S12_ 2 = (9.22.)
df1 _ 2
136
S3
S 32 = (9.23.)
df 3
Completarea tabelului (9.5) cu rezultatele obţinute prin aplicarea formulelor prezentate
permit continuarea metodologiei de aplicare a testului F prin testarea ipotezelor privind
semnificaţia contribuţiei factorilor la precizarea variaţiei variabilei dependente.
În cazul analizei dispersionale bifactoriale apar trei seturi de ipoteze care, în funcţie de
factorii la care se referă, sunt:
Pentru factorul F.I:
H0: factorul F.I nu este semnificativ (mediile determinate la nivelul liniilor nu diferă
semnificativ)
H1: factorul F.I este semnificativ (mediile determinate la nivelul liniilor diferă în mod
semnificativ)
Pentru factorul F.II,
H0: factorul F.II nu este semnificativ (mediile determinate la nivelul coloanelor nu
diferă semnificativ)
H1: factorul F.II este semnificativ (mediile determinate la nivelul coloanelor diferă în
mod semnificativ)
137
Analiza dispersională bifactorială, în raport cu modul de formare a nivelurilor factorilor,
cuprinde următoarele modele:
• model cu efecte sistematice – reprezentat de modelul în care datele statistice ale
nivelurilor factorilor se formează din întreaga colectivitate; între respectivele date statistice
apar diferenţe sistematice datorate doar clasificării după cei doi factori; acest model include
elemente ca: x , α i , β j , δ ij şi σ 2 care sunt mărimi fixe necunoscute;
• model cu efecte întâmplătoare – este un model în care datele statistice ale nivelurilor
factorilor se extrag aleatoriu dintr-o colectivitate supusă cercetării; abaterile ce se pot stabili
între datele statistice ale nivelurilor vor fi întâmplătoare; elementele incluse în model vor fi:
o α i , β j , δ ij - mărimi aleatorii cu dispersiile σ α2 , σ β2 , σ α2 ,β ,
• model cu efecte mixte – este modelul care cuprinde date statistice pe fiecare nivel al
factorilor implicaţi, ce s-au format astfel: după un factor se extrag şi se formează sistematic, iar
după celălalt factor se obţin aleatoriu; diferenţele care apar între datele statistice la fiecare nivel
sunt de tip sistematic după un factor şi aleatoriu după celălalt, în funcţie de cum s-au format
respectivele date;
Presupunând că primul factor este întâmplător, atunci elementele specifice modelului
vor fi:
x şi β j - mărimi nealeatorii
α i şi δ ij - mărimi aleatorii
Exemplul 9.1.
Situaţia privind tarifele practicate pentru 25 de pensiuni în perioada de sezon din 2008
situate în mediul rural sau urban, dintr-o regiune turistică este prezentată în tabelul 9.6.
Să se verifice dacă mediul unde este construită pensiunea influenţează semnificativ
variaţia încasărilor, folosind testul F de analiză dispersională (ANOVA). Nivelul de
semnificaţie ales este α = 0,05.
138
Tabelul 9.6. Tarifele practicate de două categorii de pensiuni
Medii Valoarea tarifelor practicate ( lei ) Număr pensiuni
Rural 140, 138, 150, 142, 140, 140, 135, 148, 147, 135, 140, 138, 139, 145, 140 15
Urban 120, 141, 137, 152, 152, 148, 145, 145, 135, 145 10
Rezolvare:
Notaţii:
x – variabila factorială care formează grupele (mediul: rural şi urban)
y – variabila rezultativă (valoarea tarifelor practicate)
( 1 − α ) = 95 %
1. Ipoteza nulă H 0 : µ R = µU
(valoarea medie a tarifelor practicate în mediul rural nu diferă semnificativ de valoarea medie a
tarifelor practicate în mediul urban)
2. Ipoteza alternativă H 1 : µ R ≠ µU
(valoarea medie a tarifelor practicate în mediul rural diferă semnificativ de valoarea medie a
tarifelor practicate în mediul urban)
3. Datele aplicaţiei conduc la utilizarea testului Fisher (testul F unilateral dreapta)
4. Deoarece ( 1 − α )100=95, atunci, utilizând valorile tabelate ale funcţiei F (Anexa 4),
pentru α =0,05 rezultă:
Fα , r −1, n − r = F0, 05; 2 −1; 25−1 = F0 , 05;1; 24 = 4,26
∑ yij
j =1 2117
∑y
j =1
ij
1420
yR = = = 141,13 lei yU = = = 142 lei
ni 15 ni 10
2
∑yn
i =1
i i
141,13 ⋅ 15 + 142 ⋅ 10
y0 = 2
= = 141,48 lei
25
∑n
i =1
i
S12 =
(141,13 − 141,48)2 ⋅ 15 + (142 − 141,48)2 ⋅ 10 = 4,54
2 −1
139
Se determină, cu relaţiile (5.30) şi (5.31), dispersia corectată reziduală:
σ i2 ( σ R2 , σ U2 )
∑ (y − yR ) ∑ (y − yU )
15 10
2 2
ij ij
281,73 822
σ R2 = i =1
= = 18,78 lei σ U2 = i =1
= = 82 lei
n 15 n 10
18,78 ⋅ 15 + 82 ⋅ 10 1101,7
S 22 = = = 47,9 lei
25 − 2 23
S12 4,54
Statistica testului va fi: Fc = = = 0,09
S 32 47,9
6. Deoarece Fc (0,09) < Fα ;r −1;n − r ( 4,26) , iar Fc nu intră în Rr , atunci H o este adevărată, deci
concluzia este că, valoarea medie a tarifelor practicate în mediul rural nu diferă
semnificativ de cea a mediului urban.
Exemplul 9.1.
O agenţie de turism realizează un nou pachet turistic pe care-l consideră avantajos din
punct de vedere al raportului calitate-preţ. Managerul agenţiei trebuie să studieze dacă există
diferenţe semnificative între numărul pachetelor care s-ar vinde în medie zilnic în cele trei zone
turistice spre care-şi îndreaptă atenţia (zona montană, balneară şi de litoral).
În vederea stabilirii de către manager cărei zone să se adreseze cu precădere pachetul
turistic, acesta declanşează o campanie publicitară atât în regiunea montană, în cea balneară cât
şi în cea de litoral. După încheierea campaniei publicitare, timp de o jumătate de lună (15 zile),
se derulează o cercetare cu privire la preferinţele clienţilor în ceea ce priveşte pachetul turistic ce
se doreşte a fi lansat pe piaţă, rezultatele obţinute fiind prezentate în tabelul 9.7.
Rezolvare:
140
În funcţie de datele aplicaţiei şi ipotezele stabilite, trebuie să se aplice ANOVA: Single Factor
(analiză de varianţă cu un singur factor) din EXCEL, parcurgând etapele:
1-se introduc datele cu noţiunile din capul de tabel, în primele trei coloane începând cu A1,
B1, C1, până la A16, B16, C16;
2- se selectează toate datele din coloane, inclusiv capul de tabel, de la A1 la C16
3- din meniu se selectează Tools şi se parcurg paşii: Data Analysis - ANOVA: Single Factor
4- în fereastra deschisă:
la Input Range se selectează datele de la A1 la C16
se activează Labels in First
se specifică Grouped by Columns
se activează Output Range şi se selectează o căsuţă în care se doreşte să se
poziţioneze rezultatele
OK
Rezultatele sunt ilustrate în tabel 9.8:
Tabelul 9.8. Tabelul ANOVA cu rezultatele analizei
Anova: Single Factor
SUMMARY
Groups Count Sum Average Variance
Z.Montană 15 248 16,53333 4,695238
Z.Balneară 15 198 13,2 6,742857
Z.de Litoral 15 145 9,666667 2,238095
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 353,7333 2 176,8667 38,79735 0,0000 3,219942
Within Groups 191,4667 42 4,55873
Total 545,2 44
141
în ANOVA – elementele sunt prezentate în tabelul 9.3 din cadrul subcapitolului 9.1 (mai
precis, la 5.2.1- analiza factorială unifactorială)
∗ SS este varianţa (suma pătratelor, notată cu S în tabelul 5.3), obţinută:
► pe varianta factorială, Between Groups (între grupe): S1 = 353,7333
142
confirmat şi prin valoarea pragului de semnificaţie P-value de 0,00000000028595 care
este mai mic decât 0,05.
Lucrare de verificare 9A
Test de autoevaluare 9B
143
2. Managerul unei fabrici de pâine doreşte înlocuirea unor utilaje aflate în dotare. În vederea
fundamentării acestei decizii, managerul solicită o analiză a vechimii utilajelor şi a
costului de întreţinere anual al acestora. Astfel, utilajele din dotarea fabricii, în număr de
20, au fost grupate după vechime (ani) în 3 grupe: utilaje cu vechime mică (<5 ani), utilaje
cu vechime medie (5-10 ani) și utilaje cu vechime mare (>10 ani) şi s-a înregistrat costul
de întreținere al acestora (u.m.). În urma aplicării metodei ANOVA de analiză
dispersională, și a prelucrării datelor cu Excel, s-au obținut următoarele rezultate:
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 6.792595238 …… …………. …………. 0.01153 3.591531
Within Groups ………………. 0.578641
Total 16.6295 19
a. Statistica F este 3,59, gradele de libertate df1 pentru varianta factorială este 1
şi dispersia corectată pentru varianta factorială este 6,79;
b. Statistica F este 5,87, gradele de libertate df1 pentru varianta factorială este 2
şi dispersia corectată pentru varianta factorială este 3,40;
c. Statistica F este 5,87, gradele de libertate df1 pentru varianta factorială este 1
şi dispersia corectată pentru varianta factorială este 3,40;
d. Statistica F este 3,40, gradele de libertate df1 pentru varianta factorială este 3
şi dispersia corectată pentru varianta factorială este 5,87.
3. Conducerea unei facultăţi dorește să determine dacă existenţa unei platform de e-learning
ajută studenții să învețe. Pentru aceasta se formează 2 grupe de studiu: studenții din
Grupul A nu beneficiază de platform e-learning la pregătirea cursurilor, studenții din
Grupul B beneficiază de pregătire suplimentară prin utilizarea platformei de e-learning.
După prima sesiune de examene, studenții primesc notele obţinute. Mediile studenţiilor
după prima sesiune sunt prezentate în tabelul următor:
144
Să se stabilească dacă utilizarea platformei e-learning a influențat rezultatele obținute la
examene de către studenți (nivel de semnificație 5%).
a. Deoarece Fc (3,29) < F0, 05;18;19 (4,42) , iar Fc intră în Rr , concluzia este că,
145
Rezumat
În studiul legăturilor dintre fenomenele şi procesele economice o metodă deosebit de utilă
este analiza dispersională, aceasta oferind posibilitatea verificării afirmaţiilor privind existenţa
legăturii, precum şi testarea validităţii modelului de regresie. În funcţie de numărul factorilor,
analiza dispersională poate fi unifactorială, bifactorială sau multifactorială.
Analiza dispersională, presupune utilizarea testului parametric ANOVA, care se bazează
pe următoarele considerente: populaţiile Γ din care se extrag k eşantioane γ trebuie să fie
Prin ipoteza alternativă H 1 se presupune că, cel puţin între două medii de grupă ale
eşantioanelor comparate există o diferenţă semnificativă, şi în consecinţă, factorul de grupare ( x )
are o influenţă însemnată asupra variabilei rezultative y .
În procesul testării ipotezei nule ( H 0 ) se utilizează tabelul ANOVA. Pentru testare este
utilizat este Fisher (F).
Bibliografie
146
Unitatea de învăţare 10
DETERMINAREA ŞI TESTAREA CORELAŢIILOR LINIARE DINTRE
VARIABILELE ECONOMICE
Cuprins
Obiectivele Unităţii de Învăţare 10 ......................................................................................... 147
10.1 Corelația liniară simplă ................................................................................................ 147
10.2 Corelația multiplă ......................................................................................................... 152
Lucrare de verificare 10A ....................................................................................................... 155
Test de autoevaluare 10B ........................................................................................................ 156
Rezumat ................................................................................................................................... 158
Bibliografie.............................................................................................................................. 158
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• aplicabilitatea modelelor econometrice de analiză a legăturilor prin intermediul
coeficienților de corelație;
• testarea coeficientului de corelație;
147
• pentru o serie bidimensională simplă:
n
∑ (x
i =1
i − x )( y i − y )
cov( x; y ) σ xy
r= = = (10.1)
nσ xσ y σ xσ y σ xσ y
care, după efectuarea calculelor are forma:
n
∑ (x
i =1
i − x )( y i − y )
r= (10.2)
n 2
n
2
(x i − x ) ⋅ ( y i − y )
∑ ∑
i =1 i =1
respectiv:
n n n
n ∑
i =1
xi y i − ∑ ∑y
i =1
xi ⋅
i =1
i
r= (10.3)
n n n 2 n
2
2
∑
xi − xi ⋅ y i −
i =1
2
∑
y i ∑ ∑
i =1 i =1 i =1
variabile xy
• pentru o serie bidimensională cu frecvenţe:
n
∑ (x
i =1
i − x )( y i − y )n xy
r= n
(10.4)
∑n
i =1
xy σ xσ y
∑∑ n ⋅ ∑∑ xyn − ∑ xn ⋅ ∑ yn
i =1 j =1
xy
i =1 i =1
xy
i =1
x
i =1
y
(10.5)
r
n n n
n
2
n n n
n
2
∑∑ n ∑ x n
i =1 n =1
xy
i =1
2
x ∑
− xnx
i =1
∑∑ n ∑ y n
i =1 i =1
xy
i =1
2
y ∑
− yn y
i =1
Dacă acest coeficient de corelaţie se determină la nivelul unui eşantion, atunci relaţia
(6.4) pentru o serie bidimensională simplă devine:
148
cov( x, y ) s xy
r= sau r= (10.6)
sx ⋅ s y sx ⋅ s y
ambelor variabile xy
149
Determinarea coeficientului de corelaţie la nivelul unui eşantion şi interpretarea acestuia,
reprezintă o prima etapă necesară aplicării metodologiei econometrice de stabilire a semnificaţiei
coeficientului de corelaţie al colectivităţii generale din care a fost selectat eşantionul cercetat.
Procesul testării semnificaţiei coeficientului de corelaţie ( ρ ) în raport cu cel al
eşantionului ( r ) se desfăşoară pornind de la următoarele aspecte:
• variabila rezultativă y şi cea factorială x să fie repartizate normal;
• coeficientul de corelaţie al colectivităţii generale ( ρ ) s-ar determina astfel:
∑ (X − X )(Yi − Y )
n
cov( X , Y ) σ xy i
ρ= = = i =1
[(X ][ ]
(10.7)
σ xσ y σ xσ y − X ) ⋅ (Yi − Y )
2 2
i
• estimatorul coeficientului de corelaţie (r), în condiţiile unui eşantion de volum redus ( n < 30 )
se prezintă ca un estimator:
- absolut corect cu: M (r ) = ρ şi σ 2 (r ) → 0
1− r2
- cu abaterea medie pătratică: s r =
n−2
1− r 2
- având distribuţia normală: N ρ ,
n−2
Etapele parcurse pentru testarea semnificaţiei coeficientului de corelaţie sunt:
1. Ipoteza nulă H 0 : ρ = 0 (coeficientul de corelaţie al colectivităţii nu este semnificativ
statistic, deci nu diferă semnificativ de zero),
2. Ipoteza alternativă H 1 : ρ ≠ 0 (coeficientul de corelaţie al colectivităţii este semnificativ
statistic, deci diferă semnificativ de zero).
2.1. - testul unilateral stânga: H 1 : ρ < 0 (coeficientul de corelaţie al colectivităţii este
semnificativ statistic, deci mai mic semnificativ de zero)
2.2. - testul bilateral: H 1 : ρ ≠ 0 (coeficientul de corelaţie al colectivităţii este
semnificativ statistic, deci diferă semnificativ de zero)
2.3. - test unilateral dreapta: H 1 : ρ > 0 (coeficientul de corelaţie al colectivităţii este
semnificativ statistic, deci mai mare semnificativ de zero)
3. În raport cu datele şi cerinţele aplicaţiei se utilizează testul t
150
( Student)
4. Se stabileşte limita de semnificaţie α şi regiunea de respingere
4.1. - testul unilateral stânga:
► „t” tabelar sau teoretic tα ; n − 2 (Anexa 3) şi valoarea cu semnul ”-„ se plasează pe
grafic.
► regiunea de respingere Rr : dacă t c < −tα ; n − 2 , atunci H o se respinge, deci
plasează pe grafic.
► regiunea de respingere Rr : dacă t c < - t α sau t c > t α atunci H o deci
; n−2 ; n−2
2 2
grafic.
► regiunea de respingere Rr : dacă t c > tα ; n − 2 , atunci H o se respinge, deci
dacă rezultatul statistic al testului calculat t c intră sau nu, în regiunea de respingere Rr ,
luându-se decizia adecvată situaţiei.
13
Vezi Capitolul II “Distribuţii utilizate în analize econometrice”, Subcapitolul 2.3.. “Distribuţii clasice în
verificarea ipotezelor statistice”, în 2.3.3. “Repartiţia Student”
151
Testarea semnificaţiei coeficientului de corelaţie simplă liniară se poate realiza şi cu
ajutorul testului Fisher14 (testul F ), utilizând aceeaşi metodologie ca şi în cazul testării
raportului de corelaţie, numai că, statistica testului este:
r2
Fc = ⋅ (n − 2 ) (10.9)
1− r2
Pentru comparaţie, valoarea tabelară (teoretică) a testului se preia tot din Anexa 4, pentru:
F1−α ;k ;n − k −1 , F α , Fα Fα ;k ;n −k −1 .
1− ; k ; n − k −1 ; k ; n − k −1
2 2
∑ (y )
n
− yˆ x1 , x2 ,..., xn
2
i
i =1
R y / x1, , x2 ,..., xn = 1 − n
(10.10)
∑ (y − y)
2
i
i =1
∑ (y )
n
− yˆ x1 , x2 ,... xn n x1, 2 , 3,..., n
2
i
i =1
R y / x1x2 ,... xn = 1 − n
(10.11)
∑ (y − y) ny
2
i
i =1
14
Ibidem,în subcapitolul 2.3 “2.3.4. Repartiţia Fisher-Snedecor”
152
pentru factori interpendenţi:
∑ x1i − ∑ x1i ∑ i ∑ i
⋅ y − y
i =1 i =1 i =1 i =1
n n n
n ∑ x 2 i y i − ∑ x 2i ⋅ ∑ y i
i =1 i =1 i =1
ry / x 2 = (10.15)
n 2 n n
2
n
2
∑ x 2i − ∑ x 2i ⋅ ∑ yi2 − ∑ yi
i =1 i =1 i =1 i =1
n n n
n∑ x1i x 2 i − ∑ x1i ⋅ ∑ x 2 i
i =1 i =1 i =1
rx1x2 = (10.16)
n
n 2
n
n
2
∑ x12i − ∑ x1i ∑ 2 i
⋅ − ∑ 2i
2
x x
i =1 i =1 i =1 i =1
153
• când caracteristica x 2 este constantă, coeficientul de corelaţie parţială între y şi x1
este:
σ y2 / x − σ x2 x σ x2 x
ry / x1 ( x2 ) = 2 1 2
= 1− 1 2
(10.19)
σ y2 / x 2
σ y2 / x 2
sau
ry / x1 − ry / x2 ⋅ rx1x2
ry / x1 ( x2 ) = (10.20)
(1 − r )(1 − r )
2
y / x2
2
x1 x2
doilea factor ( x 2 ).
σ y2 / x − σ x2 x σ x2 x
ry / x2 ( x1 ) = 1 1 2
= 1− 1 2
(10.21)
σ 2
y / x1 σ 2
y / x1
sau
ry / x2 − ry / x1 ⋅ rx1x2
ry / x2 ( x1 ) = (10.22)
(1 − r )(1 − r )
2
y / x1
2
x1 x2
caracteristici factoriale ( x1 ).
Studierea legăturii dintre mai multe caracteristici factoriale şi cea rezultativă, prin
utilizarea coeficienţilor de corelaţie parţiali, presupune o reflectare a influenţei fiecărei variabile
factoriale în parte, asupra celei rezultative, în condiţiile menţinerii constante a influenţei
celeilalte variabile factoriale.
Ca şi în cazul coeficientului de corelaţie simplă liniară, determinarea coeficientului de
corelaţie multiplă are în vedere aplicarea indicatorului, printr-o metodologie econometrică
adecvată şi în cazul testării semnificaţiei acestuia la nivelul colectivităţii generale din care a fost
selectat eşantionul aflat în studiu.
154
Verificarea semnificaţiei coeficientului de corelaţie multiplă, cât şi a coeficienţilor
parţiali reprezintă un proces de testare a valorii acestora în sensul de a stabili dacă valorile
rezultate sunt reale sau se datorează în cea mai mare parte acţiunii erorilor aleatoare care apar în
urma derulării sondajului.
Metodologia testării semnificaţiei este aceeaşi cu cea utilizată la testarea coeficientului de
corelaţie simplă liniară.
După stabilirea ipotezelor (nulă şi alternativă), se precizează limita de semnificaţie şi
regiunea de respingere, pentru ca în următoarea etapă, să se aplice unul testele prezentate mai
sus:
o Testul Student ( t ), cu statistica (relaţia 6.8):
r
tc = ⋅ n−2
1− r2
o Testul Fisher – Snedecor ( F ), cu statistica (relaţia 6.9):
r2
Fc = ⋅ (n − 2 )
1− r2
Decizia finală are în vedere o comparare a valorii determinate pentru t c sau Fc cu una
se dacă rezultatul statistic al testului calculat t c , respectiv Fc intră sau nu, în regiunea de
respingere Rr , luându-se decizia adecvată situaţiei (dacă valoarea calculată intră în regiunea de
respingere atunci ipoteza nulă se respinge, iar coeficientul este considerat semnificativ statistic)
Esenţa utilizări coeficienţilor de corelaţie simpli, multipli sau parţiali în cadrul modelelor
econometrice constă în stabilirea gradului în care valorile determinate prin aplicarea
metodologiilor de calcul adecvate, sunt reale sau se datorează în cea mai mare parte erorilor
întâmplătoare de sondaj.
155
2. Care sunt valorile coeficientului de corelație ce stabilesc gradul de intensitate a
legăturii dintre variabilele analizate?
3. Care sunt etapele ce trebuiesc parcurse pentru testarea semnificației coeficientului de
corelație?
4. Care este formula cu care se calculează statistica testului coeficientului de corelație?
5. Care este testul cu ajutorul căruia se testează semnificația coeficientului de corelație
simplă liniară?
156
4. Un agent economic urmăreşte creşterea profitului activităţii sale, prin utilizarea
optimă a capacităţilor de producţie. Pentru analiză utilizează date din cinci luni,
astfel:
Profitul 7 9 11 12 14
Capacit de producție 9 12 14 11 16
157
Rezumat
Pentru determinarea corelaţiilor dintre două sau mai multe variabile economice un
indicator foarte des utilizat este coeficientul de corelaţie liniară (r). În cazul corelaţiei liniare
n n n
n ∑
i =1
xi y i − ∑ ∑y
i =1
xi ⋅
i =1
i
simple acesta are forma: r = .
n n n 2 n
2
2
∑
i =1 i =1
∑
xi − xi ⋅ y i −
2
i =1
i =1
∑
y i
∑
Valorile lui r ∈ [− 1;1] şi indică direcţia şi intensitatea legăturii dintre cele două variabile.
Coeficientul de corelaţie multiplă în cazul în care variabila rezultativă este influenţată de
ry2/ x1 + ry2/ x2 − 2ry / x1 ry / x2 rx1 x2
doi factori are forma ry / x1 , x2 = pentru factori interpendenţi, respectiv
1 − rx21 x2
r2
Fc = ⋅ (n − 2) . Testările se efectuează parcurgând secvenţial etapele prezentate în unitatea
1− r2
de învăţare 5.
Bibliografie
158
Unitatea de învăţare 11
MODELUL DE REGRESIE LINIARĂ UNIFACTORIALĂ
Bibliografie
După studiul acestei unităţi de învăţare cursanţii vor avea cunoştinţe despre:
• ipotezele modelului regresie unifactorial;
• determinarea și validarea modelului de regresie unifactorial;
Conceptul statistic de regresie15 a fost utilizat pentru prima dată în 1886 de biologul
englez Francis Golton (1822-1894).
Utilizarea regresiei presupune aplicarea unei metode statistice care să vizeze depistarea,
stabilirea şi comensurarea unei relaţii constituite între două sau mai multe variabile, în care una
15
Termenul provine din latinescul „regresia” s-a conturat pe baza rezultatelor observării şi analizei
orientate spre „întoarcerea spre medie”.
159
este rezultativă (dependentă), iar cealaltă sau celelalte sunt explicative (apar sub forma factorilor
esenţiali de influenţă).
Metoda regresiei este fundamentată pe măsurarea şi previzionarea influenţei pe care unul
sau mai mulţi factori o poate avea asupra evoluţiei unui fenomen sau proces economic.
Deoarece, în cadrul metodei apar valori perechi de variabile utilizate şi parametri
corespunzători acestora sub forma mediilor, dispersiilor, abaterilor standard, etc, ea reprezintă o
componentă a metodelor parametrice de măsurare şi analiză a legăturilor formate în cadrul
derulării unor procese sau fenomene economice.
Elementul fundamental în cadrul metodei regresiei îl reprezintă funcţia de regresie.
Definiţia 6.1. Numim funcţie de regresie acea funcţie care sintetizează forma dependenţei
( )
variabilei rezultative Y , de variabilele factoriale X x1 , x 2 , K , x n .
În acest context, funcţia de regresie este o funcţie de modulare sub forma ecuaţiei medie
de tendinţă, ca rezultat a utilizării unor ecuaţii de estimare.
Funcţia de regresie poate să apară sub forma unei reprezentări grafice şi poate fi validată
prin intermediul testului F (Fisher Snedecor) de analiză dispersională.
Activitatea practică impune să se acorde o atenţie deosebită în alegerea corectă a funcţiei
de regresie pentru că, în studierea legăturilor dintre fenomenele şi procese economice este cea
mai importantă şi exprimă foarte clar relaţia dintre variabilele studiate (rezultativă şi factorială /
factoriale).
Tipul funcţiei de regresie este stabilit în raport cu reprezentarea grafică a norului de
puncte, corespunzătoare distribuţiei studiate („scalter diagram”- diagrama împrăşterii punctelor
pe grafic).
Astfel, o analiză detaliată şi cât mai exactă a unui proces sau fenomen economic impune
o studiere clară a tipului funcţiei de regresie după o clasificare realizată în raport cu
variabilele şi parametrii incluşi în model, după cum urmează:
• liniar în raport cu parametrii, în care atât variabilele modelului cât şi parametrii sunt la
puterea întâi. În cazul regresiei statistice, reprezentarea grefică a unui astfel de model se
rezumă la o linie dreaptă crescătoare sau descrescătoare care străbate mijlocul norului de
puncte urmând sensul alungirii acestuia; liniaritatea este dată de ecuaţia:
yˆ = a 0 + a1 x (11.1)
în cazul unifactorial respectiv,
160
yˆ = a 0 + a1 x1 + ... + a K x K (11.2)
în cazul multifactorial.
• neliniar cu următoarele variante:
► neliniar în raport cu variabilele dar liniar în raport cu parametri–este acea
reprezentare în care cel puţin una dintre variabilele explicative este la o putere
diferită de putera întâi de forme precum:
yˆ = a 0 + a1 x + a 2 x 2 ; yˆ = aX a Z β ( a ≠ 1, β ≠ 1 ), (11.3)
yˆ = a 0 + a1 (1 / x) etc.
► neliniar în raport cu parametrii dar liniar în raport cu variabilele, caz în care cel
puţin un parametru este la o putere diferită de puterea întâi, precum:
yˆ = a + a 2 x , yˆ = a x etc. (11.4)
► neliniar în raport cu variabilele şi cu parametrii - caz în care cel puţin o variabilă şi
cel puţin un parametru sunt la o putere diferită de puterea întâi, cum ar fi:
yˆ = a 2 x + a x 2 etc. (11.5)
Importanţa deosebită acordată funcţiei regresiei se transpune printr-o eficienţă
ridicată în utilizarea metodelor regresiei la nivelul multor domenii de activitate.
Conjunctura în care se aplică modelul unifactorial de regresie liniară vizează atingerea
unor ipoteze sintezate prin patru aspecte:
1. Stabilirea soluţiilor – are în vedere ca date utilizate:
• să fie obţinute fără erori simetrice de observare;
• să fie în număr suficient de mare (mai mare decât numărul parametilor astimaţi).
2. Variabila factorială (x)
• este nestocastică;
• are acelaşi valori în condiţiile repetării sondajului;
• este evidenţiată datorită variabilităţii nivelurilor înregistrate în cadrul eşantionului
(dispersia σ x2 ).
3. Modelul de regresie
• este liniar în raport cu parametrii;
• este corect stabilit prin:
161
∗ alegerea potrivită a formei funcţionale:
- liniară
- neliniară transformată în liniară
∗ cuprinderea celor mai importanţi factori verificată printr-o valoare destul de mare
a coeficienţilor de determinaţie ( R 2 ).
y
M (Y | X = X i ) = α + β X i
erori
pozitive
erori
negative
x1 x2 x3 x
• cuprinde o împrăştiere egală (figura 6.1) pentru diferite segmente de valori xi ceea
ce reprezintă ipoteza de homoscedasticitate:
Var (ε i ) = σ 2 constantă (∀ i )
16
Voineagu V., Ţiţan E., Şerban R., Ghiţă S., Todose D., Boboc C., Pele D., “Teorie şi practică econometrică”,
Editura Meteor Press, Bucureşti 2007, pag. 170
162
Y
X
0
Varianta 1:
17
Vezi Capitolul VII “Modelul regresiei liniare”, subcapitolul 7.1.1. “Stabilirea şi aplicarea modelului unifactorial
de regresie liniară”
163
n
n ∑y
i =1
i
n n
∆b
∑x ∑x y
i =1
i
i =1
i i
r= = , care conduce la
∆⋅∆y n n
n ∑x
i =1
i n ∑y
i =1
i
n n
⋅ n n
∑ xi
i =1
∑ xi2
i =1
∑ yii =1
∑y
i =1
2
i
relaţia:
n n n
n∑ xi y i − ∑ xi ⋅ ∑ y i
i =1 i =1 i =1
r= (11.6)
n
n 2
n
n
2
∑ xi2 − ∑ xi ∑ i
⋅ y 2
− ∑ i
y
i =1 i =1 i =1 i =1
Varianta 2:
s xy s xy
Din relaţiile r = şi b = rezultă că:
sx ⋅ s y s x2
sx
r = b⋅ (11.7)
sy
care va indica direcţia legăturii (vor avea aceeaşi interpretare în ceea ce priveşte direcţia
legăturii).
Tendinţa de liniaritate a legăturii dintre o variabilă rezultativă şi alta explicativă, de tip
factorial, este reflectată nu numai printr-o reprezentare grafică însoţită de aplicarea modelului de
regresie liniar, dar şi prin egalitatea dintre raportul de corelaţie ( R ) şi coeficientul de corelaţie
( r ): R = r .
► la nivelul eşantionului: y = f ( xi )
► pentru eşantion: yˆ i = a + b xi
Posibilităţile de aplicare practică a modelului de regresie unifactorială liniară are în
vedere următoarea reprezentare grafică din figura 7.2.
3
0,5 β = 0,5
2
1
y = 1 + 0,5 ⋅ x
1
α =1
x
1 2 3 4
165
Yi = Yˆi + ε i (11.9)
unde Yˆi = α + β xi .
y i = a + b xi + ei (11.10)
care poate şi scrisă şi sub forma:
yi = yˆ i + ei (11.11)
în care yˆ i = a + b xi
ε i = Yi − Υˆ i (11.12)
► pentru eşantion
ei = yi − yˆ i (11.13)
ne indică diferenţele ce apar între valorile reale (empirice) şi cele rezultate prin observare ( Υi
sau yi ).
Modelul unifactorial de regresie liniară poate fi aplicat la nivelul unui eşantion numai
dacă există posibilitatea estimării parametrilor incluşi în respectivul model.
166
Estimarea parametrilor (a, b ) se poate realiza prin aplicarea unei metode statistico-
matematice, cum ar fi: metoda celor mai mici pătrate, metodele bayesiene, metoda verosimilităţii
maxime.
Alegerea metodei celei mai fidele şi adecvate situaţiei în care se prezintă procesul studiat,
precum şi obţinerea unei calităţi ridicate a estimatorilor necesită respectarea următoarelor
criterii18:
• să fie cât mai mare gradul de determinare ( R 2 );
• abaterile stabilite între valorile empirice ( yi ) şi cele teoretice obţinute prin ajustare
∑ (y − yˆ i ) = minim;
2
( ŷi ) să fie cât mai reduse, a.î. i
i
n
Notând cu S = ∑ ( y i − a − bxi ) 2 , din condiţiile de optim de ordinul întâi:
i =1
∂S n
∂a = 0
∑
2 ( y i − a − bxi )(−1) = 0
⇒ i =n1 ⇒
∂S = 0 2 ( y − a − bx )(− x ) = 0
∂b ∑
i =1
i i i
n n n n
∑
2 ( a + bxi − y i ) = 0
i =1
∑
a+
i =1
∑
i =1
xi − ∑
i =1
yi = 0
n ⇒ n n n
2 ( ax + bx 2 − x y ) = 0 a x + b x 2 −
∑
i =1
i i i i ∑
i =1
i ∑
i =1
i
i =1
∑xi y i = 0
18
Pecican E. Ş., “Econometrie pentru... economişti”, Editura economică, Bucureşti 2007, pag. 64.
167
n n
na + b ∑
i =1
x i = ∑
i =1
yi
n n n (11.15)
a ∑ xi + b∑ xi2 = ∑ xi y i
i =1 i =1 i =1
∑y
i =1
i ∑x i =1
i
n n
∆a
∑ xi y i
i =1
∑x
i =1
2
i
a= = , de unde rezultă:
∆ n
n ∑xi =1
i
n n
∑ xi
i =1
∑x
i =1
2
i
n n n n
∑ yi ⋅ ∑ xi2 − ∑ xi ⋅ ∑ xi yi
i =1 i =1 i =1 i =1
a= 2
(11.16)
n
n
n∑ x 2i − ∑ xi
i =1 i =1
respectiv
n
n ∑x
i =1
i
n n
∆
∑ xi
i =1
∑x y
i =1
i i
n n
∑x
i =1
i ∑x
i =1
i
2
n n n
n ∑ xi y i − ∑ xi ⋅ ∑ y i
i =1 i =1 i =1
b= 2
(11.17)
n
n
n ∑ x − ∑ xi
i
2
i =1 i =1
Utilizarea modelului regresiei unifactoriale liniare nu permite numai stabilirea funcţiei de
regresie şi determinarea cu ajutorul sistemului de ecuaţii normale a parametrilor acestuia, ci
permite şi interpretarea estimatorilor determinaţi astfel:
168
Parametrul estimator a :
- este denumit şi termen liber;
- are caracter de mărime medie – indică valoarea variabilei rezultative y când toţi
factorii neesenţiali au o acţiune constantă (este nivelul mediu al variabilei y
determinată prin influenţa celorlalţi factori, în afara lui xi ).
169
Confirmarea de alegere şi utilizare corectă a modelului unifactorial de regresie liniară
este completă numai după parcurgerea următoarelor etape:
- testarea validităţii modelul unifactorial de regresie liniară utilizând metod ANOVA
- stabilirea şi testarea semnificaţiei raportului de corelaţie (R).
- testarea semnificaţiei parametrii modelului regresiei unifactoriale liniare şi estimarea lor pe
interval de încredere.
Exemplul 11.1.
În cadrul unui proiect este inclusă o cercetare care necesită studierea unui
eşantion format din 15 supermarket-uri. Studiul care trebuie realizat vizează analiza legăturii
care se stabileşte între salariul mediu acordat salariaţilor şi profitul înregistrat de respectivele
supermarket-uri, pe baza datelor din tabelul 6.2.
Profit
8 6 4 9 11 4 7 8 10 4 12 9 5 12 11
(mil. lei)
Salariul
mediu 32 22 18 30 40 15 25 24 35 21 35 27 20 36 33
(mii lei)
Se cere:
1 Să se stabilească direcţia şi intensitatea legăturii dintre salariul mediu acordat salariaţilor şi
profitul înregistrat de respectivele supermarket-uri.
2 Testaţi semnificaţia coeficientului de corelaţie determinat
Rezolvare:
yi - variabila dependentă = salariul mediu pe salariat (mii lei) acordat la nivelul fiecărui
supermarket
170
Determinarea coeficientului de corelaţie presupune parcurgerea algoritmului din tabelul
11.3.
∑ (x
i =1
i − x )( y i − y )
r=
n 2
n
2
( xi − x ) ⋅ ( y i − y )
∑ ∑
i =1 i =1
Valoarea coeficientului de corelaţie, r = + 0,93 ne arată că, între salariul mediu acordat
salariaţilor şi profitul înregistrat de respectivele supermarket-uri, există o legătură directă
puternică, deoarece r ∈ (0,75 ; 0,95) .
∑ (xi − x )( yi − y ) ∑ ( xi − x ) ∑ (y − y)
15
∑y
2 2
∑x
i =1
i i
i =1 i =1 i =1
i
i =1
= 120 = 413 = 279,53 = 118 = 763,49
171
2. Testarea semnificaţiei coeficientului de corelaţie
H o se respinge, deci coeficientul de corelaţie este semnificativ mai mare decât zero.
5. Statistica testului:
r 0,93
tc = ⋅ n−2 = ⋅ 15 − 2 = 9,13
1− r2 1 − 0,93 2
respinge, prin urmare coeficientul de corelaţie este semnificativ statistic (fiind semnificativ
mai mare decât zero).
172
4. Se stabileşte limita de semnificaţie α = 0,05 , de unde testul F tabelar sau teoretic este
atunci H o se respinge, deci coeficientul de corelaţie este semnificativ mai mare decât zero.
5. Statistica testului:
r2 0,932
Fc = ⋅ (n − 2 ) = ⋅ (15 − 2) = 83,23
1− r2 1 − 0,932
6. Concluzia se stabileşte în funcţie de relaţia: Fc > Fα ;1;n − 2 ( 83,23 > 4,67 ), deci H o se respinge,
prin urmare coeficientul de corelaţie este semnificativ statistic (fiind semnificativ mai mare
decât zero).
Exemplul 11.2.
Managerul unei structuri de primire turistică doreşte să stabilească, pe baza
unui model econometric, gradul de dependenţă a valorii încasărilor de numărul de turişti şi
durata medie a sejurului. Datele înregistrate de acesta sunt cele din tabelul (6.4).
Tabelul 11.4. Valoarea încasărilor pentru diverse durate ale sejurului şi numărul de turişti la nivelul
unei pensiuni
Valoarea încasărilor (UM) 7,4 6,7 6,0 6,3 6,8 7,9 10,5 8,8 8,4 6,3 5,9 9,5
Număr turişti (mii) 5,0 2,4 1,8 1,7 1,2 1,6 4,7 3,9 3,0 1,1 2,0 5,1
Durata medie a sejurului
4,5 3,5 4,0 4,5 5,0 5,5 6,0 6,5 5,0 4,0 4,0 4,5
(zile)
Se cere:
1. Să se stabilească direcţia şi intensitatea legăturilor dintre valoarea încasărilor,
numărul turiştilor şi durata medie a sejurului.
2. Testaţi semnificaţia coeficienţilor de corelaţie determinaţi
Rezolvare:
1. Stabilirea direcţiei şi intensităţii legăturilor dintre valoarea încasărilor, numărul
turiştilor şi durata medie a sejurului.
173
Valoarea încasărilor = f (nr. turişti, durata medie a sejurului)
Notaţii : yi - valoarea încasărilor (caracteristică dependentă)
Valoarea
Număr
încasărilor
2 2
turişti (mii) x1i yi x1i yi
(UM)
x1i
yi
∑ x1i ∑ yi ∑x ∑x ∑y
2 2
1i y i 1i i
i =1 i =1 i =1 i =1 i =1
= 33,5 = 90,5 = 271,44 = 118,41 = 706,99
174
n n n
n∑ x1i yi − ∑ x1i ⋅ ∑ y i
i =1 i =1 i =1
ry / x1 =
n
n
2
n
n
2
∑ x12i − ∑ x1i ∑ i ∑ i
⋅ y 2
− y
i =1 i =1 i =1 i =1
Durata
Valoarea
medie a
încasărilor 2 2
sejurului x 2i y i x 2i yi
(UM)
(zile)
yi
x 2i
4,5 7,4 33,30 20,25 54,76
3,5 6,7 23,45 12,25 44,89
4,0 6,0 24,00 16,00 36,00
4,5 6,3 28,35 20,25 39,69
5,0 6,8 34,00 25,00 46,24
5,5 7,9 43,45 30,25 62,41
6,0 10,5 63,00 36,00 110,25
6,5 8,8 57,20 42,25 77,44
5,0 8,4 42,00 25,00 70,50
4,0 6,3 25,20 16,00 39,69
4,0 5,9 23,60 16,00 34,81
4,5 9,5 42,75 20,25 90,25
12 12 12 12 12
∑x ∑ yi ∑ x 2i y i ∑ x 2i ∑y
2 2
2i i
i =1 i =1 i =1 i =1 i =1
= 57,00 = 90,50 = 440,30 = 279,50 = 706,93
n n n
n ∑ x 2 i y i − ∑ x 2i ⋅ ∑ y i
i =1 i =1 i =1
ry / x 2 =
n 2 n n 2 n
2
2
∑ x 2 i − ∑ x 2i ⋅ ∑ y i − ∑ y i
i =1 i =1 i =1 i =1
175
12 ⋅ 440,30 − 57 ⋅ 90,50
r y / x2 = = 0,71 valoare care ne indică existenţa unei
12 ⋅ 279,50 − 57 2 ⋅ 12 ⋅ 706,93 − 90,50 2
legături de intensitate medie stabilită între durata medie a sejurului şi valoarea încasărilor.
Se verifica dacă există interdependenţă între variabilele factoriale x1 (numărul turiştilor)
şi x2 (durata medie a sejurului). (tabelul 11.7)
Tabelul 11.7. Tabelul cu algoritmul de calcul pentru coeficientul de corelaţie ( rx1 ,x2 )
Durata
Număr
medie a
turişti 2 2
sejurului x1i x 2i x1i x2i
(mii)
(zile)
x1i
x 2i
5,0 4,5 22,50 25,00 20,25
2,4 3,5 8,40 5,76 12,25
1,8 4,0 7,20 3,24 16,00
1,7 4,5 7,65 2,89 20,25
1,2 5,0 6,00 1,44 25,00
1,6 5,5 8,80 2,56 30,25
4,7 6,0 28,2 22,09 36,00
3,9 6,5 25,35 15,21 42,25
3,0 5,0 15,00 9,00 25,00
1,1 4,0 4,40 1,21 16,00
2,0 4,0 8,00 4,00 16,00
5,1 4,5 22,95 26,01 20,25
12 12 12 12 12
n n n
n∑ x1i x 2 i − ∑ x1i ⋅ ∑ x 2 i
i =1 i =1 i =1
rx1x2 =
n 2 n n 2 n
2
2
∑ x1i − ∑ x1i ⋅ ∑ x 2 i − ∑ x 2 i
i =1 i =1 i =1 i =1
176
0,76 2 + 0,712 − 2 ⋅ 0,76 ⋅ 0,71 ⋅ 0,36
R y / x1 , x2 = ry / x1 , x2 = = 0,89
1 − 0,36 2
Coeficientul de corelaţie liniară multiplă obţinut indică existenţa unei legături puternice
între valoarea încasărilor şi cei doi factori principali de influenţă (numărul turiştilor şi durata
medie a sejurului).
Studierea legăturii dintre caracteristicile factoriale (numărul turiştilor şi durata medie a
sejurului) şi cea rezultativă (valoarea încasărilor), prin utilizarea coeficienţilor de corelaţie
parţiali, presupune stabilirea gradul de influenţă a fiecărei variabile factoriale în parte, asupra
celei rezultative, în condiţiile menţinerii constante a influenţei celeilalte variabile factoriale.
Astfel, rezultă:
ry / x1 − ry / x2 ⋅ rx1x2 0,76 − 0,71 ⋅ 0,36
ry / x1 ( x2 ) = = ≅ 0,77
(1 − r )(1 − r )
2
y / x2
2
x1 x2 (1 − 0,71 )⋅ (1 − 0,36 )
2 2
O influenţă de intensitate medie, dar destul de apropiată de cea puternică este remarcată
şi în cazul duratei medii a sejurului asupra valorii încasărilor, în condiţiile în care numărul mediu
al turiştilor s-a menţinut constant, fapt confirmat prin valoarea coeficientului de corelaţie:
ry / x2 ( x1 ) = 0,72 , deoarece ry / x2 ( x1 ) ∈ (0,5 ; 0,75) .
H o se respinge, deci coeficientul de corelaţie este semnificativ mai mare decât zero.
5. Statisticile testului calculate pentru cei trei indicatori sunt:
pentru coeficientul de corelaţie multiplă ( R y / x1 , x2 = ry / x1 , x2 = 0,89 ):
( )
t c ry / x1 , x2 =
r
⋅ n−2 =
0,89
⋅ 12 − 2 = 6,17
1− r 2
1 − 0,89 2
( )
t c ry / x1 ( x2 ) =
r
⋅ n−2 =
0,77
⋅ 12 − 2 = 3,81
1− r 2
1 − 0,77 2
( )
t c ry / x2 ( x1 ) =
r
⋅ n−2 =
0,72
⋅ 12 − 2 = 3,28
1− r 2
1 − 0,72 2
( )
t c ry / x1 ( x2 ) = 3,81 > 2,228 = tα ;n − 2 , deci H o se respinge, prin urmare acest
coeficient de corelaţie parţial este semnificativ statistic (fiind semnificativ mai mare
decât zero).
• pentru coeficientul de corelaţie parţial, cu factoriala x1 constantă
: t c (ry / x2 ( x1 ) ) = 3,28 > 2,228 = tα ;n − 2 , deci H o se respinge, prin urmare acest
178
coeficient de corelaţie parţial este semnificativ statistic (fiind semnificativ mai mare
decât zero).
Fc = Fα ;k ;n − k −1 = F0, 05;1;112 − 2 = F0, 05;1;10 = 4,96 şi regiunea de respingere Rr : dacă Fc > Fα ;1;n − 2 ,
atunci H o se respinge, deci coeficientul de corelaţie este semnificativ mai mare decât zero.
5. Statisticile testului calculate pentru cei trei indicatori sunt:
pentru coeficientul de corelaţie multiplă ( R y / x1 , x2 = ry / x1 , x2 = 0,89 ):
( )
F ry / x1 , x2 =
r2
⋅ (n − 2 ) =
0,89 2
⋅ (12 − 2) = 38,10
1− r2 1 − 0,89 2
pentru coeficientul de corelaţie parţial, cu factoriala x 2 constantă ( ry / x1 ( x2 ) = 0,77 ):
( )
F ry / x1 ( x2 ) =
r2
⋅ (n − 2 ) =
0,77 2
⋅ (12 − 2) = 14,56
1− r2 1 − 0,77 2
pentru coeficientul de corelaţie parţial, cu factoriala x1 constantă ( ry / x2 ( x1 ) = 0,72 ):
( )
F ry / x2 ( x1 ) =
r2
⋅ (n − 2 ) =
0,72 2
⋅ (12 − 2) = 10,76
1− r2 1 − 0,72 2
6. Concluzia se stabileşte în funcţie de regiunea de respingere şi valoarea calculată f c , astfel:
• pentru coeficientul de corelaţie multiplă: F (ry / x1 , x2 ) = 38,10 > 4,96 = Fα ;1;n− 2 , deci
179
• pentru coeficientul de corelaţie parţial, cu factoriala x2 constantă
: F (ry / x1 ( x2 ) ) = 14,56 > 4,96 = Fα ;1;n − 2 , deci H o se respinge, prin urmare acest
coeficient de corelaţie parţial este semnificativ statistic (fiind semnificativ mai mare
decât zero).
• pentru coeficientul de corelaţie parţial, cu factoriala x1 constantă
: F (ry / x2 ( x1 ) ) = 10,76 > 4,96 = Fα ;1;n − 2 , deci H o se respinge, deci H o se respinge,
prin urmare acest coeficient de corelaţie parţial este semnificativ statistic (fiind
semnificativ mai mare decât zero).
180
d. se realizează aplicând testul Student.
6. Se cunosc informații despre prețul a 5 case vândute în Ploiești, în zona de Sud, în anul
2012 și suprafața locuibilă a acestora.
Suprafața locuită 1,6 1,7 1,9 2,05 2,27
Prețul 2,5 2,6 2,7 2,7 2,8
181
Ecuația de regresie este:
a. Y=0,41+1,89 X
b. Y=0,32+1,22 X
c. Y=1,88+0,41 X
d. Y=2,33+1,56 X
7. Se cunosc informații despre prețul a 5 case vândute în Ploiești, în zona de Sud, în anul
2012 și suprafața locuibilă a acestora.
Suprafața locuită 1,6 1,7 1,9 2,05 2,27
Prețul 2,5 2,6 2,7 2,7 2,8
182
9. Se cunosc informații cu privire la notele obținute de 10 studenți la disciplina
econometrie, precum și numărul de absențe acumulate de aceștia.
X (Nr absente) 8 3 0 5 2 4 1 3 5 1
Y (Nota) 4 8 10 6 8 7 9 9 5 10
Rezumat
Metoda regresiei este fundamentată pe măsurarea şi previzionarea influenţei pe care unul
sau mai mulţi factori o poate avea asupra evoluţiei unui fenomen sau proces economic. În cazul
modelului liniar unifactorial numărul factorilor este egal cu 1. Deoarece, în cadrul metodei apar
valori perechi de variabile utilizate şi parametri corespunzători acestora sub forma mediilor,
183
dispersiilor, abaterilor standard, etc, aceasta reprezintă o componentă a metodelor parametrice de
măsurare şi analiză a legăturilor formate în cadrul derulării unor procese sau fenomene
economice.
Forma generală a modelului ce reflectă influenţa factorului x asupra rezultativei y
Estimarea parametrilor (a, b ) se poate realiza prin aplicarea unei metode statistico-
matematice, cum ar fi: metoda celor mai mici pătrate, metodele bayesiene, metoda verosimilităţii
maxime.
Testarea validităţii modelului şi a semnificaţiei statistice a parametrilor acestuia se
efectuează cu ajutorul ANOVA. De asemenea se determină şi se testează raportul de corelaţie şi
coeficientul de detrminaţie.
Bibliografie
184
Răspunsuri la testele de autoevaluare
Test de autoevaluare 1B 9. c;
1. a; 10. c.
2. A: a+b+c;
Test de autoevaluare 4B
3. a;
1. c;
4. b;
2. c;
5. b;
3. a;
6. d;
4. a;
7. c;
5. b;
8. b;
6. c;
9. a;
7. c;
10. a.
8. a;
Test de autoevaluare 2B 9. d;
1. b; 10. a.
2. b;
Test de autoevaluare 5B
3. c;
1. a;
4. b;
2. a;
5. d.
3. a;
Test de autoevaluare 3B 4. b;
1. d; 5. a;
2. a; 6. A;
3. c; 7. b;
4. b; 8. d;
5. b; 9. c;
6. a; 10. b.
7. b;
8. a;
185
2. b
Test de autoevaluare 6B 3. c
4. d
1. a;
2. a; Test de autoevaluare 10B
3. b; 1. d
4. b; 2. a
5. d; 3. C
6. b; 4. b
7. b; 5. c
8. c; 6. b
9. b;
10. a.
Test de autoevaluare 11B
Test de autoevaluare 7B
1. B
1. b;
2. b
2. c;
3. b
3. a;
4. d
4. c;
5. b
5. a;
6. a
6. c;
7. c
7. c;
8. c
8. b.
9. a
Test de autoevaluare 8B 10. a
1. b;
2. b;
3. a;
4. d;
5. c.
Test de autoevaluare 9B
1. b
186
Anexa 1
Distribuţia normală.
x2
z 1 −
Funcţia integrală a lui Laplace Φ (z ) = ∫ e 2 dx
0 2π
0,00 0,00000 0,30 0,11790 0,60 0,22575 0,90 0,31595 1,20 0,38495
0,01 0,00400 0,31 0,12170 0,61 0,22905 0,91 0,31860 1,21 0,38685
0,02 0,00800 0,32 0,12550 0,62 0,23235 0,92 0,32120 1,22 0,38875
0,03 0,01195 0,33 0,12930 0,63 0,23565 0,93 0,32380 1,23 0,39065
0,04 0,01595 0,34 0,13305 0,64 0,23890 0,94 0,32640 1,24 0,39250
0,05 0,01995 0,35 0,13685 0,65 0,24215 0,95 0,32895 1,25 0,39435
0,06 0,02390 0,36 0,14060 0,66 0,24535 0,96 0,33145 1,26 0,39615
0,07 0,02790 0,37 0,14430 0,67 0,24855 0,97 0,33400 1,27 0,39795
0,08 0,03190 0,38 0,14805 0,68 0,25175 0,98 0,33645 1,28 0,39975
0,09 0,03585 0,39 0,15175 0,69 0,25490 0,99 0,33890 1,29 0,40150
0,10 0,03985 0,40 0,15540 0,70 0,25805 1,00 0,34135 1,30 0,40320
0,11 0,04380 0,41 0,15910 0,71 0,26115 1,01 0,34375 1,31 0,40490
0,12 0,04775 0,42 0,16275 0,72 0,26425 1,02 0,34615 1,32 0,40660
0,13 0,05170 0,43 0,16640 0,73 0,26730 1,03 0,34850 1,33 0,40825
0,14 0,05565 0,44 0,17005 0,74 0,27035 1,04 0,35085 1,34 0,40990
0,15 0,05960 0,45 0,17365 0,75 0,27335 1,05 0,35315 1,35 0,41150
0,16 0,06355 0,46 0,17725 0,76 0,27635 1,06 0,35545 1,36 0,41310
0,17 0,06750 0,47 0,18130 0,77 0,27935 1,07 0,35770 1,37 0,41465
187
z Ф(z) z Ф(z) z Ф(z) z Ф(z) z Ф(z)
0,18 0,07140 0,48 0,18440 0,78 0,28230 1,08 0,35995 1,38 0,41620
0,19 0,07535 0,49 0,18795 0,79 0,28525 1,09 0,36215 1,39 0,41775
0,20 0,07925 0,50 0,19145 0,80 0,28815 1,10 0,36435 1,40 0,41925
0,21 0,08315 0,51 0,19495 0,81 0,29105 1,11 0,36650 1,41 0,42075
0,22 0,08705 0,52 0,19845 0,82 0,29390 1,12 0,36875 1,42 0,42220
0,23 0,09095 0,53 0,20195 0,83 0,29675 1,13 0,37075 1,43 0,42365
0,24 0,09485 0,54 0,20540 0,84 0,29955 1,14 0,37285 1,44 0,42505
0,25 0,09870 0,55 0,20885 0,85 0,30235 1,15 0,37495 1,45 0,42645
0,26 0,10255 0,56 0,21225 0,86 0,30510 1,16 0,37700 1,46 0,42785
0,27 0,10640 0,57 0,21565 0,87 0,30785 1,17 0,37800 1,47 0,42920
0,28 0,11025 0,58 0,21655 0,88 0,31055 1,18 0,38100 1,48 0,43055
0,29 0,11410 0,59 0,22240 0,89 0,31325 1,19 0,38300 1,49 0,43190
188
Distribuţia normală
x2
z 1 −
Funcţia integrală a lui Laplace Φ (z ) = ∫ e 2 dx (continuare)
0 2π
1,50 0,43320 1,72 0,45730 1,94 0,47380 2,32 0,48985 2,76 0,49710
1,51 0,43450 1,73 0,45820 1,95 0,47440 2,34 0,49035 2,78 0,49730
1,52 0,43575 1,74 0,45905 1,96 0,47500 2,36 0,49085 2,80 0,49745
1,53 0,43700 1,75 0,45995 1,97 0,47560 2,38 0,49135 2,82 0,49760
1,54 0,43820 1,76 0,46080 1,98 0,47615 2,40 0,49180 2,84 0,49775
1,55 0,43945 1,77 0,46165 1,99 0,47670 2,42 0,49225 2,86 0,49790
1,56 0,44060 1,78 0,46245 2,00 0,47725 2,44 0,49265 2,88 0,49800
1,57 0,44180 1,79 0,46325 2,02 0,47830 2,46 0,49305 2,90 0,49810
1,58 0,44295 1,80 0,46405 2,04 0,47935 2,48 0,49345 2,92 0,49825
1,59 0,44410 1,81 0,46485 2,06 0,48030 2,50 0,49380 2,94 0,49835
1,60 0,44520 1,82 0,46560 2,08 0,48125 2,52 0,49415 2,96 0,49845
1,61 0,44630 1,83 0,46640 2,10 0,48215 2,54 0,49445 2,98 0,49855
1,62 0,44740 1,84 0,46710 2,12 0,48300 2,56 0,49475 3,00 0,49865
1,63 0,44845 1,85 0,46785 2,14 0,48380 2,58 0,49505 3,20 0,49930
1,64 0,44950 1,86 0,46855 2,16 0,48460 2,60 0,49535 3,40 0,49965
1,65 0,45055 1,87 0,46925 2,18 0,48535 2,62 0,49560 3,60 0,49984
1,66 0,45155 1,88 0,46995 2,20 0,48610 2,64 0,49585 3,80 0,49993
1,67 0,45255 1,89 0,47060 2,22 0,48670 2,66 0,49610 4,00 0,49996
1,68 0,45350 1,90 0,47130 2,24 0,48745 2,68 0,49630 4,50 0,49999
1,69 0,45450 1,91 0,47195 2,26 0,48810 2,70 0,49655 5,00 0,50000
189
Anexa 2
Distribuţia χ
2
α
0,990 0,975 0,950 0,900 0,100
l
190
α
0,990 0,975 0,950 0,900 0,100
l
191
Distribuţia χ2
Funcţie de probabilitatea P( χ 2 > χα2 ) = δ
(continuare)
α
0,050 0,025 0,010 0,001
l
192
α
0,050 0,025 0,010 0,001
l
193
Anexa 3
Distribuţia Student (t )
α
0,50 0,20 0,10 0,05 0,02
l
194
Nivel de semnificaţie pentru testul bilateral
α
0,50 0,20 0,10 0,05 0,02
l
195
Distribuţia Student (t )
Funcţia P(t ≤ tα ) şi numărul l al gradelor de libertate
(continuare)
α Nivel de semnificaţie pentru testul bilateral
196
α Nivel de semnificaţie pentru testul bilateral
α
0,25 0,10 0,05 0,025 0,01
. ƒ
197
Distribuţia Student (t )
(continuare)
α
0,01 0,002 0,001 0,0001
l
198
17 2,898 3,646 3,965 5,014
α
0,01 0,002 0,001 0,0001
l
199
Distribuţia Student (t )
(continuare)
Nivel de semnificaţie pentru testul bilateral
α
0,01 0,002 0,001 0,0001
l
200
α
0,01 0,002 0,001 0,0001
l
α
0,005 0,001 0,0005 0,00005
l
201
Anexa 4
Distribuţia Fisher-Snedecor (F )
202
22 4,30 3,44 3,05 2,92 2,66
I1 1 2 3 4 5
I2
23 4,28 3,42 3,03 2,80 2,64
203
Distribuţia Fisher-Snedecor (F )
204
22 2,55 2,40 2,23 2,03 1,78
I1 . a 6 7 8 12
I2 ∞
205
Distribuţia Fisher-Snedecor (F )
206
23 7,88 5,66 4,76 4,26 3,94
I1 1 2 3 4 5
I2
24 7,82 5,61 4,72 4,22 3,90
207
Distribuţia Fisher-Snedecor (F )
208
22 3,76 3,45 3,12 2,75 2,31
I1 . a 6 8 12 24
I2 ∞
209
Distribuţia Fisher-Snedecor (F )
210
22 14,38 9,61 7,80 6,81 6,19
I1 1 2 3 4 5
I2
23 14,19 9,47 7,67 6,67 6,08
211
Distribuţia Fisher-Snedecor (F )
212
22 5,76 5,19 4,58 3,92 3,15
I1 . a 6 8 12 24
I2 ∞
213
Bibliografie
Bădiţă M., Baron T., Statistică pentru afaceri, Editura Eficient, Bucureşti, 1998
Korka M.
Bădiţă M., Baron T., Statistică pentru afaceri în comerţ – turism, vol 1, 2,
Cristache S.E. Editura Luceafărul, Bucureşti, 2002
214
M., Rate Evolution in Romania”, in Recent Advances in
Fuzzy Systems, Proceedings of the 10th WSEAS
Int.Conf. on Fuzzy Systems (FS’09), p.116-121, Prague,
Czech Republic, 2009, (ISI/SCI)
Hannan E.J., Deistler The Statistical Theory of Linear Systems, New York:
M. Wiley, 1988
Oprescu Gh., Spircu L., Bazele ciberneticii economice, Editura Inforec Bucureşti,
Zaharia M. 1997
215
Şerban R., Ghiţă S., 2007
Tudose D., Boboc C.,
Pele D.
Wonnacott T.H., Introductory Statistics for Business and Economics, New
Wonnacott R.J., York:Wiley,1990
Zaharia M., Zaheu I., Study Regarding SNP Petrom Stock List Evolution by
Stan E. R. Using Autoregressive Models, International Conference
Economy and Business Sunny Beach Bulgaria, in
„Economic & Business / International Scientific
Publications 2008”, vol 2, Part 1, 2008
216