Documente Academic
Documente Profesional
Documente Cultură
Curs 4
Curs 4
REGRESIA SIMPLĂ
yˆ i aˆ xi bˆ i 1, n (2.3)
unde:
31
ŷi reprezintă valorile teoretice ale variabilei y obţinute numai în funcţie
de valorile factorului esenţial x şi de valorile estimatorilor parametrilor
a şi b, respectiv â şi b̂ ;
ui yi yˆ i a aˆ xi b bˆ reprezintă estimaţiile valorilor variabilei
reziduale.
Estimarea parametrilor modelului linear se bazează pe determinarea dreptei
care să minimizeze erorile de ajustare.
Grafic, prin metoda celor mai mici pătrate se determină acea dreaptă care
asigură cea mai bună ajustare a punctelor empirice (dreapta de regresie), adică
aceea pentru care se minimizează suma pătratelor (figura 2.1).
310000
305000
300000
295000
290000 y = 1.076x + 234117
285000 R2 = 0.9829
280000
40000 45000 50000 55000 60000 65000 70000 75000 80000 85000 90000
Depozite gospodarii populatie (mil RON, sf. perioada)
2
n
2
i 1
n
i 1
F aˆ , bˆ ui yi yˆ i yi aˆ xi bˆ
2
i 1
n
(2.4)
unde: F aˆ , bˆ repreintă suma pătratelor abaterilor u dintre valorile înregistrate ale
variabilei yi şi valorile calculate ŷi
Minimul funcţiei se obţine dacă este satisfăcută:
32
F aˆ , bˆ
0
aˆ
i) condiţia necesară: (2.5)
F aˆ , bˆ 0
bˆ
Se obţine astfel sistemul de ecuaţii normale:
F aˆ , bˆ n
n
0 2 y i aˆ xi bˆ xi 0 y i aˆ xi bˆ xi 0
aˆ i 1 i 1
F aˆ , bˆ 0 2 n y aˆ x bˆ 0
n
y i aˆ xi bˆ 0
bˆ i 1
i i
i 1
(2.6)
n bˆ aˆ n x n y
i i
i 1 i 1
n n n
(2.7)
bˆ xi aˆ xi2 xi yi
i 1 i 1 i 1
2 F aˆ , bˆ
2 F aˆ , bˆ
2 F aˆ , bˆ
0 şi 2
aˆ 2 aˆ bˆ
0
ii) condiţia suficientă:
aˆ 2 F aˆ , bˆ
2 F aˆ , bˆ
bˆ aˆ bˆ 2
(2.8)
care este evident satisfăcută pentru orice valori obţinute prin rezolvarea sistemului
(2.6), deoarece:
2 F aˆ , bˆ
2
n
xi2 0; xi R, i 1, n şi nu toţi nuli
aˆ 2
i 1
2 F aˆ , bˆ 2 F aˆ , bˆ n
2 xi ;
2 F aˆ , bˆ
2n
aˆ bˆ bˆ aˆ i 1 bˆ 2
Prin urmare,
n n
n x2
2 xi2 2 xi 2
4n xi2 4 xi 4n 2 i 1 x 4n 2V x 0 ,
n n i 2
i 1
n
i 1
2 xi 2n i 1 i 1 n
i 1
relaţie echivalentă din proprietatea varianţei.
33
Estimarea parametrilor funcţiei de regresie se face prin rezolvarea sistemului
(2.7).
Parametru “ â ” se numeşte coeficient de regresie şi exprimă sensul şi
mărimea influenţei lui x asupra lui y.
Dacă “ â ” este o valoare pozitivă, atunci aceasta indică o legătură directă.
Dacă “ â ” este negativ indică o legătură indirectă.
Mărimea parametrului “ â ” arată cu cât se modifică variabila rezultativă la
creşterea cu o unitate a factorului de influenţă.
cov x, y xi x y j y nij
1 k p
(2.10)
n i 1 j 1
unde:
k
xi ni
n
x k
i 1
xi
ni x n
i 1
i 1
p
sau, pentru o serie simplă: n
(2.11)
yj nj yi
y j 1 y i 1
p n
nj
j 1
34
şi reprezintă mediile variabilelor considerate;
nij defineşte numărul unităţilor pentru care valorile variabilei x aparţin
modalităţilor xi , iar cele ale variabilei y aparţin modalităţilor y j .
k
xi x ni
2
V x i 1
k
reprezintă varianţa marginală a caracteristicii x
ni
i 1
(2.12)
1 k
(pentru o serie simplă devine: V x xi x ni )
2
n i 1
În aceste condiţii, relaţia (2.9) devine:
n
xi x yi y
aˆ i 1
n
(2.13)
xi x
2
i 1
n xi x i n y i y i
i 1 i 1 i 1 i 1
Proprietăţile indicatorului:
a) r este o măsură simetrică în raport cu cele două variabile r x, y r y, x ;
35
b) dacă x şi y sunt două variabile independente, atunci r x, y 0 ;
c) coeficietul de corelaţie este egal cu unu, dacă şi numai dacă x şi y sunt
două variabile corelate funcţional.
Observaţie: cu cât r este mai mare cu atât intensitatea legăturii dintre cele
două variabile este mai puternică.
y aˆ x bˆ
Scăzând cele două relaţii se obţine: yˆ y aˆ xi x (2.15)
Raportului de corelaţie (de determinare) este definit prin relaţia:
n
yˆ y
2
R2 i 1
n
şi din yˆ i aˆ xi bˆ i 1, n (2.16)
yi y
2
i 1
V x
R2 i 1
i 1
aˆ 2 (2.17)
n n
V y
yi y yi y
2 2
i 1 i 1
cov x, y
dar, aˆ rezultă că:
V x
cov 2 x, y V x cov x, y
2
R
2
r 2 (2.18)
V x V y x y
2
36
b) oricare ar fi două variabile x şi y este adevărată relaţia de ordine:
0 r 2 R2 1;
c) dacă legătura dintre două variabile nu este lineară, atunci coeficientul
linear de corelaţie nu mai are nici o semnificaţie.
Demonstraţie:
Din relaţia uˆi yi yˆ i , i 1, n , prin însumare, rezultă:
i 1 i 1 i 1 i 1 i 1
b) dacă r este coeficientul de corelaţie dintre cele două variabile, atunci are
loc relaţia:
2 uˆ 1 r 2 2 y (2.20)
1 n 2
în care s-a făcut notaţia: 2 uˆ ui
n i 1
Demonstraţie:
1 n 2 1 n 1 n
2 uˆ u i y i yˆ i 2
yi y y yˆ i 2
n i 1 n i 1 n i 1
1 n n n
2
y y 2
2 y y y yˆ y ˆ
y
n i 1
i i i i
i 1 i 1
37
Înlocuind în expresia de mai sus ultima relaţie obţinută, rezultă:
n i 1 i 1 i 1
n n n
yi y yi y xi x xi x
2 2
i 1
2aˆ i 1 aˆ 2 i 1
n n n
y 2aˆcov x, y aˆ x
2 2 2
cov x, y
2 y aˆ 2 2 x 2aˆ x y
x y
cov 2 x, y 2
y 2
x 2aˆr x y
4 x
cov x, y 2 cov x, y
2 y x 2 2 r x y
x y x
cov x, y 2
2 y r 2 2 y 2 r y 2 y r 2 2 y 2r 2 2 y
x y
2 y 1 r 2
n
ˆ x aˆ x 2 y
n n
n ˆ
c b i i i
i 1 i 1 i 1
n
n n n
i
ˆ i i xi y i
2 3
cˆ x b x aˆ x (2.22)
i 1 i 1 i 1 i 1
n n n n
cˆ xi b xi aˆ xi xi yi
2 ˆ 3 4 2
i 1 i 1 i 1 i 1
38
Figura 2.2. Regresia parabolică
7
y
6
2
y = 0.9801x 2 - 3.865x + 5.8451
1 R2 = 0.9517
0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x
yi a b xi , i 1, n (2.23)
yˆ i aˆ bˆ xi , i 1, n ;
39
4. se calculează raportul de corelaţie pentru a măsura intensitatea legăturii
dintre cele două variabile.
5.5
5
4.5 y = 4.8371x -0.432
4 R2 = 0.949
3.5
2.5
2
0.9 1.4 1.9 2.4 2.9 3.4 3.9 4.4 4.9
n 1 ˆ
n
ˆ
a
x
n b yi
i 1 i i 1
n (2.27)
aˆ 1 bˆ 1 yi
n n
i 1 xi2 i 1 xi i 1 xi
aˆ ˆ
2. se calculează valorile ajustate: yˆ i b, i 1, n (2.28)
xi
3. se calculează raportul de corelaţie
40
Exemplul 2.1:
Se consideră veniturile şi chetuielie din sistemul public de sănătate românesc
în perioada 1999-2008 (tabelul 2.1). Pentru determinarea parametrilor ecuaţiei de
regresie este necesar calculul unor valori ajutătoare: x 2 , xy , y 2 .
Venituri Cheltuieli
totale totale
(mld.lei) (mld.lei)
Nr. y xy
Ani x x2 y2 ŷ u
crt.
1 1999 1.8386 1.5958 3.38 2.93 2.55 1.72865 -0.13
2 2000 2.8456 2.5535 8.10 7.27 6.52 2.7366 -0.18
3 2001 4.1734 3.7423 17.42 15.62 14.00 4.06566 -0.32
4 2002 5.4801 4.8349 30.03 26.50 23.38 5.37361 -0.54
5 2003 5.5127 6.2283 30.39 34.33 38.79 5.40624 0.82
6 2004 6.8774 7.0014 47.30 48.15 49.02 6.77223 0.23
7 2005 8.4744 9.1574 71.82 77.60 83.86 8.37075 0.79
8 2006 10.7572 10.1705 115.72 109.41 103.44 10.6557 -0.49
9 2007 13.0806 12.8591 171.10 168.20 165.36 12.9813 -0.12
10 2008e 16.9235 16.7752 286.40 283.90 281.41 16.8279 -0.05
suma 75.9635 74.9184 781.655 773.91 768.32 74.9187 0.00
e = estimat
41
Figura 2.4. Diagrama legăturii venituri - chetuieli în sistemul public de sănătate
românesc şi dreapta de regresie
18
Ch eltu ieli to tale (m ld .RON) 16
14
12
10
8 y = 1.0009x - 0.1117
6 R2 = 0.9901
0
0 2 4 6 8 10 12 14 16 18
Venituri totale (mld.RON)
42