Sunteți pe pagina 1din 9

Modelul de regresie liniar simpl

Partea I.
Probleme rezolvate
1. Au fost reprezentate cu ajutorul norului de puncte observa|iile cu privire la evolu|ia
exporturilor msurate lunar (EXP) din Romnia din perioada ianuarie 2001 septembrie
2010, n func|ie cursul de schimb mediu lunar Euro/RON (CS), rezultnd urmtorul nor de
puncte:
Comenta|i aspectul norului de puncte si formula|i o ipotez cu privire la forma
legturii dintre cele dou variabile.
Soluie:
Analiza modului n care sunt dispuse punctele pe suprafa|a graficului permite
studierea urmtoarelor aspecte, legate de:
- existena legturii: ntruct punctele sunt grupate, sunt plasate pe o dreapt, ce
reflect deci c cele dou variabile se modific simultan dup o anumit regul, putem afirma
faptul c ntre X si Y exist o legtur la nivel de esantion. Dac acestea ar fi mprstiate pe
toat suprafa|a graficului, fr o regul clar, ntre variabile nu ar exista nicio legtur.
- sensul legturii: ntruct majoritatea punctelor sunt localizate pe o dreapt
ascendent, legtura este direct, ceea ce nseamn c o crestere a cursului de schimb
Euro/RON determin cresterea exporturilor. Dac punctele s-ar situa pe o dreapt
descendent, legtura dintre variabile ar fi fost invers.
- forma legturii: forma fsiei pe care sunt repartizate punctele sugereaz forma
legturii dintre cele dou variabile. n cazul nostru fsia este liniar (se aseamn cu o
dreapt), fapt ce sugereaz o legtur liniar, Y = aX + b + c; dac punctele s-ar situa pe o
parabol, legtura ar fi una de gradul doi, Y = aX
2
+ bX + c + c.
- intensitatea legturii: l|imea fsiei pe care se afl punctele este invers
propor|ional cu intensitatea legturii o fsie lat indic o legtur de intensitate mic, o
fsie ngust, una puternic, strns. n cazul nostru fsia relativ ngust sugereaz existen|a
unei legturi de intensitate medie spre puternic la nivelul esantionului de valori.
2. Pentru caracterizarea poten|ialului economic al unei localit|i, pentru anul 2010 s-au
nregistrat valorile cifrei de afaceri (Y) si a numrului de angaja|i (X) la nivelul a 50 de firme.
n urma prelucrrii seriilor de date , )
i
i=1,50
y si , )
i
i=1,50
x , s-au ob|inut urmtoarele date:
Y X
Media n esantion 10 mil. RON 8,1 persoane
Coeficientul de
omogenitate (abatere
medie ptratic/medie)
0,2 0,15
De asemenea, se cunoaste valoarea

, )

, ) t t
y -Y x -X 2160 =

S se estimeze parametrii modelului liniar de regresie folosit pentru analiza


comportamentului variabilei Y n func|ie de X.
Soluie:
Pentru determinarea valorii parametrilor modelului liniar de regresie se va folosi
metoda celor mai mici ptrate. Formulele de calcul pentru estimatorii celor doi coeficien|i ai
modelului de regresie liniar simpl
t t t
Y = aX + b + c sunt:

, )

, )

, )

, )

, )

, )
, )

t t
t t
2 2 2
X
t t
y -Y x -X
y -Y x -X
cov X,Y
T
a = =
o
x -X x -X
T
=

b = Y - aX
Din enun| se cunosc valorile:

X 8,1 = ,

Y 10 = ,

, )

, ) t t
y -Y x -X 2160 =

. De asemenea, se stie c valoarea


coeficientului de omogenitate este

X
X
X
V = 0,15
o
= si

Y
Y
Y
V = 0, 2
o
= . Numrul de observa|ii
care a stat la baza efecturii calculelor este T = 50.
Pentru determinarea valorii estimatorului coeficientului a, vom folosi formula:

, )

, )

, )

, )

, )

t t t t
2 2
X
t
y -Y x -X y -Y x -X
T T
a =
o
x -X
T
=

n aceast formul se cunosc toate mrimile, mai pu|in


2
X o , dar acesta se poate
determina din valoarea

X
X
X
V = 0,15
o
= .

X
X
X 8,1
o 54
V 0,15
= = = deci

2
X o =54
2
=2916
Deci

, )

, )

t t
2
X
y -Y x -X
2160
50 T
a 0, 0148
2916
o
= = =

iar

b = Y - aX 10 0, 0148 8,1 9,8801 = =


Deci modelul de regresie liniar simpl
t t t
Y = aX + b + c se scrie:
Y
t
= 0,0148X
t
+9,8801.
3. n scopul evalurii impactului pe care varia|ia pre|ului unui produs l are asupra
varia|iei cantit|ilor vndute, a fost selectat un esantion reprezentativ de 100 de magazine, n
care s-au urmrit valorile urmtoarelor variabile:
- Q - cantitatea vndut din produsul respectiv (kg);
- P - pre|ul produsului (RON)
A fost folosit pentru estimarea parametrilor urmtorul model, ale crui rezultate
ob|inute n Excel sunt prezentate mai jos:
Q = a + b P + c
SUMMARY OUTPUT
Regression statistics
Multiple R 0,913173052
R Squared 0,833885023
Adjusted R Squared 0,813120651
Standard Error 10,73509502
Observations 100
Coefficients Standard Error
Intercept 29,32363674 20,687667
Pret -0,068972606 0,0108839
a) Testa|i semnifica|ia raportului de corela|ie al modelului de regresie la nivelul
popula|iei totale, cu probabilitatea de 95%, (F
tab
= 5,32);
b) Testa|i semnifica|ia coeficien|ilor modelului, cu probabilitatea de 95%, (t
tab
= 1,96);
c) Determina|i intervalele de ncredere pentru coeficien|ii modelului, cu probabilitatea
de 95%, (t
tab
= 1,96).
Soluie:
a) Pentru testarea semnifica|iei raportului de corela|ie se foloseste testul Fisher.
n cazul nostru, valorea raportului de corela|ie la nivel de esantion ob|inut este

2
Y/X R =0,83 (R squared din primul tabel) fapt care subliniaz existen|a unei puternice legturi
la acest nivel deoarece

j
2
Y/X R 0, 75, 1 e . Dac valoarea

j
2
Y/X R 0, 5, 75 e legtura este de
intensitate medie, iar dac

j
2
Y/X R 0, 0,5 e ea este de intensitate slab, sau chiar este
inexistent.
ntrebarea pe care ne-o punem este dac la nivelul popula|iei totale se men|ine aceeasi
legtur puternic. n acest sens, dorim s stabilim dac valoarea corespunztoare a raportului
de corela|ie la nivelul popula|iei totale, notat cu
2
Y/X
R difer sau nu semnificativ de zero. O
valoare a acestui raport egal cu zero sugereaz faptul c legtura dintre variabile la nivelul
popula|iei totale este practic inexistent.
Se emit deci ipotezele:
H
0
:
2
Y/X
R = 0 cu alternativa
H
1
:
2
Y/X
R = 0
Pentru determinarea veridicit|ii uneia dintre aceste ipoteze se compar F
calculat
(F -
statistic) cu F
tabelar
.
Valoarea F
calculat
se determin cu ajutorul rela|iei

2
Y/X
calc 2
Y/X
R T-p
F
p-1
1-R
=
unde
T numrul de observa|ii
p numrul de parametri estima|i n model
n cazul nostru:
T = 100 (Observations = 100 , n primul tabel)
p = 2 deoarece au fost estima|i doi parametri, a si b.
Deci:

2
Y/X
calc 2
Y/X
R T-p 0.83 100 2
F 478
p-1 1 0.83 2 1
1-R

= = =

Regulile de decizie sunt:
- dac
calc tab
F < F , nu se poate respinge ipoteza H
0
, ceea ce nseamn c valoarea
raportului de corela|ie la nivelul popula|iei totale nu difer semnificativ de zero, acest lucru
garantndu-se cu o probabilitate de 95%.
- dac
calc tab
F F > , ipoteza H
0
se respinge, si se accept ca fiind adevrat, cu o
probabilitate de 95%, ipoteza H
1
, ceea ce nseamn c valoarea raportului de corela|ie la
nivelul popula|iei totale difer semnificativ de zero.
n cazul nostru, F
calc
>F
tab
, 478 > 5,32, deci H
1
este adevrat, putem afirma, cu
probabilitatea de 95%, c la nivelul popula|iei totale exist o legtur ntre cele dou variabile
alese si anume cantitatea vndut si pre|ul produsului. Cu ct diferen|a dintre cele dou valori,
cea calculat si cea tabelar este mai mare, cu att legtura dintre cele dou variabile este mai
puternic. n cazul nostru, diferen|a este foarte mare, deci intensitatea legturii la nivelul
popula|iei totale este foarte mare.
b) Testarea semnifica|iei coeficien|ilor se face cu ajutorul testului Student. Vom aplica
si noi acest test, pentru a verifica dac valoarea coeficientului a respectiv b este semnificativ
diferit de 0. Valoarea tabelar pentru probabilitatea de 95% si 95 grade de libertate este 1,96.
Pentru coeficientul a se emit ipotezele:
H
0
: a = 0 cu alternativa
H
1
: a = 0

calc
a
a 29, 32
t = 1, 417
20, 68
o
= =

unde
a

- termenul liber (Intercept, al doilea tabel, prima linie, coloana 2)

a o

- abaterea medie ptratic a coeficientului a (Standard error, al doilea tabel, prima


linie, coloana 3).
Regulile de decizie sunt:
- dac
calc tab
t t < , nu se poate respinge ipoteza H
0
, ceea ce nseamn c valoarea
termenului liber la nivelul popula|iei totale nu difer semnificativ de zero, acest lucru
garantndu-se cu o probabilitate de 95%.
- dac
calc tab
t t > , ipoteza H
0
se respinge, ceea ce nseamn c valoarea termenului
liber la nivelul popula|iei totale difer semnificativ de zero, acest lucru garantndu-se cu o
probabilitate de 95%.
n cazul nostru ipoteza H
0
nu se poate respinge, deoarece 1,417 1, 96 < , deci, cu o
probabilitate de 95%, se poate afirma c, la nivelul popula|iei totale, valoarea coeficientului a
nu difer semnificativ de zero. Acest fapt nu afecteaz semnificativ modell deoarece a este
termenul liber.
Pentru coeficientul b se emit ipotezele:
H
0
: b = 0 cu alternativa
H
1
: b = 0

calc
b
b 0, 068
t = 6,8
0, 01
o

= =
unde

b - coeficientul variabilei independente (Pre, al doilea tabel, a doua linie, coloana 2)

b o - abaterea medie ptratic a coeficientului b (Standard error, al doilea tabel, a doua


linie, coloana 3).
Regulile de decizie sunt:
- dac
calc tab
t t < , nu se poate respinge ipoteza H
0
, ceea ce nseamn c valoarea
coeficientului variabilei independente la nivelul popula|iei totale nu difer semnificativ de
zero, acest lucru garantndu-se cu o probabilitate de 95%.
- dac
calc tab
t t > , ipoteza H
0
se respinge, ceea ce nseamn c valoarea
coeficientului variabilei independente la nivelul popula|iei totale difer semnificativ de zero,
acest lucru garantndu-se cu o probabilitate de 95%.
n cazul nostru ipoteza H
0
se respinge, deoarece -6,8 1, 96 > , deci, cu o probabilitate
de 95%, se poate afirma c, la nivelul popula|iei totale, valoarea coeficientului b difer
semnificativ de zero, fapt ce confirm existen|a unei legturi ntre cele dou variabile.
c) Forma intervalului de ncredere pentru coeficientul a al modelului este:

, )
a a tab tab
P a t o a a + t o 1 u s s =


unde
a

- termenul liber (Intercept, al doilea tabel, prima linie, coloana 2)

a o

- abaterea medie ptratic a coeficientului a (Standard error, al doilea tabel, prima


linie, coloana 3).
Din enun| se cunoaste a

= 29,32,

a o

= 20,68 si t
tab
= 1,96, iar probabilitatea de
garantare a rezultatelor este 95%, deci putem face calculele:
, ) P 29, 32 1, 96 20, 68 a 29, 32 1, 96 20, 68 95% s s + =
, ) P 11, 23 a 69,85 95% s s =
Putem garanta deci, cu o probabilitate de 95%, c valoarea coeficentului a, la nivelul
popula|iei totale, este cuprins ntre -11,23 si 69,85. Observm c acest inteval con|ine si
valoarea zero, acest fapt putnd fi anticipat, ntruct testul Student a confirmat ca valoarea
acestui coeficient nu difer semnificativ de zero, la nivelul popula|iei totale.
Forma intervalului de ncredere pentru coeficientul b al modelului este:


, )
b b tab tab
P b t o b b + t o 1 u s s =
unde

b - coeficientul variabilei independente (Pre, al doilea tabel, a doua linie, coloana 2)

b o - abaterea medie ptratic a coeficientului b (Standard error, al doilea tabel, a doua


linie, coloana 3).
Din enun| se cunoaste

b = 0,068,

b o = 0,01 si t
tab
= 1,96, iar probabilitatea de
garantare a rezultatelor este 95%, deci putem face calculele:
, ) P 0, 068 1, 96 0, 01 b 0, 068 1, 96 0, 01 95% s s + =
, ) P 0, 0484 b 0,0876 95% s s =
Putem garanta deci, cu o probabilitate de 95%, c valoarea coeficentului b, la nivelul
popula|iei totale, este cuprins ntre 0,484 si 0,0876.
Probleme propuse
1. Au fost reprezentate cu ajutorul norului de puncte observa|iile cu privire la nivelul
produc|iei unei firme si costul total mediu al acesteia din perioada ianuarie 2000 septembrie
2010, rezultnd urmtorul nor de puncte:
Comenta|i aspectul norului de puncte si formula|i o ipotez cu privire la forma
legturii dintre cele dou variabile .
2. Pentru studierea comportamenului consumatorilor legat de achizi|ionarea de bunuri
de folosin| ndelungat, pentru anul 2010 s-au nregistrat valorile cheltuielilor lunare, n
RON pentru achizi|ionarea acestui tip de bunuri (Y) si a nivelului lunar al veniturilor n RON
(X) la nivelul a 50 de gospodrii. n urma prelucrrii seriilor de date , )
i
i=1,50
y si , )
i
i=1,50
x , s-au
ob|inut urmtoarele date:
Y X
Media 650 RON 2000 RON
Coeficientul de
omogenitate (abatere
medie ptratic/medie)
0,2 0,3
De asemenea, se cunoaste valoarea
, ) , )
t t
y -Y x -X 10 000 000 =

S se estimeze parametrii modelului liniar de regresie folosit pentru analiza


comportamentului variabilei Y n func|ie de X.
3. O firm ce organizeaz licita|ii pentru vnzarea unor antichit|i doreste s
determine rela|ia dintre pre|ul ob|inut pentru articolele licitate (Y, u.m.) si numrul de
persoane (X) ce particip la licita|ie. n acest sens firma a organizat un studiu, bazat pe 50 de
observa|ii cu privire la cele dou variabile. n ipoteza existen|ei unei legturi de form liniar
ntre variabile, rezultatele prelucrrii n EXCEL sunt:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,860271
R Squared 0,740066
Adjusted R Squared 0,707575
Standard Error 177,7908
Observations 50
Coefficients Standard error
Intercept 1086,691 174,4825
Mrimea audien|ei 9,329102 1,954748
a) Testa|i semnifica|ia raportului de corela|ie al modelului de regresie la nivelul
popula|iei totale, cu probabilitatea de 95%, (F
tab
= 5,32);
b) Testa|i semnifica|ia coeficien|ilor modelului, cu probabilitatea de 95%, (t
tab
= 1,96);
c) Determina|i intervalele de ncredere pentru coeficien|ii modelului, cu probabilitatea
de 95%, (t
tab
= 1,96).