Sunteți pe pagina 1din 10

Problema rezolvata regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 Problema rezolvata regresia liniara

a multifactoriala Pentru a decide n ce zon s fie amplasat un magazin de casete video, managerul unei firme de comercializare i nchiriere de casete video realizeaz un studiu. Astfel, el consider c succesul afacerii este cuantificat prin profitul anual brut obinut (sute euro). Factorii, considerai determinani pentru succesul acestei afaceri, sunt: numrul de locuitori pe o raz de un kilometru (mii loc.) venitul mediu al locuitorilor de pe o raz de un kilometru (zeci euro) numrul competitorilor pe o raz de un kilometru preul unei casete video la nchiriere (euro) Sunt selectate aleator 15 de supermarket-uri i sunt nregistrate valorile celor 5 variabile. Profit (sute Eur) 323.581 343.682 375.264 351.242 328.417 318.069 330.959 267.236 320.883 409.535 316.262 351.806 333.655 372.679 362.796 Numarul locuitorilor (mii loc.) 5.556 5.917 5.483 6.4 5.917 6.683 6.065 7.491 6.284 5.851 5.681 5.187 6.164 7.32 5.062 Venit (zeci Eur) 42.746 43.106 46.993 43.249 40.695 41.253 40.791 39.932 36.826 45.3 42.645 42.306 44.842 45.233 41.426 Competitori 3 2 5 2 3 3 2 3 1 3 3 2 3 3 3 Pre (Eur) 2.49 2.99 2.99 1.99 2.49 2.49 2.49 2.49 2.99 2.99 2.49 2.99 1.99 2.99 2.99

a) Analizai dependena dintre profitul obinut i cei 4 factori de influen cu ajutorul unui model de regresie (nivel de semnificaie de 5%). b) Analizai corelaiile dintre variabile. Rezolvare: a) Variabilele modelului sunt: variabila explicata sau dependenta Y - profitul anual brut obinut (sute euro) variabilele explicative sau independente: X 1 arata numrul de locuitori pe o raz de un kilometru (mii loc.); X 2 arata venitul mediu al locuitorilor de pe o raz de un kilometru (zeci euro); X 3 arata numrul competitorilor pe o raz de un kilometru; X 4 arata preul unei casete video la nchiriere (euro).

Problema rezolvata regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014

Modelul econometric este Y = 0 + 1 X 1 + 2 X 2 + 3 X 3 + 4 X 4 + sau

yi = 0 + 1 xi ,1 + 2 xi , 2 + 3 xi ,3 + 4 xi , 4 + i
adica un model de regresie liniara multifactoriala cu k=4 variabile explicative. Modelul de regresie liniara multipla (multifactoriala) n eantion este: yi = b0 + b1 xi,1 + b2 xi,2 + b3 xi,3 + b4 xi ,4 + ei , i = 1, n , volumul esantionului fiind n=15. Rezolvare folosind EXCEL: 1. Introducei datele din tabel ncepnd, de exemplu, din celula B2. 2. Alegei Data-Data Analysis i Regression, ca in Figura 1. 3. In fereastra de dialog ce va aparea (Figura 2), la Input Y Range selectai B2:B17. La Input X Range selectai C2:F17. Selectai Labels si Confidence Level 95%. 4. La Output Range alegeti celula din foaia de lucru de unde vor aparea rezultatele. 5. Dac dorii s obtinei valorile reziduale, selectai Residuals. 6. Apsai OK.

Figura 1. Introducerea datelor si fereastra Data Analysis din meniul Data, in Excel 2010.

Problema rezolvata regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014

Figura 2. Fereastra de dialog in vederea estimarii modelului multifactorial de regresie liniara.

Se obin rezultatele: Ecuatia de regresie estimata este i = 136,286 9,7313 xi ,1 + 11,3303 xi , 2 14,4479 xi ,3 + 35,3217 xi , 4 , i = 1, n y

Problema rezolvata regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
SUMMARY OUTPUT

Regression Statistics Raportul de corelatie multipla (R) Multiple R 0,85879


SSR = SST y) (y
i n 2

) (y y
i i

R=

(y y)
i i =1

i =1 n

= 1
2

(y y)
i i =1

i =1 n

R Square

Adjusted R Square

Coeficientul de determinaie SSR SSE 0,737519 R2 = =1 SST SST Valoarea ajustat a coeficientului de determinaie SSE 0,632527 R 2 = 1 n k 1 SST n 1 Abaterea standard de selectie a variabilei reziduale sau Abaterea medie ptratic a erorilor n eantion 19,95674
SSE SSE = = n k 1 10 Volumul esantionului (n) se = se2 =

Standard Error

(y
i =1

i ) y

e
=
i =1

2 i

n k 1

n k 1

Observations

15

Interpretare rezultate din tabelul SUMMARY OUTPUT: R= 0,85879 (o valoare apropiata de 1) arat c ntre profitul anual i cele 4 variabile luate n studiu (num. locuitori, venit, num. competitori, pre) exist o legtur puternic. R2=0,737519 arat c 73,75% din variaia totala a profitului este explicat de influena celor 4 variabile (num. locuitori, venit, num. competitori, pre), iar restul de 26,25 % din variatia totala a profitului este data de factorii reziduali. Abaterea standard de selectie a variabilei reziduale sau abaterea medie ptratic a erorilor se =19,95674. n cazul n care acest indicator este zero nseamn c toate punctele sunt pe planul de regresie.

Problema rezolvata regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014

ANOVA

Sursa variaiei variabilei dependente Y

df (grade de libertate)

SS (variaia) (suma ptratelor)


n

Regression
(variaia Datorat regresiei)

4=k

i y ) SSR = ( y
i =1

=11190,66123
n

MS (media patratelor) (dispersiile corectate cu gradele de libertate)) SSR MSR = k =2797,665307


2 = MSE = se

F(calculat)

Significance F

Fcalc =

MSR MSE =7,024515

0,0058

Residual
(variaia rezidual sau variatia erorilor)

10=n-k-1

i )2 SSE = ( yi y

=3982,716528 14 = n-1
SST = ( yi y )
i =1 n 2

i =1

SSE n k 1 =398,2716528 s2 y = SST , n 1

Total
(variaia total)

=15173,37776 SST = SSR + SSE

dar s 2 y MSR + MSE

Interpretare rezultate din tabelul ANOVA: n acest tabel este calculat testul F pentru validarea modelului de regresie, adica atunci cand se testeaza H0: modelul de regresie nu este valid statistic cu alternativa H1: modelul de regresie este valid sau semnificativ statistic. ntruct Fcalc=7,024515, iar Significance F este 0,00584031 (valoare mai mic decat 0,05= nivelul de semnificatie considerat sau impus al testului), atunci respingem H0 si acceptam H1 adevarata, adica modelul de regresie construit este valid statistic, pentru o probabilitate de cel mult 100(1 0,0058)% = 99,42% > 95% , i poate fi utilizat pentru analiza dependenei dintre variabilele precizate.

Problema rezolvata regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 Coefficients
Estimatiile parametrilor modelului de regresie (Coeficientii ecuatiei de regresie in esantion)

Standard Error
(Eroarea standard sau Abaterea medie patratica a estimatorilor)

t Stat
Valoarea calculata a testului t

P-value

Lower 95%
Limita inf. a intervalului de incredere

Upper 95%
Limita sup. a intervalului de incredere

Intercept Num. loc. (X1) Venit (X2) Competitori (X3) Pre (X4)

b0 = -136,286

sb0 =134,8104 sb1 =8,0272 sb2 =2,8417


sb3 =8,0888

t b0 (calc ) = t b1 (calc ) = t b2 (calc ) = t b3 (calc ) = t b4 (calc ) =

b0 0 = -1,0109 sb0 b1 0 = -1,2123 sb1 b2 0 = 3,9871 sb2 b3 0 = -1,7862 sb3 b4 0 = 2,3146 sb4

0,3359>0,05 0,2533>0,05 0,0026<0,05 0,1044>0,05 0,0432<0,05

b0 t critic sb0 = -436,6620 b1 t critic sb1 = -27,6172


b2 t critic sb2 = 4,9985

b0 + t critic sb0 = 164,0904 b1 + t critic sb1 = 8,1545


b2 + t critic sb2 = 17,6621

b1 = -9,7313
b2 = 11,3303

b3 = -14,4479

b3 t critic sb3 = -32,4709 b4 t critic sb4 = 1,3201

b3 + t critic sb3 = 3,5751 b4 + t critic sb4 69,3233

b4 = 35,3217

sb4 =15,2601

Interpretare rezultate din tabel: Intercept este termenul liber, deci coeficientul estimat b0 este -136,286 si arata nivelul mediu al variabilei dependente atunci cand nivelul tuturor variabilelor explicative este egal cu 0 unitati. Deci profitul mediu care s-ar obine, dac nu ar fi nici un locuitor pe o raz de 1 Km, venitul mediu ar fi zero, nu ar fi nici un competitor i nu s-ar plti nici o chirie pentru casetele nchiriate, ar fi de -136,286 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei H 0 : 0 = 0 contra ipotezei H1 : 0 0 este t b0 (calc ) = -1,0109, iar pragul de semnificatie calculat (nu impus) al testului, P-value, este 0,3359 > 0,05 = nseamn c parametrul 0 este nesemnificativ. De altfel, faptul c limita inferioar a intervalului de ncredere IC95% ( 0 ) = ( 36,6620; 164,0904 ) pentru acest parametru 0 este negativ, iar limita superioar este pozitiv, arat c parametrul 0 in colectivitatea general este nesemnificativ statistic, adicanu difera semnificativ de zero.

Problema rezolvata regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014

Coeficientul b1 este -9,7313, ceea ce nsemn c la creterea numrului de locuitori cu 1 unitate, adica 1000 de locuitori, mentinand nemodificat nivelul celorlate variabile explicative din model, profitul va scadea, in medie, cu 9,7313 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei H 0 : 1 = 0 contra ipotezei H1 : 1 0 este t b1 (calc ) = -1,2123, iar pragul de semnificaie calculat (nu impus) al testului, P-value, este 0,2533 > 0,05 = nseamn c parametrul 1 este nesemnificativ statistic. De altfel, aceeasi concluzie se obtine observand ca intervalul de ncredere IC95% (1 ) = ( 27,6172; 8,1544 ) acopera valoarea 0. Coeficientul b2 este 11,3303, ceea ce nseamn c la creterea venitului mediu al locuitorilor cu 1 unitate, adica cu 10 euro, mentinand nemodificat nivelul celorlate variabile expplicative din model, profitul va crete, in medie, cu 11,3303 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei H 0 : 2 = 0 contra ipotezei H1 : 2 0 este t b (calc ) = 3,9871, iar pragul de semnificaie calculat (nu impus) al testului, P-value, este 0,0026 < 0,05= , nseamn c este semnificativ statistic (pentru o probabilitate de parametrul 2 100(1 0,0026)% = 99,74% > 95% ). Intervalul de ncredere IC95% ( 2 ) = (4,9985; 17,6621) pentru acest parametru arat c dac managerul respectiv i deschide o firm de nchiriere i vnzare de casete video, atunci la o cretere a venitului mediu al unui locuitor din zon cu 10 euro, profitul va crete, in medie, cu o valoare cuprins ntre aproximativ 5 si 17,6 euro, interval garantat cu probabilitatea de 95%. Coeficientul b3 este -14,4479, ceea ce nseamn c la creterea numrului de competitori cu 1 unitate, adica cu 1 competitor, mentinand nemodificat nivelul celorlalte variabile explicative din model, profitul va scadea, in medie, cu 14,4479 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei H 0 : 3 = 0 contra ipotezei H1 : 3 0 este t b (calc ) = -1,7862, iar 3 nivelul de semnificaie calculat (nu impus) al testului, P-value, este 0,104378 > 0,05, nseamn c parametrul 3 este nesemnificativ statistic. De altfel, intervalul de ncredere IC95% (3 ) = ( 32,4709; 3,5751) acopera valoarea 0, ceea ce arata c parametrul in colectivitatea general nu difera semnificativ de zero. Coeficientul b4 este 35,3217, ceea ce nseamn c la creterea preului pltit pentru nchirierea unei casete cu 1 euro, mentinand constant nivelul celorlalte variabile explicative, profitul va crete, in medie, cu 35,3217 sute euro. Deoarece valoarea calculata a statisticii testului t pentru testarea ipotezei H 0 : 4 = 0 contra ipotezei H1 : 4 0 este t b (calc ) =2,3146, iar pragul de 4 semnificaie calculat (nu impus) al testului, P-value, este 0,0432 < 0,05, nseamn c acest parametru este semnificativ statistic (pentru o probabilitate de 100(1 0,0432)% = 95,68% > 95% stabilit n problem). Intervalul de ncredere 95% pentru acest parametru IC95% ( 4 ) = (1,3201; 69,3232 ) arat c dac managerul respectiv i deschide o firm de nchiriere i vnzare de casete video, atunci la o cretere a preului pltit pentru nchirierea unei casete cu un euro, profitul va crete, in medie, cu o valoare cuprins ntre aproximativ 1,32 si 69 euro, interval garantat cu probabilitatea de 95%. Observatie: pentru variabilele numar de locuitori, i numar de competitori am obinut coeficieni de regresie nesemnificativi.
2

Problema rezolvata regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 RESIDUAL OUTPUT Observation Predicted Profit 1 338.5796 2 371.2542 3 376.1748 4 332.8525 5 311.8281 6 310.6962 7 325.9235 8 287.8659 9 310.9763 10 382.3073 11 336.2188 12 369.2938 13 338.7504 14 367.2528 15 346.0917

Residuals -14.9986 -27.5722 -0.9108 18.3895 16.5889 7.3728 5.0355 -20.6299 9.9067 27.2277 -19.9568 -17.4878 -5.0954 5.4262 16.7043

b) Pentru calculul coeficientilor de corelaie liniara Pearson dintre variabile se parcurg paii: 1. 2. 3. 4. 5. 6. Introducei datele din tabel ncepnd din celula B2. Alegei Data-Data Analysis i Correlation. La Input Range selectai B2:F17. Selectai Grouped by: Columns Selectai Labels in first row. La Output Range alegeti celula din foaia de lucru de unde vor aparea rezultatele. Apsai OK.

Se obin rezultatele urmtoare, sub forma matricei coeficientilor de corelatie liniara de selectie (Pearson) intre variabilele modelului: 1 -0,39738 0,654076 0,227572 0,448854 Yi X i1 X i2 Xi3 X i4

Yi X i1 X i2 X i3 X i4

1 -0,15141 1 -0,10321 0,665457 1 -0,25737 0,025395 0,037226

Dac studiem corelaiile liniare existente ntre variabile observm c cea mai puternic corelaie (direct) este ntre Yi i Xi2, adic ntre profit i venitul mediu pe locuitor din zon (coeficient de corelaie: 0,665). Cea mai slab corelaie este ntre variabilele Yi i Xi3, adic ntre profit i numrul competitorilor (coeficientul de corelaie: 0,22). De asemenea, se observ c profitul este invers corelat cu numrul de locuitori (coeficient de corelaie ntre variabilele Yi i Xi1 de -0,397).

Problema rezolvata regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014 TEMA 1. Perioada Srbatorilor de iarn este de o deosebit importan pentru industria turismului dintr-o staiune turistic. Camera de Comer local angajeaz un analist de marketing pentru studierea i promovarea turismului din staiunea respectiv. Acesta consider c printre factorii importani ce influeneaz gradul de ocupare al hotelurilor din regiune n perioada Srbtorilor de iarn se numr condiiile meteorologice din anul precedent (temperatura aerului i numrul de zile cu precipitaii). Datele nregistrate pentru ultimii 12 ani sunt: Rata locurilor vacante in unit. hoteliere (%) 6 12 11 8 13 9 6 8 4 10 8 9 Temperatura medie zilnica (grade C) 8 4 3 7 2 6 7 7 8 7 5 6 Numarul de zile ploiase in perioada sarbatorilor de iarna 1 4 3 2 3 4 1 1 2 3 3 4

Cerine: a) Identificai ecuaia de regresie liniar ce modeleaz legtura dintre cele trei variabile i interpretai valorile coeficienilor de regresie, b) Testai validitatea modelului gsit, nivel de semnificaie de 5%, c) Testai semnificaia statistic a parametrilor modelului, nivel de semnificaie de 5%, d) Interpretai intervalele de ncredere ale parametrilor modelului, e) Analizai sensul i intensitatea legturii dintre variabile folosind indicatori adecvai, f) n ce proporie variaia total a ratei locurilor vacante este determinat de influena factorilor reziduali? g) Explicai semnificaia celei de a aptea valori din coloana Predicted Rata locurilor vacante in unit. hoteliere (%) i artai cum s-a obinut, h) Previzionai rata locurilor vacante n condiiile nregistrrii unei temperaturi medii zilnice de 10 grade Celsius i a unui numr de 7 zile ploioase. 2. Pentru a decide zona de amplasare a unui nou magazin, managerul unui lan de supermarketuri realizeaz un studiu pe urmtoarele variabile: profitul anual brut obinut (sute euro), venitul mediu al locuitorilor din zon (sute euro) i numrul competitorilor pe o raz de un kilometru. n urma nregistrrii i prelucrrii datelor nregistrate de la 15 supermarketuri i n ipoteza unei dependene liniare ntre variabilele considerate, s-au obinut urmtoarele rezultate:
Regression Statistics Multiple R . R Square . Adjusted R Square 0,423 Standard Error . Observations 15 9

Problema rezolvata regresia liniara multipla Econometrie, Facultatea de Marketing, anul II, 2013-2014
ANOVA df Regression Residual Total Coefficients . . -13,886 SS 15173,378 Standard Error 133,661 3,538 10,134 t Stat -0,899 3,316 . P-value 0,386 0,006 0,196 Lower 95% -411,388 4,024 Upper 95% 171,056 19,442 . MS 625,607 F Significance F 0,015

Intercept Venit Competitori

a) Scriei ecuaia de regresie care modeleaz legtura dintre cele trei variabile i interpretai valorile coeficienilor de regresie; b) Testai semnificaia statistic a ultimului parametru al modelului i determinai i interpretai intervalul su de ncredere (valoare critic: 2,179); c) Analizai dac modelul de regresie identificat este valid statistic, pentru un nivel de semnificaie de 5% (valoare critic: 3,88); d) Msurai intensitatea legturii dintre cele trei variabile; testai semnificaia statistic a indicatorului folosit.

10