Model Proiect-Regresia Liniara Simpla

Model de analiză econometrică bazat pe funcția de regresie
Abstract:In statistics, the analysis of variables that are dependent on other variables. Regression analysis
often uses regression equations, which show the value of a dependent variable as a function of an
independent variable. After the logical study of the variables to be analyzed, we continue with the
graphical representation of the data series and with the primary interpretation, we present the
substantiation of the econometric model used.
Cuvinte cheie: Regresie simplă, corelație, speranță de viață la naștere, indice de dezvoltare
umană
CHIRIAC Anamaria
SÎRBU Elena Amalia
Departament (Times New Roman 12 pt, centrat)
Universitatea Româno Americană
Bulevardul Expoziției, nr.1B, sector 1, București
România
sirbu.p.elenaamalia18@student.rau.ro
chiriac.n.anamaria18@student.rau.ro
Cuprins
1. Introducere..........................................................................................................................................3
2. Prezentarea problemei.........................................................................................................................3
3. Definirea modelului de regresie simplă liniară....................................................................................5
3.1. Forma și variabilele modelului de regresie......................................................................................5
3.2. Parametrii modelului de regresie.....................................................................................................5
3.3. Aproximarea grafică a legăturii dintre parametrii...........................................................................6
3.4. Analiza descriptivă a variabilelor din modelul de regresie și parametrii.........................................6
3.5. Aproximarea grafică a legăturii dintre parametrii...........................................................................7
4. Interpretarea rezultatelor......................................................................................................................8
4.1. Summary output................................................................................................................................8
4.2. Tabelul ANOVA................................................................................................................................9
4.3. Coeficienții.....................................................................................................................................10
4.4. Residual output...............................................................................................................................11
5. Concluzii...........................................................................................................................................12
Bibliografie...............................................................................................................................................14
1. Introducere
Tema pe care o vom aborda în acest proiect este un studiu de caz cu ajutorul căruia dorim
să observăm impactului pe care il are indicele de dezvoltare umană asupra speranței de viață la
naștere în 23 de țări dezvolate ale lumii. Datele pe care le vom folosi în realizarea acestui studiu
sunt aferente anului 2019. Vom realiza un model econometric și în realizarea obiectivului nostru
ne vom folosi ca și metodă de funcția de regresie.
Considerăm că este importantă această temă deorece așa cum spuneam mai sus ne ajută să
întelegem dacă indicele de dezvoltare umană are un rol esențial în evoluția speranței de viață la
naștere și astfel am înțelege care este unul din factorii importanți ai faptului că în țările
dezvolatate speranța de viață este una destul de ridicată. În mod evident există și alți factori care
înfluențează speranța de viață la naștere însă am luat în calcul indicele de dezvoltare umană ca și
factor determinant.
Pentru a putea realiza acest studiu de caz vom folosi datele culese de pe un site specializat
ce se ocupă cu realizare și publicarea datelor statistice din întreaga lume despre aspectele ce
înfluențează dezvoltarea umană. Sursa se regăsește notată în subsolul tabelului de valori din
capitolul următor. Un alt instrument foarte important care ne va ajuta în realizarea studiul va fi
aplicația Excel din Microsoft Office, aceasta ne va ajuta cu realizarea calculelor econometrice.
Literatura de specialitate are rolul determinat în realizarea acestui studiu deoarece tot ce
ține de noțiunile teoretice au fost abordate în concordață cu literatura de specialitate în acest
domeniu.
2. Prezentarea problemei
În studiul pe care îl vom realiza vom folosi așa cum spuneam și mai sus două variabile și
anume indicele de dezvoltare umană și speranța de viață la naștere, variabile între care există o
legătură logică. Aceste variabile sunt formate din serii de date reale, fiind obținute de pe site-
urile instituțiilor oficiale, care sunt specializate în domeniile la care am făcut referire. Datele sunt
valabile pentru anul 2019 pe care le-am prezentat în tabelul de mai jos:
Tabel 1: Indicele de dezvoltare umană și
Speranța de viață la naștere
Indicele de Speranta de
Tara dezvoltare umana viata la nastere
(valoare) x (ani) y Sursa:
Norvegia 0.954 82.3
Elvetia 0.946 83.6
Irlanda 0.942 82.1
Germania 0.939 81.2
Hong Kong, China 0.939 84.7
Australia 0.938 83.3
Islanda 0.938 82.9
Suedia 0.937 82.7
Singapore 0.935 83.5
Olanda 0.933 82.1
Denemarca 0.93 80.8
Finlanda 0.925 81.7
Canada 0.922 82.3
Noua Zeelanda 0.921 82.1
Marea Britanie 0.92 81.2
Belgia 0.919 81.5
Austria 0.914 81.4
Luxembourg 0.909 82.1
Israel 0.906 82.8
Republica Coreea 0.906 82.8
Slovenia 0.902 81.2
Cehia 0.891 79.2
Estonia 0.882 78.6
http://hdr.undp.org/en/content/2019-human-development-index-ranking
Pentru a putea determina în ce măsura variabila independentă contribuie la modificarea

variabilei dependente vom elabora un model de regresie liniară simplă. Vom determina dacă
acesta poate fi considerat valid, adică dacă există, sau nu, o legătură liniară între indicele de
dezvoltare umană şi speranța de viață la naștere. Dacă acesta va fi valid, vom realiza o previziune
a speranței de viață la naștere pentru o alta perioadă, caracterizată de anumite valori ale variabilei
independente.
Un element important de precizat este faptul că speranța de viață este variabila
dependentă (rezultativă), pe când indicele dezvoltării umane variabila independentă
(explicativă). Astfel, modelul de regresie simplă ilustrează relația dintre speranța de viață și
indicele dezvoltării umane.
3. Definirea modelului de regresie simplă liniară
3.1. Forma și variabilele modelului de regresie

În cazul de față avem un model econometric unifactorial deorece avem o influență a
variabilei relative y - speranța de viață la naștere- de către un factor determinat x – indicele de
dezvoltare umană.
Forma modelului de regresie simplă este:
Y =a +bX +ε
Variabilele modelului, pentru modelul considerat, sunt:
Y – Speranța de viață la naștere (Ani) - variabila dependentă,

a – Y intercept (termenul constant),
b – panta dreptei de regresie,
X – Indicele de dezvoltare umană (valoare) - variabila independentă,
ε – o variabilă aleatoare, variabila care însumează influenţa altor variabile asupra
speranța de viață la naștere, dar care nu sunt specificate expres în model. Variabila ε exprimă
abaterile între valorile observate şi valorile estimate prin model.
3.2. Parametrii modelului de regresie

Parametrii modelului de regresie simplă liniară, numiţi şi coeficienţi de regresie, sunt:
a – reprezintă constanta sau termenul liber al modelului și arată valoarea medie a

variabilei Y când X = 0 ; Grafic parametrul a reprezintă intersecția dreptei de regresie cu axa Oy
de unde și denumirea în limba engleză de intercept
b - panta dreptei - reprezintă variaţia medie a variabilei dependente, Y, la o variaţie
absolută cu o unitate a variabilei independente X, adică variaţia variabilei Y este proporţională
cu variaţia variabilei X:
dy
b=
dx
Dacă b >0 = > că există o legatură directă între valiabila X și Y, dacă b < 0 = > că există
o legatură indirectă între valiabila X și Y și dacă b= 0 atunci nu există legătură între X și Y.
Speranța de viață la naștere = a + b* Indicele de dezvoltare umană + ε
3.3. Aproximarea grafică a legăturii dintre parametrii

Determinarea parametrilor modelului liniar se face cu în cele mai multe cazuri cu ajutorul
Metodei celor mai mici pătrare. Utilizarea metodei pornește de la următoarea relație:
y i= a^ + b^ x i, Unde „a^ ” și „b^ ” sunt estimatorii parametrilor dreptei de regresie.1

^
Valorile reale ale caracteristicii rezultative sunt egale cu estimarea obținută cu ajutorul
modelului de regresie, corectată cu valoarea reziduală:
y= ^
yi + ei
In mod concret Metoda Celor Mai Mici Pătrate constă in a minimiza funcția
^
F ( a^ , b)=min ∑ ( y i −^y i )2
Pentru a-I putea determina pe cei doi estimatori este necesar să se rezolve sistemul de
ecuații rezultat:2
^ a^ ∑ xi =∑ y i
n b+ 23b^ +a^ 21.284 = 1886.1
b^ ∑ x i + a^ ∑ x i =∑ x i y i b^ 21.284 + a^ 19.636 = 1742.786

2
3.4. Analiza descriptivă a variabilelor din modelul de regresie și parametrii

Analiza descriptivă a fiecărei variabile considerate în model se face pentru a studia
caracteristicile fiecărei distribuţii. Înainte am verificat dacă există valori lipsă sau aberante din
1
http://www.revistadestatistica.ro/wp-content/uploads/2014/02/RRS_01_2013_a2_ro.pdf
2
Anghelache, C. Mitruț C. (2006). ”Elemente de econometrie”, Editura Artifex, București, pg.65
punct de vedere statistic și nu le-am luat în analiză pentru că aceste valori ne-ar fi deformat
rezultatele.
Tabel 2 a - Statistica descriptivă pentru Tabel 2 b - Statistica descriptivă pentru

Indicele de dezvoltare umană Speranța de viață la naștere
Indicele de dezvoltare umana
Speranta de viata la nastere (ani) y
(valoare) x

Mean 0.923826087 Mean 82.00434783
Standard Error 0.003803811 Standard Error 0.281334922
Median 0.925 Median 82.1
Mode 0.939 Mode 82.1
Standard Deviation 0.018242438 Standard Deviation 1.349234888
Sample Variance 0.000332787 Sample Variance 1.820434783
Kurtosis -0.150571857 Kurtosis 1.383667901
Skewness -0.598009493 Skewness -0.687213822
Range 0.072 Range 6.1
Minimum 0.882 Minimum 78.6
Maximum 0.954 Maximum 84.7
Sum 21.248 Sum 1886.1
Count 23 Count 23
3.5. Aproximarea grafică a legăturii dintre parametrii

În cazul modelului unifactorial cel mai folosit procedeu constă în reprezentarea grafică a
celor două șiruri de valori cu ajutorul corelogramei. Folosindu-ne de datele din Tabelul 1 am
realizat corelograma de mai jos care reprezintă legătura dintre speranța de viață la naștere și
indicele de dezvoltare umană.
Fig.1 Legătura dintre speranța de viață la naștere și indecele de dezvoltare umană
Corelograma între Speranța de viață la nastere și

Indicele de dezvoltare umană
86
Speranța de viață la naștere
84
f(x) = 48.8461310054042 x + 36.8790177563988
82 R² = 0.436165183083628
80
78
76
74
0.87 0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96
Indicele de dezvoltare umană
Conform corelogramei se poate aprecia că între speranța de viață la naștere șă indicele de

dezvoltare umană există o legătura liniară directă de formă liniară după relația:
Y x =a+bX + Ɛ .
În urma calculelor efectuate utilizănd funcția modelului de regresie liniară avem
următorii parametrii a=36.879 și b=48.846 , de aici se poate scrie funcția de regresie astfel:
y = 48.846x + 36.879
4. Interpretarea rezultatelor
4.1. Summary output
Tabel 4. Regressions statistics

Regression Statistics
Multiple R 0.66042803
R Square 0.436165183
Adjusted R Square 0.409315906
Standard Error 1.036967632
Observations 23
Multiple R este coeficientul multiplu de corelaţie = 0.66042803. Observăm că valoarea
lui “r” este > 0, ceea ce inseamnă ca între cele două variabile considerate: speranța de viață la
naștere și indicele de dezvoltare umană există o legatură directă simplă.
R Square (R²) (coeficientul de determinaţie), exprimă cât din variaţia frecvenţei

speranței de viață la naștere este explicat de variaţia indicelui de dezvoltare umană. El poate lua
valori in intervalul [0,1]. Cu cât valoarea lui este mai apropiată de 1, cu atât partea din variaţia
lui Y, explicată de X, este mai mare, şi legătura dintre ele este mai puternică. In cazul nostru, R
Square are valoarea 0.436165183; exprimând procentual 43,61% din variaţia indicelui de
dezvoltare umană poate fi explicată de variabila speranței de viață la naștere.
Adjusted R Square reprezintă raportul de corelație ajustat = 0.409315906, arată că

0.409315906 din variaţia totală este datorată liniei de regresie, ţinând cont de numărul de grade
de libertate.
Standard Error se calculează ca abaterea standard a reziduurilor și este estimația

abaterii standard a erorilor ε (în ipoteza normalității acestora). În cazul nostru valoarea este
±1.036967632.
Observations (numarul de observații din eșantion) = în cazul nostru sunt 23 observații in

eșantion.
4.2. Tabelul ANOVA
df SS MS F Significance F
Regression 1 17.46822595 17.46823 16.24495077 0.000604044
Residual 21 22.58133927 1.075302
Total 22 40.04956522
Testul ANOVA (analysis of variance) este folosit pentru validarea modelului de regresie
utilizat.
Variaţia explicată prin modelul de regresie este de 17.46823, iar media variaţiei explicată,
corectată prin numărul de grade de libertate (2), este 17.46823. Variaţia reziduală (variaţia
neexplicată de modelul de regresie) este de 22.58133927, iar media variației reziduale corectată
cu numărul de grade de libertate (21) = 1.075302.
În tabel este calculat testul F (Fisher). Intrucât F= 16.24495077, iar Significance F
(pragul de semnificatie)= 6.04044 (mult mai mare decîâ α= 0,05) modelul de regresie construit
este valid pentru o probabilitate de cel mult 95% şi poate fi utilizat pentru analiza dependenţei
dintre variabilele indicele de dezvoltare umană și speranța de viață la naștere.
df (numărul gradelor de libertate): k – 1=1, n – k=21, n – 1=22, unde k = 2 este

numărul de variabile ale modelului (variabila x, respectiv y), iar n = 23 este numărul de
observaţii.
SS reprezintă suma pătratelor abaterilor:
Suma globală de pătrate = Suma de pătrate datorată regresiei + Suma de pătrate

reziduală;
MS (media sumelor de pătrate): SS împarţită la numărul respectiv de grade de

libertate.Valoarea de pe linia a doua (Residual) este estimaţia dispersiei pentru repartiţia erorilor
şi este pătratul erorii standard a estimaţiei.
F (valoarea statisticii F) pentru testul caracterizat de:
H0 : modelul nu este valid statistic;
H1 : modelul este valid statistic;
Significance F (probabilitatea critică unilaterală). Dacă valoarea rezultată este mai mică
decât pragul de semnificaţie fixat, atunci se respinge ipoteza nulă în favoarea ipotezei alternative.
4.3. Coeficienții
Coefficient Standard Lower Upper Lower Upper

s Error t Stat P-value 95% 95% 95.0% 95.0%
Intercept - β0 36.879017 11.198043 3.293345 0.0034632 13.59141 60.16662 13.59141 60.1666
x1 – Indicele
de dezvoltare
umană 48.846131 12.119116 4.030503 0.0006040 23.64305 74.04921 23.64305 74.0492
Intercept este termenul liber, deci coeficientul b1= 36.879017. Termenul liber este
punctul în care variabila explicativă este 0. Deoarece t statistic = 3.293345, iar P-value
0.0034632< 0,05, înseamnă că acest coeficient este semnificativ. Termenul liber al ecuaţiei de
regresie se găseşte cu o probabilitate de 95% in intervalul : [13.59141; 60.16662]
Coeficientul corespunzător variabilei independente (b2) are o valoare de 48.846131 ceea ce
înseamna că la creşterea cu o unitate a speranța de viață la naștere, indicele de dezvoltare umană
va creşte cu 48.846131. Din cauza ca pragul de semnificatie P-value= 0.0006040< 0,05 înseamnă
că acest coeficient este semnificativ diferit de zero. Intervalul de încredere pentru parametrul
„speranța de viață la naștere” este [23.64305; 74.0492].
Din analiza coeficientilor, deducem ca modelul de regresie este :
¿
Y = 48.846*X + 36.879
Legătura dintre cele două variabile este directă. După cum subliniam şi anterior la
creșterea cu o unitate a variabilei X (Speranța de viață la naștere), variabila Y(Indicele de
dezvoltare umană) creşte cu 48.846131.
4.4. Residual output

Standard
Observation Predicted Y Residuals
Residuals
1 83.47822674 -1.178226736 -1.162961575
2 83.08745769 0.512542312 0.505901791
3 82.89207316 -0.792073163 -0.781811027
4 82.74553477 -1.54553477 -1.52551075
5 82.74553477 1.95446523 1.929143087
6 82.69668864 0.603311361 0.595494831
7 82.69668864 0.203311361 0.200677249
8 82.64784251 0.052157492 0.051481737
9 82.55015025 0.949849754 0.937543456
10 82.45245798 -0.352457984 -0.347891522
11 82.30591959 -1.505919591 -1.486408827
12 82.06168894 -0.361688936 -0.357002878
13 81.91515054 0.384849457 0.379863329
14 81.86630441 0.233695588 0.230667817
15 81.81745828 -0.617458281 -0.609458463
16 81.76861215 -0.26861215 -0.265131999
17 81.5243815 -0.124381495 -0.122770003
18 81.28015084 0.81984916 0.809227156
19 81.13361245 1.666387553 1.644797758
20 81.13361245 1.666387553 1.644797758
21 80.93822792 0.261772077 0.258380546
22 80.40092048 -1.200920482 -1.185361301
23 79.9613053 -1.361305303 -1.343668169
În tabelul RESIDUAL OUTPUT, pe coloane, sunt enumerate toate observaţiile luate în

considerare (23), valorile ajustate după ecuaţia de regresie, valoarea reziduală şi valoarea
reziduală standard.
Pentru fiecare observație din tabelul de date iniţial se afișează:
Observation (numărul de ordine al observației);
Predicted y – valoarea y (speranța de viață la naștere) prognozată pentru observaţia

respectivă; (se obţine înlocuind valorile X ale observaţiei în modelul estimat)
Residuals – valoarea erorii de predicţie (diferenţa dintre valoarea observată şi valoarea

prognozată);
Standard Reziduals – valoarea standardizată a erorii. Este obţinută prin împărţirea

reziduului la abaterea standard a reziduurilor.
Mai jos putem observa analiza calitării modelului de analiză ales cu ajutorul reprezentării
grafice:
Fig.2 Diagrama variabilă independentă vs. reziduuri

Indicele de dezvolare umană - Residual
Plot
3
2
Residuals
1
0
-10.87 0.88 0.89 0.9 0.91 0.92 0.93 0.94 0.95 0.96
-2
Indicele de dezvolare umană
După forma norului de puncte putem observa că nu există corelatie între variabila
independentă x și reziduurile reziduuri ceea ce ce indică faptul că modelul este bine ales.
5. Concluzii
Din studiul practicat așa cum am putut vedea de-alungul studiului există o legătură
puternică între indicele de dezvoltare umană și speranța de viață la naștere în anul 2019. Ca
urmare a acestui studiu putem afirma faptul că dacă dorim să mărim speranța de viață este nevoie
să se mărească și indicele de dezvoltare umană, cu alte cuvinte este nevoie de ridicare a nivelului
de trai pentru a ridica nivelul speranței de viață. Dacă ar fi să facem o comparație a situației
României cu acestea am observa că indicele de dezvoltare umană se situează undeva la 0.816 cu
speranță de viață la naștere de numai 75.9 ani, la mare distanță față de ocupanta locului 1,
Norvegia.
Există și niștele limitări ale acestei cercetări datorate de faptul că nu am avut la dispoziție
mai multe date și încă o variabilă X care să ne ajute să întelegem mai bine speranța de viață la
naștere este influență de mai mulți factori (cum ar fi spre exemplu PIB/capita sau nivelul de
dezvoltare al sistemului sanitar al țării respective).
Din acestă perspectivă ar fi oportună continuarea cercetării și privind la situația actuală a

întregii lumi care se află sub amenințarea noului virus Covid -19, ar fi o perspectivă interesantă
de analizat în ce măsură acest virus a reușit să influențeze speranța de viață a oamenilor la
naștere fără a scoate din ecuație acest indice ce dezvoltare umană care s-a dovedit a fi foarte
important.
Bibliografie
Anghelache, C. Mitruț C. (2006). ”Elemente de econometrie”, Editura Artifex, București
http://hdr.undp.org/en/content/2019-human-development-index-ranking
http://www.revistadestatistica.ro/wp-content/uploads/2014/02/RRS_01_2013_a2_ro.pdf
https://financial-dictionary.thefreedictionary.com/Regression+function

Model Proiect-Regresia Liniara Simpla

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Model Proiect-Regresia Liniara Simpla

Încărcat de

Drepturi de autor:

Formate disponibile

Model de analiză econometrică bazat pe funcția de regresie

SÎRBU Elena Amalia

Departament (Times New Roman 12 pt, centrat)

Universitatea Româno Americană

Bulevardul Expoziției, nr.1B, sector 1, București

Pentru a putea determina în ce măsura variabila independentă contribuie la modificarea

3. Definirea modelului de regresie simplă liniară

3.1. Forma și variabilele modelului de regresie

Forma modelului de regresie simplă este:

Variabilele modelului, pentru modelul considerat, sunt:

Y – Speranța de viață la naștere (Ani) - variabila dependentă,

3.2. Parametrii modelului de regresie

a – reprezintă constanta sau termenul liber al modelului și arată valoarea medie a

Speranța de viață la naștere = a + b* Indicele de dezvoltare umană + ε

3.3. Aproximarea grafică a legăturii dintre parametrii

y i= a^ + b^ x i, Unde „a^ ” și „b^ ” sunt estimatorii parametrilor dreptei de regresie.1

b^ ∑ x i + a^ ∑ x i =∑ x i y i b^ 21.284 + a^ 19.636 = 1742.786

3.4. Analiza descriptivă a variabilelor din modelul de regresie și parametrii

Tabel 2 a - Statistica descriptivă pentru Tabel 2 b - Statistica descriptivă pentru

3.5. Aproximarea grafică a legăturii dintre parametrii

Corelograma între Speranța de viață la nastere și

Conform corelogramei se poate aprecia că între speranța de viață la naștere șă indicele de

4.1. Summary output

Tabel 4. Regressions statistics

R Square (R²) (coeficientul de determinaţie), exprimă cât din variaţia frecvenţei

Adjusted R Square reprezintă raportul de corelație ajustat = 0.409315906, arată că

Standard Error se calculează ca abaterea standard a reziduurilor și este estimația

Observations (numarul de observații din eșantion) = în cazul nostru sunt 23 observații in

4.2. Tabelul ANOVA

df (numărul gradelor de libertate): k – 1=1, n – k=21, n – 1=22, unde k = 2 este

SS reprezintă suma pătratelor abaterilor:

Suma globală de pătrate = Suma de pătrate datorată regresiei + Suma de pătrate

MS (media sumelor de pătrate): SS împarţită la numărul respectiv de grade de

F (valoarea statisticii F) pentru testul caracterizat de:

H0 : modelul nu este valid statistic;

H1 : modelul este valid statistic;

Coefficient Standard Lower Upper Lower Upper

4.4. Residual output

În tabelul RESIDUAL OUTPUT, pe coloane, sunt enumerate toate observaţiile luate în

Pentru fiecare observație din tabelul de date iniţial se afișează:

Observation (numărul de ordine al observației);

Predicted y – valoarea y (speranța de viață la naștere) prognozată pentru observaţia

Residuals – valoarea erorii de predicţie (diferenţa dintre valoarea observată şi valoarea

Standard Reziduals – valoarea standardizată a erorii. Este obţinută prin împărţirea

Fig.2 Diagrama variabilă independentă vs. reziduuri

Din acestă perspectivă ar fi oportună continuarea cercetării și privind la situația actuală a

Anghelache, C. Mitruț C. (2006). ”Elemente de econometrie”, Editura Artifex, București

S-ar putea să vă placă și