Sunteți pe pagina 1din 33

Curs 3

Modelul unifactorial de regresie liniară


(II)
Inferenţa statistică pentru parametrii modelului se poate realiza prin:

 Testarea ipotezei statistice referitoare la semnificaţia


parametrilor modelului de regresie;

 Estimarea pe interval de încredere a parametrilor modelului


din colectivitatea totală.

În cazul regresiei liniare coeficienţii ecuaţiei de regresie în eşantion, 𝒂 şi 𝒃,


sunt estimaţii ale coeficienţilor ecuaţiei de regresie în populaţia
generală a şi b.
 Ipoteză statistică = se intelege “presupunerea” care se
face cu privire la parametrul unei repartitii sau a legii
de repartitie pe care o urmeaza anumite variabile
aleatoare.
 Ipoteză nulă (H0) = este ipoteza care urmeaza a fi
testata. Aceasta presupune ca nu exista deosebiri
esentiale sau ca eventualele deosebiri au un caracter
intamplator; constă întotdeauna în admiterea
caracterului întâmplător al deosebirilor.
 Ipoteză alternativă (H1) = reprezinta negarea ipotezei
nule. Ea va fi acceptată doar când există suficiente
dovezi, evidenţe, pentru a se stabili că este adevărată.
 Ipoteza alternativa poate lua una dintre urmatoarele forme
(care vor fi exemplificate pentru testarea ipotezei privind
media unei colectivitati)
◦ Test bilateral:
H0: μ = μ0
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0)
◦ Test unilateral la dreapta:
H0: μ = μ0
H1: μ > μ0
◦ Test unilateral la stanga:
H0: μ = μ0
H1: μ < μ0
 Testul statistic (criteriu de semnificatie) este
procedeul de verificare a unei ipoteze statistice,
utilizat drept criteriu de acceptare sau de respingere
a ipotezei nule.
 Regiunea critică, Rc reuneste valorile numerice
ale testului statistic pentru care ipoteza nulă va fi
respinsă.
 Regiunea critică este delimitată de valoarea critică
– punctul de tăietură în stabilirea acesteia.
 Regiunea critica

a) Test bilateral b) Test unilateral dreapta c) Test unilateral stanga


 Eroare de genul întâi = eroarea pe care o facem eliminând
o ipoteză nulă, deşi ea este adevărată.
 Riscul de genul întâi (α) = probabilitatea comiterii unei
erori de genul întâi.
◦ α se numeşte nivel sau prag de semnificaţie.
 Nivelul de încredere al unui test statistic este (1-α) iar în
expresie procentuală, (1-α)100 reprezintă probabilitatea de
garantare a rezultatelor.
 Eroare de genul al doilea = eroarea pe cere o facem
acceptând o ipoteză nulă, deşi este falsă
◦ Probabilitatea (riscul) comiterii unei erori de genul al
doilea este β.
◦ Puterea testului statistic este (1- β).
Fals pozitiv Fals negativ
8
Pentru coeficientul de regresie:
Coeficientul b măsoară schimbarea variabilei
rezultative determinată de modificarea cu o unitate a
variabilei cauzale.
 Pasul 1: Definirea ipotezelor:
𝐻𝑜 : 𝑏 = 0
𝐻1 : 𝑏 ≠ 0
 Pasul 2: Calculul statisticii t:
𝑏 −0 𝑏
𝑡𝑐𝑎𝑙𝑐 = ≈
𝜎𝑏 𝑠𝑏
 Pasul 3: Valoarea critică:
𝑡𝛼;𝑛−2
2
unde 𝛼 este pragul de semnificaţie,
n-2 grade de libertate (n = nr de observaţii, 2 =
numărul de parametri)
 Pasul 4: Decizia:
Dacă 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼;𝑛−2 atunci se respinge 𝐻𝑜 iar
2
parametrul diferă semnificativ de zero (este
semnificativ statistic).
Test unilateral

Test bilateral

Grade de libertate
Pentru termenul liber:
 Pasul 1: Definirea ipotezelor:
𝐻𝑜 : 𝑎 = 0
𝐻1 : 𝑎 ≠ 0
 Pasul 2: Calculul statisticii t:
𝑎 −0 𝑎
𝑡𝑐𝑎𝑙𝑐 = ≈
𝜎𝑎 𝑠𝑎
 Pasul 3: Valoarea critică:
𝑡𝛼;𝑛−2
2
 Pasul 4: Decizia:
Dacă 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼;𝑛−2 atunci se respinge 𝐻𝑜 iar
2
parametrul diferă semnificativ de zero.
Pentru a putea calcula statistica t, avem nevoie de abaterile
medii pătratice ale estimatorilor:
Pentru 𝒂 Pentru 𝒃

1 𝑋2 1
s𝑎 = s𝜀 + 2
s𝑏 = s𝜀 2
𝑛 𝑋𝑖 − 𝑋 𝑋𝑖 − 𝑋

unde:
2
2
𝜀𝑖2 𝑌𝑖 − 𝑌𝑖
𝑠𝜀 = =
𝑛−2 𝑛−2
este estimatorul dispersiei variabilei reziduale
Investigarea legăturii dintre corupţie şi nivelul
bunăstării unei ţări.
 Variabila dependentă (Y) este corupţia, pe care o
cuantificăm pe baza Indicelui de Percepţie a
Corupţiei (CPI). Acest indice ia valori între 0 şi
100 şi cu cât valoarea lui este mai mică, cu atât
nivelul corupţiei din ţara respectivă este mai
mare.
 Variabila independentă (X) este Produsul Intern
Brut pe cap de locuitor (PIB/loc, în mii euro) – cea
mai frecventă măsură a bunăstării unei ţări.
Tara CPI PIB/loc (mii euro)
Austria 77 44,78
Belgia 75 41,20
Bulgaria 43 8,68
Croatia 47 13,26
Cipru 58 25,31
Cehia 56 20,99
Danemarca 87 53,27
Estonia 74 21,22
Datele colectate sunt Finlanda 86 43,57
Franta 69 35,96
prezentate in tabelul Germania 80 41,51
alaturat. Grecia 48 17,50
Ungaria 44 14,72
Valorile inregistrate Irelanda 74 72,26
sunt pentru anul 2019. Italia 53 29,66
Letonia 56 15,92
Lituania 60 17,34
Luxembourg 80 102,20
Malta 54 26,53
Olanda 82 46,71
Polonia 58 13,78
Portugalia 62 20,74
Romania 44 11,50
Slovacia 50 17,21
Slovenia 60 22,98
Spania 62 26,43
Suedia 85 46,13
UK 77 37,78
Ţara Xi Yi 𝒀𝒊 𝜺𝒊 𝜺𝟐𝒊 𝑿𝒊 − 𝑿 𝑿𝒊 − 𝑿 𝟐

Austria 44,78 77 71,00253 6,00 35,97 13,03 169,65  Calcule intermediare


Belgia 41,20 75 69,16619 5,83 34,03 9,45 89,21
Bulgaria 8,68 43 52,48524 -9,49 89,97 -23,08 532,46 𝑌𝑖 = 𝑎 + 𝑏𝑋𝑖 =
Croatia 13,26 47 54,83453 -7,83 61,38 -18,50 342,07
Cipru 25,31 58 61,0155 -3,02 9,09 -6,45 41,54 = 48,0328 + 0,5129 ∙ 𝑋𝑖
Cehia 20,99 56 58,79958 -2,80 7,84 -10,77 115,89
Danemarca 53,27 87 75,35742 11,64 135,55 21,52 462,90 𝜀𝑖 = 𝑌𝑖 − 𝑌𝑖
Estonia 21,22 74 58,91756 15,08 227,48 -10,54 110,99
70,38186 15,62 243,93 11,82 139,59
𝜀𝑖2 = 2429,87
Finlanda 43,57 86
Franta 35,96 69 66,47836 2,52 6,36 4,21 17,68
Germania 41,51 80 69,3252 10,67 113,95 9,76 95,16
𝑋𝑖
Grecia
Ungaria
17,50
14,72
48
44
57,00941
55,58342
-9,01
-11,58
81,17
134,18
-14,26
-17,04
203,21
290,19 𝑋= 𝑛
= 31,76
Irelanda 72,26 74 85,09823 -11,10 123,17 40,51 1.640,66
2=
Italia 29,66 53 63,24681 -10,25 105,00 -2,10 4,39 𝑋𝑖 − 𝑋 11342,10
Letonia 15,92 56 56,19896 -0,20 0,04 -15,84 250,75
Lituania 17,34 60 56,92734 3,07 9,44 -14,42 207,79
𝜀𝑖2
Luxembourg
Malta
102,20
26,53
80
54
100,4558
61,6413
-20,46
-7,64
418,44
58,39
70,45
-5,23
4.962,50
27,30
𝑠𝜀 = 𝑛−2 = 93,456
2

Olanda 46,71 82 71,99251 10,01 100,15 14,96 223,65


Polonia 13,78 58 55,10126 2,90 8,40 -17,98 323,10 1 𝑋2
Portugalia 20,74 62 58,67135 3,33 11,08 -11,02 121,33 𝑠𝑎 = 𝑠𝜀 𝑛
+ 𝑋𝑖 −𝑋 2
= 3,41
Romania 11,50 44 53,93174 -9,93 98,64 -20,26 410,27
Slovacia 17,21 50 56,86066 -6,86 47,07 -14,55 211,56
Slovenia 22,98 60 59,82034 0,18 0,03 -8,78 77,00 1
Spania 26,43 62 61,59 0,41 0,17 -5,33 28,36 𝑠𝑏 = 𝑠𝜀 = 0,09
Suedia 46,13 85 71,695 13,30 177,02 14,38 206,64 𝑋𝑖−𝑋 2
UK 37,78 77 67,41192 9,59 91,93 6,03 36,30
Total 889,14 1.801,00 - 0,00 2.429,87 - 11.342,10
Testarea semnificaţiei parametrilor
- exemplu -
Pentru termenul liber: Pentru coeficientul de regresie:
• Pasul 1: Definirea ipotezelor: • Pasul 1: Definirea ipotezelor:
𝐻𝑜 : 𝑎 = 0 𝐻𝑜 : 𝑏 = 0
𝐻1 : 𝑎 ≠ 0 𝐻1 : 𝑏 ≠ 0
• Pasul 2: Calculul statisticii t: • Pasul 2: Calculul statisticii t:
𝑎 48,03 𝑏 0,51
𝑡𝑐𝑎𝑙𝑐 = = = 14,07 𝑡𝑐𝑎𝑙𝑐 = s = 0,09 = 5,65
s𝑎 3,41
𝑏
• Pasul 3: Valoarea critică: • Pasul 3: Valoarea critică:
𝑡𝛼;𝑛−2 = 2,055 𝑡𝛼;𝑛−2 = 2,055
2 2
• Pasul 4: Decizia: • Pasul 4: Decizia:
𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼;𝑛−2 14,07 > 2,055 (𝐴) 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼;𝑛−2 5,65 > 2,055 (𝐴)
2 2
adică respingem 𝐻𝑜 , parametrul a adică respingem 𝐻𝑜 , parametrul b
este semnificativ diferit de zero. este semnificativ statistic
Testarea semnificaţiei parametrilor
- exemplu -
Outputul de regresie din Excel ne oferă următoarele informaţii:
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 48,03288543 3,412705603 14,074723 1,13242E-13 41,0179686 55,04780226
PIB/loc (mii euro) 0,512944202 0,090773237 5,6508308 6,088E-06 0,326357141 0,699531263

 Standard Error - reprezintă eroarea standard a estimatorilor:


𝑠𝑎 = 3,4127
𝑠𝑏 = 0,0907
 t Stat - reprezintă valoarea calculată a statisticii t (𝑡𝑐𝑎𝑙𝑐 )
𝑡𝑐𝑎𝑙𝑐 𝑎 = 14,0747
𝑡𝑐𝑎𝑙𝑐 𝑏 = 5,6508
 Decizia se ia pe baza valorii lui P-value
Dacă P-value < α atunci acel parametru este semnificativ
statistic (α = pragul de semnificaţie, de obicei α = 0,05).
Intervale de încredere pentru parametri
Pentru o probabilitate de garantare a rezultatelor P = 100(1-α)%,
se poate afirma că:
 Parametrul a se găseşte în următorul interval
𝑎 −𝑡𝛼;𝑛−2 · 𝑠𝑎 ≤ 𝑎 ≤ 𝑎 + 𝑡𝛼;𝑛−2 · 𝑠𝑎
2 2
 Parametrul b se găseşte în intervalul:
𝑏 −𝑡𝛼;𝑛−2 · 𝑠𝑏 ≤ 𝑏 ≤ 𝑏 + 𝑡𝛼;𝑛−2 · 𝑠𝑏
2 2
Exemplu:
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 48,03288543 3,412705603 14,074723 1,13242E-13 41,0179686 55,04780226
PIB/loc (mii euro) 0,512944202 0,090773237 5,6508308 6,088E-06 0,326357141 0,699531263

Lower 95% - limita inferioară a intervalului de încredere pt P=95%


Upper 95% - limita superioară a intervalului de încredere pt P=95%
Intervale de încredere pentru parametri
- exemplu -
 Parametrul a se găseşte în următorul interval
P(𝑎 −𝑡𝛼;𝑛−2 · 𝑠𝑎 ≤ 𝑎 ≤ 𝑎 + 𝑡𝛼;𝑛−2 · 𝑠𝑎 )=(1-α)100
2 2
48,032 − 2,055 · 3,412 ≤ 𝑎 ≤ 48,032 + 2,055 · 3,412
P(41,02 ≤ 𝒂 ≤ 𝟓𝟓, 𝟎𝟓)=95%

 Parametrul b se găseşte în intervalul:


P(𝑏 −𝑡𝛼;𝑛−2 · 𝑠𝑏 ≤ 𝑏 ≤ 𝑏 + 𝑡𝛼;𝑛−2 · 𝑠𝑏 )=(1-α)100
2 2
0,513 − 2,055 · 0,091 ≤ 𝑏 ≤ 0,513 + 2,055 · 0,091
P(𝟎, 𝟑𝟐𝟔 ≤ 𝒃 ≤ 𝟎, 𝟔𝟗𝟗)=95%
În literatura de specialitate, precum şi în pachetele de
programe informatice specializate se utilizează notaţiile:

 SST = varianţa totală, suma pătratelor abaterilor totale

 SSE = varianţa neexplicată (reziduală) , suma pătratelor


erorilor

 SSR = varianţa explicată, suma pătratelor abaterilor


datorate regresiei

 Deci, SST= SSR+SSE.


n n n

( y
i 1
i  y )  ( yi  ŷi )  ( ŷi  y )
2

i 1
2

i 1
2

SST = SSE + SSR


SST - Total Sum of Squares
Măsoară variaţia valorilor observate Yi în jurul mediei 𝑌
SSE - Error Sum of Squares
Măsoară variaţia ce poate fi atribuită altor factori, diferiţi
de variabila explicativă X
SSR - Regression Sum of Squares
Măsoară variaţia explicată de modelul de regresie
Ipoteze:
H0: MSR = MSE (sau b =0) model nevalid (nesemnificativ) statistic
H1: MSR > MSE (sau b ≠0) model valid (semnificativ) statistic
Statistica utilizată este:
MSR
Fcalc 
MSE
Decizia: Se compară valoarea calculată a testului F cu valoarea
teoretică pentru un prag de semnificaţie α, si k-1, respectiv n-k
grade de libertate, preluată din tabelul repatiţiei Fisher: 𝐹𝛼,𝑘−1,𝑛−𝑘 .
 Dacă 𝑭𝒄𝒂𝒍𝒄 > 𝑭𝜶,𝒌−𝟏,𝒏−𝒌 se respinge H0, adică se concluzionează că
modelul este valid.
Pentru α = 0,05

Puteti gasi valorile critice


pentru alte praguri de
semnificatie la adresa:
http://www.stat.ufl.edu/~a
a/sta6126/tables.pdf
Sursa Suma pătratelor Grade de libertate Media pătratelor Testul Fisher
variaţiei (SS-Sum of (df- degree of (MS- Mean of (testul F)
Squares) freedom) Squares)
Datorată
 
n
SSR MSR
SSR   yˆ i  y
2
regresiei k-1 MSR  Fcalc 
i 1 k 1 MSE
Reziduală n
SSE
SSE    yi  yˆ i  MSE 
2
n–k
i 1 nk
Totală
 
n
SST   yi  y
2
n–1
i 1

unde k este numarul de parametri (pentru regresia unifactoriala k = 2)


SUMMARY OUTPUT

Regression Statistics
Multiple R 0,74242649
R Square 0,551197093
Adjusted R Square 0,533935443
Standard Error 9,667286275
Observations 28

ANOVA
df SS MS F Significance F
Regression 1 2984,240121 2984,2401 31,93188864 6,088E-06
Residual 26 2429,867022 93,456424
Total 27 5414,107143

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 48,03288543 3,412705603 14,074723 1,13242E-13 41,0179686 55,04780226
PIB/loc (mii euro) 0,512944202 0,090773237 5,6508308 6,088E-06 0,326357141 0,699531263

Decizia: Dacă Significance F < α atunci modelul este valid.


Pentru a măsura calitatea ajustării în cazul regresiei
liniare unifactoriale se calculează:
1. Raportul de corelație

2. Coeficientul de determinaţie

3. Coeficientul de determinație ajustat

4. Abaterea medie pătratică (eroarea standard) a


reziduurilor - măsură absolută a calităţii ajustării pe
baza regresiei în eşantion
 Coeficientul de determinaţie (R2) arată proporţia
din variaţia totală a variabilei dependente
explicată de variaţia variabilei independente

cu 𝑅2 ∈ [0; 1]

R2 este afectat de creşterea numărului de parametri;


de aceea pentru modele cu multi parametri se
calculează R2 ajustat, care are aceeaşi interpretare.
Raportul de corelaţie este un indicator relativ utilizat pentru:
- măsurarea intensităţii legăturii dintre variabile
- validarea modelelor de regresie.
Raportul de corelaţie se calculează ca:

 ŷ 
n n

y  ŷ 
2
y
2
SSR SSE
R i 1
i
 1 i 1
i
sau R   1 sau R  R 2

 y  y   y  y 
n
2
n
2 SST SST
i i
i 1 i 1

◦ Daca R→1 legatura dintre X şi Y este puternică


◦ Daca R →0 legatura dintre X şi Y este slabă

◦ În cazul legăturilor liniare: R  rxy


 Abaterea medie pătratică a erorilor în eşantion este:
n

  yi  y i 
ˆ 2

s  s2  i 1
n2
unde s este un estimator nedeplasat al dispersiei reziduurilor  
2 2

 Acest indicator se este important în determinarea intervalului de


încredere pentru coeficientul de regresie b şi pentru termenul
liber a.
 se este util în compararea modelelor. Dacă avem la dispoziţie
câteva modele dintre care trebuie să alegem, cel mai potrivit a fi
utilizat este cel pentru care se este mai scăzut.
 Rezultatele:

Regression Statistics
Raportul de corelatie
Multiple R 0,74243
Coeficientul de determinatie
R Square 0,55120
Coeficientul de determinatie ajustat Adjusted R Square 0,53394
Abaterea medie patratica a erorilor Standard Error 9,66729
Numarul de observatii Observations 28
 Previziune punctuala
𝑌𝑖 =𝑎 + 𝑏 ∙ 𝑋𝑖

 Previziune pe baza de interval de incredere:

unde

S-ar putea să vă placă și