Sunteți pe pagina 1din 28

Regresie şi corelaţie (3)

Joi, 25 octombrie 2007


1
Etapele realizării unui model de regresie multiplă (1)

I. Identificarea variabilelor modelului de regresie şi scrierea


acestuia reprezintă una din etapele importante ale analizei economice prin
intermediul modelelor de regresie.
Pentru rezolvarea acestei probleme vom avea în vedere, pe de o parte,
modelele folosite în teoria economică, iar pe de altă parte, datele disponibile
pentru determinarea caracteristicilor modelului de regresie. În cazul în care
modelul de regresie este neliniar, atunci va trebui să stabilim strategia de estimare
a parametrilor;

II. Definirea ipotezelor modelului clasic de regresie.


Pentru testarea valabilităţii ipotezelor pe care se fundamentează modelul
clasic se vor folosi diverse teste statistice. În funcţie de ipotezele ce sunt
satisfăcute de modelul de regresie vom aplica anumite metode pentru estimarea
parametrilor;
2
Etapele realizării unui model de regresie multiplă (2)

III. Estimarea parametrilor şi validarea modelului de regresie. Pentru


modelul clasic de regresie, care va fi prezentat în acest capitol, vom estima parametrii
folosind metoda celor mai mici pătrate (MCMMP), precum şi metoda verosimilităţii
maxime.

IV. Pentru variabilele exogene ale modelului vom determina matricea de


corelaţie. Prin intermediul acestui instrument vom primi un prim semnal în legătură cu
prezenţa fenomenului de corelaţie în rândul variabilelor exogene;

V. Pe baza modelului estimat se vor efectua diverse previziuni pentru variabila


endogenă. Vom recurge prin intermediul modelului de regresie la estimări punctuale
sau la cele prin intervale de încredere, stabilind în acest sens valorile variabilelor
exogene şi un prag de încredere în garantarea rezultatelor.
3
Liniarizarea modelelor de regresie

‡ În general modelele pot fi linearizate.


‡ y=a+bx
‡ y=a+bz, z=ex
‡ y=a+br, r=1/x
‡ y=a+bq, q=ln(x)
y= α xβ ⇒ ln(y)=α+βln(x)
‡ Forma generală: f(yi)= α+βg(xi)+εi
1
‡ Contra exemplu: y =α + nu poate fi
β+x
transformat în model liniar.

4
Modele ce pot fi linearizate

Y
1000

⎛ 1 ⎞
a + b⎜ ⎟ a + be x
⎝ x ⎠
800

600

a + bx
400

200

a + b ln (x )
0
-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X

-200

-400

5
Modele particulare (1)

Cazul 1. Modelul liniar de regresie centrat în medie este


reprezentat prin următoarea ecuaţie:
zi = β*1u1t+ β*2uzt+ …+ β*kukt+ ηt,
unde E(Z) = 0 şi E(Uj) = 0, j = 1, p .
În cazul acestui model, planul de regresie trece prin originea
reperului.
Cazul 2. Modelul liniar centrat redus va avea ecuaţia de
regresie
zi = β**1u1t+ β**2 uzt+ …+ β**kukt+ ηt,
unde E(Z) = 0 , Var (Z) = 1,E (Ut) = 0 şi Var (Ut ) = 1.

6
Modele particulare (2)
Între parametrii modelului iniţial de regresie şi cele doua modele
obţinute prin transformări de date există următoarele relaţii mai
importante:
β j = β * j ;
σ y
β j = β ** j .
σ xi

– pentru a obţine modelul centrat vom utiliza următoarele


transformările de date:
z t = y t − y şi u jt = x jt − x j ;
– pentru transformarea modelului iniţial de regresie într-un model
centrat redus folosim transformările următoare:
yt − y x jt − x j
Zt = si u jt = .
σy σj
unde σ j reprezintă abaterea medie standard a variabilei Xj.

7
Modele particulare (3)
Coeficienţii de corelaţie parţială
Prin modul de definire modelul centrat redus permite estimarea
parametrilor şi pe baza altor date decât cele necesare în cazul modelului
normal.
Definim coeficienţii de corelaţie ai variabilelor luate doua câte două
după cum urmează:
cov( y , xi ) cov(xi , x j )
ry / xi =
σ y σ xi şi rxi / x j = σ σ .
xi xj

Pentru modelul centrat, luând în considerare proprietaţile matricilor


se obţin următoarele:
∑ y t x it ∑x x
t
it jt

cov( y , x i ) = t
şi cov( xi , x j ) =
n
.
n
Se obţin atunci următoarele egalităţi:
∑ y t x jt = n cov( y , xi )
t

∑ xit x jt = n cov( xi , x j ). 8
t
Modele particulare (4)
Luând în considerare relaţiile de mai sus vom scrie pentru modelul centrat matricile X´X şi X´y după cum urmează:
⎡ nσx21 ncov(x1, x2 ) ... ncov(x1, xk ) ⎤
⎢ ⎥
n cov( x , x ) n σ 2
... ncov(x2 , xk )⎥
X'X = ⎢⎢ 2 1 x2
⎥ = nC[ x1,x2 ,...,xk ] ,
⎢................... ................... ... ....................⎥
⎢⎣ncov(xk , x1) ncov(xk , x2 ) ... nσxk ⎥⎦
2

unde prin C[x1, x2, …, xk], s-a notat matricea de covarianţă a variabilelor exogene.
În mod asemănător, vom scrie:
⎡cov(y, x1) ⎤
X'y = n⎢ ⎥ = nC[y, X],
⎢⎣cov(y, x )
p ⎥⎦
unde C(y,X) reprezintă vectorul coloană al covarianţelor variabilei Y în funcţie de fiecare variabilă exogenă.
Vom scrie acum sistemul normal de ecuaţii pentru modelul centrat:
C(x1,x2,...,xk)βˆ* = C(y, X)
Rezolvând sistemul de ecuaţii se obţine soluţia:

βˆ* = C-1(x1, x2,...,xk )C(y, X) . 9


Testarea ipotezelor
statistice

10
Concepte (1)
‡ Ipoteză statistică = ipoteza care se face cu privire la
parametrul unei repartiţii sau la legea de repartiţie pe
care o urmează anumite variabile aleatoare.
‡ Ipoteză nulă (H0) = ipoteza care se consideră a priori
adevărată.
‡ Ipoteză alternativă (H1) = o ipoteză care contrazice
ipoteza nulă. Ea va fi acceptată doar când există
suficiente dovezi în favoarea acesteia.
‡ Dacă ipoteza nulă constă în afirmaţia că parametrul θ al
unei distribuţii este egal cu o anumită valoare θ0:
„ ipoteză alternativă simplă: θ = θ1
„ ipoteză alternativă compusă: θ ∈ {θ 1 ,θ 2 ,...,θ k } 11
Concepte (2)
‡ Testul statistic este utilizat drept criteriu de acceptare
sau de respingere a ipotezei nule
‡ Regiunea critică, Rc = valorile numerice ale testului
statistic pentru care ipoteza nulă va fi respinsă.
„ este astfel aleasă încât probabilitatea ca ea să conţină testul
statistic, când ipoteza nulă este adevărată să fie α, cu α mic
(α=0.01 etc).
„ Dacă valoarea calculată a testului statisticic se află în regiunea
critică Rc, ipoteza H0 se respinge
„ regiunea critică este delimitată de valoarea critică, C –
punctul de tăietură în stabilirea acesteia.
12
Concepte (3)
‡ Eroare de genul întâi = eroarea pe care o facem eliminînd o ipoteză nulă,
deşi este adevărată.
‡ Riscul de genul întâi (α) = probabilitatea comiterii unei erori de genul
întâi; se numeşte nivel sau prag de semnificaţie.
‡ Nivelul de încredere al unui test statistic este (1-α) iar în expresie
procentuală, (1-α)100 reprezintă probabilitatea ca rezultatele să fie
adevărate.
‡ Eroare de genul al doilea = eroarea pe cere o facem acceptînd o ipoteză
nulă, deşi este falsă.
‡ Probabilitatea (riscul) comiterii unei erori de genul al doilea este β.
‡ Puterea testului statistic este (1-β).
‡ P-value=cel mai mic nivel de semnificaţie la care poate fi respinsă ipoteza
nulă.

13
Concepte (4)
‡ Ipoteza alternativă poate avea una din trei forme (pe care le vom exemplifica
pentru testarea egalităţii parametrului „media colectivităţii generale“, μ cu
valoarea μ0)
„ test bilateral:
H0: μ = μ0
H1: μ ≠ μ0 (μ < μ0 sau μ > μ0)
„ test unilateral dreapta:
H0: μ = μ0
H1: μ > μ0
„ test unilateral stânga:
H0: μ = μ0
H1: μ < μ0 14
Regiunea critică

α/2 α/2 α α

−zα /2 μ zα /2 μ zα −zα μ
a) b) c)

Regiunea critică pentru a) test bilateral; b) test unilateral dreapta; c) test unilateral stînga

15
Concepte (5)

‡ Erorile în testarea ipotezelor statistice


Decizia de Ipoteza adevărată
acceptare H0 H1
H0 Decizie corectă Eroare de tip II
(probabilitate 1-α) (risc β)
H1 Eroare de tip I Decizie corectă
(risc α) (probabilitate 1-β)

‡ α= P(respingere H0 ‫ ׀‬H0 este adevărată)=P(eroare de tip I)


‡ β= P(acceptare H0 ‫ ׀‬H0 este falsă)=P(eroare de tip II)
16
Concepte (6)
f(x)
H0 H1

μ0 C μ1 x

Legătura dintre probabilităţile α şi β

17
Etapele verificării ipotezelor statistice

„ Identificarea ipotezelor ce trebuie testate


„ Identificarea testului statistic
„ Specificarea nivelului de semnificaţie
„ Stabilirea regulii de decizie
„ Culegerea datelor şi realizarea calculelor
„ Luarea deciziei statistice
„ Aplicarea deciziei statistice în lumea concretă

18
Efectuarea testului statistic
‡ Condiţia esenţială în verificarea ipotezelor statistice este
că variabila de interes urmează o repartiţie normală:

X ∼ N(μσ
, 2)
‡ Se extrage un eşantion aleator din respectiva populaţie
normală
x : ( x1 ,..., xn )
‡ Pe baza eşantionului se calculează valoarea estimatorului
parametrului populaţiei de interes şi apoi valoarea
testului
‡ Forma generală a testului statistic:
valoarea estimată - valoarea ipotetică
eroarea standard a estimatorului 19
Concepte (7)
‡ Se fac presupuneri despre populaţia sau populaţiile ce
sunt eşantionate (normalitate etc.).
‡ Se calculează apoi testul statistic şi se determină
valoarea sa numerică, pe baza datelor din eşantion.
‡ Se desprind concluziile: ipoteza nulă este fie acceptată,
fie respinsă, astfel:
„ dacă valoarea numerică a testului statistic cade în regiunea
critică (Rc), respingem ipoteza nulă şi acceptăm ipoteza
alternativă. Această decizie este incorectă doar în 100 α % din
cazuri;
„ dacă valoarea numerică a testului nu se află în regiunea
critică (Rc), se acceptă ipoteza nulă H0. 20
Testarea semnificaţiei parametrilor modelului
liniar de regresie (1)
H0: βi = 0
H1 : βi ≠ 0.
Dacă notăm θ ii = [(X'X)–1ii] termenul (i, i) din matricea (X’X)–1,
atunci dacă sunt satisfăcute ipotezele pe care se fundamentează modelul
regresiei multiple vom avea următoarele două rezultate:
⎛ −1 ⎞
βi → N ⎜ βi ,σε ( X'X)ii ⎤ ⎟
ˆ ⎡
⎝ ⎣ ⎦⎠
iar
βi − βˆi
zi = → N (0,1).
σε ⎡( X'X )−1 ⎤
⎣ ii ⎦

Cum în aplicaţiile practice nu cunoaştem σε , atunci această statistică


nu poate fi utilizată în inferenţele statistice asupra parametrilor modelului21de
regresie.
Testarea semnificaţiei parametrilor modelului
liniar de regresie (2)
Pentru definirea unei statistici operabile ţinem seama de faptul că:
= σ ( X'X )ii ⎤ .
⎡ −1
σˆ 2 2
βˆi ⎣ e ⎦
βˆi − β i
ti =
Atunci ⎤ urmează o repartiţie Student cu n-k
σ e ⎡( X ' X )ii
−1
⎣ ⎦
grade de libertate.
Vom formula deci ipotezele:
Ho: βˆ = 0
i
H1: βˆ ≠0
i
Decizia:
Dacă tcalc>ttab se alege H1 . Altfel, acceptam H0
22
Exemplu (1)
‡ Se cere să se construiască un model de
regresie care să analizeze modul în care
media de la examenul de Bacalaureat,
media anilor de liceu şi genul candidatului
au influenţat rezultatele la admiterea ASE
2006.
‡ În acest scop s-a realizat un eşantion
selectat aleator de 50 de candidaţi precum
şi punctajul maxim realizat de către
aceştia
23
Exemplu (2)
‡ Modelul de regresie
Punctaj = β 0 + β1 * Bac + β 2 * Lic + β 3 * Gen + ε

‡ Avem n=50 observaţii (cazuri), k=3 variabile


independente (Bac, Liceu şi Gen)

⎛ 50 412, 49 427,53 14 ⎞ ⎛ 2538 ⎞


⎜ ⎟ ⎜ ⎟
412, 49 3433,82 3546, 72 117, 24 21249, 63
X 'X =⎜ ⎟ X 'Y = ⎜ ⎟
⎜ 427,53 3546, 72 3688, 43 116,98 ⎟ ⎜ 22029, 03 ⎟
⎜ ⎟ ⎜ ⎟
⎝ 14 117, 24 116,98 14 ⎠ ⎝ 665 ⎠

24
Exemplu (3)
⎛ 2, 78 −0,16 −0,17 −0, 05 ⎞
⎜ ⎟
−0,16 0, 06 −0, 04 − 0, 02
( X ' X ) −1 = ⎜ ⎟ ⎛ β0 ⎞ ⎛ −51, 64 ⎞
⎜ −0,17 −0, 04 0, 05 0, 02 ⎟ ⎜ ⎟ ⎜ ⎟
⎜ ⎟ β
⎝ −0, 05 −0, 02 0, 02 0,11 ⎠ βˆ = ⎜⎜ 1 ⎟⎟ = ( X
β2
' X )−1 X 'Y =⎜
⎜ 6, 78 ⎟
5, 57 ⎟
⎜ ⎟ ⎜ ⎟
⎝ β3 ⎠ ⎝ − 4,19 ⎠

Punctaj = −51, 64 + 6, 78* Bac + 5,57 * Lic − 4,19* Gen + ε


1
( )
2

S β2 = Sε2 * diag ( X ' X )


−1 Sε =
2

n − k −1
∑ y− y = 174,42

⎛ 2, 78 ⎞
⎜ ⎟
0, 06
S β = 174, 42* ⎜
2 ⎟ Punctaj = −51, 64 + 6, 78* Bac + 5,57 * Lic − 4,19* Gen + ε
⎜ 0, 05 ⎟
⎜ ⎟ (22,02) (3,12) (3,05) (4,34)
⎝ 0,11⎠
25
Exemplu (4) – Testarea semnificaţiei
parametrilor de regresie
Calculam valorile testului t
βˆi − 0
t icalc =
σβ
pe care le comparăm cu valorilte teoretice a repartiţiei Student cu n-k
grade de libertate.
t α ; n − k = t 0.05 ;47 = 2, 32
2 2

Vom formula deci ipotezele:


Ho: βˆi = 0
ˆ
H1: β i ≠0
Decizia:
Dacă tcalc>ttab se alege H1 . Altfel, acceptam H0

26
Exemplu (5) - Testarea semnificaţiei
parametrilor de regresie

În concluzie, cu excepţia parametrului ß3 ( corespunzător


variabilei Gen), toţi ceilalţi parametri de regresie au un prag de
semnificaţie suficient de bun.

Decizie: Analiza va fi refăcută cu eliminarea


variabilei Gen
27
Exemplu (6) - ANOVA

28

S-ar putea să vă placă și