Sunteți pe pagina 1din 22

Modele statistice 49

Modele statistice Statistical Models





Nod pentru aplicarea metodelor regresiei liniare


Nod pentru Analiza n Componente Principale




Regresia liniar

Noiuni teoretice

Regresia liniar simpl

Statistica social-economic studiaz fenomenele de mas n interdepen unele cu altele. n
acest scop datele sunt sistematizate sub form de serii de repartiie multidimensionale.
Analiza lor se realizeaz prin metodele de corelaie statistic.
Utilizarea din ce n ce mai frecvent a metodei corelaiei n statistic este justificat de
necesitatea crescnd a reflectrii ntr-o form numeric adecvat a interdependenei obiective
dintre fenomenele social-economice n ceea ce privete natura, direcia i gradul de intensitate
a legturilor care se manifest ntr-o anumit perioad de timp sau n dinamic.
n cazul dependenei liniare, funcia de regresie este o dreapt de forma:
+ + = x Y
Necunoscnd parametrii teoretici i , vom cuta estimaiile lor a i b. Dreapta de regresie
estimatoare este:
+ + = bx a y
Ecuaia de regresie y se noteaz, de obicei ca medie, deoarece mrimea sa exprim tendina
de realizare a corelaiei dintre cele dou variabile x i y. Dac, ntr-adevr, legtura este
liniar i factorul este determinant, atunci valorile ecuaiilor de regresie, calculate pentru toate
unitile observate pe baza valorii individuale ale variabilei x, trebuie s prezinte abateri
minime fa de valorile empirice. Pentru msurarea tendinei de realizare a legturii, n ecuaia
mediei de regresie liniar cei doi parametri au i ei coninut de valori medii i trebuie s fie
reprezentativi pentru cele mai multe din unitile observate.
Parametrul a are caracter de mrime medie, n sensul c valoarea sa arat la ce nivel ar fi
ajuns valoarea caracteristicii y dac toi factorii - mai puin cel nregistrat - ar fi avut o aciune
constant asupra formrii ei. n acest caz valorile individuale ale caracteristicii rezultative ar fi
fost egale ntre ele i, deci, egale cu media lor.
Parametrul b se mai numete i coeficient de regresie i exprim, n sens geometric, panta
Capitolul 6 50
liniei drepte. Coeficientul de regresie b arat care este gradul de influen a caracteristicii
aleas drept caracteristic factorial x i msoar cu ct se schimb n medie variabila y n
cazul n care variabila x crete cu o unitate.
dac b>0, atunci legtura de corelaie este direct, deoarece pe msur ce cresc
valorile lui x, cresc i valorile ecuaiei de regresie calculate.
dac b<0, legtura este de sens invers, adic pe msur ce crete valoarea
caracteristicii - factor, scade valoarea caracteristicii rezultative.
cele dou variabile sunt independente dac b=0, atunci a y = . Aceasta
nseamn c variabila y nu este n funcie de variabila x, care s-a considerat ca
factor de influen, ci variaia ei depinde de ceilali factori, care s-au considerat
ca fiind cu aciune constant pentru toate unitile colectivitii, dar n realitate
avem o aciune determinant.
Pentru a determina ecuaia medie de regresie, i cu ajutorul ei, valorile ecuaiei individuale de
regresie corespunztoare tuturor valorilor variabilei x, este necesar s se calculeze valorile
celor doi parametri a i b.
Dac factorul x este determinant pentru variabila y, atunci valorile estimate prin funcie de
regresie trebuie s dea abateri minime fa de cele nregistrate pentru variabila rezultativ.
Cum aceste abateri se pot produce ntr-un sens sau altul, ele sunt ridicate la ptrat i, din
aceast cauz, metoda de verificare a acestei condiii se mai numete i metoda celor mai
mici ptrate.
Cu alte cuvinte, dac y depinde de x, atunci trebuie s se ndeplineasc condiia ca suma
ptratelor abaterilor valorilor empirice de la valorile ecuaiilor lor de regresie s fie minim:

=
= =
n
i
y y S
1 i
2
minim ) (
Pentru tendina liniar aceast ecuaie este:

=
= +
n
i
i i
bx a y
1
2
minim )] ( [
Pentru aflarea celor doi parametri care definesc ecuaia liniei drepte se deriveaz aceast sum
n raport cu derivatele celor doi parametri:

+ =
+ =

=
=
n
i
i i
n
i
i i
x bx a y
b
s
bx a y
a
s
1
1
) )]( ( [ 2
) 1 )]( ( [ 2


Anulnd derivatele pariale i simplificnd cu 2 se obine:

= +
= +


= = =
= =
n
i
i i
n
i
i
n
i
i
n
i
i
n
i
i
y x x b x a
y x b na
1 1
2
1
1 1


Coeficienii a i b se obin cu formulele:

a
y x
x y x
n x
x x
y x x y x
n x x
i i
i i i
i
i i
i i i i i
i i
= =




2
2
2
2 2
( )

Modele statistice 51

b
n y
x x y
n x
x x
n x y x y
n x x
i
i i i
i
i i
i i i i
i i
= =




2
2 2
( )


Cu valorile a i b se calculeaz valoarea ecuaiei de regresie pentru fiecare valoare a
caracteristicii x. Aceste valori ale ecuaiilor de regresie se mai numesc i valorile teoretice ale
caracteristicii y n funcie de x, iar operaia de nlocuire a termenilor reali y cu valorile
ecuaiilor de regresie (valori teoretice) se numete ajustare.
Deci, prin ajustarea unei serii statistice de distribuie se nelege nlocuirea termenilor
empirici (termeni reali obinui prin observare) cu termeni teoretici, calculai pe baza unui
model matematic, care arat tendina de variaie a caracteristicii rezultative, dac ar fi depins
numai de variaia lui x considerat.

Msurarea intensitii corelaiei

Linia de regresie este util numai dac intensitatea corelaiei este suficient de mare.

Coeficientul de corelaie

Coeficientul de corelaie msoar intensitatea legturii numai n cazul regresiei liniare.
Estimaia r a coeficientului teoretic de corelaie este dat de formula:
y x
n
i
i i
n
y y x x
r

=

=
1
) )( (

care prin dezvoltare devine:



= = = =
= = =

=
n
i
n
i
n
i
n
i
i i i i
n
i
n
i
n
i
i i i i
y y n x x n
y x y x n
r
1 1 1 1
2 2 2 2
1 1 1
) ( [ ] ) ( [

Coeficientul de corelaie poate lua valori n intervalul 1 i +1, dup cum corelaia este
negativ, invers sau pozitiv, direct. Cu ct coeficientul de corelaie ia valori mai apropiate
de 1 sau 1 cu att legtura liniar este mai intens, apropiindu-se de legtura funcional.
Dac cele dou variabile sunt independente, atunci coeficientul de corelaie este egal cu zero.
Raportul de corelaie liniar simpl

Raportul de corelaie liniar este indicatorul care permite msurarea gradului de intensitate a
realizrii legturii dintre caracteristica considerat factor de influen i caracteristica
rezultativ, dup ce s-a aplicat metoda regresiei. Calculul su se bazeaz pe descompunerea
dispersiei totale a caracteristicii y pe factori de influen.
Dac se noteaz dispersia total a caracteristicii rezultative cu

y
2
, dispersia fa de linia de
Capitolul 6 52
regresie cu

y
r
2
i dispersia liniei de regresie de la valoarea medie a caracteristicii cu

y
x
i
2
atunci ntre cele trei dispersii exist relaia:

y y
r
y
x
i i x x
i
i i
y y
n
y Y
n
Y y
n
2 2 2
2 2 2
= +

=

+


( ) ( ) ( )

n care:

y
2
- arat influena variaiei tuturor factorilor;

y
r
2
- arat influena factorilor considerai cu aciune constant i fa de influena
factorului ales x reprezint dispersia rezidual;

y
x
i
2
- arat influena factorului (x).
n cazul n care ntre cele dou caracteristici x i y exist o legtur funcional, atunci
valorile teoretice ar corespunde cu valorile empirice ale caracteristicii y, deoarece acestea s-ar
forma numai n funcie de variaia caracteristicii x. n acest caz a = 0, deci nu exist ali
factori care influeneaz n afar de x, i ca atare

y
r
2
0 = .

= =
2
2
2
2
) (
) (
y y
y y
R
i
i
y
x
y
x
y


sau:

= =
2
2
2
2
) (
) (
1 1
y y
y y
R
i
i i
y
r
y
x
y


Raportul de corelaie poate lua valori de la 0 la +1.

Coeficientul de determinaie

n realitate, n cadrul fenomenelor de mas, legturile funcionale se ntlnesc foarte rar i
numai la nivelul unitilor simple. Gradul de intensitate a corelaiei dintre fenomene se va
obine stabilind greutatea specific a dispersiei format pe baza factorului nregistrat fa de
dispersia total.
R
y
x
y
x
y
2
2
2
=


Coeficientului R
2
ajustat:

) 1 (
1
1
1
2 2
R
k n
n
ajustat R

=

Modele statistice 53
n care k reprezint numrul variabilelor explicative se utilizeaz atunci cnd numrul
observaiilor este mic.

Semnificaia estimaiilor. Intervale de ncredere

ntr-o problem dat dispunem doar de valori calculate ale estimatorilor a i b (coeficienii
liniei de regresie) i r (coeficientul de corelaie); valorile pot fi semnificativ diferite fa de
zero sau numai ntmpltor.
Se pune problema verificrii semnificaiei acestor estimaii, mai ales n cazul seleciilor de
volum mic, ceea ce presupune calculul erorilor standard ale celor doi coeficieni.
Pentru a verifica semnificaia coeficienilor liniei empirice de regresie, bx a y + = , trebuie s
calculm erorile standard ale celor doi coeficieni:
2 2
) (
1 1 1
2
1
2

=

= = = =

n
y x b y a y
n
y y
S
n
i
n
i
n
i
i i i i
n
i
i i
y y


2
1
2

) (
1

+ =
n
i
i
y y a
x x
x
n
S S
i

=
n
i
i
y y
b
x x
S
S
1
2

) (


Cunoscnd erorile standard S
a
i S
b
putem aplica criteriul t definit prin mrimile:
a
c
S
a
t
0
= i respectiv
b
c
S
b
t
0
=
care urmeaz repartiia Student cu 2 = n f grade de libertate. Intervalele de ncredere ale
coeficienilor liniei teoretice de regresie, x Y + = sunt date de relaiile:
a q a q
S t a S t a + < <
b q b q
S t b S t b + < <
unde
q
t este valoarea variabilei t corespunztoare nivelului de semnificaie q i numrului
gradelor de libertate 2 = n f (doi parametri ai funciei de regresie).
Verificarea semnificaiei coeficientului de corelaie r se poate face folosind criteriul t, mai
ales cnd n este mic, prin mrimea:
2
1
2
r
n r
t
c

=
care urmeaz legea Student cu 2 = n f grade de libertate. Limitele de ncredere pentru
coeficientul de corelaie teoretic sunt:
r q
S t r i
r q
S t r +
unde
1
1
2

=
n
r
S
r
este eroarea standard iar
q
t este valoarea variabilei t corespunztoare
nivelului de semnificaie q i numrului gradelor de libertate 1 = n f .

Contribuia fiecrei observaii la construcia dreptei celor mai mici ptrate

Dreapta celor mai mici ptrate trece prin punctul de coordonate ( y x, ). Formula de calcul a
Capitolul 6 54
pantei dreptei b se mai poate scrie:
( )
( )
x x
y y
x x
x x
b
i
i
n
i
i
i

(
(

=


=1
2
2

Este o medie ponderat a pantelor ( ) ( ) x x y y
i i
/ a dreptelor ce trec prin punctul mediu
( y x, ) i fiecare punct ( )
i i
y x , . Ponderea ( ) ( )

=

n
i
i i
x x x x
1
2 2
/ a celei de a-i-a pant arat
impactul, unei observaii foarte ndeprtate fa de celelalte la nivelul variabilei X, asupra
calculului coeficientului b.
Se definete valoarea
i
h ce corespunde observaiei i cu formula:
( )
( )

+ =
2
2
1
x x
x x
n
h
i
i
i

Media valorilor
i
h este 2/n i se poate considera c o valoare
i
h este important dac este mai
mare dect 4/n.
Notm cu
i i i
y y e = valoarea rezidual ce corespunde observaiei i. Abaterea medie
ptratic a variabilei reziduale este:
( )
2 2

2 2

=

n
bx a y
n
e
i i i

n care n reprezint numrul observaiilor, iar 2 este numrul parametrilor.
Pentru a evalua mai bine importana erorii
i
e se prefer utilizarea estimrii ) ( i a abaterii
medii ptratice , obinut fr utilizarea observaiei i. Acest lucru se realizeaz prin
refacerea calculelor de regresie ndeprtndu-se observaia i ( rezult n-3 grade de libertate
din (n-k-1-1) n care n numrul observaiilor, k numrul factorilor de influen, n-k-1 sunt
gradele de libertate ce corespund factorilor reziduali din care sescade 1 pentru observaia ce a
fost eliminat din analiz).
( ) ( )
|
|

\
|

=
i
i
h
e
n
n
i
1
2
3
1

2
2 2

De asemenea, se noteaz cu ) ( i y valoarea calculat pentru observaia i cu condiia ca aceasta
s nu fi intrat n modelul de regresie. Cu ct diferena dintre
i
y i ) ( i y este mai mare, cu att
este mai mare contribuia observaiei i asupra dreptei de regresie.
Influena observaiei i asupra dreptei de regresie este msurat prin mrimea DFITS:
i
i
h i
i y y
DFITS
) (
) (

=
O valoare DFITS este considerat semnificativ dac este mai mare dect n / 2 2 .

Analiza reziduurilor

Analiza reziduurilor permite verificarea semnificaiei modelului att din punct de vedere al
datelor la nevel global, ct i la nivel individual.
La nivel global, se examineaz graficul valorilor ( )
i i
e x , pentru a controla ipotezele stabilite la
nivelul reziduurilor. La nivel individual, se examineaz dac observaia este bine reconstituit
de model i se msoar influena sa asupra construirii dreptei celor mai mici ptrate.

Analiza grafic
Modele statistice 55




graficul (a) corespunde situaiei unui model adecvat tipului de legtur;
graficul (b) sugereaz c ar fi mai potrivit modelul n care valorile lui Y s fie
nlocuite cu log(Y) sau Y ;
graficul (c) sugereaz utilizarea modelului + + + =
2
cx bx a Y .

Se poate demonstra c eroarea observat
i
e este o realizare a unei variabile aleatoare ce
urmeaz o lege normal N(0,
i
h 1 ). Cu ct o observaie contribuie mai mult la
construirea dreptei de regresie, cu att variana erorii corespunztoare este mai sczut.
Pentru a msura importana erorii e
i
se utilizeaz indicii:
reziduuri studentizate definite prin
i
i
i
h
e
t

=
1
. Se poate spune c observaia i
nu este bine reconstituit de model dac valoarea t
i
este foarte mare n mrime
absolut. Identificnd legea valorilor t
i
ca o lege normal redus (Student) se poate
alege adesea un nivel critic de 2, adesea 2,5 sau 3.
RSTUDENT definit prin
i
i
i
h i
e
t

=
1 ) (
*

. Se consider c o observaie i nu este


bine reconstituit de model dac ) 3 (
975 , 0
*
n t t
i


Detectarea autocorelaiei

Prin termenul de autocorelaie se definete corelaia
1
dintre termenii unei serii de date
ordonai n timp, dac seria este cronologic, sau ordonai n spaiu dac seria este instantanee.
Detectarea autocorelaiei erorilor se face analiznd reziduurile:
metoda grafic
- dac reziduurile sunt fie pozitive, fie negative pe mai multe perioade atunci se
manifest o autocorelaie pozitiv
- dac reziduurile alterneaz (pozitiv cu negativ), schimbndu-i semnul, se
manifest o autocorelaie negativ
Testul Durbin Watson (DW)
Notm cu
a
coeficientul de regresie al variabilei explicative din regresia

t t a t
v + =
1

, ) , 0 (
2
v t
N v i
a

)
estimatorul coeficientului de
regresie

Ipoteze:

1
L. Dugulean, C. Dugulean, Economie aplicat, Editura Universitii Transilvania Braov, 1998, pag. 85
Capitolul 6 56
H
0
: 0 =
a
nu exist autocorelaia erorilor;
H
1
: 0
a
exist autocorelaia erorilor
Pentru a testa ipoteza nul se calculeaz statistica DW:

=
=

=
n
t
t
n
t
t t
e
e e
DW
1
2
2
2
1
) (
unde
t
e sunt reziduurile rezultate n urma
estimrii modelului


DW ia valori ntre 0 i 4.

=
=

=
n
t
t
n
t
t t
a
e
e e
1
2
2
1

)
se mai numete coeficient de autocorelaie de ordinul 1
i ia valori n intervalul [-1, +1]
- dac
a

)
= 0, DW = 2 nu exist autocorelaia erorilor
- dac
a

)
= -1, DW = 4 exist autocorelaie negativ a erorilor
- dac
a

)
= +1, DW = 0 exist autocorelaie pozitiv a erorilor
Valorile critice ale testului DW se gsesc tabelate pentru un nivel de
semnificaie de 5%. n funcie de volumul eantionului i numrul valorilor
explicative k, se determin dou valori d
1
i d
2
(din tabel) care mpart spaiul 0
4 astfel:

[0 , d
1
) [d
1
, d
2
] (d
2
, 2] ;i [2 , 4 - d
2
) [4 - d
2
, 4 - d
1
] [4 - d
1
, 4]
autocorelaie
pozitiv
a

)
> 0

?
lips autocorelaie
a

)
= 0

?
autocorelaie
negativ
a

)
< 0
n zonele marcate cu semn de ntrebare seafl o situaie de incertitudine privind
autocorelaia.
Pentru a utiliza aceast statistic este necesar ndeplinirea simultan a
urmtoarelor condiii:
- mdelul s conin constanta n funcie;
- numrul de observri s fie mai mare de 15;
- variabila de explicat s nu figureze printre variabilele explicative
(autoregresive);
- pentru seriile de date observate instantaneu, acestea trebuie s fie
ordonate dup variabila de explicat.

Previziunea

Intervalul de ncredere pentru
x


Modele statistice 57
Notm cu
x
media valorilor y pentru o valoare a lui x (de exmplu: la aceeai suprafa avem
mai multe preuri la apartamente, se determin intervalul n care se va afla preul mediu
pentru o anumit suprafa x . Pentru toate valorile lui x se genereaz aceste intervale):

x x x x
h n t y h n t y +



) 2 ( , ) 2 (
) 2 / ( 1 ) 2 / ( 1

unde :

( )
2
2
) (
1

+ =
i
i
x
x x
x x
n
h este levierul observaiei pentru care X = x

Intervalul de previziune pentru valorile
x
y

Intervalul n care se vor afla valorile previzionate
x
y se determin astfel:
x x x x
h n t y h n t y + + +

1 ) 2 ( , 1 ) 2 (
) 2 / ( 1 ) 2 / ( 1






Setarea opiunilor pentru rezolvarea modelelor de regresie n Clementine

Cerine: n aceste modele pot fi utilizate numai variabile numerice dintre care numai una
poate fi dependent Out.
Exemplul Stream Regresie pornete de la datele din tabelul de mai jos n care variabila
Absolventi_superioare are direcia Out, fiind variabila dependent.



Opiunea


Capitolul 6 58

Use type node settings costruiete modelul cu toate variabilele din fiier cu condiia ca
variabila dependent s fie declarat Out.
Use custom settings
Target se indic variabila dependent
Inputs se indic variabila sau variabilele independente
Partition variabila dup care s-a fcut partiionarea
Use weight field se indic variabila fa de care toate celelalte au o importan mai
mic n valoarea coeficientului de determinaie.


Opiunea





Modele statistice 59

Model name
Auto - se genereaz automat numele modelului
Custom permite utilizatorului s stabileasc numele modelului.

Use patitioned data se bifeaz dac datele au fost partiionate n seturi pentru nvare,
testare, validare.

Method
Enter atunci cnd se construiete modelul cu toate variabilele independente
Forward introducerea pas cu pas variabilele sun introduse n model una cte una n
funcie de importana lor. n pasul nti, este introdus variabila care este cel mai puternic
corelat cu variabila dependent. n pasul doi (i urmtorii), se introduc variabilele mai
puin corelate. La fiecare pas este testat ipoteza de nul asupra coeficientului de regresie a
variabilei introduse. Paii se opresc atunci cnd un prag de semnificaie stabilit pentru F nu
mai este atins.
Backward eliminarea pas cu pas procedeul cel mai des utilizat n practic pornete cu
toate variabilele i elimin la fiecare pas cel mai slab predictor. Cel mai slab predictor este
definit de variabila independent cel mai puin important, variabila care determin cea mai
mic reducere a statisticii Fisher. Paii se opresc atunci cnd un prag de semnificaie stabilit
pentru F nu mai este atins.
Stepwise selecia pas cu pas acest procedeu ncepe la fel ca Forward dar la fiecare pas
testeaz variabilele existente deja , pentru a le elimina. Aceasta este metoda cea mai
folosit atunci cnd exist corelaii ntre variabilele independente. De exemplu,
introducerea celei de-a patra variabile poate diminua importana unei variabile deja
introduse i, ca urmare, aceasta este eliminat din model (n Forward aceasta rmne n
model).
Include constant in equation aceast opiune este utilizat n cazul n care constanta este
semnificativ diferit de zero.

Opiunea


Capitolul 6 60

Only use complete records se refer la faptul c variabilele pot conine valori lips. De
exemplu:


X1 X2 X3 X4
99 13 14 5
99 10 18 6
4 15 20 99
5 12 13 8

Pairwise - dac se studiaz corelaia dintre X1 i X2 sun valide 2 nregistrri, dac se
studiaz corelaia dintre X3 i X4 sun valide 3 nregistrri, dac se studiaz corelaia
dintre X2 i X3 sun valide 4 nregistrri.
Listwise sunt eliminate toate nregistrrile care conin valori lips (este valid o singur
nregistrare n exemplul de mai sus).

Singularity tolerance se specific proporia minim a varianei unei variabile ca aceasta s
fie independent de o alt variabil.

Stepping - aceast opiune este activ dac s-a ales una din metodele regresiei pas cu pas i
stabilete criteriul dup care o variabil este inclus sau exclus din model.


Use probability of F se indic n Entry nivelul de semnificaie cu care se
compar p-value ce corespunde variabilei analizate. Dac p-value < variabila
este inclus n model i dac p-value > valoarea indicat n Removal se
exclude din model.
Use F value dac Fcalc este mai mare dect valoarea specificat n Entry
variabila este inclus n model i dac Fcalc este mai mic dect valoarea
specificat n Removal este exclus din model.



Model fit include R-square (coeficientul de determinaie) ce reprezint proporia varianei
datorate factorilor de influen n variana total a variabilei dependente.

R squared change - coeficientului R
2
ajustat

Descriptives indicatorii statisticii descriptive pentru variabilele independente (factoriale) i
variabila dependent

Part and partial correlation indicatori ce determin contribuia fiecrei variabile
independente asupra modelului
Modele statistice 61

Collinearity Diagnostics analiza coliniaritii (corelaiilor dintre variabilele independente).
Se calculeaz statisticile toleranei:
2
1
i
R Toleranta = unde
2
i
R este ptratul coeficientului de
corelaie multipl a variabilei
i
X cu toate celelalte variabile independente. VIF este reciproca
toleranei
2
(1 / Toleranta). Tolerana poate lua valori de la 0 la 1. Cu ct valoarea toleranei
este mai mic, mai apropiat de zero, cu att variabila independent Xi este explicat printr-o
combinaie liniar a celorlalte variabile independente (n cazul regresiei multifactoriale).

Regression coefficients statistica coeficienilor de regresie:
Confidence Interval cu o probabilitate de 95% se determin intervalul de
ncredere n care se va afla fiecare coeficient din funcia de regresie
Covariance matrix matricea de covarian pentru variabilele independente

Residuals analiza reziduurilor, calculul statisticii Durbin-Watson

Cu butonul se genereaz modelul.
Executnd dublu clik pe pictograma modelului se obin ferestrele de rezultate:




i cu opiunea se obin rezultatele:


2
E. Jaba, A. Grama, Analiza statistic cu SPSS sub Windows, Ed. Polirom, 2004, pag. 263
Capitolul 6 62



Modelul regresiei multifactoriale

Dac legtura dintre fiecare factor i variabila rezultativ este de form liniar, atunci ecuaia
de estimare va fi:

+ + + + + =
k k x x x
x a x a x a a y
n
...
2 2 1 1 0 ,..., ,
2 1

n care:
a
0
- reprezint parametrul care exprim factorii nenregistrai, considerai cu aciune
constant, n afara celor considerai drept caracteristici factoriale;
a
1
,a
2
, ... ,a
k
- coeficienii de regresie care arat ct se modific variabila rezultativ
dac variabila factorial respectiv se modific cu o unitate;
x
1
,x
2
, ... ,x
k
- caracteristicile factoriale incluse n raportul de interdependen.
Spre exemlificare se va utiliza o corelaie multipl n care se vor lua numai dou caracteristici
factoriale i una rezultativ. Avnd dou caracteristici factoriale ecuaia funciei de regresie
liniar multipl va fi:
2 2 1 1 0
2 1
x a x a a y
x x
+ + =

al crei sistem de ecuaii normale este:
na a x a x y
a x a x a x x x y
a x a x x a x x y
0 1 1 2 2
0 1 1 1
2
2 1 2 1
0 2 1 1 2 2 2
2
2
+ + =
+ + =
+ + =





Cunoscnd cei trei parametri ai funciei de ajustare se calculeaz pentru fiecare unitate ecuaia
de regresie pe baza valorilor x
1
,x
2
, iar pentru verificarea calculului se aplic relaia

=
2 1

x x i i
y y .
Unele regresii multiple neliniare pot fi transformate n regresii liniare:
Modele statistice 63



care prin logaritmare devine:



Pentru msurarea gradului de intensitate a corelaiei se folosete i aici raportul de corelaie:
( )
( )

=
2
1
2
,
2 1
2 1

1
y y
y y
R
x x i
x x
y

Selectarea variabilelor explicative. Regresia pas cu pas

Dac numrul variabilelor explicative este important, apare necesitatea aplicrii metodelor de
selectare automat a variabilelor. Metodele cele mai utilizate sunt regresia pas cu pas
ascendent (forward stepwise regression), regresia pas cu pas descendent (backward
stepwise regression), sau o combinaie a celor dou.

Regresia pas cu pas ascendent

Regresia pas cu pas ascendent este o metod iterativ constnd n selecionarea la fiecare
etap a variabilei explicative ce maximizeaz coeficientul de determinaie R
2
al lui Y cu toate
variabilele selecionate n etapele precedente i noua variabil gsit, astfel nct aportul
marginal al celei din urm s fie semnificativ.
n prima etap se construiete tabelul R
2
(Y,X
j
):



Variabile

R
2
(Y,X
j
)

F
j


Nivel de
semnificaie

X
1

.
.
X
p


R
2
(Y,X
1
)
.
.
R
2
(Y,X
p
)

F
1

.
.
F
p

1

.
.

p


Se selecioneaz variabila explicativ pentru care criteriul F este cel mai mare i nivelul de
semnificaie este cel mai mic (mai mic dect nivelul de semnificie ales).
n etapa a doua se construiete tabelul R
2
(Y, Xs
t-1
,X
j
), n care Xs
t-1
este variabila explicativ
selecionat la pasul anterior. Se selecioneaz o nou variabil, aplicnd acelai principiu.
Procedura se oprete atunci cnd variabilele rmase au toate nivelul de semnificaie mai mare
dect nivelul .
Criteriul utilizat pentru selecionarea variabilelor const n alegerea la fiecare etap a
variabilei care va avea cel mai mare F parial. Presupunem c la momentul t variabilele X
1
...
X
t
au fost selecionate:

x
......
x x a
= y
a
k
a
2
a
1 0
k 2 1


x a
+ ...... +
x a
+
a
= y
k k 1 1 0
log log log log
Capitolul 6 64




n care statistica: S(X
1
,...,X
k
) reprezint suma ptratelor ) Y - y (
2
n
1 = i

explicat de variabilele
X
1
,...,X
k
.
Putem nelege astfel problema multicoliniaritii n regresia multipl. Exist variabile
puternic corelate cu celelalte variabile explicative, ceea ce face ca aportul lor la explicarea
variabilei Y s fie foarte mic. Prin aplicarea acestor modele de selecie variabilele
nesemnificative sunt eliminate.
Exemplu: la 32 de uniti turistice s-au nregistrat valorile variabilelor din tabelul de mai jos.
Ne propunem efectuarea unei analize multifactoriale privind aciunea celor cinci factori de
influen asupra valorii ncasrilor.
Valorile variabilelor nregistrate la 32 uniti turistice


Nr. turiti
(mii pers.)

Zile -
turiti

Pre mediu/zi
(euro)
Val.
investiiilor
(mii. lei)
Clelt.
publicit.
(mii lei)
Val.
ncas.
(mii lei)
X1 X2 X3 X4 X5 Y
398
369
268
484
394
332
336
383
285
277
456
355
364
320
311
362
408
433
359
476
415
420
536
432
436
415
462
429
517
1080
1180
1290
1110
1460
1400
1360
1040
1050
1350
1280
1310
1200
1470
1430
1450
1310
1240
1060
1380
1480
1360
1110
1520
1230
1190
1120
1250
1420
56
59
56
57
59
60
59
60
63
62
64
64
63
65
67
66
66
67
68
71
69
69
73
73
73
74
73
74
74
12
9
28
12
13
11
24
20
8
10
21
23
13
14
22
23
13
8
27
18
7
10
27
15
32
19
14
11
26
76
88
51
39
51
20
40
31
12
68
52
76
96
47
27
72
62
24
73
63
28
91
74
16
42
41
92
83
74
5550
5439
4290
5502
4871
4708
4627
4110
4122
4842
5740
5094
5383
4888
4033
4941
5312
5139
5397
5149
5450
4989
5926
4703
5365
4630
5711
5095
6142
2) - t - (n / ))
X
,
X
,...,
X
S( - ) y - y ( (
)
X
,...,
X
S( - )
X
,
X
,...,
X
S(
=
F
j t 1
2
i
t 1 j t 1
j


Modele statistice 65
328
418
515
1230
1350
1200
52
68
78
19
34
23
87
74
21
4787
5035
5288

Modelul estimat prin metoda celor mai mici ptrate este:

5 52 , 8 4 99 , 4 3 18 , 8 2 166 , 0 1 52 , 5 9 , 2879 X X X X X Y + + + =

Funcionarea procedurii regresiei pas cu pas ascendente se realizeaz astfel:

Pas 1. Se calculeaz n j X Y R
j
, 1 ), , (
2
= precum i valorile
j
F pariale mpreun cu nivelul
de semnificaie.

Variabile R
2
(Y,X
j
) F
j
Nivel de semnificaie
X
1

X
2

X
3

X
4

X
5

0.500
0.017
0.102
0.003
0.227
30.024
0.515
3.400
0.083
8.801
0.000
0.478
0.075
0.776
0.006

Variabila selecionat este X
1
.
Pas 2. Se calculeaz ) , , (
1
2
j
X X Y R :

Variabile R
2
(Y,X
1
,X
j
) F
j
Nivel de semnificaie
X
2

X
3

X
4

X
5

0.502
0.521
0.503
0.676
14.645
15.787
14.677
30.203
0,717
0,268
0,687
0,000

Variabila selecionat este X
5
.

Obs.Valoarea F
j
corespunde modelului n ansamblu iar nivelul de semnificaie corespunde
variabilei analizate (de exemplu, n modelul ) , , (
4 1
X X Y 0,687 este nivelul de
semnificaie pentru variabila X
4
. Deoarece valoarea nivelului de semnificaie este mai
mare de 0,05, variabila nu este reprezentativ pentru model).
Pas 3. Se construiete tabelul:

Variabile R
2
(Y,X
1
, X
5
,X
j
) F
j
Nivel de semnificaie
X
2

X
3

0.676
0.683
19.452
20.111
0.917
0.426
Capitolul 6 66
X
4
0.683 20.093 0.432

Se observ dup valorile nivelului de semnificaie c nici o variabil nu va mai fi inclus
n model. Din cei cinci factori de influen considerai iniial au fost reinui doar doi,
numrul turitilor i cheltuielile publicitare.








Modele statistice 67
Regression

Variables Entered/Removed(a)
Model Variables Entered Variables Removed Method
1 x5, x3, x2, x4, x1(b) . Enter
a. Dependent Variable: y
b. All requested variables entered.


Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 .830(a) .689 .629 313.91711
a. Predictors: (Constant), x5, x3, x2, x4, x1


ANOVA(a)
Model Sum of Squares df Mean Square F Sig.
Regression 5676227.055 5 1135245.411 11.520 .000(b)
Residual 2562142.820 26 98543.955 1
Total 8238369.875 31
a. Dependent Variable: y
b. Predictors: (Constant), x5, x3, x2, x4, x1



Coefficients(a)
Unstandardized
Coefficients
Standardized
Coefficients
95% Confidence
Interval for B
Collinearity
Statistics
Model

B
Std.
Error
Beta
t Sig.
Lower
Bound
Upper
Bound
Tolerance VIF
(Cons
tant)
2879.90 761.76 3.78 .001 1314.075 4445.733
x1 5.523 1.059 .750 5.21 .000 3.346 7.700 .578 1.731
x2 .116 .422 .032 .276 .785 -.750 .983 .914 1.094
x3 -8.183 11.531 -.104
-
.710
.484 -31.884 15.519 .561 1.782
x4 -4.994 7.762 -.072
-
.643
.526 -20.950 10.962 .944 1.060
1
x5 8.528 2.285 .418 3.73 .001 3.831 13.224 .952 1.050
a. Dependent Variable: y


Coefficient Correlations(a)
Model x5 x3 x2 x4 x1
1 Correlations x5 1.000 .127 .107 -.096 -.123
Capitolul 6 68
Coefficient Correlations(a)
Model x5 x3 x2 x4 x1
x3 .127 1.000 -.234 -.171 -.632
x2 .107 -.234 1.000 .029 .228
x4 -.096 -.171 .029 1.000 -.001
x1 -.123 -.632 .228 -.001 1.000
x5 5.221 3.352 .103 -1.697 -.298
x3 3.352 132.958 -1.137 -15.349 -7.720
x2 .103 -1.137 .178 9.43E-002 .102
x4 -1.697 -15.349 9.43E-002 60.256 -5.37E-003
Covariances
x1 -.298 -7.720 .102 -5.37E-003 1.122
a. Dependent Variable: y


Collinearity Diagnostics(a)
Variance Proportions
Model Dimension
Eigenvalue Condition Index
(Constant) x1 x2 x3 x4 x5
1 5.705 1.000 .00 .00 .00 .00 .00 .00
2 .148 6.214 .00 .00 .00 .00 .18 .81
3 .114 7.065 .00 .01 .01 .00 .79 .11
4 2.41E-002 15.384 .01 .42 .14 .00 .00 .00
5 5.10E-003 33.455 .20 .45 .74 .32 .01 .01
1
6 3.43E-003 40.760 .78 .12 .11 .67 .01 .07
a. Dependent Variable: y

Rezultatele din tabelul Collinearity Diagnostics ( Diagnosticul coliniaritii) pot fi
interpretate astfel
3
:
- Eigenvalue d o indicaie asupra numrului de legturi care exist ntre
variabilele independente. Cnd mai multe eigenvalues sunt apropiate de zero,
variabilele sunt puternic intercorelate.
- Condition Index ( Indicii de condiie) se calculeaz ca rdcin ptrat din
raportul dintre valoarea eigenvalue cea mai mare i valoarea eigenvalue a fiecrei
dimensiuni. Un indice mai mare de 15 arat c exist o posibil problem de
coloiniaritate, iar o valoare mai mare de 30 indic probleme grave de
coloiniaritate.
- Variance Proportions evideniaz contribuia fiecrei variabile la varian.
Variabilele care au valori mari pentru acest indicator arat probleme de
coliniaritate.

Selecia variabilelor independente ( metoda Forward)


3
E. Jaba, A. Grama, Analiza statistic cu SPSS sub Windows, Ed. Polirom, 2004, pag. 265
Modele statistice 69



Regression
Variables Entered/Removed(a)
Model
Variables
Entered
Variables
Removed
Method
1 x1 .
Forward (Criterion: Probability-of-F-to-enter
<= .050)
2 x5 .
Forward (Criterion: Probability-of-F-to-enter
<= .050)
a. Dependent Variable: y
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 .707(a) .500 .484 370.47411
2 .822(b) .676 .653 303.55589
a. Predictors: (Constant), x1
b. Predictors: (Constant), x1, x5
ANOVA(a)
Model Sum of Squares df Mean Square F Sig.
Regression 4120837.970 1 4120837.970 30.024 .000(b)
Residual 4117531.905 30 137251.064 1
Total 8238369.875 31
Regression 5566130.660 2 2783065.330 30.203 .000(c)
Residual 2672239.215 29 92146.180 2
Total 8238369.875 31
a. Dependent Variable: y
b. Predictors: (Constant), x1
c. Predictors: (Constant), x1, x5
Coefficients(a)
Unstandardized Coefficients Standardized Coefficients
Model

B Std. Error Beta
t Sig.
(Constant) 3005.872 382.457 7.859 .000
1
x1 5.205 .950 .707 5.479 .000
Capitolul 6 70
Coefficients(a)
Unstandardized Coefficients Standardized Coefficients
Model

B Std. Error Beta
t Sig.
(Constant) 2628.463 327.543 8.025 .000
x1 4.948 .781 .672 6.334 .000 2
x5 8.568 2.163 .420 3.960 .000
a. Dependent Variable: y

S-ar putea să vă placă și