Sunteți pe pagina 1din 8

Capitolul II

Modele de regresie. Modelul de regresie liniar simpl


Modelele de regresie fac parte din categoria modelelor
stochastice (statistice), n care toi factorii explicativi ai unui
fenomen, care nu i gsesc locul n model direct n model, apar
cumulai sub forma unei variabile aleatoare numit eroare.
O variabil Y (parametrul de ieire) care cuantific
fenomenul sudiat poate fi explicat prin regresia pe unul sau mai
muli factori explicativi (parametrii de intrare). Toi factorii
explicativi care nu sunt suficient de relevani pentru Y, intr n
model sub forma cumulativ a erorii.
n cazul cnd factorii explicativi relevani se rezum la un
singur factor X, aveam de-a face cu modelul de regresie simpl, de
forma,
( ) , + X f Y

unde

reprezint eroarea din model iar f este funcia care descrie


legtura dintre variabile, numit i funcie de regresie.
Dac avem doi sau mai muli factori explicativi (predictivi),
p
X X X ,..., ,
2 1
, atunci regresia se numete multipl i modelul
corespunztor va fi
( ) +
p
X X X f Y ,..., ,
2 1 .
Problema regresiei pleac de la existena unui set de date
privind dou sau mai multe variabile aleatoare, scopul modelrii
fiind descrierea relaieidintre ele, adic determinarea funciei f , n
vederea prognozrii valorilor variabilei dependente n raport cu
valorile variabilelor explicative. Aceast problem se pune doar
atunci cnd ntre variabile exist o legtur real, bazat pe natura
fenomenelor care stau la baza lor. Altfel, este posibil ca formal,
datele numerice s par corelate (spre exemplu, cresc pe aceeai
perioad de timp), fr ca fenomenele pe care le cuantific s fie
corelate. ntr-un astfel de caz, studiul regresiei ar fi lipsit de sens.
n cazul n care, funcia de regresie este parametric, adic
este de forma,
( )
s p
a a a X X X f ,..., , , ,..., ,
2 1 2 1 , atunci determinarea
funciei revine la determinarea parametrilor, s
a a a ,..., ,
2 1 . Condiia
natural care apare este ca abaterile valorilor rezultate din model
fa de valorile empirice, rezultate prin observare, s fie minime.
Cel mai cunoscut criteriu care permite satisfacerea unei astfel de
condiii este criteriul celor mai mici ptrate, care const n
minimizarea sumei ptratelor acelor abateri. Astfel, parametrii
optimi vor fi aceia pentru care, modelul satisface condiia,
date de numarul - min,
1
2
n
n
i
i

,
condiie ce revine la
( ) ( ) . min ,..., , , ,..., , ) ,..., , (
1
2
2 1 2 1
1
2
2 1


n
i
s pi i i i
n
i
i s
a a a x x x f y a a a F
Mai departe, problema de minim revine la condiiile:
n i
a
a a a F
i
s
, 1 , 0
) ,..., , (
2 1

.
Cele mai simple modele de regresie sunt cele liniare, adic
cele n care f depinde liniar de variabilele predictive. O mare parte
dintre dependenele reale sunt de tip liniar sau pot fi reduse la
modelul liniar motiv pentru care studierea unui asfel de model
ocup un loc important n modelarea matematic. Vom considera
n cele ce urmeaz, cazul unui model de regresie liniar simpl.
Model de regresie liniar simpl
Modelul de regresie liniar simpl este de forma
+ + bX a Y
,
unde a i b se numesc parametrii dreptei de regresie, X se numete
predictor sau variabil explicativ, Y, rspuns sau efect iar

,
eroare.
Problema regresiei liniare simple:
Se consider un set bidimensional de date
n i y x
i i
, 1 , ,
, reprezentnd
valori observate ale celor dou variabile, X i Y. n vederea
prognozrii valorilor lui Y corespunztoare unor valori noi ale lui
X (altele dect cele n observate), se pune problema determinrii
parametrilor de regresie a i b, n aa fel, nct dintre toate dreptele
posibile, dreapta de ecuaie,
( ) bx a x f y +
,
s descrie cel mai bine legtura dintre variabile i fa de care
punctele de coordonate
n i y x
i i
, 1 , ,
, s se apropie cel mai mult.
Odat stabilite valorile lui a i b (deci funcia de regresie, f),
dndu-se valori noi pentru X se gsesc din ecuaia de regresie,
valorile corespunztoare ale lui Y, adic se prognozeaz Y n
funcie de X.
Dou exemple de motivaie a modelului de regresie liniar, din
domeniul medicinei
Problema 1. Corelaia dintre greutatea i nlimea unei
persoane
n mod natural, se presupune c exist o strns legtur ntre
nlimea i greutatea unei persoane. Se pune problema
determinrii unui model regresiv care s permit calcularea
greutii normale a unei persoane, n raport cu nlimea sa.

Problema 2. Corelaia dintre viteza de reducere circumferenial
a ventriculului stng i nivelul glucozei n snge
Pentru un lot format din 24 de bolnavi de diabet de tip I, s-a
msurat, pe de o parte, dinamica nivelului glucozei n snge-
GS(mmol/l) i pe de alt parte, viteza medie de reducere a
circumferinei ventriculului stng-VcV(%/sec), n scopul
prediciei variabilei rspuns VcV, n funcie de nivelul GS, mai
precis n scopul prediciei problemelor cardiovasculatorii n
funcie de evoluia glicemiei. innd seama de dificultatea de a
analiza direct problema contraciei ventriculului stng fa de
stabilirea nivelului glucozei n snge, n sensul c nu putem gsi o
formul matematic direct de legtur, se impune studiul unui
model regresiv.
Se va vedea n cele din urm, c modelul liniar se preteaz
foarte bine la prima problem, n timp ce pentru problema 2, este
necesar i studiul altor modele.
Tehnici de regresie liniar simpl
1. Identificarea modelului
Se justific alegerea unui model liniar prin :
-calculul coeficientului de corelaie liniar pe baza datelor,
n i y x
i i
, 1 , ,
:
[ ] 1 , 1
) , cov(

y x
y x
r

Pentru ca modelul liniar s fie potrivit datelor, coeficientul de
corelaie liniar trebuie sa aib o valoare absolut ct mai
apropiat de 1.
-reprezentarea punctelor de coordonate
n i y x
i i
, 1 , ,
, ntr-un sistem
ortogonal de axe-alura liniei poligonale obinute prin unirea cu
segmente a punctelor, trebuie s fie ct mai apropiat de cea a unei
drepte.
2. Estimarea parametrilor modelului prin metoda celor mai
mici ptrate-ajustarea modelului
Forma modelului este
+ + bX a Y
,
iar pentru
n i y x
i i
, 1 , ,
, devine,
n i bx a y
i i i
, 1 , + +
.
Se pune problema estimrii parametrilor a i b, astfel nct
dreapta determinat de acetia s minimizeze suma ptratelor
reziduurilor, i

, (abaterile valorilor reale i


y
, fa de valorile
rezultate din model, i i
bx a y +
)-criteriul celor mai mici ptrate.
Prin urmare, din condiia
min
1
2

n
i
i

, rezult estimatorii de
cele mai mici ptrate ai parametrilor de regresie (valorile reale
pentru a i b, nu pot fi determinate exact deoarece, dispunem doar
de eantionul de observaii,
n i y x
i i
, 1 , ,
),
( )
.

, cov

2
b x y a
y x
b
x

Pe lng aceste estimri punctuale este necesar s cunoatem i


inferenele asupra acestor parametrii, mai precis intervalele de
ncredere corespunztoare. Un cadru bun pentru astfel de estimri
presupune cteva condiii asupra modelului, numite i ipotezele
Gauss-Markov.
3. Ipoteze fundamentale-Gauss-Markov-modelul clasic cu
erori normale, independente i identic distribuite, de
medie zero
-normalitatea erorilor :
n 1, i , N
i

;
-independena erorilor :
( ) j i n j i
j i
, , 1 , , 0 , cov
;
-erori identic distribuite (model homoscedastic) :
( ) ( ) n i V M
i i
, 1 , , 0
2

.
Altfel spus, reziduurile trebuie s aib
comportamentul zgomotului gaussian alb.Toate aceste ipoteze
pot fi verificate printr-o serie de teste statistice, care presupun
validarea modelului. Orice abatere de la aceste ipoteze duce la alte
tipuri de modele liniare, dect cel clasic. O metod de verificare
este i cea prin care se proiecteaz reziduurile i se analizeaz
dac graficul este cel al unui zgomot alb-oscilaii n jurul lui 0.
4. Intervale de ncredere de tip
1
, pentru coeficienii de
regresie

,
_

+ < <

1

2
1 , 2
2
1 , 2 n
b
n
b
t s b b t s b P
,

,
_

+ < <

1
2
1 , 2
2
1 , 2 n
a
n
a
t s a a t s a P
,
unde
2
1 , 2

n
t
este cuantila de ordin
2
1

, pentru o variabil de tip


Student cu n-2 grade de libertate, iar
( )

n
i
i
b
x x
s
s
1
2
2
2
,
( )

n
i
i
n
i
i
a
x x
x
n
s
s
1
2
1
2
2
2
,
( )


n
i
i i
n
i
i
x b a y
n
e
n
s
1
2
1
2 2

2
1
2
1
.
5. Previziune i intervale de ncredere pentru previziune
Odat stabilit modelul se poate utiliza pentru previziune.
Astfel, pentru o valoare nou, neobservat a lui X, egal cu 0
x
,
previziunea valorii corespunztoare a lui Y, va fi
0 0

x b a y +
.
Se poate determina urmtorul interval de ncredere pentru
previziune :

,
_

+ < <

1
2
1 , 2
0
2
1 , 2
0
n n
t s y y t s y P
,
unde
( )
( )
1
1
1
1
]
1

+ +

n
i
i
x x
x x
n
s
s
1
2
2
0
2
2
0
1
1
.
Pe acelai grafic se pot reprezenta dreapta de regresie i
curbele ce corespund capetelor intervalului de ncredere pentru o
valoare previzionat.
Analiza cantitativ a regresiei prin statisticile adiionale este
prezentat, pe un cadru mai general, pe orice model de regresie
simpl, n capitolul IV.