Documente Academic
Documente Profesional
Documente Cultură
,
condiie ce revine la
( ) ( ) . min ,..., , , ,..., , ) ,..., , (
1
2
2 1 2 1
1
2
2 1
n
i
s pi i i i
n
i
i s
a a a x x x f y a a a F
Mai departe, problema de minim revine la condiiile:
n i
a
a a a F
i
s
, 1 , 0
) ,..., , (
2 1
.
Cele mai simple modele de regresie sunt cele liniare, adic
cele n care f depinde liniar de variabilele predictive. O mare parte
dintre dependenele reale sunt de tip liniar sau pot fi reduse la
modelul liniar motiv pentru care studierea unui asfel de model
ocup un loc important n modelarea matematic. Vom considera
n cele ce urmeaz, cazul unui model de regresie liniar simpl.
Model de regresie liniar simpl
Modelul de regresie liniar simpl este de forma
+ + bX a Y
,
unde a i b se numesc parametrii dreptei de regresie, X se numete
predictor sau variabil explicativ, Y, rspuns sau efect iar
,
eroare.
Problema regresiei liniare simple:
Se consider un set bidimensional de date
n i y x
i i
, 1 , ,
, reprezentnd
valori observate ale celor dou variabile, X i Y. n vederea
prognozrii valorilor lui Y corespunztoare unor valori noi ale lui
X (altele dect cele n observate), se pune problema determinrii
parametrilor de regresie a i b, n aa fel, nct dintre toate dreptele
posibile, dreapta de ecuaie,
( ) bx a x f y +
,
s descrie cel mai bine legtura dintre variabile i fa de care
punctele de coordonate
n i y x
i i
, 1 , ,
, s se apropie cel mai mult.
Odat stabilite valorile lui a i b (deci funcia de regresie, f),
dndu-se valori noi pentru X se gsesc din ecuaia de regresie,
valorile corespunztoare ale lui Y, adic se prognozeaz Y n
funcie de X.
Dou exemple de motivaie a modelului de regresie liniar, din
domeniul medicinei
Problema 1. Corelaia dintre greutatea i nlimea unei
persoane
n mod natural, se presupune c exist o strns legtur ntre
nlimea i greutatea unei persoane. Se pune problema
determinrii unui model regresiv care s permit calcularea
greutii normale a unei persoane, n raport cu nlimea sa.
Problema 2. Corelaia dintre viteza de reducere circumferenial
a ventriculului stng i nivelul glucozei n snge
Pentru un lot format din 24 de bolnavi de diabet de tip I, s-a
msurat, pe de o parte, dinamica nivelului glucozei n snge-
GS(mmol/l) i pe de alt parte, viteza medie de reducere a
circumferinei ventriculului stng-VcV(%/sec), n scopul
prediciei variabilei rspuns VcV, n funcie de nivelul GS, mai
precis n scopul prediciei problemelor cardiovasculatorii n
funcie de evoluia glicemiei. innd seama de dificultatea de a
analiza direct problema contraciei ventriculului stng fa de
stabilirea nivelului glucozei n snge, n sensul c nu putem gsi o
formul matematic direct de legtur, se impune studiul unui
model regresiv.
Se va vedea n cele din urm, c modelul liniar se preteaz
foarte bine la prima problem, n timp ce pentru problema 2, este
necesar i studiul altor modele.
Tehnici de regresie liniar simpl
1. Identificarea modelului
Se justific alegerea unui model liniar prin :
-calculul coeficientului de corelaie liniar pe baza datelor,
n i y x
i i
, 1 , ,
:
[ ] 1 , 1
) , cov(
y x
y x
r
Pentru ca modelul liniar s fie potrivit datelor, coeficientul de
corelaie liniar trebuie sa aib o valoare absolut ct mai
apropiat de 1.
-reprezentarea punctelor de coordonate
n i y x
i i
, 1 , ,
, ntr-un sistem
ortogonal de axe-alura liniei poligonale obinute prin unirea cu
segmente a punctelor, trebuie s fie ct mai apropiat de cea a unei
drepte.
2. Estimarea parametrilor modelului prin metoda celor mai
mici ptrate-ajustarea modelului
Forma modelului este
+ + bX a Y
,
iar pentru
n i y x
i i
, 1 , ,
, devine,
n i bx a y
i i i
, 1 , + +
.
Se pune problema estimrii parametrilor a i b, astfel nct
dreapta determinat de acetia s minimizeze suma ptratelor
reziduurilor, i
n
i
i
, rezult estimatorii de
cele mai mici ptrate ai parametrilor de regresie (valorile reale
pentru a i b, nu pot fi determinate exact deoarece, dispunem doar
de eantionul de observaii,
n i y x
i i
, 1 , ,
),
( )
.
, cov
2
b x y a
y x
b
x
;
-independena erorilor :
( ) j i n j i
j i
, , 1 , , 0 , cov
;
-erori identic distribuite (model homoscedastic) :
( ) ( ) n i V M
i i
, 1 , , 0
2
.
Altfel spus, reziduurile trebuie s aib
comportamentul zgomotului gaussian alb.Toate aceste ipoteze
pot fi verificate printr-o serie de teste statistice, care presupun
validarea modelului. Orice abatere de la aceste ipoteze duce la alte
tipuri de modele liniare, dect cel clasic. O metod de verificare
este i cea prin care se proiecteaz reziduurile i se analizeaz
dac graficul este cel al unui zgomot alb-oscilaii n jurul lui 0.
4. Intervale de ncredere de tip
1
, pentru coeficienii de
regresie
,
_
+ < <
1
2
1 , 2
2
1 , 2 n
b
n
b
t s b b t s b P
,
,
_
+ < <
1
2
1 , 2
2
1 , 2 n
a
n
a
t s a a t s a P
,
unde
2
1 , 2
n
t
este cuantila de ordin
2
1
n
i
i
b
x x
s
s
1
2
2
2
,
( )
n
i
i
n
i
i
a
x x
x
n
s
s
1
2
1
2
2
2
,
( )
n
i
i i
n
i
i
x b a y
n
e
n
s
1
2
1
2 2
2
1
2
1
.
5. Previziune i intervale de ncredere pentru previziune
Odat stabilit modelul se poate utiliza pentru previziune.
Astfel, pentru o valoare nou, neobservat a lui X, egal cu 0
x
,
previziunea valorii corespunztoare a lui Y, va fi
0 0
x b a y +
.
Se poate determina urmtorul interval de ncredere pentru
previziune :
,
_
+ < <
1
2
1 , 2
0
2
1 , 2
0
n n
t s y y t s y P
,
unde
( )
( )
1
1
1
1
]
1
+ +
n
i
i
x x
x x
n
s
s
1
2
2
0
2
2
0
1
1
.
Pe acelai grafic se pot reprezenta dreapta de regresie i
curbele ce corespund capetelor intervalului de ncredere pentru o
valoare previzionat.
Analiza cantitativ a regresiei prin statisticile adiionale este
prezentat, pe un cadru mai general, pe orice model de regresie
simpl, n capitolul IV.