Regresia, Corelatia-Curs Informatica

1
REGRESIA LINIAR I CORELA

S-au prezentat pn acum metode de
determinare a volumului eantionului,
ANOVA) sau categorial (Chi ptrat), calculul intervalului de varia
Sunt situaii n care ne intereseaz
variabile, sau s gsim o relaie deci o
altele implicate n procesul studiat.
Iat ca exemplu, am putea fi interesa
tatlui adoptiv) i cea a copilului. Am pute
arterial (pentru persoane de vrsta a treia), c
cardiac, poate acestea depind i de vrst
Regresia reprezint expresia m
alt variabil. Regresia ajut n determinarea rela
Corelaia exprim puterea legturii dintre dou
Att prin regresie ct i prin corela
variabilei 1 implic creterea variabilei 2 ; sc
proporional (creterea variabilei 1 duce la sc

Regresia liniar

Termenul de regresie a fost introdus de matematicianul
funcii liniare (este cea mai simpl form
valorilor y prin valorile x (y este variabila dependent
ct i y sunt variabile de tip continuu.
Metoda de calcul pentru parametrii dreptei de regresie
acesteia.
Considerm c avem dou iruri de date corespunz
Y (caracterizate ca fiind distribuite normal sau
n tabelul urmtor sunt prezentate cele dou

Tabelul 2.10 1.

Figura 2.10 1 Dreapta de regresie.
X: x
1
x
Y: y
1
y

1
1.5
2
2.5
3
3.5
4
4.5
5
0 1 2
REGRESIE LINIAR

Facultatea de Medicin - Conf.dr.
I CORELAIA
acum metode de estimare a indicatorilor statistici (media ca indicator de baz
antionului, tehnici de comparare a variabilelor de tip continuu
trat), calculul intervalului de variaie cu ncredere de 95%.
ii n care ne intereseaz s estimm intensitatea legturii dintre dou
deci o form analitic matematic care s exprime o variabil

ca exemplu, am putea fi interesai n a verifica existena unei relaii ntre nl
i cea a copilului. Am putea cuta o legtur ntre indicele de mas corporal
(pentru persoane de vrsta a treia), cutm s estimm dependena ntre efortul fizic
i de vrst, etc.
expresia matematic ce permite estimarea unei variabile func
n determinarea relaiei i este folosit n special n studii de
puterea legturii dintre dou variabile (intensitatea relaiei).
i prin corelaie putem determina dac relaia este direct propor
terea variabilei 2 ; scderea variabilei 1 implic scderea variabilei 2), sau invers
ei 1 duce la scderea variabilei 2).
Termenul de regresie a fost introdus de matematicianul Galton. Metoda const n determinarea unei
ii liniare (este cea mai simpl form de dependen) f(x) = y = a + bx, care s aproximeze calculul
este variabila dependent, x variabila independent sau predictor). Att
sunt variabile de tip continuu.
parametrii dreptei de regresie const n definirea unei erori
iruri de date corespunztor variabilelor aleatoare de interes
(caracterizate ca fiind distribuite normal sau gausian).
tor sunt prezentate cele dou iruri:
Dreapta de regresie.
x
2
. x
n

y
2
y
n

3 4 5 6
REGRESIE LINIAR
(xi,yi)
tg = b = 0,628

. Lucian V. Boiculese
are a indicatorilor statistici (media ca indicator de baz),
tehnici de comparare a variabilelor de tip continuu (testul t,
ie cu ncredere de 95%.
turii dintre dou sau mai multe
e o variabil funcie de
limea tatlui (nu a
corporal i presiunea
a ntre efortul fizic i frecvena
ce permite estimarea unei variabile funcie de cel puin o
studii de predicie.
ia este direct proporional (creterea
derea variabilei 2), sau invers
n determinarea unei
aproximeze calculul
sau predictor). Att x
unei erori i minimizarea
tor variabilelor aleatoare de interes X i respectiv

2 Facultatea de Medicin - Conf.dr. Lucian V. Boiculese
Dorim s determinm parametrii a, b ce definesc dreapta de regresie:
f(x) = y = a + bx.
Pentru aceasta se folosete metoda celor mai mici ptrate, care const n a minimiza suma ptratelor
erorilor dintre valorile y
i
(extrase din experiment) i valorile f(x
i
) calculate cu ajutorul formulei dreptei de
regresie.
Se definete eroarea:
i i i i i
y x b a y x f + = = ) ( .
Unele valori ale erorii
i
sunt pozitive, altele sunt negative, dar eroare exist n toate cazurile cnd
i

0. Pentru a nu pierde aceast informaie se va folosi ptratul erorii. Eroarea total va fi format din suma
tuturor erorilor determinate de cele n valori experimentale:
( )

= =
+ = =
n
i
i i
n
i
i
y x b a
1
2
1
2
.
Aceast sum a ptratelor diferenelor este pozitiv. Astfel privind problema cu necunoscutele a
respectiv b, funcia de gradul doi va admite un minim (fiind suma ptratelor va fi numai pozitiv). Eroarea
total trebuie minimizat pentru a obine o aproximare ct mai corect a valorilor lui y funcie de x.
Condiia este ca derivata funcie de fiecare variabil n parte s fie zero. Obinem astfel sistemul de
ecuaii:
( )
( )
( )
( )
= +
= +
=
+
=
+
=
=
=
=
=
=
. 0 2
, 0 2
0
0
0
0
1
1
1
2
1
2
n
i
i i i
n
i
i i
n
i
i i
n
i
i i
x y x b a
y x b a
b
y x b a
a
y x b a
b
a

( )
( )
= +
=

= = +
=
=
=
) 2 ( . 0 ) (
) 1 ( , 0
2
1
1
1
i i i
n
i
i
n
i
i i
n
i
i i
y x x b x a
X b Y
n
x b y
a y x b a n

nlocuim valoarea lui a din prima ecuaie n a doua i aflm parametrul b.
( ) 0
1 1
2
1
= +

= = =
i
n
i
i
n
i
i
n
i
i
y x x b x X b Y . (3)
Ne folosim de formula: n X n
n
x
x
n
i
i
n
i
i
= =
=
=
1
1
. (4)
nlocuim (4) n (3) i avem:
0
1 1
2 2
= +

= =
n
i
i i
n
i
i
y x x b X n b X n Y .
Extrgnd pe b obinem:
=
=

=
n
i
i
n
i
i i
x X n
y x Y X n
b
1
2 2
1
. (5)
Valoarea lui a se calculeaz conform celor demonstrate cu formula:

X b Y a = . (6)
n concluzie s-au dedus parametrii dreptei: y = a + bx.

Coeficienii (parametrii) dreptei de regresie
Parametrul a reprezint intersecia dreptei de regresie cu axa YY. Dac x=0 atunci y = a.
Dac avem mai multe cazuri cu x=0, atunci valoarea lui a va fi egal cu media tuturor valorilor pentru
care x este 0.
Trebuie avut n vedere c nu n orice situaie este posibil i are sens aceast intersecie cu axa YY.
De exemplu pentru predictor X reprezentnd presiunea sistolic sau temperatura corpului, valoarea 0 nu
are interpretare n cazuri normale (studiem pacienii deci persoane n via).

Parametrul b este panta dreptei (tangenta unghiului dintre dreapt i linia orizontal).
Dac valoarea lui b este pozitiv atunci dependena ntre cele dou variabile aleatoare este direct
proporional. Astfel, o cretere a variabilei x va duce la o cretere a variabilei y, respectiv o scdere a
variabilei x va duce la o scdere a variabilei y.
Dac valoarea parametrului b este negativ atunci dependena ntre cele dou variabile aleatoare este
invers proporional. Variaia ntr-un anume sens a variabilei x va duce la o variaie n sens contrar a
variabilei y.
Cazul n care nu exist dependen ntre cele dou variabile x, respectiv y se obine pentru b=0. Orict
am modifica variabila x, atunci y va rmne constant y = a.
Panta dreptei reprezint variaia variabilei dependente y, pentru o cretere sau descretere a
predictorului (x) cu o unitate.
Avem formula dreptei de regresie: y = a + bx.
Cretem valoarea lui x cu o unitate, 1 + x x .
Noul y va fi y
1
= a + b (x+1) = a + bx + b.
Se observ c diferena dintre y i y
1
este egal cu b.

Testarea modelului prin metoda analizei varianei (ANOVA)
Determinarea coeficienilor dreptei de regresie a permis crearea unui model matematic ce exprim
legtura ntre cele dou variabile.
Este important s putem verifica dac modelul creat este bun n sensul aproximrii ct mai corecte a
datelor.
Analiza varianei este o metod statistic ce permite evaluarea performanei modelului determinat.
Variaia unei variabile aleatoare Y este msurat prin abaterea standard, dar poate fi folosit i deviaia fa
de valoarea medie ( ) Y Y
i
.

Variaia total poate fi exprimat folosind suma ptratelor deviaiilor astfel:
( )
=
i
i
Y Y SST
2
(SST Total Sum of Square). (7)
Facem apel la valorile estimate prin modelul regresional propus, notate
i i
X b a Y + =
.
Exprimm astfel: ( ) ( ) Y Y Y Y Y Y
i i i i
+ =

.
Ridicnd la ptrat expresia alturat se poate arta c
( ) ( )

+ =
i
i
i
i i
Y Y Y Y SST
2 2

.
Primul termen: ( )

i
i i
Y Y
2
reprezint variaia datelor n jurul dreptei de regresie. Aceast variaie

nu este dorit fiind considerat o eroare. Este notat SSE (Error Sum of Square).

Al doilea termen, ( )

i
i
Y Y
2
exprim deviaiile fa de medie ale valorilor estimate. Este suma

diferenelor fa de medie ale valorilor determinate prin regresie. Acestea sunt exprimate de modelul creat.
Este notat prescurtat SSR (Regression Sum of Square).
Obinem astfel: SST = SSE + SSR.
Raportul notat
SST
SSR
r =
2
se numete coeficient de determinare i reprezint ptratul coeficientului
de corelaie ce va fi discutat ntr-un capitol urmtor.
Definirea mediilor sumelor ptratelor diferenelor ce exprim eroarea i regresia se realizeaz prin
determinarea gradelor de libertate.
Gradele de libertate notate df (degree of freedom) exprim dimensiunea necesar unui spaiu de
lucru. Este numrul de date independente. De exemplu, daca avem o condiie de minimizare a erorii,
atunci din numrul total de date n, condiia de minim va scdea gradele de libertate cu 1. Gradele de
libertate definesc un parametru aparinnd unei statistici (statistica Fisher de exemplu).
Avem astfel: SSR este caracterizat de df=1, SSE de df=n-2 i SST de df=n-1.
Putem calcula mediile:
1
SSR
MSR = ,
2
=
n
SSE
MSE . (8)
Raportul notat
MSE
MSR
F = este o statistic de tip Fisher care prin nivelul de semnificaie determinat
(notat p), ne d informaia cheie asupra modelului regresional determinat. Dac valoarea semnificaiei este
p<0,05 deci sub 5%, atunci modelul liniar dezvoltat este util in predicie.
Iat un exemplu n care tabelul de analiz a varianei n situaia regresiei liniare este realizat prin
softul de statistic (poate fi SPSS, Statistica sau n Ms Excel).

Tabelul 2.10 2 Analiza varianei ANOVA pentru modelul regresional liniar.
ANOVA
df SS MS F Significance F
Regression 1 130.5375 130.5375 3.381801 0.087223337
Residual (Error) 14 540.4 38.6
Total 15 670.9375

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 69.1333333 10.4099 6.641117 1.11E-05 46.80632795 91.46034
Birthweigh 0.15733333 0.085555 1.838967 0.087223 -0.02616446 0.340831

Eroarea sau reziduul au n acest context aceeai semnificaie.
n linia corespunztoare regresiei avem calculate valorile SSR, MSR i gradele de libertate. Cu ct
aceast valoare SSR va fi mai mare cu att modelul nostru va explica mai bine variaiile prezente.
Pe rndul urmtor sunt datele cu privire la suma erorilor (reziduu), SSE, MSE. Cu ct acestea sunt
mai mici cu att i erorile sistemului sunt mai mici iar modelul prezint un grad mai mare de ncredere.
n continuare se prezint valoarea statisticii Fisher i corespunztor nivelul de semnificaie. Dac
avem p sub 0,05 deducem c dreapta de regresie aproximeaz bine datele noastre. Dac avem p calculat
peste 0,05 dar sub 0,1 (10%), putem deduce c variabila independent are o anumit influen asupra celei
dependente dar nu n totalitate. Putem aduga date noi sau cerceta i influena altor variabile n sistem.
n final avem datele necesare modelului deci constanta a = Y
intercept
i panta b, ce are valoarea 0,157
pentru datele prezente studiate.

Aa cum am calculat i utilizat statistica F i nivelul de semnificaie corespunztor ntregului sistem,
putem calcula pentru coeficienii dreptei de regresie a i b statistica t i nivelul de semnificaie. Acestea ne
ajut la verificarea diferenei fa de valoarea nul. De asemenea, sunt prezente limitele minim i maxim
de variaie a acestor coeficieni cu ncredere de 95%. Dac aceste limite cuprind valoarea 0 (zero), atunci
nu exist semnificaie statistic i ipoteza nul este acceptat.

Observaii
1 n cazurile practice variabilele x i y pot s nu fie distribuite normal. Acest neajuns poate fi
corectat prin aplicarea unor transformri cum ar fi logaritmarea pentru a transforma distribuia n forma
gausian. Evident, vom avea grij la interpretarea corect a rezultatelor (deci a pantei i a termenului
liber).
2 Att a ct i b sunt deduse din eantioane. Aceti parametri aadar, reprezint variabile aleatoare.
Astfel se poate construi un interval de ncredere pentru cele dou necunoscute a i b.
Prin estimarea parametrilor a i b se vor obine pentru intervale simetrice valorile limit:
a a a =
0
, respectiv b b b =
0
.
Reprezentnd grafic dreapta de regresie pentru cele 4 cazuri limit obinem o suprafa de regresie.
a a a =
min
, a a a + =
max
.
( ) b b tg b = =
1 min
, ( ) b b tg b + = =
2 max
.

Figura 2.10 2 - Reprezentarea grafic a suprafeei de regresie.

n acest caz unei valori x
i
i va corespunde un interval de valori ( )
max min
, Y Y y
i
. Pentru x=0
intervalul coincide cu (a
min
, a
max
). Acest interval este datorat tocmai estimrilor parametrilor dreptei de
regresie.
Corelaia
Noiuni
Legtura dintre dou variabile aleatoare n care una dintre ele variaz constant (sau controlat), iar
cealalt variaz aleator a fost descris de forma liniar a dreptei de regresie.
Corelaia caracterizeaz legtura dintre dou variabile aleatoare X i Y cu repartiii normale
( )
2
,
x x
N , respectiv ( )
2
,
y y
N . Densitatea de probabilitate a funciei de repartiie normal bivariat
(avnd doi parametri) are expresia:
( )
\
|

=
2
1 2
1
exp
1 2
1
) , (
x
x
y x f
x
y x

(
(
(
|
|
\
|
+
|
|
\
|
|
|
\
|

2
2
y
y
y
y
x
x
y y
x
. (9)
X
Y
a
min

a
max

y=a+bx
2

1

n aceast formul reprezint coeficientul de corelaie. Domeniul de variaie este cuprins ntre 1 i
1, [ ] 1 , 1 + . Practic, gradul de dependen dintre cele dou variabile aleatoare este definit de acest
coeficient de corelaie (se noteaz cu ,,r cnd este determinat din datele reale conine o anumit eroare).
Dac =0, atunci nu exist dependen ntre cele dou variabile aleatoare, acestea fiind considerate
independente.
Calculnd densitatea de probabilitate obinem:
( )
( )
2
2
2
2
2
2
2
1
2
1
) , ( 0
y
y
x
x
y
y
x
x
e e y x f

= = ,
) ( ) ( ) , ( y f x f y x f = .
Interpretare
Dac 0 , atunci cele dou variabile aleatoare sunt dependente stocastic (aleator).
Pentru >0 spunem c cele dou variabile aleatoare sunt dependente direct proporional. Cu ct se
apropie de valoarea 1 cu att dependena este mai puternic.
Dac <0, atunci cele dou variabile aleatoare variaz invers proporional i legtura este cu att
mai puternic cu ct coeficientul de corelaie este mai apropiat de valoarea 1.
Practic, valoarea la ptrat a corelaiei calculate r
2
(amintim c se noteaz cu r deoarece este
determinat din datele reale, deci reprezint o aproximare) exprim procentul din variaia
variabilei Y ce poate fi explicat de variaia variabilei X. n analiza regresiei i corelaiei se
prezint aceast valoarea a coeficientului de determinare. Amintim formula de calcul din
analiza varianei:
SST
SSR
r =
2
.
Graficele de mai jos indic o legtur puternic, respectiv slab, ntre dou variabile aleatoare.

Figura 2.10 3 - Tipuri de legturi ntre seturi de date.

Calculul coeficientului de corelaie se realizeaz prin deducerea mediei produselor abaterilor
normate:

(
(
|
|
\
|
|
|
\
|
=
y
y
x
x
y
x
M
.
Prelucrnd formula precedent se ajunge la:
( ) ( )
( ) ( )
2
1
2
1
y i
n
i
x i
n
i
y i x i
y x
y x

=
=
.
Y Y
X
X
Legtur puternic Legtur slab

Aceast formul de calcul poate fi aplicat doar n cazul a dou variabile aleatoare repartizate normal.
Testarea coeficientului de corelaie
Este important s putem afla dac variaia cu ncredere de 95% a acestui coeficient cuprinde sau nu
valoarea nul. Cu alte cuvinte trebuie s rspundem la ntrebarea privind diferena semnificativ a
coeficientului de corelaie fa de valoarea nul.
tim c n orice experiment sau proces intervine factorul de tip aleator ce implic existena unei
variaii n valoarea indicatorilor statistici. Dorim s vedem dac aceast variaie implicit este depit n
cazul nostru, ceea ce ar indica existena real a unui efect pe care de fapt l cutm i l studiem.
Se demonstreaz c urmtoarea funcie respect o distribuie de tip t (Student):
2
1
2
r
n
r t
= . (10)
Verificm ipoteza nul H
0
: 0 prin distribuia menionat tiind c este caracterizat de n-2 grade
de libertate (n este numrul de date din eantion volumul eantionului).
Dac valoarea calculat p
calculat
este mai mic dect 5%, avem semnificaie statistic, deci coeficientul
de corelaie este diferit de 0 antrennd existena unei anumite relaii ntre variabile.
A doua metod de interpretare face apel efectiv la valoarea statisticii t calculate cu formula 10. Dac
aceast valoare este mai mare ca cea tabelat corespunztoare unui numr de grade de libertate n-1 i unei
ncrederi bilaterale de 95%, atunci avem semnificaie statistic.

Exemplu
Pentru datele a cror analiz ANOVA a fost prezentat anterior se obine r = 0,441 iar volumul
eantionului este n=16 valori.
Calculm valoarea statisticii t , 838 , 1
1945 , 0 1
2 16
441 , 0 =
= t .
Din datele tabelate ale statisticii t, pentru ncredere bilateral 95%, deci risc % 5 = i n-2=14 grade
de libertate obinem valoarea 145 , 2
14 ,
2
05 , 0
=
|
\
|
t .
Valoarea calculat 1,838 este mai mic dect cea tabelat 2,145 ceea ce denot c variaia ntlnit se
ncadreaz n domeniul acceptat, deci nu exist diferen semnificativ statistic. Cu alte cuvinte putem
afirma cu ncredere de 95% c valoarea coeficientului de corelaie poate fi nul. Aceasta nseamn c
relaia exprimat prin valoarea punctual r = 0,441 este rezultatul hazardului.

Observaii asupra regresiei liniare i corelaiei
Presupunem c avem dou seturi de date X: x
1
, x
2
, , x
n
respectiv Y: y
1
, y
2
, y
n
.
Calculnd regresia y = f(x) = a + bx obinem anumite valori pentru coeficienii a i b. Dac
extragem pe x funcie de y avem: y
b b
a
x +
=
1
. (11)
Calculnd regresia x = g(y) = a +by (12) i comparnd cu relaia (11) cele dou drepte pot sau nu
coincide.
Deducerea coeficienilor a,b, respectiv a, b difer substanial deoarece n primul caz s-a pus
condiia ca suma ptratelor erorilor pe direcia OY s fie minim iar n al doilea caz condiia a fost ca suma
ptratelor erorilor pe OX s fie minim.
Corelaia exprim tocmai aceast asemnare dintre cele dou drepte de regresie.
Notm cu A dreapta y=f(x), respectiv cu B dreapta x=g(y).
Dac dreptele se suprapun atunci =1, iar dependena aleatoare devine determinist (unui punct pe x
i corespunde un singur punct pe y) i dreptele de regresie au alura primei bisectoare. Astfel, cunoscnd pe
x, putem determina pe y cu o precizie bun n funcie de datele din eantion.

Dac = -1 atunci dreptele se suprapun dar au forma bisectoarei a doua iar dependena este invers
proporional. i n acest caz legtura este de tip determinist.
n general dreptele pot sau nu s se apropie mai mult sau mai puin demonstrnd dependena datelor.
Prezentm mai jos n patru grafice succesive cele relatate.

Figura 2.10 4 Tipuri de dependene ntre regresie i corelaie.

Dac valoarea coeficientului de corelaie este 0, atunci cele dou drepte fac un unghi de 90
0
(sunt
perpendiculare).
Este normal ca legtura dintre cele dou drepte s determine i semnul coeficientului de corelaie.
Dac din y=f(x) obinem o pant negativ atunci tot negativ va fi i panta obinut din calculul x=g(y) i
tot negativ va fi i coeficientul de corelaie (evident legtura rmne valabil i pentru cazul pantei
pozitive).
1.1. MODELE NELINIARE DE REGRESIE
n practica de zi cu zi se ntlnesc des cazuri n care legtura de tip liniar dintre dou variabile nu este
respectat i reprezint doar un aspect particular al realitii. Se impune astfel dezvoltarea de metode de
deducere a legturilor de tip neliniar existente ntre variabila de intrare notat x (numit i variabil
independent sau factor) i variabila y (numit i variabil dependent).
Prezentm n continuare cteva modele neliniare de interes pentru determinarea regresiei.
Modele parabolice
Parabola este exprimarea variabilei dependente fa de variabila x la puterea a doua, coninnd
eventual un termen liber i eventual un termen x la puterea nti.
Expresia matematic este: y = a + b x + c x
2
.
Folosind forma logaritmic putem avea urmtoarele exprimri :
y = a + b lg(x) + c (lg(x))
2
,
lg(y) = a + b x + c x
2
,
A , B
A B
Dependen determinist
direct proporional
=1 =1 =1 =1
=0,4 =0,4 =0,4 =0,4
Dependen stohastic
direct proporional
A B
A , B
=1 =1 =1 =1
=0,6 =0,6 =0,6 =0,6
Dependen determinist
invers proporional
Dependen stohastic
invers proporional

lg(y) = a + b lg(x) + c (lg(x))
2
.
Forma grafic a parabolei y = a + b x + c x
2
este prezentat n figura urmtoare.

Figura 2.11 1 - Regresii parabolice

Funcie de semnul parametrului de regresie c parabola prezint un punct de extrem. Dac c > 0
parabola prezint un punct de minim notat cu ,,m iar n cazul n care c < 0, punctul de extrem este un
maxim notat cu ,,M.
Calculul punctului de extrem este realizat din punct de vedere matematic prin condiia ca derivata
nti n raport cu variabila x s fie egal cu zero.
Interpretarea practic este important deoarece acest punct reprezint minimul sau maximul atins de
curba parabolic.
Determinarea coeficienilor a, b, c, de regresie se face asemntor regresiei liniare i exist multe
programe soft realizate pentru deducerea acestora (de exemplu, produsul Microsoft Excel - de mare
popularitate).
Menionm c parabola este un caz particular al polinomului de ordin n.
Modele hiperbolice
Exist modele n cadrul fenomenelor reale biologice care pot lua o form hiperbolic. Exprimarea
matematic este:
x
b
a y + = , pentru x > 0.
Graficul funciei depinde de semnul coeficientului b (ca i n celelalte cazuri). Pentru b < 0 avem
dependen cresctoare, curba tinznd asimptotic la valoarea a (y = a ) pentru x tinznd la infinit. Pentru
b > 0 avem dependen descresctoare i curba tinde asimptotic tot la valoarea a pentru x tinznd la
infinit.
Reprezentarea grafic a hiperbolei este realizat n figura urmtoare:

Figura 2.11 2 Regresii hiperbolice
Exist mai multe modele hiperbolice, dintre care menionm:

x
b x a
y
x
b
a
y
x b a
y
+
=
+
=
+
= ,
1
,
1
.
X
Y
M
m
0
C>0
C<0
X
Y
b>0
b<0
0
a

X
Y
A(0,a)
b>0
b<0
0
Model exponenial
Funcia de tip exponenial are forma matematic urmtoare:
( ) + =

, , x cu e a y
x b
.
Pentru x = 0 se obine y = a, iar toate curbele au un punct comun anume A (0, a).
Pentru coeficient b > 0 se obine o curb cresctoare iar pentru coeficientul b < 0 se obine o curb
descresctoare.

Figura 2.11 3 Regresii de tip exponenial

Analiza de regresie multipl (analiza multivariat)
Legtura multipl reprezint o relaie matematic n care exist mai multe variabile factoriale sau
independente (independent, explanatory variable or covariates). Astfel, variabila dependent (sau
rspuns) poate fi exprimat matematic cu formula: + = ) (
i
x f y , cu i avnd valori de la 1 la n (n
reprezint numrul de variabile).
Sunt situaii n care nu se cunosc care variabile s se ia n consideraie n cadrul regresiei multiple.
Pentru a determina variabilele independente care au efect important asupra variabilei rezultative (y) se
calculeaz spre exemplu coeficientul de corelaie i se aleg apoi acele variabile ce corespund valorilor
maxime ale acestui coeficient. Exist i alte metode de analiz discriminant pentru alegerea variabilelor
factoriale de interes. Aceast alegere are un efect important asupra erorii sistemului, cci eliminnd o parte
din variabile, aproximarea sistemului este mai ,,grosolan .
Funcia f(x
i
) poate fi liniar, ceea ce reprezint cazul cel mai simplu sau dimpotriv, poate depinde
neliniar de variabilele de interes.
n cadrul unei legturi multiple liniare ecuaia este de forma:
y = a
0
+ a
1
x
1
+ a
2
x
2
+ + a
n
x
n

=
+ =
n
i
i i
x a a y
1
0
.
Fiecare coeficient ,,a
i
reprezint influena variabilei corespunztoare x
i
, iar a
0
(termenul liber)
reprezint influena celorlali factori, care sunt considerai ca o aciune constant.
Dac n coordonate bidimensionale regresia liniar este o dreapt, n coordonate n-dimensionale
regresia liniar va reprezenta o suprafa multidimensional ce trece prin punctul valorilor medii ale
variabilelor.

i n acest caz pentru aflarea coeficienilor ,,a
i
se aplic metoda celor mai mici ptrate (descris la
regresia liniar cu o singur variabil).

Pentru aceasta se calculeaz valoarea ateptat prin regresie
=
+ =
n
i
j
i i
j
x a a y
1
0
,
unde i reprezint numrul de variabile independente (i variaz de la 1 la n), iar j

reprezint numrul de date cunoscute deci volumul eantionului sau lotului (j variaz de la
1 la m).
Se definete eroarea
j j j
y y = , unde y
j
este valoarea real msurat sau cea din
eantion.
Se pune condiia ca suma ptratelor erorilor s fie minim prin egalarea cu zero a
derivatei de ordinul nti pentru fiecare coeficient n parte.

Parametrii de regresie a
0
, a
i
au aceeai interpretare dac variabilele sunt independente. Primul
parametru a
0
arat influena celorlali factori care nu sunt cuprini n ecuaie.
Ceilali parametri a
i
descriu variaia ieirii pentru creterea cu o uniate a variabilei x
i
i pstrarea
constant a celorlali factori.

Exemplu
Se prezent n continuare o metod liniar de estimare (predicie) a indicelui de rezisten a
muchiului respirator PEmax (cm H
2
O) n funcie de variabilele independente (predictoare), nlime (cm,
notat H) i greutate (kg, notat G).
PE max = a
0
+ a
1
H + a
2
G.
Prin calculul coeficienilor ,,a
i
se obine:
PE max = 47,36 + 0,146 H + 1,025 G.
Avnd aceast relaie prin msurarea nlimii i greutii unei persoane putem estima valoarea PE
max cu o eroare acceptabil.

Interaciuni ntre variabile

Acestea pot fi puse n eviden prin introducerea de termeni ce sunt egali cu produsul a dou
variabile. Iat un exemplu:
2 1 3 2 2 1 1 0
x x a x a x a a y + + + = .

Astfel, efectul pe care l are variabila x
1
depinde de prezena variabilei x
2
. Evident, interpretarea
coeficienilor de regresie este diferit tocmai datorit modificrilor existente (cunoscut n literatur cu
numele de effect modifications un factor influeneaz efectul altora).

De multe ori pentru a optimiza un model de regresie se pot introduce aceti termeni ce exprim
interaciunea dintre variabile.

Analiza ANOVA pentru validarea modelului multivariabil

Ca i n cazul liniar univariat se definesc urmtoarele deviaii:
Suma total a ptratelor deviaiilor: ( )
=
j
j
y y SST
2
.
Suma ptratelor erorilor (sau reziduurile): ( )
=
j
j j
y y SSE
2
.
Suma ptratelor deviaiilor de regresie: ( )
=
j
j
y y SSR
2
, unde j variaz de la 1 la m (m este
volumul eantionului).
Programele speciale de statistic vor produce tabelul urmtor:

Tabelul 2.11 1.
Sursa de
variaie
Suma
ptratelor
SS
Gradele de libertate
(df)
Media ptratelor Statistica Fisher Valoarea
semnificaiei p
Regresie SSR n (nr. de variabile
independente)
MSR = SSR / n F = MSR/MSE p
Eroare
(reziduu)
SSE m n 1 MSE = SSE /
( m n 1)

Total SST m 1 (m volumul
eantionului)

Se poate calcula de asemenea coeficientul de determinate
SST
SSR
R =
2
. Acesta nmulit cu 100 arat
procentul din variaia variabilei dependente explicat de factorii ce au fost inclui n calcul.

Cu ct valoarea SSR este mai mare cu att modelul explic mai bine variaiile ieirii.
Cu ct SSE este mai mic cu att erorile sunt mai mici i modelul propus este cu att mai bun.

Se calculeaz statistica Fisher i nivelul de semnificaie p.
Dac p este mai mic dect 0,05 (5%), deducem atunci c variaia explicat de model este mai mult
dect ntmpltoare, deci modelul este considerat drept unul bun iar nivelul de determinare este diferit de
0. Cu alte cuvinte, setul de factori reuesc s fac o predicie semnificativ asupra variabilei dependente.
Dac valoarea p este mai mare dect 5%, putem afirma c modelul nu este satisfctor i poate sunt
necesare i alte variabile ca factori de influen asupra ieirii.

Testarea semnificaiei unui singur factor dintre predictori

Se pune problema verificrii influenei asupra ntregului model a unui nou factor adugat. Dac
efectul este semnificativ statistic n predicia variabilei dependente, acest nou element va fi acceptat n
formula de calcul.
Ipoteza nul este: Noul factor x
i
, nu are efect asupra variabilei dependente fa de modelul fr x
i
.
Astfel, coeficientul a
i
poate fi considerat nul, deci ipoteza nul devine Ho: a
i
= 0.
Pentru aceasta se folosete statistica
( )
i
i
a SE
a
t
= . Aceasta este de tip Student iar prin SE nelegem

eroarea standard (notarea
i
a se folosete pentru a specifica c variabila sau parametrul este dedus din
datele experimentale deci conine o eroare). Numrul de grade de libertate este df = m n 1 (m
volumul eantionului, n numrul de variabile din model).
Corespunztor valorii t calculate se poate determina nivelul de semnificaie p.
Practic, factorul testat drept variabil nou introdus n model este acceptat dac p
calculat
este mai mic
dect 5% (0,05). Aceasta nseamn c noul model este diferit semnificativ statistic fa de cel precedent ce
nu coninea noua variabil.

Testarea semnificaiei unui grup de variabile introduse n model

Datorit posibilitilor de interaciune dintre variabile i a legturilor probabile existente este necesar
verificarea utilitii setului de mai mult de 2 variabile n noul model. Aceasta se testeaz prin calculul unei
statistici de tip Fisher descrise n continuare.

Dac notm numrul variabilelor de testat cu k, atunci ipoteza Ho devine a
1
= a
2
= = a
k
= 0
(coeficienii sunt nuli).

Avem de comparat dou modele, primul cu toate cele n variabile x
i
iar al doilea cu n-k variabile.

Calculm astfel suma ptratelor deviaiilor de regresie SSR
1
, respectiv SSR
2
pentru modelul 2.
Media diferenei va fi : MDR = (SSR
1
-SSR
2
)/k.

Statistica Fisher se calculeaz prin: F = MDR / MSE, unde MSE este media sumelor ptratelor
deviaiilor pentru sistemul 1 (sistemul mare, cu toate variabilele). Numrul de grade de libertate este n
respectiv m k 1, ). 1 , ( n m k F
S-a respectat notaia: n este numrul total de variabile, k este numrul de variabile din grupul de test,
m este volumul eantionului.
Interpretarea se face la fel ca n exemplele precedente, innd cont de nivelul de semnificaie calculat,
p.
Dac p < 0,05, atunci setul de k variabile testate este util n sistem.

Determinarea variabilelor din model pas cu pas

De interes major n crearea unui model de regresie este determinarea variabilelor ce au efect n
predicia comportrii sistemului analizat. Practic, care din factorii presupui a fi implicai n regresie au
ntr-adevr efect semnificativ?
Se poate grei prin alegerea de elemente ce nu au influen n regresie i se produce astfel o eroare de
tip I fals pozitiv. Aceasta va duce la mari confuzii i n mod evident este de dorit ca eroarea s fie
minimizat.
O metod ce permite atingerea acestui scop const n introducerea pas cu pas a unei noi variabile
predictoare i testarea semnificaiei acesteia. n mod asemntor, dar judecnd complementar, din totalul
de variabile putem s eliminm pe rnd pe cele care nu au rol n determinarea ieirii dorite.
Avem astfel dou metode numite cu nlnuire nainte (forward selection) pentru selecie, respectiv
cu nlnuire napoi (backward elimination) pentru eliminare.
Pentru a alege din totalul variabilelor pe cele semnificative, se poate aplica testul t (sau
Student - descris anterior) de verificare a diferenei fa de 0 a coeficientului de regresie corespunztor. Se
calculeaz pentru fiecare factor implicat n studiu nivelul de semnificaie i se selecteaz variabila cu cea
mai mare influen.
n continuare se verific ntregul model cu noua variabil, comparativ cu modelul precedent prin
analiza varianei (testul Fisher deja prezentat).
Mai exist i procedeul regresiei folosind paii inteligeni (stepwise regression procedure), ce permite
reevaluarea modelului la fiecare pas i adugarea sau eliminarea factorilor ce devin nesemnificativi.
Programele dedicate de statistic au aceti algoritmi implementai (SPSS, SAS, STATISTICA).

Regresia logistic
Pn n acest moment regresia a fost aplicat variabilelor cantitative care puteau lua valori reale ntr-
un anumit interval (de exemplu, nlimea poate fi cuprins ntre 1,55 m i 1,95 m n majoritatea
cazurilor).
Exist multe situaii n medicin, farmacie n care variabila de interes nu mai este continu i prezint
doar dou valori atributive (este deci binar sau dicotomic). Acestea sunt de obicei rspunsuri de genul
,,da sau ,,nu; ,,adevrat sau ,,fals.
Pentru a lucra cu variabile de acest fel se folosete o metod matematic specific numit regresie
logistic. Aceasta ne ajut n estimarea proporiei indivizilor cu o anumit caracteristic dintr-o anumit
populaie. Astfel, vom cuta s determinm probabilitatea de a avea evenimentul notat ,,da sau
evenimentul notat ,,nu.

Raportul dintre probabilitatea de a observa un fapt i cea de a nu-l observa se numete cot (odds),
p
p
=
1
cota . Logaritmul natural din aceast cot definete funcia numit logit, folosit n regresie
logistic.
n regresia multipl liniar rezultatul final este o mrime continu pe un anumit interval, funcie de
domeniile de definiie ale variabilelor ,,x
i
. Proporia subiecilor cu o anumit caracteristic este o valoare
cuprins ntre 0 i 1. n concluzie ne trebuie o funcie matematic care s realizeze conversia din domeniul
[0,1], ntr-un interval de lungime maxim, n general de la (-, +). Aceasta este motivaia folosirii
funciei logit.
Formula de calcul este urmtoarea:
|
|
\
|
=
p
p
1
ln logit(p) , unde:
p reprezint probabilitatea realizrii evenimentului de interes.
1-p reprezint probabilitatea realizrii evenimentului opus.
Probabilitatea p, variaz ntre 0 i 1 iar funcia logit are codomeniul (- , + ).
Regresia logistic se bazeaz pe formula:

n n
x a x a a
p
p
p + + + =
|
|
\
|
= ....
1
ln ) ( logit
1 1 0
.
Coeficienii a
o
,,a
n
se deduc prin metode matematice specifice folosind un calcul laborios care se
realizeaz doar cu ajutorul computerului.
Dac exprimm probabilitatea p funcie de factorii x
i
, atunci avem:
) ,...x x , f(x
xi ai - exp 1
1
p
n 1 0
i
=
|
|
\
|
+
=
, aceasta este numit funcia logistic i este diferit n

mod evident de funcia logit.
Funcia logistic face conversia din domeniul (- ,+), ca posibil de variaie pentru variabilele x
i
, n
domeniul probabilitii unui eveniment, deci [0,1].
Dac reprezentm grafic variabila dependent n funcie de cea independent, n situaia n care avem
doar dou variante pentru y, atunci aceasta ar fi o reprezentare de puncte doar pe dou linii paralele pentru
cele dou valori posibile, 0 respectiv 1 ale lui Y. Valoarea 1 nseamn c evenimentul a avut loc, iar 0
evident opusul. n aceast situaie probabilitatea lui Y dup experiment poate avea doar valorile 0 sau 1.

Figura 2.11 4 Funcia logistic comparativ cu regresia liniar.

Se observ conform figurii alturate c dreapta de regresie (linia pe diagonal trasat punctat)
prezint mari dezavantaje. n primul rnd, conine puncte ale cror ordonate au valori mai mari ca 1 i mai
mici dect 0. Deci, n cazul estimrii unor probabiliti ar conine erori fatale. Un alt mare dezavantaj
const n faptul c eroarea nu este distribuit normal i nici variabila dependent (y) nu se ncadreaz n
1
0
Prob(Y)=
X

aceast clas de repartiie. Condiia este necesar pentru determinarea coeficienilor de regresie deci
metoda celor mai mici ptrate nu se aplic aici.
Funcia logistic este reprezentat prin linia curb n form de S. Aceasta aproximeaz mult mai bine
probabilitatea evenimentului studiat.
Probabilitatea lui Y depinde de variabila independent X. Matematic putem scrie:
) 1 ( ) ( x X Y P x = = = . Aceasta reprezint probabilitatea condiionat a lui Y (de a se ndeplini
evenimentul Y, deci Y=1) pentru diferite valori (deci i n domeniul continuu) ale variabilei X.

Determinarea coeficienilor de regresie logistic

Variabila Y poate avea numai dou valori acceptate, Adevrat sau Fals, Da sau Nu,
Prezent sau Absent, Sntos sau Bolnav, Pozitiv sau Negativ. Aceasta este caracterizat de
probabilitatea de realizare a unor asemenea evenimente modelate matematic prin funcia logistic.

Y este distribuit binomial (Bernoulli). Astfel, dac avem m ncercri ale experimentului, atunci
probabilitatea ca evenimentul s se realizeze de j ori este :
( )
j m j
p p
j
m
j Y

|
|
\
|
= = 1 ) Pr( , unde
j
m
C
j
m
=
|
|
\
|
sunt combinri de m luate cte j:
( )! !
!
j m j
m
j
m

=
|
|
\
|
; p este probabilitatea de realizare a evenimentului (este ). Aceasta se numete funcia
probabilitate de mas (probability mass function).
Variabila Y este caracterizat de medie i varian. Pentru cazul binomial avem: media= = m Y E ) (
iar variana este ( ) = 1 ) ( m Y Var .
Pentru determinarea coeficienilor se aplic metoda verosimilitii maxime (prezentat detaliat n
anex).
Funcia de verosimilitate (notat L) este produsul probabilitilor pentru toate elementele din
eantion.
=
=
n
i
yi L
1
) Pr( . Probabilitatea se calculeaz cu funcia probabilitate de mas n care p este funcia
logistic. Se pune condiia de maxim (derivata de ordinul nti egal cu 0) pentru verosimilitate maxim i
se ajunge la un sistem avnd ca necunoscute coeficienii de regresie a
0
, a
1
, ,a
n
.
Programele actuale de statistic deduc aceti coeficieni ce exprim legtura cutat.

Interpretarea coeficienilor n cazul regresiei logistice
innd cont de formula de calcul:
n n
x a x a a
p
p
p + + + =
|
|
\
|
= ....
1
ln ) ( logit
1 1 0
putem interpreta n prima form coeficienii de
regresie ai.
Vom presupune c modificm doar valoarea x
1
cu o unitate, deci 1
1
,
1
+ = x x . Pentru valoarea x
1
avem
probabilitatea p
1
iar pentru
,
1
x vom determina probabilitatea
,
1
p .
Se poate calcula
1 1
,
1
) ( logit ) ( logit a p p = , ceea ce nseamn c diferena logaritmilor cotelor pentru
o cretere cu 1 a variabilei x
i
reprezint coeficientul a
i
evident o interpretare greoaie !

Putem prelucra totui ultima formul prin exponeniere. Notm cota cu
1
C respectiv
`
1
C pentru x
1

respectiv
,
1
x (
p
p
C
=
1
).
Vom aplica exponeniala pentru
1
1
1
,
1
,
1
1
ln
1
ln a
p
p
p
p
=
|
|
\
|
|
|
\
|
.
Obinem: ) exp(
1
1
'
1
a
C
C
= . Interpretarea este evident. Exponeniala unui coeficient al regresiei
logistice reprezint raportul cotelor pentru cretere cu o unitate a valorii variabilei independente.

Exemplu
Se studiaz influena fumatului, a obezitii i a sforitului asupra hipertensiunii. Practic, problema se
rezum la a estima n prima etap prin regresie multipl logistic influena asupra cotei logaritmate (ln(C))
realizat de factorii fumat, obezitate i sforit.
Se deduc coeficienii de regresie conform formulei:
Logit (p) =
|
|
\
|
p
p
1
ln = 2,379 + 0,685 F + 0,694 O + 0,871 S , unde:
F - reprezint faptul c persoana fumeaz sau nu (poate fi 0 sau 1).
O - indic prezena obezitii (este variabil binar, poate fi 0 sau 1).
S - reprezint prezena sforitului (variabil binar, poate avea valorile 0 sau 1).

Dac comparm persoanele care fumeaz cu cele care nu fumeaz se ajunge la dou ecuaii. Una
dintre ecuaii se obine pentru F=1 iar cealalt pentru F=0.
Diferena: logit(p
fumtor
) logit(p
nefumtor
) = 0,685. Aplicnd funcia exponenial se obine:
98 , 1
) 1 (
) 1 (
=
=
fumator nefumator
nefumator fumator
nefumator
fumator
P P
P P
C
C
.
Acest rezultat reprezint numeric riscul de hipertensiune printre fumtori n raport cu nefumtorii
(riscul de a avea hipertensiune este de 1,98 ori mai mare la fumtori fa de nefumtori).

n final menionm c exist metode de verificare statistic a semnificaiei coeficienilor (metoda
Wald) ct i a ntregului model propus (metoda Chi ptrat). De asemenea, modelul de regresie poate fi pas
cu pas optimizat prin verificarea variabilelor independente introduse (cu nlnuire nainte sau napoi
conform procedurii prezentate la regresia multipl).

Regresia, Corelatia-Curs Informatica

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresia, Corelatia-Curs Informatica

Încărcat de

Drepturi de autor:

Formate disponibile

1

REGRESIA LINIAR I CORELA

reprezint variaia datelor n jurul dreptei de regresie. Aceast variaie

exprim deviaiile fa de medie ale valorilor estimate. Este suma

= . Aceasta este de tip Student iar prin SE nelegem

, aceasta este numit funcia logistic i este diferit n

S-ar putea să vă placă și