Sunteți pe pagina 1din 25

Cursul Nr.

14

Regresia liniara

Background
O mare parte a analizelor statistice uzuale se
ocup cu analiza relaiei ntre dou variabile
statistice (atribute) ce corespund aceluiai grup
de obiecte/instane.
Pentru a o identifica, se studiaz relaia dintre
cele dou caracteristici/atribute msurate pe
obiectele dintr-un anumit set.
Cu alte cuvinte, este vorba de dou serii
statistice n care cuplurile de valori ( xi, yi),
corespunznd cuplului de variabile statistice
(X, Y) sunt msurate pe acelai obiect.

Background
Exist dou mari motive pentru care se
efectueaz un asemenea studiu:
Descrierea relaiei care ar putea exista ntre cele
dou variabile, analiznd legtura ntre cele dou
serii de observaii. Concret, se analizeaz dac
tendina ascendent a uneia implic o tendin
ascendent, descendent sau nici o tendin a
celeilalte;
n ipoteza existenei unei legturi reale ntre ele,
identificat n prima instan, s se poat
prognostica valorile uneia n raport cu valorile
celeilalte pe baza ecuaiei de regresie.

Background
Scopul final este prognoza, n condiia c
este posibil, cele dou variabile fiind ntradevr corelate.
Metoda prin care analizm posibilele
asociaii ntre valorile a dou variabile
statistice, prelevate de la acelai grup de
obiecte, este cunoscut ca metoda
corelaiei i are ca indice coeficientul de
corelaie (Pearsons r).

Background
Coeficientul de corelaie poate fi calculat pentru
orice set de date, dar, pentru ca el s aib
relevan statistic, trebuie ndeplinite dou
condiii majore:
(a) cele dou variabile s fie definite de acelai lot
de obiecte, cuplurile de date
corespunznd
aceluiai obiect;
(b) cel puin una din variabile s aib o repartiie
aproximativ normal, ideal fiind ca ambele s fie
normal repartizate.

Background
Presupunnd c legtura dintre cele dou
variabile X i Y, reliefat de coeficientul de
corelaie r, nu este ntmpltoare, exist trei
posibile explicaii:
Variabila X influeneaz (cauzeaz) variabila
Y;
Variabila Y influeneaz variabila X;
Ambele variabile X i Y sunt influenate de
acelai fenomen din fundal.

Regresia liniara
Pasul urmtor n analiza legturii dintre dou
variabile statistice, atunci cnd acestea sunt
corelate, este s se stabileasc concret natura
legturii liniare dintre ele, descriind-o printr-o
ecuaie matematic.
Scopul final al acestei abordri este prognoza
valorilor uneia dintre variabile pe baza valorilor
celeilalte, prognoz efectuat pe baza ecuaiei
ce descrie legtura dintre cele dou seturi de
date.

Regresia liniara
Modul de prezentare a legturii liniare dintre dou
variabile, atunci cnd aceasta exist, se numete
metoda regresiei liniare (linear regression).
Pentru aceasta se consider una dintre variabile ca
variabil independent sau variabil predictor, iar
cealalt variabil ca variabil dependent sau
variabil rspuns (outcome).
Legtura liniar dintre cele dou variabile este
descris de o ecuaie liniar, ecuaia de regresie
(regression equation) creia i corespunde geometric
dreapta de regresie (regression line).

Regresia liniara
Ca metodologie, variabila dependent se
distribuie pe axa ordonatelor, n timp ce
variabila independent se distribuie pe axa
absciselor. Ecuaia dreptei de regresie se
stabilete pe baza metodei celor mai mici
ptrate (least squares method) care, intuitiv,
minimizeaz
distana
ntre
punctele
reprezentate de perechile de date/ observed
values i punctele corespunztoare de pe
dreapt/fitted values (obinute pe verticalele
corespunztoare). Aceasta distan se numete
reziduu (residual).

Regresia liniara
n final, obinem ecuaia de regresie sub forma:
Y = a + b X ,
unde a se numete interceptor iar b coeficient
de regresie, cei doi parametri fiind obinui cu
ajutorul formulelor:
n

( x x)( y
i

i 1

( x x)
i 1

y)
2

a y bx

Exemplu
S considerm datele culese de la un lot de 24
de pacieni avnd diabet de tip I, privind
urmtoarele dou variabile:
glucoza (G) n snge pe stomacul gol
(mmol/l);
viteza medie de contracie Vcf (%/sec) a
ventriculului stng, obinut prin ecocardiografie.

Exemplu
Tabelul de mai jos prezint principalele
caracteristici numerice ale regresiei liniare aplicate
n acest caz.

Exemplu
Aa dup cum se observ, n ciuda faptului c
valoarea coeficientului de corelaie r nu pare
prea important, totui nivelul de semnificaie
p = 0,041 atest o corelaie semnificativ.
Ecuaia de regresie liniar este dat de:
Vcf = 1,10 + 0.02G ,
de unde deducem c valoarea estimat
(prognozat pe baza regresiei liniare) a
variabilei Vcf pentru pacientul No. X este de
1,27%.

Regresia liniara multipla


Spre deosebire de cazul regresiei liniare
simple, n care am ncercat sa exprimam o
variabila (dependenta) n funcie de o alta
variabila (independenta, explicativa, predictor),
acum ne punem problema situatiei n care
avem de-a face cu cel puin trei variabile, dintre
care una este dependenta iar celelalte sunt
independente, predictoare.

Regresia liniara multipla


Vom prezenta, astfel, un model de regresie
liniar multipl n care variabila dependenta este
exprimata ca o combinatie liniar de variabile
independente sau variabile predictor/ covariate.
Matematic vorbind, acest fapt se exprim a prin
ecuaia de regresie multipl:
Y = a + b1 X1 + b2 X2 ++ bk Xk,
unde Y reprezint variabila dependenta iar
variabilele X1,, Xk sunt variabilele explicative,
predictoare. Constantele b1,, bk reprezint
coeficientii de regresie, iar a este constanta de
regresie sau interceptorul.

Regresia liniara multipla


Atunci cnd tim dinainte care variabile vor fi
incluse n analiza regresiv multipl, modelul
se poate construi fr dificultate, singura
problem rmnnd identificarea concret a
ecuaiei de regresie.

Dac scopul propus este i stabilirea


importanei predictorilor, atunci va trebui s
alegem dintre toate variabilele modelului pe
cele eseniale, pentru obinerea unui model clar
i simplu.
n acest caz va trebui s facem apel la nivelul
p de semnificaie statistic a fiecrei variabile
pentru a decide ierarhia importanei lor.

Regresia liniara multipla


In cazul n care nu cunoatem dinainte care
variabile predictive trebuie introduse n model,
vom indica pe scurt cei doi algoritmi principali
utilizai standard:
(1) regresia pas cu pas anterioar (forward
stepwise regression);
(2) regresia pas cu pas posterioar
(backward stepwise regression).

Regresia liniara multipla


Algoritm pentru regresia pas cu pas anterioar.
anterioar
(a) Se identific variabila cu cel mai mare impact
asupra variabilei dependente, i.e. variabila cea mai
corelat cu variabila dependent i se introduce n
model;
(b) Se gsete variabila din cele rmase care are cea
mai mare corelaie (ignornd semnul) cu reziduurile
modelului de mai sus;
(c) Se repet pasul (b) pn cnd se ajunge la nivelul
de semnificaie p = 0.05, corespunztor variabilei
curente introdus n model.
Cnd nivelul de semnificaie p depete valoarea de
0.05 se oprete procesul de introducere a predictorilor
n model (condiia de stop).

Regresia liniara multipla


n ceea ce privete algoritmul pentru cealalt
metod (regresia pas cu pas posterioar ), vom
aborda problema din direcia opus, adic :
(a) Lum n consideraie iniial toate variabilele i le
excludem pas cu pas pe cele care au semnificaia
cea mai mic. Aici modelul iniial include toate
variabilele, considernd c, cel puin teoretic, toate
variabilele pot fi importante.
(b) Se exclude apoi variabila cu cea mai mic
influen asupra modelului, adic cu cel mai mare
nivel de semnificaie p privind corelaia. Nivelul p de
stop este tot 0.05.

Regresia logistic
Sunt multe domenii de cercetare din : medicin,
economie, fizic, meteorologie, astronomie,
biologie etc., n care variabila dependenta nu
mai este o variabil continu ci una binar,
categorial.
n acest caz, cnd variabila dependent a se
refera la dou valori (categorii), nu mai este de
folos regresia multipl, ci se utilizeaz o
abordare similar -regresia logistica.
n acest caz, n loc sa se prognozeze valoarea
variabilei dependente n raport cu valorile
variabilelor explicative, se va prognoza o
transformare a variabilei dependente.

Regresia logistic
Transformare se numete transformarea logit,
desemnat ca logit (p), unde p este proporia
de obiecte cu o anumita caracteristica (p
reprezinta probabilitatea ca un individ sa aib
infarct
miocardic,
sau
p
reprezint
probabilitatea ca un client s rmn fidel unui
anumit supermarket sau produs).
Formula dupa care se calculeaz logit (p) este:
logit (p) =

p
ln

1 p

Regresia logistic
Atunci cnd utilizm metoda regresiei
logistice, la sfritul calculelor vom obine
valoarea logit (p) = sub forma unei
combinatii liniare a variabilelor explicative.
n aceste condiii, putem calcula valoarea
efectiva a probabilitii p, utiliznd formula:
p = e / (1 + e).

Exemplu
Scopul studiului este reprezentat de stabilirea
influenei fumatului, obezitii i sforitului asupra
hipertensiunii arteriale, n sensul prognozei apariiei
acesteia pe baza variabilelor explicative mai sus
amintite, privite ca factori de risc pentru aceast
maladie. Utiliznd metoda regresiei logistice, obinem
ecuaia:
logit (p) = -2,378 0,068 x fumat + 0,695 x obezitate
+ 0,872 x sforit,
ecuaie din care putem obine probabilitatea ca un
subiect sa dezvolte hipertensiune arterial, pe baza
valorilor individuale ale celor trei variabile explicative
factori de risc pentru hipertensiune codate astfel:
0 = nefumtor, 1 = fumator; 0 = ponderal,
1 = supraponderal; 0 = nu sforaie, 1 = sforaie.

S-ar putea să vă placă și