Documente Academic
Documente Profesional
Documente Cultură
14
Regresia liniara
Background
O mare parte a analizelor statistice uzuale se
ocup cu analiza relaiei ntre dou variabile
statistice (atribute) ce corespund aceluiai grup
de obiecte/instane.
Pentru a o identifica, se studiaz relaia dintre
cele dou caracteristici/atribute msurate pe
obiectele dintr-un anumit set.
Cu alte cuvinte, este vorba de dou serii
statistice n care cuplurile de valori ( xi, yi),
corespunznd cuplului de variabile statistice
(X, Y) sunt msurate pe acelai obiect.
Background
Exist dou mari motive pentru care se
efectueaz un asemenea studiu:
Descrierea relaiei care ar putea exista ntre cele
dou variabile, analiznd legtura ntre cele dou
serii de observaii. Concret, se analizeaz dac
tendina ascendent a uneia implic o tendin
ascendent, descendent sau nici o tendin a
celeilalte;
n ipoteza existenei unei legturi reale ntre ele,
identificat n prima instan, s se poat
prognostica valorile uneia n raport cu valorile
celeilalte pe baza ecuaiei de regresie.
Background
Scopul final este prognoza, n condiia c
este posibil, cele dou variabile fiind ntradevr corelate.
Metoda prin care analizm posibilele
asociaii ntre valorile a dou variabile
statistice, prelevate de la acelai grup de
obiecte, este cunoscut ca metoda
corelaiei i are ca indice coeficientul de
corelaie (Pearsons r).
Background
Coeficientul de corelaie poate fi calculat pentru
orice set de date, dar, pentru ca el s aib
relevan statistic, trebuie ndeplinite dou
condiii majore:
(a) cele dou variabile s fie definite de acelai lot
de obiecte, cuplurile de date
corespunznd
aceluiai obiect;
(b) cel puin una din variabile s aib o repartiie
aproximativ normal, ideal fiind ca ambele s fie
normal repartizate.
Background
Presupunnd c legtura dintre cele dou
variabile X i Y, reliefat de coeficientul de
corelaie r, nu este ntmpltoare, exist trei
posibile explicaii:
Variabila X influeneaz (cauzeaz) variabila
Y;
Variabila Y influeneaz variabila X;
Ambele variabile X i Y sunt influenate de
acelai fenomen din fundal.
Regresia liniara
Pasul urmtor n analiza legturii dintre dou
variabile statistice, atunci cnd acestea sunt
corelate, este s se stabileasc concret natura
legturii liniare dintre ele, descriind-o printr-o
ecuaie matematic.
Scopul final al acestei abordri este prognoza
valorilor uneia dintre variabile pe baza valorilor
celeilalte, prognoz efectuat pe baza ecuaiei
ce descrie legtura dintre cele dou seturi de
date.
Regresia liniara
Modul de prezentare a legturii liniare dintre dou
variabile, atunci cnd aceasta exist, se numete
metoda regresiei liniare (linear regression).
Pentru aceasta se consider una dintre variabile ca
variabil independent sau variabil predictor, iar
cealalt variabil ca variabil dependent sau
variabil rspuns (outcome).
Legtura liniar dintre cele dou variabile este
descris de o ecuaie liniar, ecuaia de regresie
(regression equation) creia i corespunde geometric
dreapta de regresie (regression line).
Regresia liniara
Ca metodologie, variabila dependent se
distribuie pe axa ordonatelor, n timp ce
variabila independent se distribuie pe axa
absciselor. Ecuaia dreptei de regresie se
stabilete pe baza metodei celor mai mici
ptrate (least squares method) care, intuitiv,
minimizeaz
distana
ntre
punctele
reprezentate de perechile de date/ observed
values i punctele corespunztoare de pe
dreapt/fitted values (obinute pe verticalele
corespunztoare). Aceasta distan se numete
reziduu (residual).
Regresia liniara
n final, obinem ecuaia de regresie sub forma:
Y = a + b X ,
unde a se numete interceptor iar b coeficient
de regresie, cei doi parametri fiind obinui cu
ajutorul formulelor:
n
( x x)( y
i
i 1
( x x)
i 1
y)
2
a y bx
Exemplu
S considerm datele culese de la un lot de 24
de pacieni avnd diabet de tip I, privind
urmtoarele dou variabile:
glucoza (G) n snge pe stomacul gol
(mmol/l);
viteza medie de contracie Vcf (%/sec) a
ventriculului stng, obinut prin ecocardiografie.
Exemplu
Tabelul de mai jos prezint principalele
caracteristici numerice ale regresiei liniare aplicate
n acest caz.
Exemplu
Aa dup cum se observ, n ciuda faptului c
valoarea coeficientului de corelaie r nu pare
prea important, totui nivelul de semnificaie
p = 0,041 atest o corelaie semnificativ.
Ecuaia de regresie liniar este dat de:
Vcf = 1,10 + 0.02G ,
de unde deducem c valoarea estimat
(prognozat pe baza regresiei liniare) a
variabilei Vcf pentru pacientul No. X este de
1,27%.
Regresia logistic
Sunt multe domenii de cercetare din : medicin,
economie, fizic, meteorologie, astronomie,
biologie etc., n care variabila dependenta nu
mai este o variabil continu ci una binar,
categorial.
n acest caz, cnd variabila dependent a se
refera la dou valori (categorii), nu mai este de
folos regresia multipl, ci se utilizeaz o
abordare similar -regresia logistica.
n acest caz, n loc sa se prognozeze valoarea
variabilei dependente n raport cu valorile
variabilelor explicative, se va prognoza o
transformare a variabilei dependente.
Regresia logistic
Transformare se numete transformarea logit,
desemnat ca logit (p), unde p este proporia
de obiecte cu o anumita caracteristica (p
reprezinta probabilitatea ca un individ sa aib
infarct
miocardic,
sau
p
reprezint
probabilitatea ca un client s rmn fidel unui
anumit supermarket sau produs).
Formula dupa care se calculeaz logit (p) este:
logit (p) =
p
ln
1 p
Regresia logistic
Atunci cnd utilizm metoda regresiei
logistice, la sfritul calculelor vom obine
valoarea logit (p) = sub forma unei
combinatii liniare a variabilelor explicative.
n aceste condiii, putem calcula valoarea
efectiva a probabilitii p, utiliznd formula:
p = e / (1 + e).
Exemplu
Scopul studiului este reprezentat de stabilirea
influenei fumatului, obezitii i sforitului asupra
hipertensiunii arteriale, n sensul prognozei apariiei
acesteia pe baza variabilelor explicative mai sus
amintite, privite ca factori de risc pentru aceast
maladie. Utiliznd metoda regresiei logistice, obinem
ecuaia:
logit (p) = -2,378 0,068 x fumat + 0,695 x obezitate
+ 0,872 x sforit,
ecuaie din care putem obine probabilitatea ca un
subiect sa dezvolte hipertensiune arterial, pe baza
valorilor individuale ale celor trei variabile explicative
factori de risc pentru hipertensiune codate astfel:
0 = nefumtor, 1 = fumator; 0 = ponderal,
1 = supraponderal; 0 = nu sforaie, 1 = sforaie.