Sunteți pe pagina 1din 25

Cursul Nr.

14

Regresia liniara

Background
O mare parte a analizelor statistice uzuale se ocup cu analiza rela iei ntre dou variabile statistice (atribute) ce corespund aceluia i grup de obiecte/instan e. e. Pentru a o identifica, se studiaz rela ia dintre cele dou caracteristici/atribute m surate pe obiectele dintr-un anumit set. dintrset. Cu alte cuvinte, este vorba de dou serii statistice n care cuplurile de valori (xi, yi), corespunznd cuplului de variabile statistice (X, Y) sunt m surate pe acela i obiect. obiect.

Background
Exist dou mari motive pentru care se efectueaz un asemenea studiu: studiu:
Descrierea rela iei care ar putea exista ntre cele dou variabile, analiznd leg tura ntre cele variabile, dou serii de observa ii. Concret, se analizeaz ii. dac tendin a ascendent a uneia implic o tendin ascendent , descendent sau nici o tendin a celeilalte; celeilalte; n ipoteza existen ei unei leg turi reale ntre ele, identificat n prima instan , s se poat prognostica valorile uneia n raport cu valorile regresie. celeilalte pe baza ecua iei de regresie.

Background
Scopul final este prognoza, n condi ia c prognoza, este posibil , cele dou variabile fiind ntrntradev r corelate. corelate. Metoda prin care analiz m posibilele asocia ii ntre valorile a dou variabile statistice, prelevate de la acela i grup de obiecte, este cunoscut ca metoda corela iei i are ca indice coeficientul de corela ie (Pearsons r).

Background
Coeficientul de corela ie poate fi calculat pentru orice set de date, dar, pentru ca el s aib relevan statistic , trebuie ndeplinite dou condi ii majore: majore:
(a) cele dou variabile s fie definite de acela i lot corespunznd de obiecte, cuplurile de date obiecte, aceluia i obiect; obiect; (b) cel pu in una din variabile s aib o reparti ie aproximativ normal , ideal fiind ca ambele s fie normal repartizate. repartizate.

Background
Presupunnd c leg tura dintre cele dou variabile X i Y, reliefat de coeficientul de corela ie r, nu este ntmpl toare, exist trei posibile explica ii: ii: Variabila X influen eaz (cauzeaz ) variabila Y; Variabila Y influen eaz variabila X; Ambele variabile X i Y sunt influen ate de acela i fenomen din fundal. fundal.

Regresia liniara
Pasul urm tor n analiza leg turii dintre dou variabile statistice, atunci cnd acestea sunt corelate, este s se stabileasc concret natura leg turii liniare dintre ele, descriind-o printr-o descriind- printrecua ie matematic . Scopul final al acestei abord ri este prognoza valorilor uneia dintre variabile pe baza valorilor celeilalte, celeilalte, prognoz efectuat pe baza ecua iei ce descrie leg tura dintre cele dou seturi de date. date.

Regresia liniara
Modul de prezentare a leg turii liniare dintre dou variabile, atunci cnd aceasta exist , se nume te metoda regresiei liniare (linear regression). regression) Pentru aceasta se consider una dintre variabile ca variabil independent sau variabil predictor, iar predictor, dependent sau cealalt variabil ca variabil variabil r spuns (outcome). outcome) Leg tura liniar dintre cele dou variabile este descris de o ecua ie liniar , ecua ia de regresie (regression equation) c reia i corespunde geometric equation) dreapta de regresie (regression line). line)

Regresia liniara
Ca metodologie, variabila dependent se distribuie pe axa ordonatelor, n timp ce variabila independent se distribuie pe axa absciselor. absciselor. Ecua ia dreptei de regresie se stabile te pe baza metodei celor mai mici p trate (least squares method) care, intuitiv, trate method) minimizeaz distan a ntre punctele reprezentate de perechile de date/observed date/observed values i punctele corespunz toare de pe dreapt /fitted values (ob inute pe verticalele /fitted corespunz toare). Aceasta distan se nume te toare). reziduu (residual). residual)

Regresia liniara
n final, ob inem ecua ia de regresie sub forma: forma: Y = a + bvX, unde a se nume te interceptor iar b coeficient de regresie, cei doi parametri fiind ob inu i cu regresie, ajutorul formulelor: formulelor:
n

( x  x)( y
i

 y)

b!

i !1 n

a ! y bx
2

( x  x)
i i !1

Exemplu
S consider m datele culese de la un lot de 24 de pacien i avnd diabet de tip I, privind urm toarele dou variabile: variabile: glucoza (G) n snge pe stomacul gol (mmol/l); (mmol/l); viteza medie de contrac ie Vcf (%/sec) a ventriculului stng, ob inut prin ecoecocardiografie. cardiografie.

Exemplu
Tabelul de mai jos prezint principalele caracteristici numerice ale regresiei liniare aplicate n acest caz. caz.

Exemplu
A a dup cum se observ , n ciuda faptului c valoarea coeficientului de corela ie r nu pare prea important , totu i nivelul de semnifica ie p = 0,041 atest o corela ie semnificativ . Ecua ia de regresie liniar este dat de: de: Vcf = 1,10 + 0.02vG , 02v de unde deducem c valoarea estimat (prognozat pe baza regresiei liniare) a variabilei Vcf pentru pacientul No. X este de No. 1,27%. 27%

Regresia liniara multipla


Spre deosebire de cazul regresiei liniare simple, n care am ncercat sa exprimam o exprima variabila (dependenta variabila (dependenta) n func ie de o alta alta variabila (independenta explicativa variabila (independenta, explicativa, predictor), acum ne punem problema situatiei n care situat avem de-a face cu cel pu in trei variabile, dintre decare una este dependenta iar celelalte sunt dependenta independente, predictoare. independente, predictoare.

Regresia liniara multipla


Vom prezenta, astfel, un model de regresie dependenta liniar multipl n care variabila dependenta este exprimata ca o combinatie liniar de exprimata combinat variabile independente sau variabile predictor/ covariate. covariate. Matematic vorbind, acest fapt se exprima prin exprima ecua ia de regresie multipl : Y = a + b1 X1 + b2 X2 ++ bk Xk, unde Y reprezintt variabila dependenta iar reprezintt dependenta variabilele X1,, Xk sunt variabilele explicative, explicative, predictoare. Constantele b1,, bk reprezint predictoare. coeficientii de regresie, iar a este constanta de regresie, regresie sau interceptorul. interceptorul.

Regresia liniara multipla


Atunci cnd tim dinainte care variabile vor fi incluse n analiza regresiv multipl , modelul se poate construi f r dificultate, singura problem r mnnd identificarea concret a ecua iei de regresie. regresie. Dac scopul propus este i stabilirea importan ei predictorilor, atunci va trebui s predictorilor, alegem dintre toate variabilele modelului pe cele esen iale, pentru ob inerea unui model clar i simplu. simplu. n acest caz va trebui s facem apel la nivelul p de semnifica ie statistic a fiec rei variabile pentru a decide ierarhia importan ei lor. lor.

Regresia liniara multipla


In cazul n care nu cunoa tem dinainte care variabile predictive trebuie introduse n model, vom indica pe scurt cei doi algoritmi principali utiliza i standard: standard: (1) regresia pas cu pas anterioar (forward stepwise regression); regression) (2) regresia pas cu pas posterioar (backward stepwise regression). regression)

Regresia liniara multipla


Algoritm pentru regresia pas cu pas anterioar . (a) Se identific variabila cu cel mai mare impact asupra variabilei dependente, i.e. variabila cea mai i se introduce n corelat cu variabila dependent model; model; (b) Se g se te variabila din cele r mase care are cea mai mare corela ie (ignornd semnul) cu reziduurile modelului de mai sus; sus; (c) Se repet pasul (b) pn cnd se ajunge la nivelul de semnifica ie p = 0.05, corespunz tor variabilei 05, curente introdus n model. model. Cnd nivelul de semnifica ie p dep e te valoarea de 0.05 se opre te procesul de introducere a predictorilor n model (condi ia de stop). stop)

Regresia liniara multipla


n ceea ce prive te algoritmul pentru cealalt metod (regresia pas cu pas posterioar ), vom aborda problema din direc ia opus , adic :
(a) Lu m n considera ie ini ial toate variabilele i le excludem pas cu pas pe cele care au semnifica ia cea mai mic . Aici modelul ini ial include toate variabilele, considernd c , cel pu in teoretic, toate variabilele pot fi importante. importante. (b) Se exclude apoi variabila cu cea mai mic influen asupra modelului, adic cu cel mai mare nivel de semnifica ie p privind corela ia. Nivelul p de ia. stop este tot 0.05. 05.

Sunt multe domenii de cercetare din: medicin , din: economie, fizic , meteorologie, astronomie, biologie etc., n care variabila dependenta nu etc. dependenta mai este o variabil continu ci una binar , categorial . n acest caz, cnd variabila dependenta se dependenta refera refera la dou valori (categorii), nu mai este de folos regresia multipl , ci se utilizeaz o logistica abordare similar -regresia logistica. n acest caz, n loc sa se prognozeze valoarea variabilei dependente n raport cu valorile variabilelor explicative, se va prognoza o transformare a variabilei dependente. dependente.

Regresia logistic

Transformare se nume te transformarea logit, logit, desemnat ca logit (p), unde p este propor ia de obiecte cu o anumita caracteristica (p anumita caracteristica reprezinta probabilitatea reprezinta probabilitatea ca un individ sa aib infarct miocardic, sau p reprezint probabilitatea ca un client s r mn fidel unui anumit supermarket sau produs). produs). Formula dupa care se calculeaz logit (p) este: dupa
logit (p) =

Regresia logistic

p ln 1 p

Regresia logistic
Atunci cnd utiliz m metoda regresiei logistice, la sfr itul calculelor vom ob ine valoarea logit (p) = E sub forma unei combinat combinatii liniare a variabilelor explicative. explicative. n aceste condi ii, putem calcula valoarea efectiva efectiva a probabilit ii p, utiliznd formula: formula: p = eE / (1 + eE).

Scopul studiului este reprezentat de stabilirea influen ei fumatului, obezit ii i sfor itului asupra hipertensiunii arteriale, n sensul prognozei apari iei arteriale, acesteia pe baza variabilelor explicative mai sus amintite, privite ca factori de risc pentru aceast maladie. maladie. Utiliznd metoda regresiei logistice, ob inem ecua ia: ia: logit (p) = -2,378 0,068 x fumat + 0,695 x obezitate + 0,872 x sfor it, it, ecua ie din care putem ob ine probabilitatea ca un subiect sa dezvolte hipertensiune arterial , pe baza valorilor individuale ale celor trei variabile explicative factori de risc pentru hipertensiune codate astfel: astfel: 0 = nefum tor, 1 = fumator; 0 = ponderal, fumator; 1 = supraponderal; 0 = nu sforaie, 1 = sforaie. supraponderal; sfora sforaie.

Exemplu

S-ar putea să vă placă și