Sunteți pe pagina 1din 4

Facultatea de Medicin General, Universitatea de Medicin i Farmacie Carol Davila

Regresia liniara multipla


Ciobanu Daiana

Rezumat Unul dintre principalele capitole ale statisticii are drept obiectiv major posibilitatea de a emite predicii.Cu ajutorul regresiei se pot face predicii ale unei variabile, n funcie de valoarea alteia. Regresia liniar, prin metoda celor mai mici ptrate, este metoda de modelare cea mai des utilizat. Este metoda denumit regresie, regresie liniar, regresie multipl sau cele mai mici ptrate atunci cnd se construiete un model.Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a evidenia relaia dintre o variabil dependent (explicat, endogen, rezultativ) i o mulime de variabile independente (explicative, factoriale, exogene, predictori). Prin utilizarea regresiei multiple se ncearc, adesea, obinerea rspunsului la una dintre ntrebrile: care este cea mai bun predicie pentru ?, cine este cel mai bun predictor pentru ? . Cuvinte cheie: regresia liniara multipl, variabil independent, variabil dependent, ecuaie de regresie. dou serii de observaii. Concret, se analizeaz dac tendina ascendent Introducere a uneia implic o tendin ascendent, descendent sau nici o O mare parte a analizelor tendin a celeilalte; statistice uzuale se ocup cu analiza n ipoteza existenei unei legturi relaiei ntre dou variabile statistice reale ntre ele, identificat n prima (atribute) ce corespund aceluiai instan, s se poat prognostica grup de obiecte/instane. valorile uneia n raport cu valorile Pentru a o identifica, se studiaz celeilalte pe baza ecuaiei de relaia dintre cele dou regresie. caracteristici/atribute msurate pe Scopul final este prognoza, n obiectele dintr-un anumit set. condiia c este posibil, cele dou Cu alte cuvinte, este vorba variabile fiind ntradevr corelate. de dou serii statistice n care n cadrul regresiei liniare multiple cuplurile de valori (xi, ne punem problema situatiei n care yi),corespunznd cuplului de avem de-a face cu cel puin trei variabile statistice(X, Y) sunt variabile, dintre care una este msurate pe acelai obiect. dependenta iar celelalte sunt Exist dou mari motive independente, predictoare. pentru care se efectueaz un Vom prezenta, astfel, un model de asemenea studiu: regresie liniar multipl n care Descrierea relaiei care ar putea variabila dependenta este exprimata exista ntre cele dou variabile, ca o combinatie liniar de variabile analiznd legtura ntre cele

Facultatea de Medicin General, Universitatea de Medicin i Farmacie Carol Davila

independente sau variabile predictor/covariate. Matematic vorbind, acest fapt se exprima prin ecuaia de regresie multipl: Y = a + b1 X1 + b2 X2 ++ bk Xk, unde Y reprezinta variabila dependenta iar variabilele X1 ,, Xk sunt variabilele explicative, predictoare. Constantele b1,, bk reprezint coeficientii de regresie, iar a este constanta de regresie sau interceptorul. Atunci cnd tim dinainte care variabile vor fi incluse n analiza regresiv multipl, modelul se poate construi fr dificultate, singura problem rmnnd identificarea concret a ecuaiei de regresie. Dac scopul propus este i stabilirea importanei predictorilor, atunci va trebui s alegem dintre toate variabilele modelului pe cele eseniale,pentru obinerea unui model clar i simplu. n acest caz va trebui s facem apel la nivelul p de semnificaie statistic a corelatiei fiecrei variabile predictoare cu variabila dependenta pentru a decide ierarhia importanei lor. In cazul n care nu cunoatem dinainte care variabile predictive trebuie introduse n model, vom indica pe scurt cei doi algoritmi principali utilizai standard: (1) regresia pas cu pas anterioar (forward stepwise regression); (2) regresia pas cu pas posterioar (backward stepwise regression). Algoritm pentru regresia pas cu pas anterioar. (a) Se identific variabila cu cel mai mare impact asupra variabilei dependente, i.e. variabila cea mai

corelat cu variabila dependent i se introduce n model (cel mai mic nivel de semnificatie p); (b) Se gsete variabila din cele rmase care are cea mai mare corelaie (ignornd semnul) cu reziduurile modelului de mai sus; (c) Se repet pasul (b) pn cnd se ajunge la nivelul de semnificaie p = 0.05, corespunztor variabilei curente introdus n model. Cnd nivelul de semnificaie p depete valoarea de 0.05 se oprete procesul de introducere a predictorilor n model (condiia de stop). n ceea ce privete algoritmul pentru cealalt metod (regresia pas cu pas posterioar), vom aborda problema din direcia opus, adic: (a) Lum n consideraie iniial toate variabilele i le excludem pas cu pas pe cele care au semnificaia cea mai mic (cel mai mare nivel de semnificatie p). Aici modelul iniial include toate variabilele,considernd c, cel puin teoretic, toate variabilele pot fi importante. (b) Se exclude apoi variabila cu cea mai mic influen asupra modelului, adic cu cel mai mare nivel de semnificaie p privind corelaia. Nivelul p de stop este tot 0.05. Dupa metoda de introducere a variabilelor predictorului in ecuatie, regresiile liniare multiple se clasific n : Regresia multipla standard. Regresia multipl secvenial (regresie ierarhic).

Facultatea de Medicin General, Universitatea de Medicin i Farmacie Carol Davila

Regresia multipl pas cu pas. Regresia multipl standard toate variabilele predictor sunt incluse n ecuaie, efectul fiecreia este evaluat dup i independent de efectul tuturor celorlalte variabile introduse anterior. fiecare variabil independent este evaluat numai prin prisma contribuiei proprii la explicarea variabilei dependente. Regresia multipl secvenial (ierarhic) Variabilele independente sunt introduse n ecuaie ntr-o anumit ordine, n funcie de opiunile analistului. Atunci cnd acesta are motive s cread c o anumit variabil are o influen mai mare, o poate
Bibliografie

introduce n ecuaie naintea altora. Regresia multipl pas cu pas utilizat n studii exploratorii, (nr. mare de predictori) trei variante: Selecia anterograd Selecia pas cu pas Selecia retrograd Concluzii la alegerea metodei de introducere a variabilelor metoda secvenial i cea pas cu pas sunt superioare metodei standard. n cazul metodei secveniale, decizia de selecionare a variabilelor introduse n ecuaie aparine cercettorului

1.Harja, Eugenia - Statistic i econometrie, Editura Alma Mater a Universitii din Bacu,2009, pag. 300-301;

2.Jaba, Elisabeta Statistica, Editia III, Editura economic, Bucureti, 2002, pag. 403-404;
3. Clocotici, V, Introducere n statistica multivariat, Editura Universitii Alexandru Ioan Cuza, 2007, 85 4. http://www.jowerner.homepage.tonline.de/download.htm 5. http://www.wessa.net/rwasp_multipleregression.wasp 6. http://www.rocketdownload.com/program/multiple-regression 7. http://www.wikipedia.ro

Facultatea de Medicin General, Universitatea de Medicin i Farmacie Carol Davila