Sunteți pe pagina 1din 4

Regresia liniara

Unul din principalele capitole ale statisticii are n vedere posibilitatea de a face predictii. Desi nu se gasesc relatii perfecte n lumea reala, prin intermediul regresiei se pot face predictii ale unei variabile, n functie de valoarea alteia. Predictia este procesul de estimare a valorii unei variabile cunoscnd valoarea unei alte variabile. n continuare, ne vom referi doar la situatia regresiei simple (o variabila dependenta si una independenta) si liniare (relatia dintre cele doua variabile poate fi descrisa printr-o dreapta n cadrul norului de puncte). Regresia se leaga foarte mult de conceptul de corelatie. O asociere puternica ntre doua elemente conduce la cresterea preciziei predictiei unei variabile pe seama alteia. Daca am avea o corelatie perfecta (+1 sau 1) estimarea ar fi extrem de precisa. Pentru a ntelege mai bine regresia, vom oferi un exemplu: sa presupunem ca ntre deficitul de atentie si tulburarile emotionale s-a obtinut un coeficient de corelatie r = 0,80 pe un lot de 50 de subiecti. Regresia ne da posibilitatea sa estimam ce tulburari emotionale are un subiect daca cunoastem n prealabil nivelul deficitului de atentie si tipul de relatie dintre cele doua variabile. Procesul de regresie presupune doi pasi. Primul se refera la determinarea ecuatiei de regresie, iar cel de-al doilea consta n utilizarea acestei ecuatii n a predictie. Forma generala prin care se exprima o ecuatie de regresie este:

Unde: Y prim este rezultatul estimat; a este interceptul (locul pe ordonata unde dreapta de regresie se intersecteaza cu OY, valoarea lui Y pentru X=0); b este panta de regresie (ne arata cu ct se modifica Y atunci cnd X creste (scade) cu o unitate; X este variabila criteriu (cunoscuta). Calcularea coeficientilor de regresie a, respectiv b conduce la realizarea primului pas din procesul regresiei. Exista doua posibilitati de calculare a lor: a. daca se cunoaste valoarea coeficientului de corelatie dintre cele doua variabile X si Y, media si abaterea standard a celor doua variabile putem aplica urmatoarele formule:

Unde: r este valoarea coeficientului de corelatie dintre X si Y;

Sy este abaterea standard a variabilei Y; Sx este abaterea standard a variabilei X.

Unde: My este media variabilei Y; Mx este media variabilei X. n exemplul nostru, sa presupunem ca media variabilei X (deficitul de atentie) a fost 20, iar abaterea standard 5. n acelasi timp, media variabilei Y (tulburari emotionale) a fost 16, iar batarea standard 4. Vom calcula n continuare coeficientii ecuatiei e regresie liniara a si b.

Ecuatia de regresie pentru aceasta problema este:

Interpretarea acestor valori reprezinta al doilea pas din procesul de regresie, cu ajutorul caruia putem estima valoarea lui Y pornind de la orice valoare a lui X. Coeficientul a ne arata care este valoarea lui Y cnd X este zero. n schimb, coeficientul b (panta de regresie) ne arata cu ct este influentat Y atunci cnd X creste cu o unitate. n problema de fata vom calcula n continuare valorile estimate ale lui Y pentru X =0, 1 si 2.

Ce nseamna acest lucru? Daca un subiect obtine scorul 0 la deficit de atentie, estimam sa obtina rezultatul 3,2 la scala de tulburari emotionale. Daca un alt subiect obtine nota 1 la deficitul de atentie, predictia noastra este ca va obtine rezultatul de 3,84 la testul de tulburari emotionale s.a.m.d. b. Cea de-a doua modalitate de calcul este metoda celor mai mici patrate. Aceasta cale nu necesita cunoasterea valorii coeficientului de corelatie, a mediei sau a abaterii standard a variabilelor implicate. De aceea metoda este utila n cazurile n care cunoastem doar datele brute. Pentru calculul lui a si b avem urmatorul sistem de ecuatii:

Unde: n este numarul de cazuri ale unei variabile. Sa presupunem urmatorul exemplu: Zece subiecti sunt testati n ce privete nivelul de creativitate (Y) si stilul caligrafic (X) al grafiei lor. Au fost obtinute urmatoarele rezultate: Nr.crt X 1 17 2 13 3 15 4 11 5 19 6 10 7 12 8 11 9 13 10 14 Y 11 15 14 18 10 19 16 15 15 14 X 289 169 225 121 361 100 144 121 169 196 XY 187 195 210 198 190 190 192 165 195 196

=135 =147 =1895 =1918 Obtinem astfel: 10a + 135b = 147 135a +1895b = 1918 n urma calculului va rezulta: a = 27,08. Iar b = -0,91 Ecuatia de regresie obtinuta este: Y = 27,08 0,91X Vom face n continuare predictii ale nivelului de creativitate pornind de la aceasta ecuatie n situatiile n care un subiect ar obtine nota 11, respectiv nota 19 la proba de caligrafie. Y1 = 27,08 0,91*11 = 17,07 Y2 = 27,08 0,91*19 = 9,79 Putem observa ca ntre valorile estimate si valorile efective obtinute sunt cteva diferente (17,07 estimata fata de 17 obtinuta, respectiv 9,79 estimata fata de 10 obtinuta).

Aceste diferente ntre valorile reale si cele estimate reprezinta erorile de estimare sau valorile reziduale. Daca am calcula toate valorile reziduale si media lor, am obtine media zero si abaterea standard ar fi eroarea standard a estimarii. Aceasta se interpreteaza asemanator cu abaterea standard n situatia unei distributii normale a datelor. Formula de calcul prescurtata a acestei erori standard este:

Unde sy este abaterea standard a variabilei y r este valoarea coeficientului de corelatie n cazul primului exemplu vom obtine:

Sa luam cazul n care un subiect obtine nota 1 la proba de deficit atentional. Valoarea estimata a tulburarilor emotionale este de 3,84. Cu ajutorul acestei erori standard putem aproxima ca n 68% din cazurile n care un subiect obtine cota 1 la deficitul de atentie (adica, ntre 1 si +1 sy/x) vom obtine o valoare estimata de tulburari emotionale de 3,84 2,4. Cu ct coeficientul de corelatie este mai mare, cu att eroarea de estimare va fi mai mica. PROBLEME 1. Pornind de la problema nr.6 din capitolul referitor la corelatii ca teste parametrice, stabiliti ecuatia de regresie utiliznd ambele metode pentru variabila independenta fobia scolara(X). 2. Utiliznd aceleasi date desenati linia de regresie pentru X ca variabila independenta. 3. Faceti predictii ale reusitei scolare pentru cazurile n care fobia scolara a fost evaluata ca fiind 5, respectiv 9. 4. Pornind de la urmatoarea situatie a numarului de absolventi de bacalaureat efectuati cerintele similare cu punctele 1-2 pentru datele de mai jos, unde variabila independenta este anul de nvatamnt: Anul 1995 1996 1997 1998 1999 2000 Nr. Absolv 25000 27000 29000 28000 27000 27000 5. Tinnd seama de datele prezentate la problema 4, ct de corecta si adecvata este calcularea ecuatiei de regresie n forma sa liniara? I. TEHNICI STATISTICE: Statistica descriptiva, Studiul corelational, Metode de comparatie, Tabele, Formule si raspunsuri la intrebari, Bibliografie recomandata II. APLICATII STATISTICE: Baze de date - Exemple III. TESTE IV. LINK-URI RECOMANDATE

S-ar putea să vă placă și