Sunteți pe pagina 1din 4

STUDIUL CORELATIONAL: Regresia liniara

Corelatii parametrice
Corelatii neparametrice

Regresia liniara

Unul din principalele capitole ale statisticii are în vedere posibilitatea de a face predictii. Desi nu se gasesc relatii
perfecte în lumea reala, prin intermediul regresiei se pot face predictii ale unei variabile, în functie de valoarea
alteia. Predictia este procesul de estimare a valorii unei variabile cunoscând valoarea unei alte variabile.

În continuare, ne vom referi doar la situatia regresiei simple (o variabila dependenta si una independenta) si liniare
(relatia dintre cele doua variabile poate fi descrisa printr-o dreapta în cadrul norului de puncte).

Regresia se leaga foarte mult de conceptul de corelatie. O asociere puternica între doua elemente conduce la
cresterea preciziei predictiei unei variabile pe seama alteia. Daca am avea o corelatie perfecta (+1 sau –1) estimarea
ar fi extrem de precisa.

Pentru a întelege mai bine regresia, vom oferi un exemplu: sa presupunem ca între deficitul de atentie si tulburarile
emotionale s-a obtinut un coeficient de corelatie r = 0,80 pe un lot de 50 de subiecti. Regresia ne da posibilitatea sa
estimam ce tulburari emotionale are un subiect daca cunoastem în prealabil nivelul deficitului de atentie si tipul de
relatie dintre cele doua variabile.

Procesul de regresie presupune doi pasi. Primul se refera la determinarea ecuatiei de regresie, iar cel de-al doilea
consta în utilizarea acestei ecuatii în a predictie.

Forma generala prin care se exprima o ecuatie de regresie este:

Unde: Y prim este rezultatul estimat;


          a este interceptul (locul pe ordonata unde dreapta de regresie se intersecteaza cu OY, valoarea lui Y pentru
X=0);
          b este panta de regresie (ne arata cu cât se modifica Y atunci când X creste (scade) cu o unitate;
         X este variabila criteriu (cunoscuta).

Calcularea coeficientilor de regresie a, respectiv b conduce la realizarea primului pas din procesul regresiei.

Exista doua posibilitati de calculare a lor:

a. daca se cunoaste valoarea coeficientului de corelatie dintre cele doua variabile X si Y, media si abaterea
standard a celor doua variabile putem aplica urmatoarele formule:

Unde: r este valoarea coeficientului de corelatie dintre X si Y;


         Sy este abaterea standard a variabilei Y; 
         Sx este abaterea standard a variabilei X.
Unde: My este media variabilei Y;
          Mx este media variabilei X.

În exemplul nostru, sa presupunem ca media variabilei X (deficitul de atentie) a fost 20, iar abaterea
standard 5. În acelasi timp, media variabilei Y (tulburari emotionale) a fost 16, iar batarea standard 4. Vom
calcula în continuare coeficientii ecuatiei e regresie liniara a si b.

Ecuatia de regresie pentru aceasta problema este:

Interpretarea acestor valori reprezinta al doilea pas din procesul de regresie, cu ajutorul caruia putem estima
valoarea lui Y pornind de la orice valoare a lui X.

Coeficientul a ne arata care este valoarea lui Y când X este zero. În schimb, coeficientul b (panta de
regresie) ne arata cu cât este influentat Y atunci când X creste cu o unitate.

În problema de fata vom calcula în continuare valorile estimate ale lui Y pentru X =0, 1 si 2.

Ce înseamna acest lucru? Daca un subiect obtine scorul 0 la deficit de atentie, estimam sa obtina rezultatul
3,2 la scala de tulburari emotionale. Daca un alt subiect obtine nota 1 la deficitul de atentie, predictia
noastra este ca va obtine rezultatul de 3,84 la testul de tulburari emotionale s.a.m.d.

b. Cea de-a doua modalitate de calcul este metoda celor mai mici patrate. Aceasta cale nu necesita
cunoasterea valorii coeficientului de corelatie, a mediei sau a abaterii standard a variabilelor implicate. De
aceea metoda este utila în cazurile în care cunoastem doar datele brute.

Pentru calculul lui a si b avem urmatorul sistem de ecuatii:

Unde: n este numarul de cazuri ale unei variabile.


Sa presupunem urmatorul exemplu: Zece subiecti sunt testati în ce privete nivelul de creativitate (Y) si stilul
caligrafic (X) al grafiei lor. Au fost obtinute urmatoarele rezultate:

Nr.crt X Y X² XY
1 17 11 289 187
2 13 15 169 195
3 15 14 225 210
4 11 18 121 198
5 19 10 361 190
6 10 19 100 190
7 12 16 144 192
8 11 15 121 165
9 13 15 169 195
10 14 14 196 196

         =135  =147  =1895  =1918

Obtinem astfel:

10a + 135b = 147

135a +1895b = 1918

În urma calculului va rezulta:

a = 27,08. Iar b = -0,91

Ecuatia de regresie obtinuta este:

Y = 27,08 – 0,91X

Vom face în continuare predictii ale nivelului de creativitate pornind de la aceasta ecuatie în situatiile în care un
subiect ar obtine nota 11, respectiv nota 19 la proba de caligrafie.

Y1 = 27,08 – 0,91*11 = 17,07

Y2 = 27,08 – 0,91*19 = 9,79

Putem observa ca între valorile estimate si valorile efective obtinute sunt câteva diferente (17,07 estimata fata de 17
obtinuta, respectiv 9,79 estimata fata de 10 obtinuta).

Aceste diferente între valorile reale si cele estimate reprezinta erorile de estimare sau valorile reziduale. Daca am
calcula toate valorile reziduale si media lor, am obtine media zero si abaterea standard ar fi eroarea standard a
estimarii. Aceasta se interpreteaza asemanator cu abaterea standard în situatia unei distributii normale a datelor.

Formula de calcul prescurtata a acestei erori standard este:

Unde sy este abaterea standard a variabilei y


          r este valoarea coeficientului de corelatie

În cazul primului exemplu vom obtine:

Sa luam cazul în care un subiect obtine nota 1 la proba de deficit atentional. Valoarea estimata a tulburarilor
emotionale este de 3,84. Cu ajutorul acestei erori standard putem aproxima ca în 68% din cazurile în care un subiect
obtine cota 1 la deficitul de atentie (adica, între –1 si +1 sy/x) vom obtine o valoare estimata de tulburari emotionale
de 3,84  2,4. Cu cât coeficientul de corelatie este mai mare, cu atât eroarea de estimare va fi mai mica.

PROBLEME

1. Pornind de la problema nr.6 din capitolul referitor la corelatii ca teste parametrice, stabiliti ecuatia de
regresie utilizând ambele metode pentru variabila independenta fobia scolara(X).
2. Utilizând aceleasi date desenati linia de regresie pentru X ca variabila independenta.
3. Faceti predictii ale reusitei scolare pentru cazurile în care fobia scolara a fost evaluata ca fiind 5, respectiv
9.
4. Pornind de la urmatoarea situatie a numarului de absolventi de bacalaureat efectuati cerintele similare cu
punctele 1-2 pentru datele de mai jos, unde variabila independenta este anul de învatamânt:

Anul 1995 1996 1997 1998 1999 2000


Nr. Absolv 25000 27000 29000 28000 27000 27000

5. Tinând seama de datele prezentate la problema 4, cât de corecta si adecvata este calcularea ecuatiei de
regresie în forma sa liniara?

I. TEHNICI STATISTICE: Statistica descriptiva, Studiul corelational, Metode de comparatie, Tabele, Formule si


raspunsuri la intrebari, Bibliografie recomandata
II. APLICATII STATISTICE: Baze de date - Exemple
III. TESTE

S-ar putea să vă placă și