Documente Academic
Documente Profesional
Documente Cultură
Studiu Corelatiei
Studiu Corelatiei
Corelatii parametrice
Corelatii neparametrice
Regresia liniara
Unul din principalele capitole ale statisticii are în vedere posibilitatea de a face predictii. Desi nu se gasesc relatii
perfecte în lumea reala, prin intermediul regresiei se pot face predictii ale unei variabile, în functie de valoarea
alteia. Predictia este procesul de estimare a valorii unei variabile cunoscând valoarea unei alte variabile.
În continuare, ne vom referi doar la situatia regresiei simple (o variabila dependenta si una independenta) si liniare
(relatia dintre cele doua variabile poate fi descrisa printr-o dreapta în cadrul norului de puncte).
Regresia se leaga foarte mult de conceptul de corelatie. O asociere puternica între doua elemente conduce la
cresterea preciziei predictiei unei variabile pe seama alteia. Daca am avea o corelatie perfecta (+1 sau –1) estimarea
ar fi extrem de precisa.
Pentru a întelege mai bine regresia, vom oferi un exemplu: sa presupunem ca între deficitul de atentie si tulburarile
emotionale s-a obtinut un coeficient de corelatie r = 0,80 pe un lot de 50 de subiecti. Regresia ne da posibilitatea sa
estimam ce tulburari emotionale are un subiect daca cunoastem în prealabil nivelul deficitului de atentie si tipul de
relatie dintre cele doua variabile.
Procesul de regresie presupune doi pasi. Primul se refera la determinarea ecuatiei de regresie, iar cel de-al doilea
consta în utilizarea acestei ecuatii în a predictie.
Calcularea coeficientilor de regresie a, respectiv b conduce la realizarea primului pas din procesul regresiei.
a. daca se cunoaste valoarea coeficientului de corelatie dintre cele doua variabile X si Y, media si abaterea
standard a celor doua variabile putem aplica urmatoarele formule:
În exemplul nostru, sa presupunem ca media variabilei X (deficitul de atentie) a fost 20, iar abaterea
standard 5. În acelasi timp, media variabilei Y (tulburari emotionale) a fost 16, iar batarea standard 4. Vom
calcula în continuare coeficientii ecuatiei e regresie liniara a si b.
Interpretarea acestor valori reprezinta al doilea pas din procesul de regresie, cu ajutorul caruia putem estima
valoarea lui Y pornind de la orice valoare a lui X.
Coeficientul a ne arata care este valoarea lui Y când X este zero. În schimb, coeficientul b (panta de
regresie) ne arata cu cât este influentat Y atunci când X creste cu o unitate.
În problema de fata vom calcula în continuare valorile estimate ale lui Y pentru X =0, 1 si 2.
Ce înseamna acest lucru? Daca un subiect obtine scorul 0 la deficit de atentie, estimam sa obtina rezultatul
3,2 la scala de tulburari emotionale. Daca un alt subiect obtine nota 1 la deficitul de atentie, predictia
noastra este ca va obtine rezultatul de 3,84 la testul de tulburari emotionale s.a.m.d.
b. Cea de-a doua modalitate de calcul este metoda celor mai mici patrate. Aceasta cale nu necesita
cunoasterea valorii coeficientului de corelatie, a mediei sau a abaterii standard a variabilelor implicate. De
aceea metoda este utila în cazurile în care cunoastem doar datele brute.
Nr.crt X Y X² XY
1 17 11 289 187
2 13 15 169 195
3 15 14 225 210
4 11 18 121 198
5 19 10 361 190
6 10 19 100 190
7 12 16 144 192
8 11 15 121 165
9 13 15 169 195
10 14 14 196 196
=135 =147 =1895 =1918
Obtinem astfel:
Y = 27,08 – 0,91X
Vom face în continuare predictii ale nivelului de creativitate pornind de la aceasta ecuatie în situatiile în care un
subiect ar obtine nota 11, respectiv nota 19 la proba de caligrafie.
Putem observa ca între valorile estimate si valorile efective obtinute sunt câteva diferente (17,07 estimata fata de 17
obtinuta, respectiv 9,79 estimata fata de 10 obtinuta).
Aceste diferente între valorile reale si cele estimate reprezinta erorile de estimare sau valorile reziduale. Daca am
calcula toate valorile reziduale si media lor, am obtine media zero si abaterea standard ar fi eroarea standard a
estimarii. Aceasta se interpreteaza asemanator cu abaterea standard în situatia unei distributii normale a datelor.
Sa luam cazul în care un subiect obtine nota 1 la proba de deficit atentional. Valoarea estimata a tulburarilor
emotionale este de 3,84. Cu ajutorul acestei erori standard putem aproxima ca în 68% din cazurile în care un subiect
obtine cota 1 la deficitul de atentie (adica, între –1 si +1 sy/x) vom obtine o valoare estimata de tulburari emotionale
de 3,84 2,4. Cu cât coeficientul de corelatie este mai mare, cu atât eroarea de estimare va fi mai mica.
PROBLEME
1. Pornind de la problema nr.6 din capitolul referitor la corelatii ca teste parametrice, stabiliti ecuatia de
regresie utilizând ambele metode pentru variabila independenta fobia scolara(X).
2. Utilizând aceleasi date desenati linia de regresie pentru X ca variabila independenta.
3. Faceti predictii ale reusitei scolare pentru cazurile în care fobia scolara a fost evaluata ca fiind 5, respectiv
9.
4. Pornind de la urmatoarea situatie a numarului de absolventi de bacalaureat efectuati cerintele similare cu
punctele 1-2 pentru datele de mai jos, unde variabila independenta este anul de învatamânt:
5. Tinând seama de datele prezentate la problema 4, cât de corecta si adecvata este calcularea ecuatiei de
regresie în forma sa liniara?