Sunteți pe pagina 1din 5

Cap 10.

Regresia linear

Regresie = retragere, rentoarcere


Dac dou variabile sunt perfect corelate, poi gsi o formul ntre ele astfel nct tiind una
dintre ele i folosind formula, s o gseti pe cealalt.
n realitate nu prea exist corelaii perfecte, dar dac gsim o corelaie, putem face i o
predicie pe baza acelei corelaii.
Pe Ox, pui variabila pe care i bazezi predicia, iar pe Oy variabila care va fi prezis.
Predicia simpl:
-

Cnd corelaia este perfect pozitiv: zx = zy


Cnd corelaia este perfect negativ: zx = -zy

Cu ct e corelaia mai mic, cu att e mai mare spaiul de greeal. (posibilitatea de a avea
erori n aceast relaie de regresie)
Formul prin care s reduci din erorile de predicie:

Influena dintre cele dou variabile, n aciunea de prezicere, scade cnd corelaia dintre cele
dou scade.
Regresia fa de medie nu e dect o consecin a legilor probabilitiilor cnd corelaia nu e
perfect.
Unghiul liniei de regresie se numete panta (slope) liniei de regresie. (se calculeaz ca
schimbarea/diferena/spaiul dintre y si origine, mprit la spaiul dintre x i origine. Ca la
matematic, b/a n y=ax+b)
Panta reprezint nclinaia liniei de regresie.
Panta liniei de regresie (cnd scorurile sunt transformate n scoruri z), ntotdeauna e egal cu
coeficientul de corelaie.
Cnd corelaia e perfect, toate punctele cad pe o linie, formeaz o linie.
Ce formul folosim pentru predicie atunci cnd nu avem scoruri z, ci scoruri brute?
Folosim formula pentru z, numai c nlocuim pe z cu formula sa:

O alt modalitate de a scrie aceast formul sub o form prescurtat (precum e ecuaia de

gradul I)

bxy= r cnd regresia e calculat n scoruri z.


Y intercept = valoarea lui Y cnd X e 0. (adic atunci cnd linia nu trece prin origine; e
reprezentat de axy n formula 10.5)
Interceptul reprezint distana dintre origine i punctul n care linia de regresie atinge axa Oy.
O modalitatea de a cuantifica erorile din jurul liniei de regresie e prin: reziduu (rezidual):
Y-Y ceea ce rmne dup ce am scos predicia. (eroarea de predicie)
Dac msurm regresia dintre nlime i greutate, reziduu va fi diferena dintre greutatea
normal pentru o nlime i greutatea real a individului. (Am 1,80 i 68 de kg, pe gnd
greutatea normal pt aceast nlime e s zicem 72, 72-68 = 4, care e reziduul, greutatea
rezidual).
Aceast linie de regresie funcioneaz ca o medie! Adic, cantitatea de erori deasupra ei va fi
egal cu cantitatea ei de dedesupt, iar dac le nsumm vom obine 0.
Pentru a cuantifica totalitatea erorilor de predicie, totalitatea reziduurilor, folosim formula:

Aceast formul reprezint variana estimrii, numit i variana rezidual, adic variana
punctelor din jurul liniei de regresie.
Cu ct erorile sunt mai mari, cu att aceast varian rezidual va avea valori mai ridicate. Cu
ct erorile sunt mai mici, cu att variana rezidual va avea valori mai mici. Cu ct corelaia e

mai mare, cu att erorile sunt mai mici. (deoarece punctele vor fi mai apropriate de linia de
regresie)
Cnd corelaia e 0, linia de regresie devine orizontal. Deci panta va fi i ea 0.
Atunci cnd corelaia este zero, r=0, Y poate fi nlocuit cu media. Aici linia de regresie nu
ne mai ajut cu nimic, deoarece e doar variana valorilor lui Y.
Uneori eroarea de predicie (Y-Y), nu reprezint altceva dect partea neexplicat din acea
predicie. Iar Y-Y (barat, adic media), reprezint partea explicat din predicie.
Dac cineva e foarte nalt i cntrete mult n acelai timp, acest lucru e partea explicat, dar
dac acesta cntrete mult prea mult (peste greutatea indicat de regul), atunci aceasta este
partea neexplicat.
Dac ridicm la ptrat i adunm toate aceste diferene, att pentru partea neexplicat, ct i
pentru partea explicat (separat), i le mprim pe fiecare la N, atunci vom obine variana
neexplicat, respectiv variana explicat. Adunate cele dou variane, vor forma variana
total.
Un lucru important de tiut e acela c atunci cnd corelaia nu e 0, variana neexplicat e mai
mic dect variana total. (Dac exist vreo legtur, nseamn c nu pot fi doar pri
neexplicate, doar erori, pentru c avem acea legtur, acea form de explicaie).
Dac vrei s tii ct de bine poi face predicii bazndu-te pe linia de regresie pe care o ai, te
poi folosi de coeficientul de determinare, care nu e altceva dect raportul dintre variana
explicat supra variana total. Acest coeficient de determinare se poate obine foarte uor
deoarece ntotdeauna este egal cu r2.
Dac vrei s afli proporia din varian care nu se ia n considerare, te foloseti de coeficientul
de nedeterminare, care e raportul dintre variana neexplicat i variana total. i acesta se
poate determina foarte uor deoarece este egal cu 1-r2. De multe ori acesta se simbolizeaz cu
k2.

n cele mai multe cazuri vrem ca r2 s fie ct mai mare posibil i k2 ct mai mic posibil, pentru
a gsi o legtur care s ne ajute s aflm ceva.
Din aceast formul k2=1-r2 => faptul c aceste coeficiente, cel de determinare i cel de
nedeterminare, adunate, dau ntotdeauna 1. (k2+r2=1)
O alt modalitate de a calcula variana estimat e dat de urmtoare formul, care pentru a
putea fi aplicat necesit calcularea varianei pentru Y n prealabil:

Cnd notm cu a i b, interceptul respectiv panta, e bine s avem notaia YX pentru a tii c Y
este prezis cu ajutorul lui X. Pe cnd la indicele de corelaie r, nu e nevoie, deoarece ori X e
corelat cu Y ori invers, nu conteaz. (formula 10.5)

Marja de eroare crete atunci cnd corelaia scade.


Homoscedascitate nseamn c variana din jurul liniei de regresie este aceeai pentru fiecare
parte din linie.
? Formula varianei estimate pentru un eantion:

(? N-2, 2 grade de libertate, probabil din cauz c sunt 2 variabile care formeaz relaia de
regresie)
Eroarea standard a estimrii e rdcina ptratic a varianei estimate. (se obine extrgnd
radical din formula pentru variana standard a estimrii).

Ca i cu corelaia linear, i cu regresia linear procedura e aceeai, de a servi unor scopuri


descriptive, de a descrie relaie dintre dou variabile.
Aproximriile intervalului de ncredere sunt valabile doar dac sunt ndeplinite nite condiii:
-

Selectarea aleatoare i independent fiecare subiect e are ans egal cu oricare


altul de a fi selectat i e independent de selecia altora.
Variabilele trebuie s se aranjeze sub form liniar, nu curbilinie.
Distribuie normal pentru orice variabil a lui X, variabila Y trebuie s urmeze o
distribuie normal n populaie.
Homoscedascitii pentru orice valoarea a lui X, variabila Y trebuie s aib
aceeai varian n populaie.

Cum afli pe X n funcie de Y? O modalitate e de a inversa valorile, valoarea lui X cu a lui


Y. :D
Formula de aflare a pantei folosind scoruri brute:

Cnd s foloseti regresia linear?

Cnd ai nevoie s faci nite predicii (preziceri pe baza informaiilor


preexistente)
Control statistic se folosete pentru a ajusta, dpdv statistic, erorile induse de
variabile confundate.
Regresia cu variabile manipulate n cadrul experimentelor, cnd manipulam
variabila X. (Dac panta e diferit de 0, nseamn c exist o regresie ntre cele
dou variabile)

Diferena dintre regresie i corelaie, e c n regresie se poate gsi o relaie cauzal.

S-ar putea să vă placă și