Sunteți pe pagina 1din 2

CORELAȚIE ȘI REGRESIE

I. Corelația

O mare parte a analizelor statistice uzuale se ocupă cu analiza relației între două variabile statistice
(atribute) ce corespund aceluiași grup de obiecte/instanțe.

Pentru a o identifica, se studiază relația dintre cele două caracteristici/atribute măsurate pe obiectele
dintr-un anumit set. Cu alte cuvinte, este vorba de două serii statistice în care cuplurile de valori (x i,
yi), corespunzând cuplului de variabile statistice (X, Y) sunt măsurate pe același obiect.

Există două motive pentru care se efectuează un asemenea studiu:


- Descrierea relației care ar putea exista între cele două variabile, analizând legătura între cele două
serii de observații. Concret, se analizează dacă tendința ascendentă a uneia implică o tendință
ascendentă, descendentă sau nici o tendință a celeilalte;

- În ipoteza existenței unei legături reale între ele, identificată în prima instanță, să se poată
prognostica valorile uneia în raport cu valorile celeilalte pe baza ecuației de regresie.

Metoda prin care se analizează posibilele asociații între valorile a două variabile statistice, prelevate
de la același grup de obiecte, este cunoscută ca metoda corelației și are ca indice coeficientul de
corelație r (Pearson). Fie două serii statistice {xi}i=1,...,n și {yi}i=1,...,n, corespunzătoare cuplului de
variabile statistice X și Y. Atunci, coeficientul de corelație r (Pearson) al celor două variabile este un
număr real cuprins între -1 și 1.

Interpretarea corelației dintre două variabile statistice: coeficientul de corelație r ia valori cuprinse
între -1 și +1, trecând și prin 0, care indică o neasociere (independență) între cele două variabile O
valoare a lui r apropiată de -1 indică o corelație negativă puternică, adică tendința unei variabile de a
scădea semnificativ când cealaltă variabilă crește, în timp ce o valoare a lui r apropiată de +1 indică o
corelație pozitivă puternică, adică tendința de creștere semnificativă a unei variabile atunci când și
cealaltă variabilă crește. De subliniat faptul că există și cazuri în care variabile dependente au
coeficientul de corelație nul.

Coeficientul de corelație poate fi calculat pentru orice set de date, dar, pentru ca el să aibă relevanță
statistică, trebuie îndeplinite două condiții majore:

(a) cele două variabile să fie definite de același lot de obiecte, cuplurile de date corespunzând
aceluiași obiect;
(b) cel puțin una din variabile să aibă o repartiție aproximativ normală, ideal fiind ca ambele să fie
normal repartizate.

Presupunând că legătura dintre cele două variabile X și Y, reliefată de coeficientul de corelație r, nu


este întâmplătoare, există trei posibile explicații:

- Variabila X influențează (cauzează) variabila Y;


- Variabila Y influențează variabila X;
- Ambele variabile X și Y sunt influențate de același fenomen din fundal.

II. Regresia liniară

Pasul următor în analiza legăturii dintre două variabile statistice, atunci când acestea sunt corelate,
este să se stabilească concret natura legăturii liniare dintre ele, aceasta fiind descrisă cu ajutorul unei
ecuații matematice.
Finalitatea acestei abordări este prognoza valorilor uneia dintre variabile pe baza valorilor celeilalte,
prognoză efectuată pe baza ecuației ce descrie legătura dintre cele două seturi de date.

Modul de prezentare a legăturii liniare dintre două variabile, atunci când aceasta există, se numește
metoda regresiei liniare (linear regression). Pentru aceasta se consideră una dintre variabile ca
variabilă independentă sau variabilă predictor, iar cealaltă variabilă ca variabilă dependentă sau
variabilă răspuns(outcome). Legătura liniară dintre cele două variabile este descrisă de o ecuație
liniară, ecuația de regresie căreia îi corespunde geometric dreapta de regresie.

Ca metodologie, variabila dependentă se distribuie pe axa ordonatelor, în timp ce variabila


independentă se distribuie pe axa absciselor. Ecuația dreptei de regresie se stabilește pe baza
metodei celor mai mici pătrate care, intuitiv, minimizează distanța între punctele reprezentate de
perechile de date (observed values) și punctele corespunzătoare de pe dreaptă (fitted values)
(obținute pe verticalele corespunzătoare). Această distanță se numește reziduu (residual).

În final se obține ecuația de regresie sub forma:

Y = a + b∙X,

Unde a se numește interceptor iar b coeficient de regresie.

Coeficientul de determinare simplă: r2

Atunci când se testează un anumit model de regresie, ne întrebăm cât de bun este acel model, în ce
măsură reflectă el realitatea. Calcularea coeficienților a și b este importantă pentru predicție, dar
trebuie să cuantificăm cât de mult influențează variabila independentă pe cea dependentă. Un model
este valid dacă ia în considerare toate variabilele independente care influențează în realitate o
variabilă dependentă. În regresia simplă se analizează relația cu o singură variabilă independentă, cât
de mult din variația dependentei este explicată de variația independentei.

O măsură a variației este varianța, care calculează suma pătratelor abaterilor individuale de la medie.
În absența oricărei informații despre posibile variabile independente care cauzează variația
dependentei, singurul punct fix, de reper al dependentei, este chiar media acesteia. Toate valorile
observate au o abatere față de medie.

Practic, coeficientul de determinare reprezintă proporția de variație a dependentei explicată de


modelul de regresie. Acesta este întotdeauna mai mare sau egal cu zero (toate valorile sunt pozitive
prin ridicarea la pătrat), și întotdeauna mai mic sau cel mult egal cu 1 atunci când variația explicată
este egală cu variația totală (modelul explică perfect, în proporție de 100%, variația dependentei).

Cu cât valoarea lui r2 este mai aproape de 1, cu atât modelul teoretic va fi mai bun; cu cât este mai
aproape de zero, înseamnă că modelul nu reușește să surprindă ceea ce se întâmplă în realitate.

S-ar putea să vă placă și