Sunteți pe pagina 1din 15

CURS 5

Corelaţie si regresie
- Regresia -
In practica este deseori intalnita situaţia masurarii unei variabile
dependente Y de mai multe valori stabilite ale unei alte variabile X.
Rezultatele pot fi prezentate sub forma de tabele, grafice sau ecuatii.
Graficele pot fi utilizate pentru reprezentarea datelor in etape
intermediare şi finale a procesului de prelucrare a rezultatelor
cercetărilor experimentale. Motivatia utilizarii graficelor este data de:
- reprezentarea grafica permite observarea cu usurinta a prezentei
minimelor, maximelor, punctelor de inflexiune, caracteristicile periodice
sau de alta natura;
- diagrama care se obtine ofera vizualizarea simpla a dependentei
functionale studiate, avand posibilitatea sa concentreze intr-un spatiu
minim o mare cantitate de informatii;
- prin trasarea curbei de dependenta se simplifica operatiile ulterioare de
stabilire a unor valori care nu au fost masurate, in interiorul intervalului
studiat (interpolare), sau in afara lui (extrapolare);
- forma graficului obtinut sugereaza forma dependentei functionale a
variabilei y fata de x (putandu-se deriva sau integra o variabila in raport
cu alta, direct din grafic, fara a se stabili forma matematica);
Ecuatiile (formulele) redau relatiile care exista intre variabilele indicate
in grafice sau tabele, acest mod de reprezentare fiind mai convenabil şi
1
avand un grad de generalizare mult mai mare decât celelalte
reprezentari, putand fii utilizat cu usurinta in operatii de derivare,
integrare sau interpolare. Acestea pot fi:
- ecuatii rationale, adică deduse in mod teoretic, pe baza unor legi şi
teorii cunoscute, valorile constantelor ce le contin fiind determinate in
urma prelucrarii datelor observate;
- ecuatii empirice, acestea stabilindu-se pe baza experimentala,
efectuandu-se o serie de masurari asupra variabilei dependente (functiei)
y pentru diverse valori ale variabilei independente x. In acest caz,
gasirea reprezentarii analitice a dependentei functionale, implica doua
etape şi anume: stabilirea formei dependentei analitice (ecuatiei,
formulei) şi apoi determinarea valorilor adecvate ale constantelor
arbitrare.
In unele cazuri, este suficient sa se traseze o curba de aproximare
vizuala, aceasta fiind procedeul cel mai simplu şi mai expeditiv, care se
poate considera satisfacator in masura in care punctele studiate sunt
suficient de apropiate de curba. Metoda se numeste regresie si este
tehnica generala de a ajusta, cat mai bine posibil, datele observate la o
curba teoretica data.

2
Regresia este folosit pentru
analizarea unei ipoteze cu privire la
relaţia dintre o
singură variabilă Y , numită
variabilă dependentă (sau variabilă
răspuns) şi una sau mai multe
variabile X1...Xk numite variabile
independente (sau predictori sau
variabile explicative). Cu ajutorul
regresiei, vom putea determina cât de
mult se schimbă (variază )
dependenta Y atunci când variabilele independente îşi schimb valorile
(variază ). Altfel spus, vom putea determina cât de mult din variaţia
totală a dependentei este influenţată de variaţia independentelor. Mai
mult, vom putea estima (prezice) o valoare sau un interval de valori a
dependentei pentru anumite valori ale independentelor.
Cea mai important funcţie a analizei de regresie este cea de predicţie
(prognoza). Prognoza reprezinta procesul estimarii unei anumite
marimi, pe baza datelor istorice cunoscute. Deciziile care implica
incertitudine au absoluta nevoie de prognoza. Cu ajutorul regresiei,
putem prezice valoarea pe care o ia variabila dependentă , prin simpla
manipulare a valorilor variabilelor independente. Prognoza are la baza
elemente ale statisticii inferentiale.

3
Folosind aproximarea prin interpolare se determină funcţia aproximant
F(x) impunand conditia ca aceasta sa coincida cu functia de aproximat
f(x) in toate nodurile de interpolare. In felul acesta, curba asociata
functiei F(x) este fortata sa urmeze o traiectorie impusa de pozitia
nodurilor de interpolare. Acest criteriu este insa prea putin eficient in
cazul unui numar mare de noduri de interpolare, deoarece determinarea
coeficientilor polinomului de aproximare necesita un volum mare de
calcul si exista riscul aparitiei oscilatiilor intre noduri. In plus, daca
insesi valorile indicate pentru functia f(x) nu sunt exacte, provenind de
exemplu din masuratori afectate de erori, nu are sens sa impunem
replicarea lor de catre functia de aproximare. In aceste situatii este
convenabila aplicarea unei metode care sa determine cea mai "buna"
functie care sa minimizeze abaterea medie patratica intre f(x) si F(x) in
toate punctele in care se cunoaste valoarea functiei originare.

Aproximarea dupa criteriul celor mai mici patrate determina o


functie F(x) care nu mai trece prin punctele de definitie, ci printre ele,
astfel incat suma patratelor abaterilor intre functiile F(x) si f(x) in aceste
puncte sa fie minima.

Pentru formalizarea acestui criteriu, se considera functia sub forma


tabelara, avand n+1 masuratori (x_k, f_k) afectate de erori inerente si se
urmareste determinarea unei functii de aproximare F(x), astfel definita
incat suma patratelor abaterilor in punctele de definitie sa fie minima:

4
Aceasta expresie a abaterii I se utilizeaza atunci cand erorile inerente
sunt localizate la nivelul functiei f(x)=y. In acest caz se spune ca functia
F(x) se determina prin regresie in x. Este posibil insa ca erorile inerente
sa se regaseasca in variabila x, caz in care F(x) se determina prin
regresie in y.
In functie de forma functiei de aproximare F(x) pot fi aplicate mai
multe tipuri de regresie: liniara, polinomiala, exponentiala, logaritmica,
hiperbolica, etc.

6.3.1 Regresia liniară


Modul de prezentare a legaturii liniare dintre doua variabile, in
general numerice atunci cand aceasta exista, se numeste metoda
regresiei liniare. In aceasta metoda o variabila se numeste independenta
sau variabila predictor (x) iar cealalta, variabila dependenta sau variabila
raspuns.
Regresia liniară aproximează setul de date printr-o dependenţă liniară
care minimizează suma pătratelor dintre dreapta de aproximare şi
punctele date. Cu aceasta metoda se vor calcula coeficientii a (panta) si b
a dreptei data de ecuatia
y = ax + b (6.3.1)

5
astfel incat suma patratelor erorilor dintre drepta de aproximatie si datele
specificate sa fie minima.
Pentru datele de intrare x1, x2 ,..., xn să presupunem ca s-au înregistrat

datele y1 , y2 ,..., yn iar din reprezentarea lor grafică s-a observat că ele
aproximează o dreaptă dată de ecuaţia de mai sus.
Corespunzător datelor de intrare vom calcula valorile corespunzătoare
dreptei de aproximaţie ax1 + b, ax2 + b,..., axn + b , unde a si b vor avea

aceeaşi valoare pentru că am presupus că toate datele sunt situate în


vecinătatea dreptei.
Diferenţa (eroarea) dintre valoarea observată şi cea situată pe drepta de
ecuaţie (6.3.1) corespunzătoare lui x1 este dată de y1 − (ax1 + b) şi similar

pentru celelalte valori înregistrate. Această diferenţă poate fi pozitiva


sau negativă în funcţie de poziţia valorii observate faţă de drepta de
aproximaţie. Dreapta aleasă este cea pentru care suma pătratelor dintre
valorile înregistrate şi cele de pe dreapta să fie minimă. Din această
cauza metoda se mai numeşte metoda celor mai mici pătrate.
Avem astfel
2 2
∑ squares = [ y − ( ax + b )] + [ y − ( ax + b )] + ... + [ y n − (axn + b)]2 .
1 1 2 2
Pentru a afla ecuaţia dreptei (6.3.1.1) vom avea nevoie de valorile lui m
şi n care se calculează egalând derivatele parţiale ale functiei ∑ squares în
raport cu a, respectiv b ce ne asigură minimul acestei funcţii.

6
δ
∑ squares = −2 x1[ y1 − (ax1 + b)] − 2 x2 [ y2 − (ax2 + b)] − ...
δm
− 2 x [ y − (ax + b)] = 0
2 2 2
si
δ
∑ squares = −2[ y1 − (ax1 + b)] − 2[ y2 − (ax2 + b)] − ...
δn
− 2[ y − (ax + b)] = 0
2 2
După simple calcule relaţiile de mai sus devin:
 x 2 a + ( x )b = xy
∑  ∑ ∑
 
(∑ x )a + nb = ∑ y
Sistemul de mai sus se va rezolva cu regula lui Cramer
D1 D2
a= , b=
D D

unde D = ∑ ∑ ,
x x 2

D1 =
∑ xy ∑ x , D2 =
∑ x ∑ xy .
2

∑x n ∑y n ∑x ∑ y

Metoda consta practic in calcularea distantelor (pe verticala) dintre


punctele observate (reale) si punctele de pe dreapta de regresie y = ax + b
, ce trece prin mijlocul multimii de puncte generate de datele initiale.
Aceste distante sunt cunoscute sub numele de reziduuri. Dreapta de
regresie reprezinta acea dreapta care trece prin norul de puncte date si
care minimizeaza distanta dintre ea si aceste date prin minimizarea
sumei patratelor distantelor. Coeficientul a, panta dreptei de regresie se
numeste coeficient de regresie.
Problema prezentată poate fi formulată matematic drept determinarea

7
cantităţilor a şi b din ecuaţia ye = ax + b , unde

• Ye este valoarea prezisă (estimată) a variabilei dependente;


• b este termenul liber al dreptei de regresie (valoarea pentru x=0);
• a este coeficientul de regresie (cantitatea cu care se modifică y atunci
când x se modifică cu o unitate);
• x este valoarea variabilei independente.
Se demonstrează că, prin metoda celor mai mici pătrate, se obţine:

∑ ( xi − X )∑ ( yi − Y ) σ
a= sau a = ρ xy x
∑ ( xi − X ) 2 σy

si
b =Y −aX .
Valoarea estimată, totuşi, este numai o medie care se poate aştepta.
Acurateţea depinde de cât de bine se potriveşte dreapta de regresie cu
datele reale. Această potrivire este evaluată prin considerarea unei
statistici: eroarea standard a estimaţiei, definită ca abaterea standard a
erorilor de estimare (a reziduurilor estimaţiei):

∑ ( yi − yei ) 2
s=
n
O eroare standard mare arată că valorile observate sunt la distanţă de
dreapta de regresie şi deci aceasta este mai puţin reprezentativă pentru
datele reale. În consecinţă şi valorile prognozate sunt afectate de erori
mai mari.

8
Pentru datele din tabelul următor

2.791
s2 = = 0.747 .
5
O formula similara este folosita cand este vorba de un esantion si nu de
intreaga populatie

∑ ( yi − yei ) 2
s=
n−2

Pentru a exprima intensitatea legaturii dintre variabile se pot utiliza


urmatorii indicatori: covarianta;coeficientul de corelatie;raportul de
corelatie.
Covarianta reprezinta o masura absoluta a intensitatii legaturii dintre
variabile si se stabileste ca medie aritmetica a produselor abaterilor
fiecarei variabile la media sa

9
Coeficientul de corelaţie (liniară)

Analiza de regresie este, în esenţă, o metodă pentru a permite predicţii,


adică să estimăm o valoare a unei variabile Y atunci când dispunem de o
valoare a variabilei asociate X. Totuşi, de multe ori în aplicaţii,
cercetătorii nu sunt interesaţi sau nu cunosc care variabilă este
independentă, care dependentă în sensul cerut de practică. Ei sunt însă
interesaţi să ştie dacă două variabile sunt asociate şi gradul de asociere.
O asemenea măsură o furnizează coeficientul de corelaţie, notat r.
Acesta are valori de la –1 la +1, o valoare nulă indică lipsa de asociere,
+1 arată o asociere (corelaţie) pozitivă perfectă, o valoare de –1 arată o
asociere negativă perfectă. Coeficientul de corelaţie este definit prin:
∑ ( xi − x)∑ ( yi − y)
r=
∑ ( xi − x) 2 ∑ ( yi − y) 2

Regresia se leaga foarte mult de conceptul de corelatie. O asociere


puternica între doua elemente conduce la cresterea preciziei predictiei
unei variabile pe seama alteia. Daca am avea o corelatie perfecta (+1 sau
–1) estimarea ar fi extrem de precisa.

Raportul de corelaţie : Pentru fundamentarea raportului de corelaţie, R, se porneşte


de la urmatoarea relaţie numită regula de adunare a varianţelor :
Variaţia totală = variaţia explicată prin regresie + variaţia reziduală,

10
n
unde variaţia totală este exprimată de suma totală de pătrate ST = ∑ ( yi − Y ) 2 variaţia
i =1

reziduală este exprimată de suma reziduurilor pătratice, S R = ∑ ε 2 iar variaţia

explicată este exprimată de diferenţa între cele două sume S E = ST − S R .


Raportul de corelaţie în care variaţia lui y se exprimă prin regresia pe x este dat de
SE
R2 = .
ST

Interpretare : Dacă acest raport este peste 0,5 atunci modelul de regresie se
consider potrivit la date, o valoare egala cu 1 indicând potrivire maximă, iar una
egala cu 0, nepotrivire a modelului la date.
În ce priveşte identificarea modelului, se justifică alegerea unui model liniar
(identificarea modelului) prin :
- calculul coeficientului de corelaţie liniară pe baza datelor, , şi compararea valorii
sale absolute cu 1 (pentru ca modelul liniar să fie potrivit datelor, coeficientul de
corelaţie liniară trebuie sa aibă o valoare absolută cât mai apropiată de 1) ;
- reprezentarea punctelor de coordonate xi,yi - corelograma asociată datelor şi
interpretarea ei (într-un sistem ortogonal de axe-alura liniei poligonale obţinute
prin unirea cu segmente a punctelor, trebuie să fie cât mai apropiată de cea a unei
drepte).

Aplicatie in Excel

În Excel, prognoza poate fi făcută fie cu funcţia FORECAST, fie cu funcţia


TREND, cea de-a doua având avantajul că poate obţine previziunea pe mai multe
valori ale lui X, în acelaşi timp.

11
Sintaxa funcţiei :
FORECAST(x; known y’s, known x’s)= y (x0 ) , valoarea lui y corespunzătoare lui
x = x0 , dintr-o regresie liniară (valoarea previzionată pe baza unui model liniar).

-parametrii de intrare, known y’s, known x’s, reprezintă doi vectori de aceeaşi
dimensiune, care conţin valorile celor două variabile, pe baza cărora fundamentăm
modelul de regresie;
-parametrul de intrare, x, reprezintă o nouă valoare a variabilei X, valoare pentru
care dorim să previzionăm valoarea lui Y corespunzătoare.

Sintaxa functiei :
TREND (known y’s, known x’s, new x, const)= new y, adică un vector format cu
valorile previzionate ale lui y din regresia liniară, corespunzatoare valorilor new x;
vectorul este de aceeaşi dimensiune cu new x.
-parametrii de intrare, known y’s, known x’s, reprezintă doi vectori de aceeaşi
dimensiune, care conţin valorile celor două variabile, pe baza cărora fundamentăm
modelul de regresie;
-parametrul de intrare new x, este un vector care conţine noile valori ale lui X,
valori pentru care dorim să facem previziunea;
-parametrul de intrare, const are aceeaşi semnificaţie ca şi în LINEST, prin
urmare, pentru simplificare, vom omite precizarea acestuia în fereastra de dialog a
funcţiei.
Observaţie: Dacă lucrăm cu modele de timp, deci cu variabilele Z şi t, atunci, în
funcţiile LINEST, FORECAST şi TREND, vom avea Z şi t, în loc de X şi Y.
Pentru valorile variabilei t, fie vom preciza valorile convenţionale 1,2,3,…, fie
vom omite precizarea lor. Se va proceda asemănător şi pentru noile valori pentru

12
care dorim prognoza. Spre exemplu, dacă valorile vechi pentru t, au fost, 1, 2, 3, 4,
5, putem previziona valoarea lui Z, corespunzătoare lui t = 6 , etc.

Exemplu:
Vom analiza în cele ce urmează corelaţia între valoarea primelor acordate
angajaţilor (X-mil.lei) şi valoarea profitului (Y-mld.lei), pentru o întreprindere, pe
parcursul a 10 ani. Datele au fost trecute în foaia de lucru Excel şi apoi ordonate
crescător, în raport cu X, pentru a putea face diagrama prin puncte.

Analiza graficului evidenţiază o grupare a punctelor după o anumită regulă, deci


există o anumită corelaţie între variabile. Mai mult curba dată de aceste puncte

13
seamănă destul de mult cu o dreaptă, prin urmare vom utiliza un model liniar,
pentru a reda legătura respectivă. Numeric, vom putea analiza cât de intensă este
corelaţia, care sunt parametrii modelului şi ce valori de prognoză se pot da pe un
astfel de model. Aplicând pe datele iniţiale, funcţiile Correl, Linest, Forecast şi
Trend, se obţin următoarea situaţie prezentă şi pe foaia de lucru Excel:
-corelaţia (aproximativ 0,98) este puternică şi directă (valoare pozitivă, apropiată
de 1);
-modelul liniar cel mai potrivit datelor este dat de ecuaţia, f (x ) = 5,69 + 0,03x ;
-conform modelului, pentru o valoare a primelor acordate de 100 mil.lei, se
aşteaptă un profit de aproximativ, 9,39mld.lei, etc.
Sigur, prognoza făcută reprezintă doar o estimaţie a realităţii, cu atât mai corectă
cu cât modelul a fost mai bine ales.

Pentru a putea vizualiza grafic potrivirea modelului ales la realitatea datelor, se pot
reprezenta, în acelaşi grafic curba reală şi dreapta de regresie. Modelul liniar este
cu atât mai bun, cu cât punctele se apropie mai mult de dreaptă. Pentru a reprezenta
dreapta de regresie se va alege diagrama prin puncte, în care pe post de Y, se vor
14
reprezenta valorile previzionate, corespunzătoare X-ilor vechi. Mai precis, în
funcţia Trend se va alege pe post de newx, tot vectorul knownx. Acelaşi lucru se
obţine dacă omitem să precizăm newx. Astfel, vom face previziune pe valorile lui
X vechi, pentru care deja se cunosc valorile lui Y şi vom putea în acest fel compara
valorile previzionate ale lui Y cu valorile observate ale lui Y. După cum se poate
observa şi în figura următoare, majoritatea punctelor sunt chiar pe dreapta de
tendinţă (pe grafic se suprapun cu dreapta) iar celelalte sunt destul de aproape de
ea. Acelaşi lucru se poate deduce şi comparând coloana B de valori reale cu
coloana E de valori previzionate.

15

S-ar putea să vă placă și