Corelaţie si regresie
- Regresia -
In practica este deseori intalnita situaţia masurarii unei variabile
dependente Y de mai multe valori stabilite ale unei alte variabile X.
Rezultatele pot fi prezentate sub forma de tabele, grafice sau ecuatii.
Graficele pot fi utilizate pentru reprezentarea datelor in etape
intermediare şi finale a procesului de prelucrare a rezultatelor
cercetărilor experimentale. Motivatia utilizarii graficelor este data de:
- reprezentarea grafica permite observarea cu usurinta a prezentei
minimelor, maximelor, punctelor de inflexiune, caracteristicile periodice
sau de alta natura;
- diagrama care se obtine ofera vizualizarea simpla a dependentei
functionale studiate, avand posibilitatea sa concentreze intr-un spatiu
minim o mare cantitate de informatii;
- prin trasarea curbei de dependenta se simplifica operatiile ulterioare de
stabilire a unor valori care nu au fost masurate, in interiorul intervalului
studiat (interpolare), sau in afara lui (extrapolare);
- forma graficului obtinut sugereaza forma dependentei functionale a
variabilei y fata de x (putandu-se deriva sau integra o variabila in raport
cu alta, direct din grafic, fara a se stabili forma matematica);
Ecuatiile (formulele) redau relatiile care exista intre variabilele indicate
in grafice sau tabele, acest mod de reprezentare fiind mai convenabil şi
1
avand un grad de generalizare mult mai mare decât celelalte
reprezentari, putand fii utilizat cu usurinta in operatii de derivare,
integrare sau interpolare. Acestea pot fi:
- ecuatii rationale, adică deduse in mod teoretic, pe baza unor legi şi
teorii cunoscute, valorile constantelor ce le contin fiind determinate in
urma prelucrarii datelor observate;
- ecuatii empirice, acestea stabilindu-se pe baza experimentala,
efectuandu-se o serie de masurari asupra variabilei dependente (functiei)
y pentru diverse valori ale variabilei independente x. In acest caz,
gasirea reprezentarii analitice a dependentei functionale, implica doua
etape şi anume: stabilirea formei dependentei analitice (ecuatiei,
formulei) şi apoi determinarea valorilor adecvate ale constantelor
arbitrare.
In unele cazuri, este suficient sa se traseze o curba de aproximare
vizuala, aceasta fiind procedeul cel mai simplu şi mai expeditiv, care se
poate considera satisfacator in masura in care punctele studiate sunt
suficient de apropiate de curba. Metoda se numeste regresie si este
tehnica generala de a ajusta, cat mai bine posibil, datele observate la o
curba teoretica data.
2
Regresia este folosit pentru
analizarea unei ipoteze cu privire la
relaţia dintre o
singură variabilă Y , numită
variabilă dependentă (sau variabilă
răspuns) şi una sau mai multe
variabile X1...Xk numite variabile
independente (sau predictori sau
variabile explicative). Cu ajutorul
regresiei, vom putea determina cât de
mult se schimbă (variază )
dependenta Y atunci când variabilele independente îşi schimb valorile
(variază ). Altfel spus, vom putea determina cât de mult din variaţia
totală a dependentei este influenţată de variaţia independentelor. Mai
mult, vom putea estima (prezice) o valoare sau un interval de valori a
dependentei pentru anumite valori ale independentelor.
Cea mai important funcţie a analizei de regresie este cea de predicţie
(prognoza). Prognoza reprezinta procesul estimarii unei anumite
marimi, pe baza datelor istorice cunoscute. Deciziile care implica
incertitudine au absoluta nevoie de prognoza. Cu ajutorul regresiei,
putem prezice valoarea pe care o ia variabila dependentă , prin simpla
manipulare a valorilor variabilelor independente. Prognoza are la baza
elemente ale statisticii inferentiale.
3
Folosind aproximarea prin interpolare se determină funcţia aproximant
F(x) impunand conditia ca aceasta sa coincida cu functia de aproximat
f(x) in toate nodurile de interpolare. In felul acesta, curba asociata
functiei F(x) este fortata sa urmeze o traiectorie impusa de pozitia
nodurilor de interpolare. Acest criteriu este insa prea putin eficient in
cazul unui numar mare de noduri de interpolare, deoarece determinarea
coeficientilor polinomului de aproximare necesita un volum mare de
calcul si exista riscul aparitiei oscilatiilor intre noduri. In plus, daca
insesi valorile indicate pentru functia f(x) nu sunt exacte, provenind de
exemplu din masuratori afectate de erori, nu are sens sa impunem
replicarea lor de catre functia de aproximare. In aceste situatii este
convenabila aplicarea unei metode care sa determine cea mai "buna"
functie care sa minimizeze abaterea medie patratica intre f(x) si F(x) in
toate punctele in care se cunoaste valoarea functiei originare.
4
Aceasta expresie a abaterii I se utilizeaza atunci cand erorile inerente
sunt localizate la nivelul functiei f(x)=y. In acest caz se spune ca functia
F(x) se determina prin regresie in x. Este posibil insa ca erorile inerente
sa se regaseasca in variabila x, caz in care F(x) se determina prin
regresie in y.
In functie de forma functiei de aproximare F(x) pot fi aplicate mai
multe tipuri de regresie: liniara, polinomiala, exponentiala, logaritmica,
hiperbolica, etc.
5
astfel incat suma patratelor erorilor dintre drepta de aproximatie si datele
specificate sa fie minima.
Pentru datele de intrare x1, x2 ,..., xn să presupunem ca s-au înregistrat
datele y1 , y2 ,..., yn iar din reprezentarea lor grafică s-a observat că ele
aproximează o dreaptă dată de ecuaţia de mai sus.
Corespunzător datelor de intrare vom calcula valorile corespunzătoare
dreptei de aproximaţie ax1 + b, ax2 + b,..., axn + b , unde a si b vor avea
6
δ
∑ squares = −2 x1[ y1 − (ax1 + b)] − 2 x2 [ y2 − (ax2 + b)] − ...
δm
− 2 x [ y − (ax + b)] = 0
2 2 2
si
δ
∑ squares = −2[ y1 − (ax1 + b)] − 2[ y2 − (ax2 + b)] − ...
δn
− 2[ y − (ax + b)] = 0
2 2
După simple calcule relaţiile de mai sus devin:
x 2 a + ( x )b = xy
∑ ∑ ∑
(∑ x )a + nb = ∑ y
Sistemul de mai sus se va rezolva cu regula lui Cramer
D1 D2
a= , b=
D D
unde D = ∑ ∑ ,
x x 2
D1 =
∑ xy ∑ x , D2 =
∑ x ∑ xy .
2
∑x n ∑y n ∑x ∑ y
7
cantităţilor a şi b din ecuaţia ye = ax + b , unde
∑ ( xi − X )∑ ( yi − Y ) σ
a= sau a = ρ xy x
∑ ( xi − X ) 2 σy
si
b =Y −aX .
Valoarea estimată, totuşi, este numai o medie care se poate aştepta.
Acurateţea depinde de cât de bine se potriveşte dreapta de regresie cu
datele reale. Această potrivire este evaluată prin considerarea unei
statistici: eroarea standard a estimaţiei, definită ca abaterea standard a
erorilor de estimare (a reziduurilor estimaţiei):
∑ ( yi − yei ) 2
s=
n
O eroare standard mare arată că valorile observate sunt la distanţă de
dreapta de regresie şi deci aceasta este mai puţin reprezentativă pentru
datele reale. În consecinţă şi valorile prognozate sunt afectate de erori
mai mari.
8
Pentru datele din tabelul următor
2.791
s2 = = 0.747 .
5
O formula similara este folosita cand este vorba de un esantion si nu de
intreaga populatie
∑ ( yi − yei ) 2
s=
n−2
9
Coeficientul de corelaţie (liniară)
10
n
unde variaţia totală este exprimată de suma totală de pătrate ST = ∑ ( yi − Y ) 2 variaţia
i =1
Interpretare : Dacă acest raport este peste 0,5 atunci modelul de regresie se
consider potrivit la date, o valoare egala cu 1 indicând potrivire maximă, iar una
egala cu 0, nepotrivire a modelului la date.
În ce priveşte identificarea modelului, se justifică alegerea unui model liniar
(identificarea modelului) prin :
- calculul coeficientului de corelaţie liniară pe baza datelor, , şi compararea valorii
sale absolute cu 1 (pentru ca modelul liniar să fie potrivit datelor, coeficientul de
corelaţie liniară trebuie sa aibă o valoare absolută cât mai apropiată de 1) ;
- reprezentarea punctelor de coordonate xi,yi - corelograma asociată datelor şi
interpretarea ei (într-un sistem ortogonal de axe-alura liniei poligonale obţinute
prin unirea cu segmente a punctelor, trebuie să fie cât mai apropiată de cea a unei
drepte).
Aplicatie in Excel
11
Sintaxa funcţiei :
FORECAST(x; known y’s, known x’s)= y (x0 ) , valoarea lui y corespunzătoare lui
x = x0 , dintr-o regresie liniară (valoarea previzionată pe baza unui model liniar).
-parametrii de intrare, known y’s, known x’s, reprezintă doi vectori de aceeaşi
dimensiune, care conţin valorile celor două variabile, pe baza cărora fundamentăm
modelul de regresie;
-parametrul de intrare, x, reprezintă o nouă valoare a variabilei X, valoare pentru
care dorim să previzionăm valoarea lui Y corespunzătoare.
Sintaxa functiei :
TREND (known y’s, known x’s, new x, const)= new y, adică un vector format cu
valorile previzionate ale lui y din regresia liniară, corespunzatoare valorilor new x;
vectorul este de aceeaşi dimensiune cu new x.
-parametrii de intrare, known y’s, known x’s, reprezintă doi vectori de aceeaşi
dimensiune, care conţin valorile celor două variabile, pe baza cărora fundamentăm
modelul de regresie;
-parametrul de intrare new x, este un vector care conţine noile valori ale lui X,
valori pentru care dorim să facem previziunea;
-parametrul de intrare, const are aceeaşi semnificaţie ca şi în LINEST, prin
urmare, pentru simplificare, vom omite precizarea acestuia în fereastra de dialog a
funcţiei.
Observaţie: Dacă lucrăm cu modele de timp, deci cu variabilele Z şi t, atunci, în
funcţiile LINEST, FORECAST şi TREND, vom avea Z şi t, în loc de X şi Y.
Pentru valorile variabilei t, fie vom preciza valorile convenţionale 1,2,3,…, fie
vom omite precizarea lor. Se va proceda asemănător şi pentru noile valori pentru
12
care dorim prognoza. Spre exemplu, dacă valorile vechi pentru t, au fost, 1, 2, 3, 4,
5, putem previziona valoarea lui Z, corespunzătoare lui t = 6 , etc.
Exemplu:
Vom analiza în cele ce urmează corelaţia între valoarea primelor acordate
angajaţilor (X-mil.lei) şi valoarea profitului (Y-mld.lei), pentru o întreprindere, pe
parcursul a 10 ani. Datele au fost trecute în foaia de lucru Excel şi apoi ordonate
crescător, în raport cu X, pentru a putea face diagrama prin puncte.
13
seamănă destul de mult cu o dreaptă, prin urmare vom utiliza un model liniar,
pentru a reda legătura respectivă. Numeric, vom putea analiza cât de intensă este
corelaţia, care sunt parametrii modelului şi ce valori de prognoză se pot da pe un
astfel de model. Aplicând pe datele iniţiale, funcţiile Correl, Linest, Forecast şi
Trend, se obţin următoarea situaţie prezentă şi pe foaia de lucru Excel:
-corelaţia (aproximativ 0,98) este puternică şi directă (valoare pozitivă, apropiată
de 1);
-modelul liniar cel mai potrivit datelor este dat de ecuaţia, f (x ) = 5,69 + 0,03x ;
-conform modelului, pentru o valoare a primelor acordate de 100 mil.lei, se
aşteaptă un profit de aproximativ, 9,39mld.lei, etc.
Sigur, prognoza făcută reprezintă doar o estimaţie a realităţii, cu atât mai corectă
cu cât modelul a fost mai bine ales.
Pentru a putea vizualiza grafic potrivirea modelului ales la realitatea datelor, se pot
reprezenta, în acelaşi grafic curba reală şi dreapta de regresie. Modelul liniar este
cu atât mai bun, cu cât punctele se apropie mai mult de dreaptă. Pentru a reprezenta
dreapta de regresie se va alege diagrama prin puncte, în care pe post de Y, se vor
14
reprezenta valorile previzionate, corespunzătoare X-ilor vechi. Mai precis, în
funcţia Trend se va alege pe post de newx, tot vectorul knownx. Acelaşi lucru se
obţine dacă omitem să precizăm newx. Astfel, vom face previziune pe valorile lui
X vechi, pentru care deja se cunosc valorile lui Y şi vom putea în acest fel compara
valorile previzionate ale lui Y cu valorile observate ale lui Y. După cum se poate
observa şi în figura următoare, majoritatea punctelor sunt chiar pe dreapta de
tendinţă (pe grafic se suprapun cu dreapta) iar celelalte sunt destul de aproape de
ea. Acelaşi lucru se poate deduce şi comparând coloana B de valori reale cu
coloana E de valori previzionate.
15