Sunteți pe pagina 1din 11

Estimarea generală a coeficienţilor de regresie liniară prin metoda pătratelor minime

Sub formă generală, pentru observaţia i, regresia liniară multiplă se scrie:

yi  a0  a1 x1i  a2 x2i  ...  an xni   i


i  1, I indexează observaţiile (unităţile statistice)
I numărul de observaţii
yi valoarea variabilei endogene Y pentru observaţia i
x1i valoarea variabilei explicative X1 pentru observaţia i
x2i valoarea variabilei explicative X2 pentru observaţia i
...........
xni valoarea variabilei explicative Xn pentru observaţia i
 i valoarea variabilei reziduale pentru observaţia i
a0 , a1 , a2 ,..., ak coeficienţii de regresie care trebuie estimaţi.

Dacă rescriem modelul observaţie cu observaţie, obţinem:


y1  a0  a1 x11  a2 x21  ...  an xn1   1
y 2  a0  a1 x12  a2 x22  ...  an xn 2   2
.......
yi  a0  a1 x1i  a2 x2i  ...  an xni   i
.......
y I  a0  a1 x1I  a2 x2 I  ...  an xnI   I
ceea ce sub formă matricială (între paranteze numărul de linii şi respectiv de coloane) devine:
Y  X  a  
(T ,1) (T , k  1) (k  1,1) (T ,1)
unde:
 y1   1 x11 x21 ... xn1 
   
 y2   1 x12 x21 ... xn 2 
 ...   ... ... ... ... ... 
Y   X  
 yi   1 x1i x2i ... xni 
 ...   ... ... ... ... ... 
  
y  1 x xnI 
 I  1I x2 I ...
 1 
 a0   
   2 
 a1   ... 
a   a2    
   i 
 ...   ... 
a   
 n  
 I
Prima coloană a matricei X conţine doar valoarea 1, care corespunde coeficientului a0 .
Astfel matricea X are I linii şi n+1 coloane (n variabile explicative plus constanta).

Considerăm modelul sub formă matricială, cu n variabile explicative şi I observaţii:

Y  X a 
Pentru estimarea vectorului a, având ca şi componente coeficienţii a0 , a1 , a2 ,..., an aplicăm ca
şi la modelul liniar simplu metoda patratelor minime (MPM), minimizând suma patratelor
erorilor.
I
Notăm: S    i
2

i 1
T
min   i2  min( '  )
i 1

 min(Y  Xa )' (Y  Xa )
 min(Y ' Y  Y ' Xa  a' X ' Y  a' X ' Xa )
 min(Y ' Y  2a' X 'Y  a' X ' Xa )
unde :
 ' este vectorul transpus al lui  ;
a' este vectorul transpus al lui a ;
Y ' este vectorul transpus al lui Y ;
X ' este transpusa matricii X .
Pentru a minimiza expresia, derivăm în raport cu a :
S
 2 X 'Y  2 X ' X a  0
a

a  ( X ' X ) 1 X 'Y

Această soluţie este realizabilă dacă matricea patratică X ' X este inversabilă. Matricea este
este neinversabilă doar în caz de coliniaritate perfectă între oricare două variabile explicative.

Acest mod de calcul al coeficienţilor de regresie este mai dificil de efectuat manual.
Principalul obstacol este inversarea matricii X ' X .
Desigur, tehnica de calcul actuală rezolvă simplu această dificultate. Există soft-ware
de specialitate care calculeaza prin proceduri simple coeficienţii de regresie. Câteva exemple
de astfel de soft-uri de statistică şi econometrie: SPSS, SAS, STATA, Eviews, LIMDEP,
GAUSS.
Calculul coeficienţilor este implementat ca procedură chiar şi în soft-uri de birotică.
De exemplu în Excel, există funcţii special dedicate pentru calculul coeficienţilor: SLOPE şi
INTERCEPT. Calculul se poate face şi detaliat în Excel, folosind funcţiile : TRANSPOSE –
transpunerea matricilor, MMULT – înmulţirea matricilor, MINVERSE – inversarea
matricilor, etc.
Analiza statistică a legăturilor pentru variabile calitative

Un prim instrument ce ne stă la îndemână este tabelul de corelaţie, un tabel cu două


intrări, reprezentând o repartiţie bidimensională. Modul de construcţie al unui astfel de
tabel se cunoaşte de la seriile statistice.
O primă ipoteză asupra existenţei sau inexistenţei legăturii ne este furnizată de
metode pur descriptive, ca studiul tabelului de corelaţie sau a norului de puncte asociat.
Urmărim dacă frecvenţele absolute N ij iau valori apropiate în tot tabelul, caz în care nu
există legătură între variabilele X şi Y, iar norul de puncte asociat prezintă o repartizare
omogenă a punctelor pe domeniul de valori al variabilelor. Dacă frecvenţele se repartizează
după una din diagonale sau o curbă oarecare sugerând existenţa unei legături, norul de
puncte asociat prezintă o grupare a punctelor după o anumită formă (o dreaptă sau o
curbă). Cu cât norul de puncte este mai grupat, cu atât ne putem aştepta mai mult la
existenţa unei legături.

Tabelul 4.2. Distribuţia bidimensională în raport cu variabilele X şi Y


X
x1 x2 … xi … xI To
Y tal
yJ N1 J N2J . N iJ . N IJ N J

… . . . . . . .
yj N1 j N2 j . N ij . N Ij N j

… . . . . . . .
y2 N12 N 22 . Ni2 . NI2 N 2

y1 N11 N 21 . N i1 . N I1 N 1

Tot N1 N 2 . N i . NI N


al

Metodele descriptive amintite anterior sunt imediate şi uşor de utilizat, dar nu pot
stabili clar existenţa sau inexistenţa unei legături. Pentru aceasta, ne vom folosi de metode
cantitative, din care cea mai utilizată este  2 . După cum vom vedea, aceasta utilizează
doar frecvenţele ca informaţie numerică. Evident, pentru variabilele cantitative, existenţa
stărilor numerice permite folosirea unor metode care să ţină cont de acestea.
Metoda constă în esenţă în a compara frecvenţele absolute observate cu cele teoretice
corespunzătoare cazului în care nu există legătură. Frecvenţele teoretice se vor calcula
făcând apel la teoria probabilităţilor. Asociem tabelului o urnă cu N bile, reproducând
structura populaţiei în raport cu variabilele X şi Y. Considerăm N ij bile cu inscripţia (i, j ) .
Dacă evenimentele X  xi şi Y  yi sunt independente, putem scrie:
N i N  j
P( X  xi ; Y  yi )  P( X  xi )  P(Y  yi )    Pij
N N
notând cu Pij produsul probabilităţilor celor două evenimente. Putem astfel calcula toate
frecvenţele teoretice. Suma lor fiind egală cu 1, ele vor fi comparabile cu frecvenţele
relative empirice. Pentru a le putea compara cu frecvenţele absolute, le vom înmulţi cu N.
Astfel:
N i N  j N i  N  j
N ij  Pij  N   N 
N N N
unde N ij sunt frecvenţe absolute teoretice. Obţinem deci două tabele, unul cu frecvenţele
absolute reale, observate şi altul cu frecvenţele absolute teoretice corespunzătoare cazului
în care nu există legătură între variabile. Dacă între acestea nu există nici o diferenţă,
concluzionăm că nu există legătură între variabile. Va trebui însă să ne bazăm în aprecieri
pe o măsură globală a distanţei dintre cele două tabele, respectiv ale frecvenţelor teoretice
şi empirice. Această măsură o definim astfel:
I J ( N ij  N ij ) 2
  
2

i 1 j 1 N ij
Observăm că dacă N ij  N ij ,  i  1,..., I j  1,..., J nu există legătură, iar  2  0 .
Dimpotrivă, cu cât frecvenţele empirice diferă mai mult de cele teoretice, cu atât  2 ia
valori mai mari.

Ca o concluzie, distingem cele două cazuri:


1) Dacă  2  0 nu există legătură între variabile
2) Dacă  2  0 există legătură între variabile
În statistica descriptivă ne limităm doar la a judeca egalitatea sau nonegalitatea cu
zero. În realitate însă, pentru a garanta cu o anumită probabilitate existenţa legăturii,  2
trebuie să depăşească un anumit prag. Acesta ne este dat de statistica inferenţială prin legea
de probabilitate  2 . Astfel,
I J ( N ij  N ij ) 2
  
2

i 1 j 1 N ij
este o variabilă  2 cu v  ( I  1)( J  1) grade de libertate. Vom compara deci valoarea
calculată a lui  2 cu valorile tabelate.
Dacă  2   tab
2
(v, p )
putem afirma cu un risc de eroare p că există legătură între
variabilele X şi Y. Valoarea tabelată o privim ca pe un prag peste care trebuie să treacă
valoarea calculată a lui  2 pentru a accepta cu o anumită probabilitate existenţa legăturii.
Cu cât riscul de eroare dorit este mai mic, cu atât “pragul” va fi mai exigent, adică  tab
2
(v, p )

va avea o valoare mai mare.


Procedeul prezentat anterior ne permite identificarea existenţei legăturii dintre două
variabile, dar nu şi a intensităţii acesteia. Totuşi, pornind de la el se pot construi coeficienţi
care să ne permită şi aprecierea intensităţii legăturii, aşa cum se va vedea în secţiunile
următoare.

Exemplu
Dintre societăţile comerciale cotate la Bursa de Valori Bucureşti am extras un eşantion de 34
societăţi. Să se studieze existenţa şi intensitatea legăturii dintre variabilele în raport cu care s-a
făcut observarea: X – domeniul de activitate al firmei şi Y – riscul acţiunilor societăţii.

X Industrie Financiar- Alte Total


Y Bancar Domenii
Mic 3 1 7 11
Mediu 10 2 4 16
Mare 2 5 - 7
Total 15 8 11 34

Avem astfel distribuţia empirică (observată) a societăţilor în raport cu cele două variabile.
Indicatorul de la baza seriei este frecvenţa absolută:
N11  3 N12  1 N13  7
N 21  10 N 22  2 N 23  4
N 31  2 N 32  5 N 33  0

Deducem frecvenţele absolute teoretice, corespunzătoare cazului în care nu există legătură


între variabile:

1115 11 8 1111


*
N11   4,85 *
N12   2,59 *
N13   3,56
34 34 34
16  15 16  8 16 11
*
N 21   7,06 *
N 22   3,76 *
N 23   5,18
34 34 34
7 15 7 8 7 11
*
N 31   3,09 *
N 32   1,54 *
N 33  2,26
34 34 34

Scriem şi sub formă tabelară această repartiţie teoretică:

X Industrie Financiar- Alte Total


Y Bancar Domenii
Mic 4,85 2,59 3,56 10
Mediu 7,06 3,76 5,18 16
Mare 3,09 1,65 2,26 7
Total 15 8 11 34
Calculăm distanţa dintre cele două tabele:
I J ( N ij  N ij ) 2
 2  
i 1 j 1 N ij
(3  4,85) 2 (1  2,59) 2 (7  3,56) 2
2    
4,85 2,59 3,56
(10  7,06)2 (2  3,76) 2 (4  5,18)2
   
7,06 3,76 5,18
(2  3,09) 2 (5  1,65)2 (0  2,26)2
    16,77
3,09 1,65 2,26
 2  0 deci există legătură între variabile la nivel de eşantion

Pentru a verifica dacă legătura există şi la nivel de populaţie, facem apel la valorile tabelate
ale distribuţiei de probabilitate  2 .
I = 3 , J = 3 , v  (3  1)(3  1)  4
- pentru p  5% ,  tab
2
 9,49
 2   tab
2
deci cu un risc de eroare de 5% acceptăm existenţa legăturii între cele două
variabile
- pentru p  1% ,  tab
2
 13,28
 2   tab
2
deci cu un risc de eroare de 1% acceptăm existenţa legăturii între cele două
variabile

Intensitatea legăturii sau a gradului de asociere dintre variabilele calitative

Ca şi în cazul existenţei legăturii, o primă apreciere a intensităţii se poate face pe baza


tabelului de corelaţie şi a norului de puncte. Cu cât frecvenţele mai mari sunt mai grupate
în jurul uneia din diagonalele tabelului de exemplu sau punctele norului sunt mai grupate
în jurul unei linii, cu atât legătura este mai intensă.
Pentru variabilele calitative preferăm să folosim noţiunea de grad de asociere deoarece
coeficienţii utilizează modul de asociere a stărilor variabilelor şi frecvenţele, nu stările
variabilelor ca în cazul variabilelor numerice.

Coeficientul de asociere (contingenţă) al lui Pearson

Acest coeficient se bazează pe metoda  2 utilizată la existenţa legăturii, folosind


frecvenţele absolute din tabelul de corelaţie. Se poate utiliza ca o metodă rapidă (această
facilitate există chiar şi în soft-urile de birotică cum ar fi Microsoft Excel) şi pentru
variabilele cantitative, dar se pierde o parte din informaţie prin neutilizarea stărilor
numerice ale acestora. Relaţia de calcul a coeficientului este:
2
C
N  2
unde N este volumul populaţiei. Ne interesează care sunt limitele acestui coeficient, pentru
a-i putea aprecia valorile numerice pe care le ia. Reamintim că  2 este o măsură globală a
distanţei dintre două repartiţii: cea observată şi cea teoretică corespunzătoare cazului în
care nu există legătură între variabile.
- dacă  2  0 atunci C  0
- dacă  2   atunci C  1
Ca urmare,  2  [ 0 ; 1 )
Interpretarea gradului de asociere (intensităţii legăturii) pe baza coeficientului este
următoarea:
- dacă C  0 legătura este nulă (lipsa legăturii)
- dacă C  ( 0 ; 0,3 ) legătura este de intensitate slabă
- dacă C [ 0,3 ; 0,7 ) legătura este de intensitate medie
- dacă C [ 0,7 ; 1 ) legătura este de intensitate puternică
Desigur aceste limite nu trebuie interpretate într-o manieră foarte rigidă. O legătură este tot
medie atât la 0,35 cât şi la 0,68. Prezintă mai mult interes compararea intensităţii legăturii
dintre aceleaşi două variabile pentru aceeaşi populaţie în momente de timp diferite sau
pentru populaţii similare.

Coeficientul de asociere (contingenţă) al lui Ciuprov

Acest coeficient se bazează de asemenea pe metoda  2 şi a fost introdus de Ciuprov


datorită unui neajuns al coeficientului lui Pearson, acela că nu poate lua valoarea 1, ci doar
să tindă la 1 când  2   . Expresia coeficientului este:
2 2
T 
max  2 N ( I  1)( J  1)
Evident T [ 0 ; 1 ] . Valoarea maximă max  2  N ( I  1)( J  1) se obţine atunci când
toate frecvenţele nenule sunt dispuse pe una din cele două diagonale ale tabelului de
corelaţie. Şi acest coeficient are un neajuns, acela că intensitatea poate fi foarte puternică,
dar frecvenţele nenule să fie dispuse după o altă curbă decăt una din diagonale, intensitate
ce nu ar fi redată ca atare de coeficient.

Exemplu
Utilizăm acelaşi exemplu de la existenţa legăturii. Intensitatea legăturii:
- coeficientul de asociere al lui Pearson
2
C
N  2
16,77
C  0,57
34  16,77
legătura dintre cele două variabile este de intensitate medie
- coeficientul de asociere al lui Ciuprov
2 2
T 
max  2 N ( I  1)( J  1)
16,77
T  0,50
34 (3  1)(3  1)
conform şi acestui coeficient legătura dintre domeniul de activitate şi riscul acţiunilor este
de intensitate medie.

Gradul de asociere sau intensitatea legăturii dintre variabilele ordinale

Variabilele ordinale sunt tot variabile calitative, dar ale căror stări sunt ierarhizabile.
Ca exemplu putem da inteligenţa sau performanţele fizice ale indivizilor, atractivitatea unei
firme sau a unei ţări din punctul de vedere al investitorilor, renumele firmei, etc. Un grup
de firme se poate ordona în raport cu renumele, dar pentru această variabilă nu există o
unitate de măsură foarte obiectivă, astfel încât să putem spune că o firmă este de 2,7 ori
mai renumită decât alta.
Ordonarea unităţilor populaţiei în raport cu stările variabilei aduce un plus de
informaţie faţă de variabilele calitative neordinale, informaţie ce poate fi valorificată prin
construirea unor coeficienţi specifici lor care să aprecieze intensitatea legăturii, mai bine
fundamentaţi decât cei anteriori.

Coeficientul de corelaţie a rangurilor al lui Kendall


Pentru a putea utiliza acest indicator toate unităţile populaţiei trebuie să poată fi
ordonate în raport cu variabilele pentru care cercetăm intensitatea legăturii. Presupunem o
populaţie de volum n observată în raport cu m variabile. Unităţilor statistice li se atribuie
ranguri în raport cu fiecare variabilă după următoarea schemă redată în tabelul următor.

Tabelul 4.3. Rangurile unităţilor statistice observate în raport cu variabilele


unitatea
stat. A1 A2 … Ai … An
variabila
X1 r11 r12 … r1i … r1n
X2 r21 r22 … r2 i … r2 n
… … … … … … …
Xj r j1 rj 2 … r ji … r jn
… … … … … … …

Xm rm1 rm 2 … rmi … rmn


Vom numi rang al unităţii statistice Ai în raport cu variabila X j numărul natural r ji care
indică locul ocupat de valoarea variabilei X j înregistrată la unitatea Ai în şirul ordonat al
valorilor variabilei X j înregistrate la cele n unităţi considerate. Astfel, pentru fiecare
variabilă, rangurile vor fi primele n numere naturale.
Legătura dintre cele m variabile va fi considerată de intensitate maximă dacă dacă o unitate
oarecare Ai are acelaşi rang în raport cu toate variabilele. O astfel de situaţie este redată în
tabelul următor.
Cu cât situaţia reală se va apropia mai mult de situaţia prezentată în tabel, respectiv
rangurile se vor dispune cam în aceeaşi ordine, cu atât legătura va fi mai intensă şi invers,
cu cât rangurile vor diferi mai mult în raport cu diversele variabile, cu atât legătura va fi
mai slabă.

Tabelul 4.4. Distribuţia rangurilor pentru o corelaţie maximă


unitatea
stat. A1 A2 … Ai … An
Variabila
X1 1 2 … i … n
X2 1 2 … i … n
… … … … … … …
Xj 1 2 … i … N
… … … … … … …

Xm 1 2 … i … N
Vom începe prezentarea corelaţiei simple, între două variabile X şi Y. Legătura va fi directă
şi de intensitate maximă dacă tabelul construit pe seama rangurilor arată astfel:

Tabelul 4.5. Distribuţia rangurilor pentru o corelaţie maximă directă între două variabile
unitatea
stat. A1 A2 … Ai … An
variabila
X 1 2 … i … N
Y 1 2 … i … N

În situaţia contrară, în care legătura este inversă şi de intensitate maximă tabelul va arăta
astfel:
Tabelul 4.6. Distribuţia rangurilor pentru o corelaţie maximă inversă între două variabile
unitatea
stat. A1 A2 … Ai … An
variabila
X 1 2 … i … N
Y n n-1 … n-I+1 … 1

În toate celelalte cazuri de dispunere posibilă a rangurilor, legătura va fi de intensitate


mai slabă sau nulă. Coeficientul de corelaţie construit de Kendall va lua valoarea 1 pentru
legătura directă de intensitate maximă şi –1 pentru legătura inversă de intensitate maximă.
Pentru a putea construi coeficientul, vom defini mai întâi indicatorul de concordanţă
(P) şi respectiv indicatorul de discordanţă (Q). În raport cu variabila X se ordonează
crescător rangurile unităţilor, iar în raport cu variabila Y păstrăm ordinea unităţilor şi deci o
succesiune oarecare (rezultată din ordonarea în raport cu X) a rangurilor. O astfel de
situaţie este redată în tabelul de mai jos:

Tabelul 4.7. Distribuţia rangurilor pentru o corelaţie oarecare între două variabile
unitatea
stat. A1 A2 … Ai … An
variabila
X 1 2 … I … N
Y r1 r2 … ri … rn

unde ri , i  1,..., n reprezintă unul şi numai unul din numerele naturale de la 1 la n.


Pentru fiecare rang ri , i  1,..., n , se determină numărul rangurilor mai mari decât ri
situate la dreapta, număr pe care îl notăm cu Pi . Însumând toate numerele Pi , i  1,..., n se
obţine un număr notat cu P pe care îl numim indicator de concordanţă.
În mod asemănător, pentru fiecare rang ri , i  1,..., n , se determină numărul rangurilor
mai mici decât ri situate la dreapta, număr pe care îl notăm cu Qi . Însumând toate
numerele Qi , i  1,..., n se obţine un număr notat cu Q pe care îl numim indicator de
discordanţă. Relativ la aceşti doi indicatori se verifică relaţia:
n(n  1)
PQ 
2
Pe baza indicatorilor de concordanţă şi discordanţă construim coeficientul de corelaţie
simplă a rangurilor al lui Kendall, definit astfel:
P Q P Q
 
P  Q n(n  1)
2
În cazul unei legături directe de intensitate maximă, P va lua valoare sa maximă, iar Q pe
n(n  1)
cea minimă, adică: P  iar Q  0 , deci   1 .
2
În cazul unei legături inverse de intensitate maximă, P va lua valoare sa minimă, iar
n(n  1)
Q pe cea maximă, adică: P  0 iar, Q  deci   1 .
2
În cazul lipsei legăturii, P  Q , iar   0 .
Putem determina astfel intervalul în care va fi cuprins  , respectiv  [-1; 1] .
Interpretarea intensităţii legăturii pe baza acestui coeficient se va face astfel:
- dacă   0 legătura este directă
- dacă   0 legătura este nulă
- dacă   0 legătura este inversă
- dacă   [0 ; 0,3) legătura este de intensitate slabă
- dacă   [0,3 ; 0,7) legătura este de intensitate medie
- dacă   [0,7 ; 1] legătura este de intensitate puternică

Exemplu
Vom lua ca exemplu 10 firme dintr-un anumit domeniu în raport cu variabilele X =
renumele firmei (cât este de cunoscută în rândul consumatorilor) şi Y = încrederea în
produsele firmei. Rezultă după observare următorul tabel al rangurilor (tabelul 4.8).

Tabelul 4.8. Distribuţia rangurilor în raport cu X şi Y


unitatea
stat. A1 A2 A3 A4 A5 A6 A7 A8 A9 A10
Variabila
X 1 2 3 4 5 6 7 8 9 10
Y 2 3 1 5 6 4 7 9 8 10
Calculăm indicatorii de concordanţă şi discordanţă:
P  8  7  7  5  4  4  3 1 1  40
Q  11 0 11 0  0 1 0  5
De unde rezultă coeficientul de corelaţie a rangurilor al lui Kendall:
P  Q 40  5
   0,78
P  Q 40  5
deci între renumele firmei şi încrederea în produsele sale există o legătură directă foarte
puternică.

S-ar putea să vă placă și