Sunteți pe pagina 1din 19

CURS 13-14

Regresia liniară
Introducere
 
În cazul particular în care s-a putut pune în evidenţă existenţa unei corelaţii liniare
semnificative între două caractere cantitative continue X şi Y, se poate căuta
formalizarea relaţiei medii care uneşte cele două variabile cu ajutorul uneia dintre
următoarele trei ecuaţii:
 
(1) aX + bY + c = 0   : ecuaţia dreptei medii care leagă caracterele X şi Y

(2) Y = aX + b : ecuaţia dreptei de regresie a lui Y în funcţie de X

(3) X = aY + b : ecuaţia dreptei de regresie a lui X în funcţie de Y


Cele trei ecuaţii corespund a trei drepte diferite, a trei rezumate diferite ale norului de puncte (X,Y).
Diferenţa dintre cele trei drepte rezultă din faptul că utilizarea uneia sau alteia dintre drepte
corespunde unor obiective diferite:

(1) Dreapta medie este un rezumat al relaţiei între X şi Y care nu


introduce nici o ipoteză asupra sensului dependenţei cauzale ce poate
exista între cele două variabile. Ea urmăreşte trasarea dreptei astfel
încât aceasta să treacă cât mai aproape posibil de toate punctele, şi
astfel să minimizeze reziduurile definite de perpendiculara fiecărui
punct la dreapta medie (metoda celui mai scurt drum).
(1) Dreaptă exprimând relaţia medie între X şi Y

(2) Dreapta de regresie a lui Y în funcţie de X introduce ipoteza că


valorile lui Y depind de cele ale lui X, postulând astfel că cunoaşterea
valorilor lui X permite prevederea (estimare) valorilor lui Y. Este vorba
prin urmare de un model de previziune al cărui obiectiv este
minimizarea erorilor de previziune, respectiv a distanţei dintre
valorile Yi observate şi valorile Y*i estimate de relaţia Y*i=aX+b.
Reziduurile reprezintă distanţa de la puncte la dreaptă în raport cu
(2) Dreaptă exprimând pe Y în funcţie de X
axa Oy.
(3) Dreapta de regresie a lui X în funcţie de Y introduce ipoteza
inversă conform căreia cunoaşterea valorilor lui Y permite
prevederea (estimarea) valorilor lui X. Este vorba de această dată de
minimizarea erorilor de estimare ale lui X, respectiv a distanţelor
dintre valorile Xi observate şi valorile X*i estimate de relaţia
X*=aY+b. Reziduurile reprezintă distanţele de la puncte la dreaptă în
(3) Dreaptă exprimând pe X în funcţie de Y
raport cu axa Ox.
Prin urmare, dreptele regresiei liniare obţinute sunt diferite în funcţie de ipoteza făcută asupra
relaţiei dintre X şi Y şi de prezenţa sau de absenţa dependenţei dintre cele două caractere. Este
indicat ca întotdeauna să se specifice ipoteza făcută înainte de a începe calcularea dreptei de
regresie.
 
Vom studia în continuare doar ultimele două cazuri, adică situaţiile în care se caută nu exprimarea
unei relaţii între caracterele X şi Y, ci dependenţa unui caracter în raport cu celălalt (X în funcţie de
Y sau Y în funcţie de X). Aceasta înseamnă de fapt construirea unui model predictiv, deoarece se
presupune că cunoaşterea unei variabile (numită variabila independentă) permite estimarea
valorilor celeilalte variabile (numită variabilă dependentă).
1. Calcularea dreptei de regresie Y=ax+b
 
Pentru a face lucrurile mai clare, vom pleca de la un exemplu simplu şi clasic, acela al relaţiei
dintre altitudine (X) şi temperatură (Y) în cadrul unei regiuni suficient de mică pentru a putea
neglija factorii macroscopici de variaţie a temperaturii, precum distanţa faţă de ocean,
latitudinea, etc.
Datele prezentate pe figura următoare sunt imaginare însă ele ar putea corespunde foarte bine
cazului unei văi montane orientată est-vest pentru care s-a procedat la înregistrarea
temperaturilor la amiază, în opt staţii meteorologice situate la altitudini diferite şi localizate pe
ambii versanţi ai văii.
Temperatură şi altitudine în cazul a 8 staţii
localizate într-o vale montană (date imaginare)

TEMPERATURI LA AMIAZĂ
Datele referitoare la altitudinea şi la temperatura celor 8 staţii sunt prezentate în tabelul 1, pe
baza căruia se calculează parametrii fiecărei variabile (media şi ecartul-tip), precum şi covarianţa.

i (Xi) (Yi) (Xi-mX) (Yi-mY) (Xi-mX)(Yi-mY)


1 2000 0 500 -4 -2000
2 1500 3 0 -1 0
3 1000 6 -500 2 -1000
4 500 10 -1000 6 -6000
5 1000 8 -500 4 -2000
6 1500 5 0 1 0
7 2000 2 500 -2 -1000
8 2500 -2 1000 -6 -6000
media mX = 1500 mY = 4 COV=-2250
ecartul-tip 612 3.8 - - -

Din valoarea covarianţei (-2250) şi din cea a celor două ecarturi-tip (612 pentru X şi 3.8 pentru Y) se
deduce existenţa unei puternice corelaţii liniare negative între cele două variabile:
 
r(X,Y) = Cov(X,Y) / (σX *σY) = -2250 / (612 * 3.8) = -0.97.
Chiar dacă se ţine seama de numărul redus de observaţii (8 staţii meteorologice, respectiv 6
grade de libertate în tabelul Bravais Pearson), această corelaţie este foarte semnificativă: este
mai puţin de o şansă la 100 ca această corelaţie puternică dintre cele două variabile să se
datoreze hazardului. Forma norului de puncte format de valorile X şi Y este de altfel perfect
liniară, ceea ce justifică căutarea unei ajustări cu ajutorul unei drepte.

Mai rămâne de determinat sensul relaţiei, adică ipoteză făcută asupra variabilei explicative
(independente) şi a variabilei de explicat (dependentă). În exemplul studiat pare natural să
presupunem că temperatura (Y) depinde de altitudine (X), şi nu invers, încât vom încerca să
estimăm temperatura în funcţie de altitudine.
 
Determinarea relaţiei inverse nu este chiar absurdă, fiindcă putem presupune că un alpinist ar
putea utiliza un termometru ca să determine altitudinea la care se află! Bineînţeles, trebuie ca în
acel moment condiţiile climatice să fie normale şi să nu fie vreo inversiune de temperatură...
1.1. Determinarea dreptei de regresie cu ajutorul criteriului celor mai mici pătrate
 
În exemplul propus, cu ajutorul diagramei de corelaţie, se poate ghici foarte uşor traseul dreptei de
regresie care va oferi cea mai bună ajustare a temperaturilor în funcţie de altitudine, însă trebuie
găsit un criteriu obiectiv pentru a se demonstra că soluţia propusă este cea mai bună posibil, criteriu
care se va putea aplica ulterior în cazul unor nori mai complecşi, pentru care determinarea dreptei de
regresie optimă este mai puţin evidentă.

Dreapta de regresie exprimând temperatura în funcţie


de altitudine pentru 8 staţii meteorologice
dintr-o vale montană (date imaginare)
Y = temperatura (°C)

X = altitudinea (metri)

t° observată t° estimată
În introducere s-a prezentat faptul că atunci când se caută exprimarea lui Y în funcţie de X, se
poate asocia fiecărei valori observate Yi o valoare estimată de dreapta de regresie Y*i=aXi+b.
Eroarea de estimare a valorii pentru individul i este prin urmare egală cu valoarea reziduului εi
definit de:
 
εi = (Yi - Y*i ) =  Yi -( aXi+b)

Cum se doreşte obţinere o ajustare globală care să fie optimă pentru ansamblul staţiilor, trebuie
definit un criteriu global care să descrie calitatea ajustării tuturor valorilor la dreapta propusă.
 
a) Prima soluţie (ERR1) care apare este minimizarea sumei reziduurilor:
 
ERR1 = min Σ ε i
 
Acest criteriu este discutabil, deoarece reziduurile pozitive şi negative (temperaturile
supraestimate sau subestimate de model) se pot compensa şi s-ar putea obţine o ajustare optimă
ERR1=0 chiar dacă dreapta nu ar trece prin toate punctele norului.

b) A doua soluţie (ERR2) constă atunci în minimizarea sumei valorilor absolute ale reziduurilor:
 
ERR2 = min Σ |εi|
 
Acest criteriu ar fi foarte bun dacă ar avea o soluţie analitică (ceea ce nu este cazul) şi dacă n-ar
cere studierea fiecărei drepte de pe plan!...
i (Xi) (Yi) (Xi-mX) (Yi-mY) (Xi-mX)(Yi-mY)
1
c) A treia soluţie (ERR3), care este cel 2000 0 în statistică,
mai des utilizată 500 -4 care conduce
este cea -2000 la criteriul
celor mai mici pătrate 2 şi care constă 1500
în minimizarea 3 sumei pătratelor
0 -1
reziduurilor: 0
3 1000 6 -500 2 -1000
 
4 500 10 -1000 6 -6000
ERR3 = min Σ(εi)2
5 1000 8 -500 4 -2000
  6 1500 5 0 1 0
Ca şi în cazul precedent,
7 criteriul este corect,
2000 deoarece
2 nu mai există
500 compensaţie
-2 între
-1000reziduurile
pozitive şi cele negative
8 iar valoare ERR3 2500 nu se anulează
-2 decât atunci când
1000 -6 toate punctele
-6000 sunt
aliniate în lungul unei
mediadrepte. Criteriul
mX = 1500 prezintămYînsă
= 4imensul avantaj
0 de a 0permite o -2250
soluţie analitică
ecartul-tip
foarte simplă. Astfel, ecuaţia dreptei 612 3.8
de regresie Y=aX+b -
care minimizează - pătratul ecarturilor
- dintre
valorile observate şi valorile estimate este obţinută foarte simplu, cu ajutorul următoarelor două
formule, care permit calcularea valorilor optime de ajustare a parametrilor dreptei:
 
Cov( X , Y ) _ _
a
 
b Y a X
( X )²

Applicate datelor din tabelul 1, aceste ecuaţii permit obţinerea parametrilor optimi de ajustare a
dreptei de regresie a temperaturii în funcţie de altitudine:
a = -2250 / (612*612) = -0.006 (°C / m)
b = 4 - (-0.006 * 1500) = 13 (°C)
 
De aici se deduce că în exemplul studiat ecuaţia generală care dă temperatura în funcţie de altitudine
este următoarea:
Temperatura (°C) = -0.006 (°C) * altitudinea (m) + 13 (°C) sau, generalizat: Y=-0,006X+13
1.2. Semnificaţia parametrilor dreptei de regresie
 
Parametrul a al dreptei de regresie indică cu cât variază în medie valoarea lui Y atunci când X creşte

Y = temperatura (°C)
sau scade cu o unitate. În exemplul studiat, valoarea lui a este egală cu -0,006 şi indică faptul că
temperatura scade în medie cu 6°C de fiecare dată când altitudinea creşte cu 1000 de metri.
Parametrul a corespunde deci a ceea ce climatologii numesc gradient termic într-o atmosferă stabilă
(fără inversiuni de temperatură). Din punct de vedere geometric, valoarea a corespunde pantei
dreptei de regresie în raport cu axa Ox.
 
Parametrul b al dreptei de regresie corespunde valorii teoretice a lui Y atunci când valoarea lui X este
0. În exemplul studiat, valoare lui b reprezintă valoarea
X = altitudinea (metri) temperaturii estimată la altitudinea 0,
respectiv ceea ce în climatologie se cheamă temperatura adusă la nivelul mării. Din punct de vedere
Y = temperatura (°C)

t° observată t° estimată
geometric, valoarea b corespunde coordonatei verticale a intersecţiei dintre dreapta de regresie
Y=aX+b şi axa Oy.
 
Interpretarea empirică a parametrilor a şi b depinde în mod evident de natura variabilelor X şi Y puse
în relaţie, însă principiile definite până aici rămân valabile în orice situaţie: a este rata de variaţie a lui
Y în funcţie de X iar b este valoarea lui Y pentru X=0.
Astfel, în cazul unei regresii temporale de tipul Y(t)=at+b, parametrul a corespunde ratei medii de
creştere (variaţia lui Y pe unitatea de timp) iar b este valoarea lui Y la momentul t=0.
X = altitudinea (metri)

t° observată t° estimată
1.3. Măsurarea calităţii ajustării unei regresii liniare
 
 
Un avantaj clar al criteriului celor mai mici pătrate este acela că el oferă estimarea calităţii ajustării unui
model de regresie bazat pe descompunerea varianţei variabilei dependente Y.
 
Se poate considera considera că informaţia oferită de o variabilă Y asupra unui ansamblu de indivizi
1...i...N este proporţională cu valoarea totală a ecarturilor care există între diferitele valori Y1...Yi...YN.
Dacă toate valorile ar fi egale, informaţia ar fi nulă şi, dimpotrivă, ea ar fi cu atât mai mare cu cât
valorile ar fi mai diferite între ele. Aplicând criteriul celor mai mici pătrate, se consideră prin urmare că
valoarea totală a cantităţii de informaţie conţinută într-o variabilă Y este proporţională varianţei sale
(σY)2.
Această cantitate totală de informaţie (varianţa lui Y) poate fi descompusă în două cantităţi
complementare: aceea care poate fi reconstituită plecând de la variabila X (adică varianţa valorilor
estimate ale lui Y) şi aceea care nu poate fi reconstituită plecând de la cunoaşterea valorilor lui X (adică
varianţa reziduurilor regresiei). Prin urmare se poate defini relaţia următoare:
informaţia totală = informaţia modelizată + informaţia reziduală, respectiv
Var (Y) = Var (Y*=aX+b) +  Var (ε)
Calitatea ajustării corespunde prin urmare raportului dintre informaţia totală asupra lui Y şi informaţia
efectiv reconstituită plecându-se de la cunoaşterea oferită de variabila X. Valoarea calităţii ajustării
oscilează între 0% (X nu aduce nici un element de previziune a valorilor lui Y) şi 100% (cunoaşterea
valorilor lui X permite previziunea exactă a valorilor lui Y) şi depinde de intensitatea corelaţiei dintre X
şi Y. Ea se poate calcula (cf. tabelului 2) sau se poate măsura direct cu ajutorul coeficientului de
determinare, adică cu pătratul coeficientului de corelaţie dintre X şi Y, respectiv r².

Calitatea ajustării = Var(Y*) / Var(Y) = [r(X,Y)]2 = coeficientul de determinare

Dacă se optează pentru calcul, se constată că varianţa temperaturilor observate (16,2) este egală cu
suma varianţei temperaturilor estimate (15,4) şi a varianţei reziduurilor (0,8). Calitatea ajustării este
egală deci cu 15.4/16.2 adică + 0.95, valoare care corespunde de asemenea cu pătratul coeficientului
de corelaţie liniară a variabilelor X şi Y: (-0.97) 2 = 0.95.
 
În exemplul studiat, cunoaşterea altitudinii permite deci prevederea a 95% din diferenţele de
temperatură dintre staţii. Informaţia reziduală (diferenţa de temperatură care nu poate fi pusă pe
seama altitudinii) este foarte redusă (5%), ceea ce semnifică faptul că importanţa altor factori care pot
genera diferenţe de temperatură între staţii este extrem de redusă.
1.4. Analiza reziduurilor unei regresii liniare
 
Chiar dacă importanţa reziduurilor unei regresii este limitată, este întotdeauna interesant să se
facă analiza lor pentru a verifica:
 
- dacă reziduurile nu arată o utilizare incorectă a modelului folosit
- dacă reziduurile nu evidenţiază existenţa altor variabile explicative decât cele reţinute.
 
Primul punct va fi dezvoltat prin studiu individual (veți avea un fișier de ajutor), prezentând în
continuare al doilea punct cu ajutorul exemplului cu temperaturile şi altitudinea.

Tabelul 2 : Analiza reziduurilor


regresiei
Temperatura = -0.006*Alt + 13
i (Xi) (Yi) Y*i=aXi+b Yi-Y*i Suma reziduurilor este nulă (proprietate a regresiei
1 2000 0 1 -1 liniare) însă constatăm că pentru 3 staţii se
2 1500 3 4 -1 înregistrează reziduuri pozitive (temperaturi reale
3 1000 6 7 -1 superioare cu 1°C celor pe care le-ar impune
4 500 10 10 0
altitudinea) iar pentru altre trei staţii se
5 1000 8 7 1
înregistrează reziduuri negative (temperaturi cu
6 1500 5 4 1
7 2000 2 1 1
1°C mai mici decât ar lăsa altitudinea să se
8 2500 -2 -2 0 prevadă).
media 1500 4 4 0  
varianţa 428571 16.3 15.4 0.9 Cum se pot interpreta aceste ecarturi?
Se poate mai întâi presupune că ecarturile la model sunt o componentă aleatoare, legată de imprecizia
instrumentelor de măsură (termometrele), însă în acest caz dispunerea spaţială a reziduurilor ar trebui
să fie aleatoare. Atunci când cartografiem reziduurile însă, constatăm că reziduurile pozitive şi negative
nu se dispun la întâmplare în spaţiu.
După cum se observă pe figură, reziduurile pozitive se
concentrează pe versantul expus spre sud (care
Figura4 : Configuraţia spaţială a reziduurilor regresiei: dispune de o însorire mai bună) în vreme ce
Temperatura= -0.006 Alt. +13 reziduurile negative se concentrează pe versantul
nordic (care are o însorire mai redusă). Staţiunile de
fund de vale sau cele din vârful munţilor au dimportivă
Reziduurile regresiei
T° = -0,006*Alt+13
reziduuri nule, respectiv o temperatură riguros
conformă modelului de previziune în funcţie de
altitudine.

De aici se deduce uşor că modelul de previziune a temperaturilor poate


fi ameliorat prin introducerea unei variabile calitative sau cantitative Z,
care descrie tipul de expunere a staţiilor în raport cu însorirea, modelul
regresiei devenind unul de tipul Y= a1X+b2Z+c, a cărui calitate de ajustare
va fi mult mai bună decât aceea care nu ia în seamă decât altitudinea şi
temperaturile. Trebuie totuşi să se verifice dacă ameliorarea introdusă
de o nouă variabilă justifică utilizarea sa, deoarece calitatea unui model
rezultă atât din puterea sa explicativă cât şi din simplitatea sa.
Introducerea a noi variabile şi verificarea utilităţii lor în model ridică
numeroase probleme teoretice şi statistice şi nu fac obiectul acestui
curs. Pentru mai multe detalii se poate consulta revista electronică
Feuilles de Géographie , în special:
Grasland C., 1995, "Modélisation et commentaire de documents :
application à l'étude des précipitations en Claifornie et des migrations
entre les villes de plus de 50 000 habitants en France", Feuilles de
Géographie, IV-1995, n°16, 20 p.
2. Aplicaţii practice ale regresiei liniare

Utilizând aceeaşi relaţie temperatură/ altitudine, vom demonstra în continuare care sunt
aplicaţiile posibile ale regresiei în geografie:
 
a) Sintetizarea
 
Problemă : să presupunem că dispunem de 100 de staţii meteorologice în Moldova, pentru
care se măsoară altitudinea în metri (X) şi temperatura medie (Y) pe tot parcursul anului. Este
cu adevărat util să se înregistreze în fiecare zi cele 100 de valori de temperatură?
 
Răspuns: observaţiile au arătat că există o corelaţie negativă puternică (-0.90) între altitudine
şi temperatură. Dreapta de regresie T°C=-0,006*Amed+10°C permite să fie rezumat esenţialul
informaţiei asupra variaţiei spaţiale a temperaturilor (-0,90*-0,90=0,81 = 81%), de îndată ce se
cunoaşte altitudinea.
 
Concluzie :  regresia permite rezumarea unui ansamblu voluminos de informaţie cu ajutorul a
doi parametri. Acest rezumat este cu atât mai valabil cu cât corelaţia este mai puternică. 
b) Modelizarea
 
Problemă : observaţiile repetate pe tot parcursul anului arată că parametrul a nu s-a
modificat deloc (-0,006) în vreme ce coeficientul b variază în funcţie de anotimp (mai mare
vara şi mai mic iarna): ce înseamnă acest lucru?

Răspuns: coeficientul a indică cu cât variază temperatura de fiecare dată când variază
altitudinea. Astfel, o variaţie de altitudine de +100 m corespunde unei scăderi a temperaturii
de -0,006*100= -0,6°C, valoare care este gradientul termic. Coeficientul b indică
temperatura corespondentă în cazul în care X (altitudinea) este 0 m, fiind deci temperatura
medie adusă la nivelul mării.
 
Concluzie :  Regresia permite sesizarea unor regularităţi/legi naturale (precum legile
climatologice de mai sus), ori a unor regularităţi socio-economice, şi mai ales modelizarea
acestora.
c) Previziunea

Problemă : dacă buletinul meteo de la ştirile TV prezintă temperaturile la nivelul mării, cum se
poate estima temperatura unui sat care se găseşte la 800 de metri altitudine?
 
Răspuns: dacă la rubrica meteo se anunţă 15°C în Moldova, ecuaţia dreptei de regresie este de
tipul T°=-0.6*Alt+15, deci temperatura va fi de aproximativ 10°C la 800 de metri altitudine.
 
Concluzie :  regresia permite extrapolarea rezultatelor obţinute pe un eşantion. 
d) Punerea în evidenţă a efectelor secundare mascate de un efect principal.
 
Problemă : dacă ecuaţia dreptei de regresie este T°=-0.6A+10 pe tot anul (r=+0.90), ce
informaţie este adusă de cartografierea reziduurilor?

Răspuns: reziduurile corespund unei proporţii de aproape 20% (fiindcă r²=+0,90*+0,90=81%)


din variaţia spaţială a temperaturilor care nu este determinată de altitudine. Ele pun prin
urmare în evidenţă microclimate cauzate de orientarea versanţilor, de vegetaţie, de
topografie, de suprafeţele acvatice, de activitatea umană, etc.:
 
- reziduurile pozitive corespund microclimatelor calde (t° mai ridicată decât ar fi lăsat
altitudinea să se prevadă);
- reziduurile negative corespund microclimatelor reci (t° mai mici decât ar fi lăsat altitudinea
să presupunem);
- reziduurile nule corespund unor temperaturi conforme celor estimate cu ajutorul altitudinii).
 
Concluzie :  Reziduurile permit descoperirea factorilor secundari ai variaţiei unui fenomen,
odată eliminat un prim efect de natură banală.