Sunteți pe pagina 1din 28

REGRESIE SI CORELATIE

1
Regresia – scurt istoric al termenului
• Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei
victoriene, fiind cel care a introdus termenii de regresie şi corelaţie
statistică
• Originea regresiei ca metodă statistică se află în studiile sale de genetică
aplicată în studiul plantelor- 1877
• Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că există o
legătură liniară între diametrele acestor boabe şi diametrele boabelor
recoltate de la noile plante. El a numit iniţial panta acestei drepte
“coefficient of reversion”, schimbîndu-i apoi numele în “coefficient of
regression”.
• Termenul de regresie provine de la descoperirile sale în domeniul
eredităţii: în general, progeniturile indivizilor geniali au abilităţi care îi aşază
mai degrabă la nivelul mediei; de asemenea, înalţimea copiilor proveniţi
din taţi foarte înalţi se apropie mai mult de înălţimea medie decît înălţimea
taţilor.
2
Modele
• Un model este o reprezentare a unui anumit fenomen
• Model matematic - o reprezentare matematică a unui
fenomen
• De cele mai multe ori un model descrie legăturile
existente între două sau mai multe variabile
• În general, sînt două clase de modele:
– Modele deterministe
– Modele probabiliste

3
• Modele deterministe • Modele probabiliste
– Exprimă o relaţie – Componenta deterministă
exactă între variabile – Componenta aleatoare
– Teoretic, eroarea de – Eroarea de previziune este
previziune este nulă nenulă
– Componenta aleatoare
– Exemplu: poate fi datorată factorilor
Principiul al doilea al obiectivi, ce nu sînt incluşi
mecanicii newtoniene: în model
F = m.a – Exemplu: Volumul
vînzărilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare 4
Tipuri de modele probabiliste

Probabilistic
Modele
Probabilistic
Models
Models
probabiliste

Modele de
Regression
Regression Modele de
Correlation
Correlation Alte
Other
Other
Models
regresie
Models Models
corelatie
Models Models
Models
modele

5
Regresia – metodă de modelare a legăturilor dintre variabile

• În general, orice fenomen este rezultatul acţiunii unuia


sau mai multor factori
• Exprimarea matematică:
Y = f ( X 1 , ..., X n ) + ε

Variabila Variabile Variabila


dependentă independente reziduală
(variabila (variabile
endogenă) exogene/explicative)

6
Exemplu: Legea lui Keynes privind legătura dintre
venit şi consum
• Suma cheltuită pentru consum depinde de:
– mărimea venitului pe de o parte
– alte obiective în funcţie de circumstanţe (de exemplu
investiţiile)
– alte nevoi subiective
• „O persoană este dispusă de regulă şi în medie să îşi crească
consumul pe măsura creşterii venitului dar nu în aceeaşi măsură”
dC
0< <1
dV

• Modelul de regresie: C=α+βV+ε , unde 0<β<1 .


7
Ipotezele modelului de regresie
(Ipotezele Gauss-Markov)

• 1. Normalitatea
– Valorile Y sînt normal distribuite pentru orice X
– Erorile sînt normal distribuite cu medie zero E(εi)=0 ∀i
• 2. Homoscedasticitatea (dispersie constantă) (ε i ) σ
2 2
E =

• 3. Necorelarea erorilor E(εi εk)=0 (i<>k)


• 4. Liniaritatea Y i = α + β X i
• 5. Variabilele sînt măsurate fără eroare
– (caracter nestochastic) Cov( Xi , ε j ) = 0, ∀i, j
8
Forma funcţională
• Ipoteza de linearitate nu este atât de restrictivă pe cât pare.
Aceasta se referă la felul în care parametrii intră în ecuaţie, nu
neapărat la relaţia între variabilele x şi y.
• În general modele pot fi linearizate.
• y=a+bx
• y=a+bz, z=ex
• y=a+br, r=1/x
• y=a+bq, q=ln(x)
y= α xβ ⇒ ln(y)=α+βln(x)
• Forma generală: f(yi)= α+β
βg(xi)+εεi
1
• Contra exemplu: y = α + nu poate fi transformat în
model liniar. β+x
9
Modele ce pot fi linearizate
Y
1000

 1  x
a + b  a + be
 x 
800

600

a + bx
400

200

a + b ln (x )
0
-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X

-200

-400

10
• Ipoteza că media erorilor este zero: E(εεi)=0 ∀i, este
naturală atâta timp cât ε este văzută ca suma efectelor
individuale, cu semne diferite. Dacă media erorilor este diferită
de zero, ea poate fi considerată ca o parte sistematică a
regresiei: µ ⇒ α + βx + ε = (α
E(εε)=µ α+µ
µ) + βx + (εε-µ
µ)
media erorilor fiind acum nulă.
σ2
• Ipoteza de homoscedasticitate: Var(εεi)=σ
constantă ∀i
• Se consideră un model care descrie consumul unor gospodării
în funcţie de venitul acestora. În acest caz, consumul
gospodăriilor mari pot varia mult mai mult faţă de consumul
gospodăriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectată.
11
Exemplu de încălcare a ipotezei de
homoscedasticitate
Functia de consum
1200

1000

800
consum

600

400

200

0
200 300 400 500 600 700 800 900 1000
venit

12
• Necorelarea erorilor: E(εεiεεj)=0 ∀i≠
≠j
Această ipoteză nu implică faptul că yi şi yj sunt necorelate,
ci faptul că deviaţiile observaţiilor de la valorile lor aşteptate
sunt necorelate.
• σ 2)
Ipoteza de normalitate a erorilor εi ∼N(0,σ
Este o ipoteză de lucru, tehnică, ce permite obţinerea unor
estimatori “buni”.
• Dacă ipotezele precedente sînt respectate, vom
obţine estimatori B.L.U.E. (Best Linear Unbiased
Estimators)

13
Ipotezele de normalitate şi
homoscedasticitate
f(e)

Y
X1
X2
X

14
Variaţia erorilor în jurul dreptei de
regresie
Valorile y sînt normal distribuite
în jurul dreptei de regresie.
f(e)
Pentru fiecare valoare x, dispersia
în jurul dreptei de regresie este
constantă.

Y
X2
X1
X Dreapta de regresie
15
Clasificarea modelelor de regresie
1 Variabilă Modele 2+ Variabile
explicativă de regresie explicative

Simple Multiple

Non- Non-
Linear Linear
Linear Linear

16
Tipuri de modele de regresie
Legătură liniară directă Legătură neliniară

Legătură liniară inversă Absenţa vreunei legături

17
Modelul de regresie liniară simplă

18
Exemplu
practic
• Există o legătură între suprafaţa
unor apartamente din zona
centrală şi preţul de închiriere a
acestora?
• Selectăm aleator 25 de astfel de
apartamente la care urmărim
valorile celor două variabile X –
suprafaţa(m2) şi Y – chiria
lunară(RON).

19
Regresia folosind EXCEL
Accesăm meniul TOOLS>DATA ANALYSIS>REGRESSION

20
Regresia folosind EXCEL
Selectăm valorile variabilelor

21
22
Corelograma(Scatter plot)
• Graficul punctelor de coordonate (Xi,Yi), i=1,n.
2500

2000
Chiria(RON)

1500

1000

500

0
0 50 100 150 200 250
Suprafata(m2)
23
Modelul de regresie liniară simplă
 Pe baza corelogramei este rezonabil să presupunem că media
variabilei Y depinde de X printr-o relaţie liniară:

 Atunci modelul de regresie liniară simplă este dat de relaţia


următoare:
Y intercept (termenul constant)
Variabila
de
Yi = β 0 + β 1 X i + ε i perturbaţie

Variabila
Variabila independentă
dependentă Panta dreptei de
(răspuns) (explicativă)
regresie 24
Media şi dispersia variabilei dependente

Dacă presupunem că media şi dispersia lui ε sînt 0 şi σ2,


atunci media lui Y pentru o valoare particulară a lui X
este dată de relaţia:

Dispersia lui Y pentru o valoare particulară a lui X


este dată de relaţia:

25
• La nivelul populaţiei regresia se reduce la exprimarea
mediei condiţionate a lui Y:

unde β1 are semnificaţia unui coeficient de


elasticitate: arată modificarea lui Y la o modificare cu
o unitate a lui x.
• De asemenea, variabilitatea lui Y pentru o valoare
particulară x este determinată de dispersia variabilei
reziduale, σ2.
• Există o distribuţie a valorilor lui Y pentru fiecare x
şi dispersia acestei distribuţii este constantă pentru
26
orice x.
Distribuţia condiţionată a lui Y
Dreapta de regresie
Y

X
27
• Aplicatie elevii
• Clasa a XII-a
• Realizat elevii :
• Pop Adrian
• Cot Raluca
• Colegiul Economic ,,Nicolae Titulescu”
• Baia Mare
28

S-ar putea să vă placă și