Documente Academic
Documente Profesional
Documente Cultură
1
Regresia – scurt istoric al termenului
• Sir Francis Galton(1822-1911) – spirit enciclopedic al perioadei
victoriene, fiind cel care a introdus termenii de regresie şi corelaţie
statistică
• Originea regresiei ca metodă statistică se află în studiile sale de genetică
aplicată în studiul plantelor- 1877
• Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că există o
legătură liniară între diametrele acestor boabe şi diametrele boabelor
recoltate de la noile plante. El a numit iniţial panta acestei drepte
“coefficient of reversion”, schimbîndu-i apoi numele în “coefficient of
regression”.
• Termenul de regresie provine de la descoperirile sale în domeniul
eredităţii: în general, progeniturile indivizilor geniali au abilităţi care îi aşază
mai degrabă la nivelul mediei; de asemenea, înalţimea copiilor proveniţi
din taţi foarte înalţi se apropie mai mult de înălţimea medie decît înălţimea
taţilor.
2
Modele
• Un model este o reprezentare a unui anumit fenomen
• Model matematic - o reprezentare matematică a unui
fenomen
• De cele mai multe ori un model descrie legăturile
existente între două sau mai multe variabile
• În general, sînt două clase de modele:
– Modele deterministe
– Modele probabiliste
3
• Modele deterministe • Modele probabiliste
– Exprimă o relaţie – Componenta deterministă
exactă între variabile – Componenta aleatoare
– Teoretic, eroarea de – Eroarea de previziune este
previziune este nulă nenulă
– Componenta aleatoare
– Exemplu: poate fi datorată factorilor
Principiul al doilea al obiectivi, ce nu sînt incluşi
mecanicii newtoniene: în model
F = m.a – Exemplu: Volumul
vînzărilor=10 * Cheltuielile
cu publicitatea +
Componenta aleatoare 4
Tipuri de modele probabiliste
Probabilistic
Modele
Probabilistic
Models
Models
probabiliste
Modele de
Regression
Regression Modele de
Correlation
Correlation Alte
Other
Other
Models
regresie
Models Models
corelatie
Models Models
Models
modele
5
Regresia – metodă de modelare a legăturilor dintre variabile
6
Exemplu: Legea lui Keynes privind legătura dintre
venit şi consum
• Suma cheltuită pentru consum depinde de:
– mărimea venitului pe de o parte
– alte obiective în funcţie de circumstanţe (de exemplu
investiţiile)
– alte nevoi subiective
• „O persoană este dispusă de regulă şi în medie să îşi crească
consumul pe măsura creşterii venitului dar nu în aceeaşi măsură”
dC
0< <1
dV
• 1. Normalitatea
– Valorile Y sînt normal distribuite pentru orice X
– Erorile sînt normal distribuite cu medie zero E(εi)=0 ∀i
• 2. Homoscedasticitatea (dispersie constantă) (ε i ) σ
2 2
E =
1 x
a + b a + be
x
800
600
a + bx
400
200
a + b ln (x )
0
-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X
-200
-400
10
• Ipoteza că media erorilor este zero: E(εεi)=0 ∀i, este
naturală atâta timp cât ε este văzută ca suma efectelor
individuale, cu semne diferite. Dacă media erorilor este diferită
de zero, ea poate fi considerată ca o parte sistematică a
regresiei: µ ⇒ α + βx + ε = (α
E(εε)=µ α+µ
µ) + βx + (εε-µ
µ)
media erorilor fiind acum nulă.
σ2
• Ipoteza de homoscedasticitate: Var(εεi)=σ
constantă ∀i
• Se consideră un model care descrie consumul unor gospodării
în funcţie de venitul acestora. În acest caz, consumul
gospodăriilor mari pot varia mult mai mult faţă de consumul
gospodăriilor cu venituri mici. Deci ipoteza de
homoscedasticitate nu este respectată.
11
Exemplu de încălcare a ipotezei de
homoscedasticitate
Functia de consum
1200
1000
800
consum
600
400
200
0
200 300 400 500 600 700 800 900 1000
venit
12
• Necorelarea erorilor: E(εεiεεj)=0 ∀i≠
≠j
Această ipoteză nu implică faptul că yi şi yj sunt necorelate,
ci faptul că deviaţiile observaţiilor de la valorile lor aşteptate
sunt necorelate.
• σ 2)
Ipoteza de normalitate a erorilor εi ∼N(0,σ
Este o ipoteză de lucru, tehnică, ce permite obţinerea unor
estimatori “buni”.
• Dacă ipotezele precedente sînt respectate, vom
obţine estimatori B.L.U.E. (Best Linear Unbiased
Estimators)
13
Ipotezele de normalitate şi
homoscedasticitate
f(e)
Y
X1
X2
X
14
Variaţia erorilor în jurul dreptei de
regresie
Valorile y sînt normal distribuite
în jurul dreptei de regresie.
f(e)
Pentru fiecare valoare x, dispersia
în jurul dreptei de regresie este
constantă.
Y
X2
X1
X Dreapta de regresie
15
Clasificarea modelelor de regresie
1 Variabilă Modele 2+ Variabile
explicativă de regresie explicative
Simple Multiple
Non- Non-
Linear Linear
Linear Linear
16
Tipuri de modele de regresie
Legătură liniară directă Legătură neliniară
17
Modelul de regresie liniară simplă
18
Exemplu
practic
• Există o legătură între suprafaţa
unor apartamente din zona
centrală şi preţul de închiriere a
acestora?
• Selectăm aleator 25 de astfel de
apartamente la care urmărim
valorile celor două variabile X –
suprafaţa(m2) şi Y – chiria
lunară(RON).
19
Regresia folosind EXCEL
Accesăm meniul TOOLS>DATA ANALYSIS>REGRESSION
20
Regresia folosind EXCEL
Selectăm valorile variabilelor
21
22
Corelograma(Scatter plot)
• Graficul punctelor de coordonate (Xi,Yi), i=1,n.
2500
2000
Chiria(RON)
1500
1000
500
0
0 50 100 150 200 250
Suprafata(m2)
23
Modelul de regresie liniară simplă
Pe baza corelogramei este rezonabil să presupunem că media
variabilei Y depinde de X printr-o relaţie liniară:
Variabila
Variabila independentă
dependentă Panta dreptei de
(răspuns) (explicativă)
regresie 24
Media şi dispersia variabilei dependente
25
• La nivelul populaţiei regresia se reduce la exprimarea
mediei condiţionate a lui Y:
X
27
• Aplicatie elevii
• Clasa a XII-a
• Realizat elevii :
• Pop Adrian
• Cot Raluca
• Colegiul Economic ,,Nicolae Titulescu”
• Baia Mare
28