Explorați Cărți electronice
Categorii
Explorați Cărți audio
Categorii
Explorați Reviste
Categorii
Explorați Documente
Categorii
1
Definiție: un set de date statistice care se
referă la două variabile statistice
Analiza: vizează caracterizarea legăturii
dintre variabile
Metode:
◦ Regresia – explică comportamentul unei variabile în
funcție de modificările celeilalte variabile
◦ Corelația – caracterizează intensitatea și sensul
legăturii dintre variabile
Unitatea
Variabila X Variabila Y
statistica
(xi) (yi)
1
x1 y1
2
x2 y2
3
x3 y3
…
…. ….
n
xn yn
Definiţie: o relaţie matematică construită pe baza teoriei economice, care
presupune că fenomenul economic Y (fenomenul efect) este rezultatul
acţiunii a două categorii de factori:
◦ prima, constituită dintr-un singur factor principal, esenţial, determinant – X,
◦ a doua - formată din toţi ceilalţi factori – consideraţi neesenţiali, cu acţiune
întâmplătoare (specificaţi prin variabila reziduală “ε”) sau constantă,
invariabilă, asupra lui Y (şi deci nu au sens a fi specificaţi în model).
Specificarea modelului unifactorial constă în precizarea variabilei
endogene Y şi a celei exogene X, pe baza teoriei economice; ca orice
ipoteză teoretică, ea poate fi adevărată sau falsă.
◦ y = f(x) + ε
Identificarea modelului constă în alegerea unei funcţii (sau a unui grup
de funcţii) matematice, cu ajutorul căreia se urmăreşte să se descrie
valorile variabilei endogene, doar în funcţie de variaţia variabilei exogene
X. Identificarea modelului se poate face prin: • procedeul grafic; •
procedeul conservării ariilor; • procedeul calculelor algebrice.
4
1 factor esențial Factori neesențiali
(variabila (variabila reziduală,
independentă X) aleatoare ɛ)
5
Scop:
Explică comportamentul unei variabile
dependente în funcție de variația valorilor
unei variabile independente, pe baza unui
model matematic numit model de regresie.;
Permite previzionarea unei noi valori a
variabilei effect Y;
Permite ajustarea şi controlul variabile efect,
prin intervenţia asupra variabilei cauză
Presupune stabilirea relației de cauzalitate
6
Keynes: C=f(V)
Suma cheltuită pentru consum depinde de:
◦ mărimea venitului (V)
◦ prețuri, tarife
◦ alte obiective în funcţie de circumstanţe (de exemplu investiţiile)
◦ alte nevoi subiective
Legea psihologică fundamentală: „o persoană este dispusă de
regulă şi în medie să îşi crească consumul odată cu creşterea
venitului dar nu în aceeaşi măsură”
Presupunerea cea mai simplă: C=+V, 0<<1 este o relaţie
deterministă neadecvată.
În model trebuie inclus şi factorul aleator:
C=f(V,)
Modelul cel mai simplu:
C=+V+
7
8
9
1
0
y=a+bx Y
1000
1 a + be x
y=a+bz, z=ex
a + b
x
y=a+br, r=1/x
800
y=a+bq, q=ln(x) 600
a + bx
Sau
400
y=αx ln(y)=+ln(x) 200
Forma generală: a + b ln ( x )
f(yi)= +g(xi)+i
0
-1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X
y = +
+x
nu poate fi transformat în
-400
model liniar.
Modele ce pot fi linearizate
11
Modelul probabilistic la populației totale:
yi = 0 + 1 xi + i
unde
(xi,yi) reprezintă valorile numerice ale variabilelor cauză şi
efect înregistrate la nivelul unităţii statistice „i”;
β0, β1 = parametri constanţi
β0 = interceptie= punctul de intersecţie al dreptei de regresie
cu axa Oy;
β1 = panta dreptei, se mai numeşte şi „coeficient de regresie”
şi arată cu câte unităţi de măsură se modifică Y dacă X se
modifică cu o unitate de măsură;
ɛi = componenta reziduală (eroare aleatoare) pentru unitatea
statistică „i”.
1
2
Valoarea reală yi a caracteristicii Y din modelul
probabilistic cuprinde:
- componenta teoretică, deterministă ( ŷi ), adică
partea din valoarea reală yi care se poate
determina pe baza modelului pentru o anumită
valoare xi:
yˆ i = 0 + 1 xi (Ecuația de regresie liniară)
- componenta aleatoare (reziduală), numită şi
eroarea aleatoare, (ɛi), reprezentând acea parte
din valoarea reală a lui Y care nu se poate
cuantifica.
yi = yˆ i + i
1
3
Dacă datele disponibile provin dintr-un eşantion, avem n
perechi de observaţii reale: (x1,y1), (x2, y2), ... , (xn, yn), pe
baza cărora se vor estima parametrii ecuaţiei, β0 şi β1.
Modelul de regresie în eşantion va fi:
yi = b0 + b1 xi + ei
ei = y i − yˆ i
yˆ i = b0 + b1 xi
unde:
◦ b0 = estimatorul parametrului β0 din pop. Totală (interceptie);
◦ b1 = estimatorul parametrului β1 din pop. Totală (panta);
◦ ei = valoarea reziduală pt. unitatea “i” în eşantion.
14
15
Estimarea parametrilor modelului se poate face prin
următoarele metode:
◦ Metoda punctelor empirice
◦ Metoda punctelor medii
◦ Metoda celor mai mici pătrate
◦ Metoda celor mai mici pătrate generalizată
◦ Metoda verosimilităţii maxime cu informaţie limitată sau completă
Metoda celor mai mici pătrate presupune maximizarea
similitudinii, a gradului de asemănare a valorilor teoretice cu
valorile reale, deci minimizarea erorilor. Cum erorile se pot
produce intr-un sens sau în altul faţă de valorile reale, ea
presupune minimizarea sumei pătratelor reziduurilor (sau
erorilor):
16
Erorile pot fi pozitive sau negative, dupa cum
punctele sunt situate deasupra sau dedesubtul
dreptei de regresie
y1 − ŷ1 y 3 − ŷ 3
y 2 − ŷ 2
0
x1 x2 x3 X
17
S = ei2 = ( yi − yˆ i ) = ( yi − b0 − b1 xi ) → minim
2 2
S
b = 0 2( yi − b0 − b1 xi )(− 1) = 0 yi − nb0 − b1 xi = 0
0
S
=0 2 ( y i − b0 − b1 xi )(− xi ) = 0 xi y i − b0 xi − b1 xi
2
=0
b1
nb0 + b1 xi = yi
b0 xi + b1 xi = xi yi
2
18
Aplicând metoda determinanţilor, se obţine:
b0 =
yi x i
b1 =
n y i
x y x
i i
2
i x i x y
i i
=
n x i
xi x 2
i
b0 =
b0
=
i i − xi xi yi
y x 2
n xi2 − ( xi )
2
b1 n xi yi − xi yi
b1 = =
n xi − ( xi )
2 2
19
Rămâne de verificat dacă este verificată condiţia de ordin 2, adică soluţia găsită este un
punct de minim. Matricea derivatelor parţiale de ordin doi trebuie să fie pozitiv
definită:
2 (S ) 2 (S )
2 2 2n 2 xi
2 b0 b0 b1
= i
(S ) ( S ) 2 xi
2
2 xi2
b b 2 2 i
b1
i
1 0
2 n 0
2
2 xi 0
i
2 2 2
4n xi − 4( xi ) = 4n ( xi − x) 0
i i i
Deci matricea este pozitiv definita.
20
“b1” se mai poate scrie:
x y − x y
i i i i
b1 n xi yi − xi yi n n n xy − x y
b1 = = = =
n xi − ( xi ) xi − xi i − x2
2 2 2 2 2
x
n n
n
Numărătorul lui “b1” este:
cov( x, y ) = xy − x y =
x y x y
−
i
i i i
n n n
Numitorul lui “b1” este:
xi
2
x 2
= −
2 i
s x
n n
21
Deci “b1” se mai poate scrie: b = cov(x, y )
1 2
sx
Din expresia coeficientului de corelaţie:
cov( x, y ) s x2 sx
rxy = = b1 = b1
sx s y sx s y sy
Rezultă deci că:
sy
b1 = rxy
sx
22
Semnul lui b1 arată direcția sau sensul legăturii
𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥 𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥
𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥 𝑏1 < 0 𝑏1 = 0
𝑏1 > 0
Linii de regresie cu
a) pantă pozitivă
b) pantă negativă
23
c) pantă egală cu zero
Semnificația estimatorului Intercept (b0)
◦ Reprezintă valoarea medie a variabilei dependente
Y, la o valoare a variabilei independente X egală cu
0
Semnificația estimatorului Pantă (b1)
◦ Arată cu câte u.m. se modifică, în medie Y dacă X se
modifică cu 1 u.m.
◦ Semnul său indică direcția sau sensul legăturii:
b1 >0 legătură liniară directă
b1 <0 legătură liniară inversă
b1 =0 lipsa legăturii liniare (variabile necorelate linear)
24
Sistemul de ecuaţii normale are următoarele
proprietăţi:
(y i − yˆ i ) = 0 (ei ) = 0 (ei ) = 0
(y i − yˆ i ) = 0 yˆ i y i
26
3. Valorile variabilei reziduale εi urmează o distribuţie
normală, de medie zero ( ( i ) = 0, i = 1, n ) şi dispersie
constantă şi nenulă, pentru toate valorile Xi:
2 0 2 = const i = 1, n
(homoscedasticitatea erorilor).
Cu alte cuvinte, întrucât distribuţia variabilei reziduu
este independentă de valorile variabilelor explicative, nici
dispersia perturbaţiei nu diferă semnificativ în raport cu
valorile Xi, ceea ce indică o stabilitate relativă a legăturii
dintre variabila rezultativă şi variabilele factoriale.
27
28
Dispersia reziduurilor a) constantă; b) variabilă
29
Homoscedasticitatea erorilor
30
Heteroscedasticitatea erorilor
31
- crearea bazei de date
- realizarea si interpretarea corelogramei
- estimarea parametrilor modelului de
regresie liniara
Un specialist în marketing dorește să studieze legătura dintre vânzările unei firme
producătoare de mobilă și cheltuielile cu reclama și publicitatea. Pentru aceasta sunt
înregistrate valorile celor două variabile pentru 24 de perioade consecutive (u.m.).
Se cere:
a) Să se analizeze legătura dintre cele două variabile utilizând metoda grafică.
b) În ipoteza unei legături liniare, să se determine ecuația de regresie liniară în eșantion și
să se interpreteze valorile estimatorilor b0 și b1 ai parametrilor modelului.
c) Să se arate dacă punctul de coordonate (4.2, 12.3) aparține dreptei de regresie. Care este
eroarea în acest caz?
d) Să se previzioneze valoarea vânzărilor, dacă s-au cheltuit 6 u.m. cu reclama și
publicitatea.
32
Crearea bazei
de date
-Structurarea bazei de
date
- Popularea bazei de date
33
34
CORELOGRAMA (SCATTER PLOT)
Legătură liniara
directa
35
Corelograma (digrama norului de puncte,
diagrama de împrăștiere)
Indică:
◦ existența
◦ direcția legăturii dintre variabile
◦ forma
Existența legăturii
Legătură Legătură
directă inversă
Forma legăturii
Legătură
liniară Legături neliniare
38
39
40
Interpretarea estimatorilor
parametrilor modelului
Interpretari:
b0 = 6.581 inseamna ca: dacă cheltuielile cu publicitatea
sunt 0, atunci valoarea medie a vânzărilor ar fi de 6.581
u.m.
41
xi=4.2, yi=12.3
Dacă acest punct aparține dreptei, atunci el
îndeplinește condiția: yi= 𝑦ො𝑖
Aceasta înseamnă că:
12.3 = 6.581 + 1.072 ⋅ 4.2
12.3 = 11.08 𝐹𝐴𝐿𝑆
Punctul nu aparține dreptei de regresie
Eroarea 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 =12.3-11.08=1.22
42
Se consideră xi=6 și se înlocuiește în relația:
𝑦ො𝑖 = 6.581 + 1.072 ⋅ 𝑥𝑖
𝑦ො𝑖Τ𝑥𝑖 =6 = 6.581 + 1.072 ⋅ 6 = 13.01 𝑢𝑚
43
44
45
46
47
48