Documente Academic
Documente Profesional
Documente Cultură
Modelul de Regesie Liniara Simpla (Unifactorial)
Modelul de Regesie Liniara Simpla (Unifactorial)
Modelul de Regesie Liniara Simpla (Unifactorial)
Adrian DUA
Universitatea din Bucureti
Facultatea de Sociologie i Asisten Social
Cuprins
1
1.1
Prezentare general . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2
Funcii liniare . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3
. . . . . . . . . . . . . . . . . . . . . .
1.4
1.5
De la corelaie la regresie
1.6
1.7
1.8
1.9
Asumpiile regresiei
. . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . .
r2
. . . . . . . . . . . . . .
9
11
16
. . . . . .
18
. . . . . . . . . . . . . . . . . . . . . . . . .
22
. . . . . . . . . . . . . . . . . . . .
28
29
Capitolul 1
Y,
X1 ...Xk
Fiind inuenat
variabil dependent.
Vom denumi variabilele noastre astfel:
venitul persoanei (msurat n lei, este o variabil raport, meVENIT
VRST
EDUCAIE
SEX
VECHIME
VRST
EDUCAIE
EROARE
VENIT
SEX
VECHIME
Modelul matematic general folosit pentru regresie este o simpl ecuaie matematic de gradul I:
Y = + 1 X1 + 2 X2 + + k Xk +
y = a + b1 x1 + b2 x2 + + bk xk + e
b1...k
Variabila dependent trebuie s e ntotdeauna o variabil metric (n consecin, msurat la nivel interval ori raport). Variabilele independente pot att
metrice, ct i variabile ctive (denumite dummy, variabile binare codicate
sau
1;
IMPORTANT!
O prim observaie pe care o putem face n acest moment este c termenul
parametrului
coecienilor
Coecientul de regresie este constanta (sau coecientul) cu care se nmulete variabila independent pentru a genera un efect asupra variabilei
dependente.
Eroarea este efectul total (efectul tuturor fenomenelor care acioneaz asupra variabilei dependente) minus efectul variabilelor independente (cu alte
cuvinte, partea din efectul total pe care variabilele independente nu o
explic). Aceast eroare are dou componente care se nsumeaz:
a) o component n care intr efectele altor variabile care au o inuen semnicativ asupra dependentei, care nu au fost specicate n
ecuaia de regresie i
b) o component de efect haotic, generat de natura absolut imprevizibil a fenomenelor n general i a comportamentelor umane n
particular (oamenii nu vor aciona niciodat cu toii dup acelai
tipar).
b1 VRST
b2 EDUCAIE
b3 SEX
b4 VECHIME
Atunci cnd n
Cu
funcie
Termenul de
x,
atunci spunem c
x:
este funcie de
y = f (x)
Un exemplu de astfel de funcie este
cu o unitate,
valorii lui
= 1,5x
1.5
2.0
2.5
3.0
-0.5
-2.0
-1.5
-1.0
2.5
2.0
1.5
0.0
-3.0
0.5
-2.5
1.0
0.5
0.0
3.0
0.0
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Gracul acestei expresii va arta ntotdeauna o linie dreapt care va trece ntotdeauna prin punctul de origine.
y = 2x,
crete cu o unitate,
panta dreptei.
coecientului
b,
va crete cu dou
x cu o
y /x (n cazul acesta egal cu 2); aceasta se mai
0x
i pe
0y .
funcii care au aceeai pant, ns doar una din ele trece prin punctul de origine.
Funcia
intersecteaz axa
funcia
y = 0, 5x
2.5
3.0
1.0
1.5
2.0
y = 1,5 + 0,5 x
0.0
0.5
y = 0,5 x
0.0
0.5
1.0
1.5
2.0
2.5
3.0
y = a + bx,
unde
sunt constante.
Constanta
se schimb
determin
liber.
n
Figura 1.2 i Figura 1.4, toate dreptele sunt orientate n sus; aceasta
a lui
y.
Figura 1.3 arat o dreapt orientat n jos, astfel c orice cretere cu o unitate
a lui
y = 1 + 0x
1.0
0.5
0.0
1.5
2.0
2.5
3.0
0.0
0.5
1.0
1.5
X
2.0
2.5
3.0
x = 1 y = 1 + 01 = 1. Cnd x = 2 y = 1 + 02 = 1. Oricare ar
x, ntotdeauna y va egal cu 1. Orice schimbare a lui x nu va
produce nici un fel de schimbare a lui y . n acest caz, x i y nu au nici un fel
Cnd
valoarea lui
x.
n funcie
Cu ct numrul
total de membri n familie este mai mare, cu att numrul de copii minori este
mai mare.
Unele familii au mai muli copii minori, altele mai puini.
Numrul de copii
9
8
1
10
11
12
13
14
0x
i valoarea 4 pe axa
0y .
Acelai lucru se
y = a + bx
(1.1)
care este o funcie liniar i ceea ce numim un model determinist (ofer o relaie
exact ntre
y;
y = a + bx + e
(1.2)
x i y ;
cazul funciilor liniare, ci una cu un grad mai mic sau mai mare de probabilitate.
Predicia pe axa
axa
0x,
0y
dou variabile se numete covariaie iar aceasta are o msur care se numete
covarian (aa cum variana este o msur a variaiei).
Covariana poate uor calculat cu urmtoarea formul:
n
X
cov(x, y) =
(x x
)(y y)
i=1
(1.3)
n2
1.
ntr-o
pereche de variabile, una este cauza celeilalte, iar variaia comun este generat
de relaia cauz-efect; 2. exist variaie comun a celor dou variabile ns nici
una nu este cauza celeilalte. Un exemplu pentru al doilea caz este
Figura 1.7,
care prezint vrstele a 150 de cupluri cstorite, eantionate aleator din baza
de date a Barometrului de Opinie Public mai 2003. Norul de puncte descrie
o form eliptic, alungit, care aproximeaz o funcie cresctoare (valorile lui
cresc odat cu cele a lui
x).
70
60
50
40
10
20
30
Vrsta soiei
80
90
10
20
30
40
50
60
70
80
90
Vrsta soului
Mrimea numeric a covarianei nu are nici o semnicaie direct pentru persoana care analizeaz datele. Aceasta se ntmpl pentru c cele dou variabile
au, n general, uniti de msur diferite.
z,
n
X
cov(x, y)
=
=
sx sy
rxy
(xi x
)(yi y)
i=1
(1.4)
sx sy (n 2)
n
X
xi x
yi y
rxy =
sx
sy
sy
n2
v n
uX
u
(xi x
)2
u
t
i=1
sx =
unde
sx
i=1
n1
iar
Observai mprirea la
sy =
x,
v n
uX
u
(yi y)2
u
t
i=1
n1
respectiv
y.
rxy = ryx
x.
1.5), o
Figura 1.2),
Figura 1.3).
IMPORTANT!
n practic, cele trei valori nu vor ntlnite niciodat, pentru c ele sunt
specice doar funciilor liniare, unde nu exist nici o variaie a lui
o anumit valoare a lui
lui
y.
pentru
1, e foarte aproape de 0.
+0, 97
indic o relaie
0, 08
indic
i vice-versa.
cauz i care este efect, n cazul n care exist o relaie de cauzalitate ntre cele
dou.
n exemplul de la
tip cauz-efect. Care dintre ele este considerat variabil dependent (variabila
efect) i care independent (variabila cauz) este o problem de interpretare
teoretic.
Oamenii de tiin sunt interesai de mult vreme de problema prediciei. Predicia se poate realiza atunci cnd avem informaii despre un fenomen. Studiul
corelaiei este un prim pas n acest sens. Dac ntre dou variabile nu exist
nici un fel de (co)relaie, nu putem prezice absolut nimic despre valoarea uneia
folosind o valoarea a celeilalte. Dac dimpotriv, ntre cele dou variabile exist
o corelaie, putem prezice cu o precizie mai mic sau mai mare valoarea uneia
folosind-o pe cealalt. n cazul unei corelaii aproape de maxim (+1 sau
1)
y = a + bx + e
unde
0y ), b
= a + b1 VRST + e
10
IMPORTANT!
O alt observaie pe care o putem face n acest moment este c regresia liniar
simpl se poate utiliza dac i numai dac norul de puncte aproximeaz o
form liniar. Dac norul de puncte aproximeaz o form ne-liniar, se aplic
alte tipuri de regresie. Aceasta este prima dintr-un ir de asumpii / condiii
ale acestui tip de analiz, pe care le vom discuta n detaliu mai trziu.
Dei norul de puncte se supune ecuaiei de mai sus, n practic noi nu cunoatem
niciodat mrimea numeric a erorii; putem doar s estimm ct de mare este
efectul acesteia asupra variabilei dependente. ntrebarea natural care decurge
Cum reuim s prezicem valoarea lui y , folosind ecuaia de regresie, dac nu cunoatem mrimea erorii?
este:
y = a + bx
unde notm cu
y valoarea
(1.5)
prezis.
Nici nu putem
1.1).
Cheltuieli
2,7
1,3
1,7
3,7
2,7
1,8
1,2
4,6
3,8
10
1,7
1,3
Unele gospodrii cheltuiesc mai puin dect au ctigat, altele mai mult (folosind
economii). Toate perechile de puncte sunt prezentate n
11
(termenul liber) i
3
2
0
Cheltuieli
Venituri
0y )
y ).
prezise (notate cu
y).
Val-
Figura 1.9
12
3
2
0
Cheltuieli
Venituri
Cea mai bun predicie este cea care d cele mai mici erori.
n
X
ei =
i=1
n
X
(yi y) = 0
(1.6)
i=1
a dreptei n jos ar micora suma erorilor pentru c cele mai multe din valorile
observate se a sub dreapt. n modul, o coborre a dreptei ar micora suma
erorilor (comparativ cu dreapta prezentat), ns erorile de deasupra dreptei ar
mai mari. Acest lucru slbete predicia; de aceea este preferat ridicarea la
ptrat a erorilor nainte de a le aduna.
S ne reamintim ns de formula varianei, care elimina efectul semnelor negative
i pozitive prin ridicarea la ptrat a distanelor de la valoare la medie.
Vom
aplica acelai principiu i n cazul regresiei: ridicm la ptrat toate aceste erori
(distane) i le adunm, iar suma acestora trebuie s e un numr minim.
n
X
i=1
e2i =
n
X
(yi y)2
(1.7)
i=1
b,
n
P
b=
13
(xi x
)(yi y)
i=1
n
P
(1.8)
(xi x
)2
i=1
a = y b
x
(1.9)
b,
b = rxy
sy
sx
(1.10)
IMPORTANT!
Coecientul de regresie
este dependent i o
ar variabil dependent.
rxy = b
sx
sy
sx
sy
ale acestora ar
rxy = b
coecientul de corelaie este un coecient de
regresie standardizat.
n practic, nimeni nu mai calculeaz valorile coecienilor
n acest fel.
Apariia calculatoarelor personale cu o putere de calcul extrem de mare a automatizat obinerea acestor cifre, astfel c pot obinute ntr-o fraciune de
secund prin selectarea unei comenzi ntr-un program statistic cum este SPSS.
Totui, dei calculele se fac automat, cunoaterea formulelor de baz este necesar pentru a nelege logica metodei i condiiile ei de aplicare.
n cazul nostru,
= 0,89 i
y = 0, 89 + 0, 47 x
Pentru ecare gospodrie, valoarea real (observat) este obinut cu ecuaia 1.2:
y = a + bx + e
14
2, 7 = 0, 89 + 0, 47 2 + 0, 9
Tabelul 1.2 prezint cheltuielile prezise cu ajutorul ecuaiei de regresie, diferenele (pe coloana a 5a) dintre valorile observate (coloana a 3a) i valorile prezise
(coloana a 4a) precum i ptratele acestor diferene. Toate cifrele sunt prezentate cu rotunjire la o singur zecimal; eventualele neconcordane cu privire la
nsumri sunt datorate acestei rotunjiri. Coloana a 5a reprezint deci variaia
erorilor n jurul dreptei de regresie; este deci o variabil n sine.
Venituri
gospodrie
Cheltuieli
Cheltuieli
observate
prezise
(eroarea)
col.3col4
e2
e 1 = +0,9
e 2 = +0,2
e 3 = +0,4
e 4 = 0,2
e 5 = 0,4
e 6 = 0,3
e 7 = 0,2
e 8 = 0,8
e 9 = +0,8
e 10 = 0,4
10
P
ei = 0
0,8
(milioane lei)
1
2,7
1,8
1,3
1,7
1,5
3,7
2,6
3,2
2,7
1,8
2,2
2,3
1,2
1,4
2,8
4,6
3,8
10
1,7
1,3
1,7
i=1
0,0
0,1
0,1
0,1
0,1
0,0
0,6
0,6
0,2
10
P
i=1
e2i = 2, 5
3
2
Eroarea e1 = y1 - ^
y1 = 2,7 - 1,8 = 0,9
Cheltuieli
Valoarea prezis ^
y1 = 1,8
pentru x1 = 2
0
Venituri
Valoarea termenului liber pune toat teoria noastr de pn acum ntr-o situaie
15
atunci cnd
= 0. Cu alte cuvinte,
atunci cnd o gospodrie nu are nici un venit (0 lei), cheltuiete n medie 890.000
lei. Cum este posibil acest lucru?
Rspunsul este simplu: valoarea coecienilor
cele din mijloc prezentul iar cele din dreapta viitorul), am putea noi s facem
predicii cu privire la viitor?
IMPORTANT!
Nici o predicie nu poate fcut pentru valori n afara norului de puncte.
Exemplul nostru prezint intenionat doar 10 cazuri, pentru simplicarea norului de puncte. De obicei ns, eantionul prezint sute sau chiar mii de cazuri.
Mai mult, dac am avea date despre toate gospodriile (date despre populaia de
gospodrii), pentru un venit de 2 milioane de lei ar exista foarte multe gospodri
pe axa cheltuielilor, 0y . Acesta este un fapt important pentru nelegerea celei
de-a patra, a asea i aptea asumpii prezentate la sfritul acestui capitol.
IMPORTANT!
Interpretarea n cuvinte a coecientului de regresie
b reprezint schimbarea n medie a lui
unitate a lui
este urmtoarea:
generat de schimbarea cu o
x
Media tuturor
b.
16
independente
independente
a. n absena variabilei
3.8
2
1.8
1.7
Cheltuieli
2
2.25
3
2.7
1.3
1.2
Venituri
r2
17
poriunea de
Cheltuieli
Venituri
Dac am luat ca predicie media cheltuielilor pentru a estima valoarea observat a cheltuielilor de 3,8 milioane lei, atunci deviaia total a acestei valori fa
de media ei este (y9
y).
sie este mult mai bun (valoarea prezis se apropie mai mult de cea observat).
Totui, valoarea prezis explic doar poriunea (y
y)
y)
rmne neexplicat.
n,
avem o cantitate total de variaie (sau o variaie total) egal cu suma ptratelor deviaiilor valorilor observate de la medie:
n
X
(yi y)2
i=1
Poriunea explicat din aceast variaie total a dependentei este:
n
X
(
yi y)2
i=1
Iar poriunea rmas neexplicat din variaia total a dependentei este:
n
X
i=1
(yi yi )2
18
Proporia de variaie explicat, ca procent din variaia total este numit coecient de determinaie:
n
P
r2 =
i=1
n
P
(
yi y)2
0 r2 1
(yi
(1.11)
y)2
i=1
Practic, coecientul de determinaie reprezint proporia de variaie a dependentei explicat de modelul de regresie. Este ntotdeauna mai mare sau egal cu
zero (toate valorile sunt pozitive prin ridicarea la ptrat), i ntotdeauna mai
mic sau cel mult egal cu 1 atunci cnd variaia explicat este egal cu variaia
total (modelul explic perfect, n proporie de 100%, variaia dependentei).
Spre exemplu, o valoare a lui
r2
r2
r=
Atenie ns: o valoare mare a lui
r2 .
r2
r2
= 0,49.
r2 ;
n regresia multipl el se
R2 .
Y,
y.
IMPORTANT!
Predicia nu este acelai lucru cu inferena!
Predicia se refer la valoarea unei variabile cunoscnd valoarea celeilalte, iar
inferena se refer la estimarea parametrului din populaie pe baza statisticii
din eantion.
19
Dac am avea un tabel al veniturilor i cheltuielilor ntregii populaii de gospodrii, am putea s facem un nor de puncte al tuturor acestor perechi i n funcie
de acest nor s calculm o dreapt de regresie. Exist, aadar, o
singur dreapt
din populaie.
Fiecare dreapt de
Spre exem-
t:
de nul.
Exemplul pe care l vom lua n considerare aici este unul intenionat greit,
care va demonstra ns ceva foarte important. S ne relum exemplul cu
corelaia dintre vrsta soilor i cea a soiilor: am putea face ipoteza c
vrsta soiei este inuenat de cea a soului.
Eroare Standard
(Termenul liber)
4,5103
1,5780
2,858
0,00487**
0,9263
0,0305
30,368
(Vrsta so)
<
2e-16***
au urmtoarea semnicaie:
semnicativ la pragul de 5%
( = 0,05)
**
semnicativ la pragul de 1%
( = 0,01)
***
( = 0,001)
p<
p<
p<
0,05
0,01
0,001
H0
=0
A : 6= 0
20
IMPORTANT!
A nu se confunda acest
Valoarea lui
t=
a 0
4, 5103 0
4, 5103
=
=
= 2, 858
E.S.
1, 5780
1, 5780
p asociat:
ci probabilitatea
de nul eroarea de tipul I). Aceast probabilitate este foarte mic, mult
sub orice prag de semnicaie rezonabil, cu att mai mult sub clasicul prag
de 5%. n consecin, respingem ipoteza de nul: termenul liber este semnicativ diferit de zero. La fel se ntmpl i n cazul lui
b.
Probabilitatea
r2
este
IMPORTANT!
Ecuaia de regresie nu poate n nici un caz s stabileasc o relaie de
cauzalitate.
Ecuaia este doar un model matematic care ne ajut s testm un
model teoretic, ns stabilirea modelului este sarcina analistului, nu a
calculatorului.
t de mai sus.
x este interpretat ca un
grup i se testeaz dac panta dreptei de regresie este egal cu zero prin
compararea mediilor acestor grupuri. Dac mediile tuturor grupurilor nu
sunt semnicativ diferite ntre ele atunci dreapta de regresie are o pant
egal cu zero. Dac cel puin dou grupuri au medii diferite, atunci panta
va diferit de zero.
Suma
ntre grupuri
gl
Ptratelor
Variana
24987,5
24987,5
922,2
27,1
n interiorul grupurilor
148
4010,1
Total
149
28997,6
p
<2,2e-16
21
corespunztoare coecientului
de a 16-a zecimal).
modelul de regresie, iar cea din interiorul grupurilor este variana rmas
Dup cum tim ns, exist i o estimare interval bazat pe calcului erorii
standard, la un anumit nivel de ncredere.
1,96E.S.
valul:
adic
[1, 42 , 7, 60]
intervalul este:
adic
[0, 87 , 0, 99]
al dreptei de regresie din populaie poate oriunde ntre 1,42 i 7,60 iar
panta (nclinarea) dreptei de regresie din populaie este dat de o valoare a
lui
65
55
45
35
25
15
Vrsta soiei
75
85
15
25
35
45
55
65
Vrsta soului
75
85
22
n cazul unui eantion de mrime relativ mic, cum este acesta, banda de
estimare este destul de deprtat de dreapta de regresie. Cu ct volumul
eantionului se mrete, banda va din ce n ce mai apropiat de dreapt,
la eantioane mari ind aproape lipit de aceasta. Explicaia este destul de
simpl ntruct mrirea eantionului determin o scdere a erorii standard,
care ngusteaz intervalul de estimare. Se observ c banda este ngustat
la mijloc; este normal s e aa ntruct acolo se a mediile celor dou
variabile, cele mai stabile puncte de predicie i inferen.
Ca o explicaie intuitiv, banda de estimare este obinut cu ajutorul unui
balansoar xat la mijloc pe mediile celor dou variabile; capetele benzii
sunt mai largi din cauza micrii n sus i n jos a balansoarului.
IMPORTANT!
Toate asumpiile se refer la variabilele n populaie.
ASUMPII GENERALE:
1.
2.
3.
Liniaritatea.
Este o prim asumpie care a fost deja specicat n acest capitol; se
refer la forma liniar a norului de puncte.
examinarea vizual a norului de puncte.
23
Y |2
- media tuturor
Y |2 = + 2 +
Cum ns media erorilor
Y |2 = + 2
unde
+2
Y |X
= Cheltuieli iar
dat ind
X
S nu avem autocorelaie.
Autocorelaia se refer la independena erorilor; dac avem autocorelaie,
erorile asociate cu diferite observaii nu sunt independente unele de altele.
n exemplul nostru, oricare dou gospodrii ar luate n analiz, erorile
fa de dreapta de regresie trebuie s e independente unele de altele; cheltuielile unei gospodrii nu depind (sau sunt independente) de cheltuielile
oricrei alte gospodrii.
Autocorelaia se veric cu
X,
24
tul de predicie, iar suma erorilor cu semn pozitiv este egal cu suma
erorilor cu semn negativ (suma total a erorilor este astfel zero). Aceast
asumpie poate testat prin efectuarea de histograme a valorilor lui
2
1
0
-1
-2
-2
-1
celor 10 gospodrii (ecare cu venit propriu, diferit de al celorlalte). ntruct 10 cazuri erau prea puine pentru demonstraie, am creat un eantion cu cte 15 gospodrii pentru ecare categorie de venit, totaliznd
1015=150 gospodrii prezente n grac.
7.
S nu avem heteroscedasticitate.
Heteroscedasticitatea se refer la inegalitatea abaterilor standard a erorilor. n populaie, pentru ecare valoare a lui
25
s e egal cu zero:
imposibil de testat pentru c eroarea este n principiu necunoscut. Rezolvarea problemei ine de teoria regresiei multiple i de o anume asumpie
specic acesteia:
y = a + b1 x1 + b2 x2 + e
rx1 x2 6= 0. n cazul
x1 , ceea ce nseamn c efectul
lui x2 intr n componena erorii e. Cum x1 i x2 sunt corelate, nseamn
c x1 va corelat cu eroarea e (care l conine i pe x2 ), caz n care
prezenta asumpie este nclcat. Coecientul de regresie b va eronat
(va conine un bias), supraestimnd efectul lui x1 asupra lui y .
i c ntre
x1
x2
Este
3
2
0
Cheltuieli
Venituri
26
Figura 1.10. Liniile de culoare albastr marcheaz plus sau minus dou
abateri standard de la dreapta de regresie.
Norul de puncte este distribuit normal n jurul dreptei de regresie; mai
mult dect att, distribuia punctelor este uniform n jurul dreptei de
regresie, la cel mult dou abateri standard.
Sigur, acesta este un exemplu construit; cele 150 de gospodrii pe axa
0y
Abaterea
0x.
Figura 1.16:
3
2
0
Cheltuieli
Venituri
Figura 1.17:
27
Figura 1.18:
0.5
0.0
-1.5
-0.5
Valori reziduale
0.0
-0.2
-0.4
Valori reziduale
0.2
1.0
0.4
1.5
...
1.5
2.0
2.5
3.0
1.5
Valori prezise
2.0
2.5
3.0
Valori prezise
mai desfurat; acum se observ mai uor c cele 10 grupe de venit (pe
vertical) sunt relativ normal distribuite n jurul liniei orizontale (dreapta
de regresie).
r2 .
Cele dou orientri sunt evident strns legate: un model care face o predicie
bun va face i o explicaie bun. Este bine de subliniat ns c o predicie bun
poate datorat (ntr-o msur mai mare sau mai mic) i ntmplrii. O bun
explicaie bun ns (o valoare a lui
r2
28
n
X
(yi yi )2
i=1
Aa cum variana este o medie a ptratelor distanelor de la ecare valoare la
media variabilei, la fel ne intereseaz o valoare medie a ptratelor erorilor (de
la valorile observate la dreapta de regresie):
n
X
(yi yi )2
i=1
n
Deoarece pierdem dou grade de libertate prin calcularea coecienilor de re-
a lui
n
X
(yi yi )2
i=1
n2
Pentru a elimina efectul ridicrii la ptrat, extragem radical din aceast expresie
i obinem:
v
u n
uX
u
(yi yi )2
u
t i=1
se =
n2
unde
a lui
IMPORTANT!
A nu se confunda
cu
Eroarea Standard
din Teo-
v
u n
uX
u
(yi y)2
u
t i=1
sy =
n1
y:
29
n - 1, deoarece pierdem
doar un singur grad de libertate prin calcularea mediei. Ambele msuri (sy i
se )
y.
semnul acestuia arat direcia relaiei dintre dou variabile, iar valoarea
lui arat intensitatea asocierii acestora. Este o msur simetric a intensitii relaiei liniare dintre dou variabile; se mai poate calcula cu ajutorul
formulei lui Pearson.
Coecient de determinaie (n engl. coecient of determination). O msur care arat proporia din variaia variabilei dependente care este explicat de modelul de regresie.
Coecient de regresie
y.
x, i speci-
x.
Coecient de regresie standardizat (n engl. standardized regression coecient).
Eroare sau Reziduu (n engl. random error term sau residual). Diferena
dintre valoarea observat (punctul din diagrama de mprtiere) i cea
prezis (punctul de pe dreapta de regresie) a lui
y.
Metoda celor mai mici ptrate (n engl. OLS - ordinary least squares method). O metod de calcul a coecienilor de regresie bazat pe potrivirea
unei linii drepte printr-un nor de puncte (cu alte cuvinte calcularea unui
punct de plecare i a unei pante a dreptei) n aa fel nct suma ptratelor
erorilor s e un numr minim.
30
Nor de puncte sau diagram de mprtiere (n engl. scatterplot, scattergram sau scatter diagram). Un grac de puncte pe un sistem de coordonate rectangular. Coordonatele pe axele
0x
0y
Termenul liber (n engl. intercept). Punctul n care dreapta de regresie intersecteaz axa
0y
(valoarea lui
cnd
x)
instrument de cercetare.
Variabil dependent (n engl. dependent variable). Variabila a crei variaie trebuie explicat, ori a crei valoare trebuie prezis n analiza de
regresie.
Variabil independent (n engl. independent variable). Variabil cunoscut, inclus n analiza de regresie pentru a explica variaia variabilei
dependente.
i media lui
y.
y.
Variaia total - VT (n engl. total sum of squares). Suma ptratelor deviaiilor valorilor observate a lui
de la media acestuia.