Regresie

VALOARE MEDIE CONDITIONATA
MODELE DE REGRESIE; ESTIMAREA

PARAMETRILOR REGRESIEI LINIARE
Problema:
Pentru perechea de variabile aleatoare (X; Y ) = (efect,
cauza), cum evidentiem dependenta lor (cantitativ si calitativ)?
Exemplu: (X; Y ) = (valoarea tensiunii arteriale sistolice,
nivelul colesterolului)
COEFICIENT DE CORELATIE
Fie (X; Y ) pentru care exista momentele de ordinul 2:
Reamintim denitiile covariantei si a coecientului de
corelatie:
cov (X; Y ) = M ((X
Proprietate:
= 1;
=
j j
M (Y ))) = M (XY )
M (X) M (Y )
cov (X; Y )
=p
D2 (X) D2 (Y )
(rezulta din inegalitatea Schwartz)
corelatie pozitiva maxima
1;
= 0;
M (X)) (Y
corelatie negativa maxima
necorelare
Repartitii asociate:
P
(X; Y )
(C1 ) =
8 P P
>
< x2A y2B p (x; y)
sau
f (x; y) l2 ;
>
:
8
< P
:
(x;y) ;
(X; Y ) (C1
sau
1
(X; Y ) (C1
1
rep. discreta
rep. continua
B) ;
rep. discreta
R) ;
rep. continua
(C2 ) =
8
< P
:
(X; Y ) (A
sau
1
(X; Y ) (R
C2 ) ;
rep. discreta
C2 ) ; rep. continua
In cazul repartitiilor discrete,

pX (x)
y2B
pY (y)
x2A
p (x; y) ; x 2 A
p (x; y) ; y 2 B
X; Y independente , p (x; y) = pX (x) pY (y) 8x 2 A; y 2 B
In cazul repartitiilor continue,

fX (x)
f (x; y) dy; x 2 R
fY (y)
f (x; y) dx; y 2 R
X; Y independente , f (x; y) = fX (x) fY (y) 8x; y 2 R
Proprietate:
X; Y independente
necorelate
=) X; Y
Coecientul de corelatie apare ca o masura cantitativa

a dependentei dintre X si Y:
Introducem si un model stocastic al acestei dependente
(al relatiei "cauza - efect")
VALOARE MEDIE CONDITIONATA
Lema
Fie ( ; K; P ) ; F K; F corp borelian si e h : ! R o variabila aleatoare nenegativa sau integrabila, F masurabila.
Atunci
Z
Z
h dPjF =
h dP
Demonstratie:
Notam aplicatia identitate cu i : (
ca i este masurabila si P i 1 = PjF
Z
h dPjF =
h dP
; K) ! ( ; F) :
h i dP =
h dP
Rezulta
Teorema (existenta si unicitate)

Fie ( ; K; P ) ; F K; F corp borelian.
a) Daca X este o variabila aleatoare nenegativa, atunci
exista o variabila aleatoare nenegativa M (X j F) astfel incat
i) M (X j F) este F -masurabila
Z
Z
ii)
M (X j F) dP = XdP 8A 2 F
A
In particular, daca X este integrabila rezulta ca M (X j F)

este integrabila.
M (X j F) este unica (P a:s:) variabila aleatoare cu proprietatile i) si ii):
b) Daca X este o variabila aleatoare integrabila, atunci
exista si este unica (P a:s:) o variabila aleatoare integrabila M (X j F) ; cu proprietatile i) si ii):
Demonstratie:
a) :
Demonstram intai unicitatea: Daca exista g1 ; g2 variabile aleatoare cu proprietatile i) si ii); rezulta
Z
g1 dP =
Dar
g1 ; g2
Fie
sunt
g2 dP 8A 2 F
masurabile. Rezulta g1 = g2 P
a:s:
variabila aleatoare nenegativa si e

F ! R+
Z
=
XdP
:
(A)
este o masura nita, absolut continua in raport cu

Rezulta din teorema Radon - Nicodym ca exista o
unica aplicatie
PjF :
g:
! R+
masurabila, asa incat

(A) =
gdPjF 8A 2 F
Aplicam Lema:
Z
gdPjF =
Deci
IA gdPjF =
XdP =
IA gdP =
gdP
gdP 8A 2 F
Vom nota aceasta unica aplicatie cu g = M (X j F) si o

vom numi "media lui X conditionata de F ".
b) :
Fie X variabila aleatoare integrabila. Atunci
X = X+
X ;
cu
X + si X pozitive, integrabile, X + = max fX; 0g ; X =

max f X; 0g :
Din a), (9) (!) M (X + j F) ; M (X j F) variabile aleatoare nenegative, integrabile, cu proprietatile i) si ii): Luam
M (X j F) = M X + j F
M X
jF ;
care satisface prorpietatile din enuntul teoremei.

CAZURI PARTICULARE
A 2 K; X = 1A :
Atunci notam
M (1A j F) = P (A j F)
variabila aleatoare, F = B (Y ) = Y
(B) :
M (X j B (Y )) = M (X j Y )
A 2 K; X = 1A
si
F = B (Y ) :
Atunci notam
M (1A j B (Y )) = P (A j Y )
4
Atunci notam
VERSIUNE A MEDIEI CONDITIONATE

Fie X si Y variabile aleatoare, cu X nenegativa sau
integrbila.
Se numeste versiune a mediei conditionate M (X j Y ) functia masurabila
M (X j Y = y) : R ! R
cu proprietatea
M (X j Y = y) Y = M (X j Y ) P
a:s:
Propozitie
Fie X si Y variabile aleatoare, cu X nenegativa sau
integrabila. Functia masurabila ' : R ! R este versiune a
mediei conditionate M (X j Y ) daca si numai daca
Z
' (y) dP
(y) =
XdP; 8B 2 B
1 (B)
Demonstratie:
Z
' Y
' Y dP
Dar B (Y ) = Y
' (y) dP
= M (X j Y ) P a:s: ,
Z
=
M (X j Y ) dP; 8A 2 B (Y )
(B) : Deci, pentru orice B 2 B

Z
Z
Y 1 (y) =
' Y dP =
M (X j Y ) dP =
1
1 (B)
1 (B)
MODALITATI DE CALCUL PENTRU

(a) Cazul repartitiilor discrete
Presupunem
P
P (Y = ak )
k2I
P (Y = ak ) > 0 8k;
5
X
k2I
fak g
P (Y = ak ) = 1
XdP
1 (B)
M (X j Y = y)
cu
cel mult numarabila. Aratam ca

M (X j Y = ak ) =
1
P (Y = ak )
XdP:
fY =ak g
Notam cu
'
o functie B masurabila, asa incat

1
P (Y = ak )
' (ak ) =
XdP; k 2 I
cu
A = fak ; k 2 Ig :
fY =ak g
Notam suportul lui

Avem
Z
' (y) dP
(y)
' (y) dP
B\A
(y) =
Fie B
2 B:
' (ak ) P (Y = ak ) =
ak 2B\A
XdP =
ak 2B\A
fY =ak g
XdP
1 (B)
Aplicand propozitia anterioara, obtinem c.t.d.

Daca presupunem chiar mai mult, si anume ca
este un vector aleator cu repartitie discreta
P
(X; Y )
X X
p (x; y)
x2A0 y2A
fa0k ; k 2
(X; Y )
f(x;y)g
A0 =
Ig
A = fak ; k 2 Ig
atunci
M (X j Y = ak ) =
X
k2I
a0k
P (X = a0k ; Y = ak ) X 0
=
ak P (X = a0k j Y = ak )
P (Y = ak )
k2I
(b) Cazul repartitiilor continue

Presupunem ca (X; Y ) are densitatea de repartitie f (x; y) :
Notam
Z
fY (y) =
f (x; y) dx
Aratam ca
M (X j Y = y) =
f (x; y)
dx
fY (y)
Observam ca denitia este corecta pentru y cu fY (y) > 0:

In punctele in care fy (y) = 0 se ia M (X j Y = y) egala cu o
constanta arbitrara.
Notam functia masurabila
' (y) =
f (x; y)
dx
fY (y)
Fie B 2 B
Z
' (y) dP
(y)
f (x; y) A
dx fY (y) dy =
fY (y)
R
Z
x f (x; y) dxdy =
x 1B (y) f (x; y) dxdy =
R B
(1B
R R
Y ) XdP =
Y
XdP
1 (B)
Aplicand propozitia anterioara, obtinem c.t.c.

Notatie (densitatea de repartitie conditionata a lui
f (x j y) =
M (X j Y = y) =
X)
f (x; y)
fY (y)
x f (x j y) dx
Denitie
Fie vectorul aleator (X; Y ) cu componente integrabile.
Se numeste regresia lui X in Y functia
y ! M (X j Y = y)
Regresia este liniara daca

M (X j Y = y) = a + by
Dreapta de regresie este data de ecuatia

x = a + by
REGRESIA LINIARA PENTRU

MODELUL NORMAL BIDIMENSIONAL
Fie urmatorii parametri:
=
2
x
x;
xy
2
y
xy
2 R2
2
x
x y
2
y
x y
matrice simetrica, pozitiv denita.

Vectorul aleator (X; Y )0 are o repartitie normala bidimensionala N (2; ; ) daca are densitatea de repartitie
2
exp
1
2 (1
2)
"
f (x:y) =
2 2
x y
2)
(1
y
y
#)
Proprietatea 1
Repartitiile marginale ale lui
P
=N
Demonstratie:
Adunand si scazand
exp
2
x
x;
; P
2)
p
2
2
y
x
fY (y) =
y;
2
y
1
2
x
2
y
este
exp
2
y
2)
(1
f (x; y) dx = q
=N
sunt
la exponent obtinem
Repartitia marginala a lui

Z
f (x:y) = q
2
1
2 2x (1
N (2; ; )
1
2
2
y
2
y
Analog se obtine si repartitia marginala a lui

8
X:
Proprietatea 2
Repartitia lui
N
conditionata de
x
2
x
este normala,
2
Proprietatea rezulta imediat, calculand

f (x j y) =
f (x; y)
fY (y)
Corolar
M (X j Y = y)
D2 (X j Y = y)
2
x
y
2
Rezulta ca, pentru modelul normal bidimensional, regresia lui X in Y este liniara, iar ecuatia dreptei de regresie
este
x=
x
x
ESTIMAREA PARAMETRILOR DREPTEI DE

REGRESIE
(a) Fara specicarea repartitiei lui
Fie vectorul aleator
(X; Y )
(X; Y )
pentru care facem ipoteza
M (X j Y = y) = a + by
astfel incat ecuatia dreptei de regresie este x = a + by:

Fie observatiile (Xi ; Yi )0 ; = 1; :::; n; care sunt vectori aleatori
independenti, identic repartizati ca si (X; Y )0 si e (xi ; yi )0
i = 1; :::; n datele statistice corespunzatoare.
M (Xi j Y1 = y1 ; :::; Yi = yi ; :::; Yn = yn ) = M (Xi j Yi = yi ) = a + byi
n
Lucrand cu repartitia conditionata, apare modelul liniar

dimensional
Xi = (a + byi ) + Zi ; i = 1; :::; n
9
unde Z1 ; :::; Zn sunt variabile aleatoare indep, de medie

zero. Aplicam metoda celor mai mici patrate:
SS (a; b) =
n
X
(xi
byi )
i=1
Sistemul de ecuatii normale

forma
8
n
>
>
<
na + b
>
>
: a
n
P
yi =
i=1
n
P
yi + b
i=1
@SS
@a
i=1
n
P
= 0
se scrie sub
xi
i=1
n
P
yi2 =
@SS
@b
xi yi
i=1
Determinantul matricii sistemului liniar este egal cu

zero doar in cazul degenerat (cand toti yi = y; 8i), caz care
apare cu probabilitatea zero:
n
=
n
P
i=1
Notatie:
yi
n
P
i=1
n
P
i=1
yi
=n
yi2
n
X
yi2
(ny) = n
i=1
n
X
(yi
y) > 0
i=1
s2x
1X
(xi
n i=1
x)
s2y
sxy
1X
(yi
n i=1
y)
1X
(xi
n i=1
sxy
sx sy
x) (yi
y)
Solutia unica a sistemului de ecuatii normale este

bb =
sxy
sx
=r
2
sy
sy
bb y
b
a = x
Obtinem dreapta de regresie de selectie

x
x=r
sx
(y
sy
10
y)
Estimatorii obtinuti prin metoda celor mai mici patrate,

1
bb (X1 ; :::; Xn )
b
a (X1 ; :::; Xn )
= X
n
P
(yi
y)
i=1
n
X
Xi
X (yi
y) = P
n
i=1
1
(yi
y)
i=1
bb (X1 ; :::; Xn ) y
n
X
Xi (yi
i=1
sunt nedeplasati (medierea conditionata):

M bb j Y1 = y1 ; :::; Yn = yn
= b
M (b
a j Y1 = y1 ; :::; Yn = yn )
= a
Putem calcula valoarea minima a sumei abaterilor patratice,

SSmin =
n
X
xi
i=1
2 notat
bbyi
b
a
= SSresid
(b) Cu specicarea repartitiei normale a lui
(X; Y )
Fie vectorul aleator (X; Y )0 pentru care facem ipoteza

ca urmaza o repartitie normala bidimensionala N (2; ; ) :
Utilizand proprietatile modelului, avem
D2 (Xi j Y1 = y1 ; :::; Yn = yn ) =
2
x
; i = 1; :::; n
Proprietatea 3.
Variabila aleatoare
SSresid =
n
X
Xi
i=1
are proprietatea
2
x
1
(1
2)
SSresid
b
a
bbyi
2
(n
2)
Rezulta din Proprietatea 8 de la "Estimarea parametrilor" (metoda celor mai mici patrate).
11
y)
In continuare facem o analiza a surselor de variabilitate ale datelor, utilizand modelul regresiei liniare
(ANOVA pentru dreapta de regresie)
In acest moment dispunem de urmatoarele valori:
valorile observate ale covariatei (ale variabilei "cauza")
yi ; i = 1; ::; n;
xi ; i = 1; :::; n;
valorile observate ale variablei raspuns
("efect")
xbi = b
a + bb yi ; i = 1; :::; n;
predictorii dati de modelul regresiei liniare (tted values)

xi
xbi ; i = 1; :::; n;
reziduuri
Introducem urmatoarele "sume de abateri patratice"

(sum of squares):
n
X
SSresid =
i=1
(xi
xbi ) =
SSregresie =
n
X
b
a
xi
i=1
n
X
i=1
SStotal =
n
X
(xbi
(xi
bbyi
x)
2
x)
i=1
(vom utiliza aceste notatii atat pentru valorile numerice

calculate ale SS urilor, cat si pentru variabilele aleatoare
corespunzatoare)
Proprietatea 4 (ecuatia ANOVA)
SStotal = SSregresie + SSresid
Demonstratie:
SStotal
n
X
i=1
(xi
xbi + xbi
x) =
= SSresid + SSregresie + 2
n
X
i=1
12
(xi
xbi ) (xbi
x)
n
X
(xi
i=1
xbi ) (xbi
n
X
x) =
x + bby
xi
bb
b
a
xi
i=1
i=1
n
X
n h
X
(xi
bbyi
bb (yi
x)
i=1
bb nsxy
sxy
ns2y
s2y
bbyi
b
a + bbyi
bby + bbyi
i
y) (yi
x =
x =
y) =
=0
Cunoastem repartitia variabilei aleatoare (11 ) SSresid

(proprietatea 3).
Ne propunem sa stabilim repartitiile variabilelor aleatoare
2
x
2
x
1
(1
2)
SSregresie
si
in situatia in care am avea

b=0
13
2
x
1
(1
2)
SStotal ;
AUXILIAR: TEOREMA LUI COCHRAN

Propozitie (rezultat algebric, pentru variabile scalare)
Fie vectorul y = (y1 ; :::; yN )0 2 RN : Presupunem ca suma de
patrate
N
X
yi2
i=1
se descompune in suma a
qj =
N
X
aj
forme patratice
y y ; j = 1; :::m;
; =1
N
X
yi2 =
i=1
unde, pentru orice
m
X
qj ;
j=1
j = 1; :::; m;
Aj = aj
; =1;:::;N
este matrice simetrica, de rang rj :

O conditie necesara si sucienta ca sa existe o transformare ortogonala
z = By
asa incat
r1 +:::+rj
qj =
k=r1 +:::+rj
zk2 ; j = 1; :::m
1 +1
este ca
r1 + ::: + rm = N
Demonstratie:
" =) "
Presupunem ca exista transformarea

proprietatea din enunt. Transformarea
(y1 ; :::; yN ) ! (z1 ; :::; zr1 +:::+rm )
trebuie sa e nesingulara. Rezulta

r1 + ::: + rm
14
z = By; B 0 B = I;
cu
Scriem matriceal relatia de descompunere din ipoteza

y0 y =
m
X
y0 Aj y
j=1
Rezulta
m
X
Aj = I
j=1
0
1
m
X
rang @
Aj A = N
j=1
Dar
Deci
rang @
m
X
j=1
m
X
Aj A
j=1
N
" (= "
rang (Aj ) =
m
X
rj
j=1
r1 + ::: + rm
Vom construi matricea
B intr-o
0
1
B1
B ::::: C
B
C
B : C
C
B=B
B : C
B
C
@ ::::: A
Bm
forma partitionata,
Pentru i = 1 :
A1 este N N dimensionala,
simetrica, de rang r1 : Rezulta

ca exista o matrice nesingulara D0 asa incat
2
Iq
D0 A1 D00 = 4 0
0
0
Ir 1
0
3
0
0 5
0
unde q este numarul de valori proprii pozitive ale lui A1 si

(r1 q) este numarul de valori proprii negative ale lui A1 .
Notam
D0
D
= D0 1
= kd k
15
si avem
Iq
A1 = D0 4 0
0
Retinem
b
(1)
=d
3
0
0 5D
0
0
Ir 1
0
= 1; :::; r1 ;
B1 = b
= 1; :::; N
(1)
=1;:::;r1 ;
=1;:::;N
Consideram transformarea liniara denita de aceasta

matrice,
z
N
X
(1)
y ;
= 1; :::; r1
=1
z(1)
(z1 ; :::; zr1 ) = B1 y
Atunci
q1
Iq
= y0 A1 y = y0 D0 4 0
0
= z12 + ::: + zq2
q1 =
r1
X
=1
Pentru i
arbitrar:
0
Ir 1
0
2
zq+1
:::
zr21
3
0
0 5 Dy =
0
c z 2 ; c 2 f 1; 1g:
In mod analog obtinem

z =
N
X
(i)
y ;
= r1 + ::: + ri
+ 1; :::; r1 + ::: + ri
=1
Bi = b
qi =
(i)
=r1 +:::+ri
r1 +:::+r
X i
=r1 +:::+ri
Atunci
m
X
i=1
qi =
N
X
=1
1 +1
1 +1;:::;r1 +:::+ri ;
=1;:::;N
c z 2 ; c 2 f 1; 1g:
c z 2 ; c 2 f 1; 1g:
16
Dar
m
X
i=1
N
P
qi = y0 y > 0 8y 6= 0
Deci c z 2 este pozitiv denita si deci c

=1
Am obtinut
r +:::+r
1
qi =
= 1 8 = 1; :::; N:
z 2 ; i = 1; :::; m
=r1 +:::+ri
1 +1
Formam matricea B = kb k ; de dimensiune N

tionata in componentele Bi : Avem
z =
N
X
y ;
N;
parti-
= 1; :::; N
=1
N
X
y2 =
=1
N
X
z2
=1
Ultima relatie este echivalenta cu

0
y0 y = (By) (By) = y0 B 0 By;
deci
B 0 B = I;
adica transformarea este ortogonala.
TEOREMA LUI COCHRAN

Fie Y1 ; :::; YN variabile aleatoare independente, identic
repartizate N (0; 1) : Notam Y = (Y1 ; :::; YN )0 : Presupunem ca
Y0 Y se descompune in suma a m forme patratice
Qi = Y0 Ai Y;i = 1; :::; m;
cu Ai = a(i)
asa incat
; =1;:::;N
matrici simetrice, de rang

Y0 Y =
m
X
ri ; i = 1; :::; m;
Qi :
i=1
O conditie necesara si sucienta ca variabilele aleatoare

sa e repartizate 2 (ri ) ; i = 1; :::; m si Qi sa e independenta de Qj pentru orice i 6= j este ca
Qi
r1 + ::: + rm = N
17
Demonstratie
" =) "
Aceasta implicatie rezulta cu aceleasi argumente ca

cele utilizate in demonstrarea implicatiei similare din
rezultatul algebric.
" (= "
Folosind rezultatul algebric rezulta ca exista o transformare Z = BY; B = kb k ; asa incat

r1 +:::+r
X i
Qi =
=r1 +:::+ri
Z =
N
X
Z 2 ; i = 1; :::; m
1 +1
Y ;
= 1; :::; N
=1
Din proprietatile combinatiilor liniare de variabile independente, repartizate normal rezulta ca Z este repartizata N (0; 1) pentru orice = 1; :::; N si Z1 ; :::; ZN sunt inde2
pendente. Atunci, din avem Qi
(ri ) ; i = 1; :::; m si, din
asociativitatea independentei, Qi este independenta de Qj
pentru orice i 6= j:
Corolar 1
Fie Y1 ; :::; Yk variabile aleatoare independente, identic
repartizate N (0; 1) : Notam Y = (Y1 ; :::; Yk )0 : O conditie necesara si sucienta ca Y0 AY sa e repartizata 2 este ca A2 = A;
caz in care numarul de grade de libertate este egal cu
rang(A):
Corolar 2.
repartizate N (0; 1) : Notam Y = (Y1 ; :::; Yk )0 : Presupunem ca
Y0 Y =Q1 + Q2 ; unde
Q1 = Y0 AY
Atunci Q2
(k
(r)
r) :
Corolar 3.
repartizate N (0; 1) : Notam Y = (Y1 ; :::; Yk )0 : Fie Q; Q1 ; Q2 forme
18
patratice in Y asa incat

Atunci Q2 2 (a b) :
Q = Q1 + Q2 ; Q
(a) ; Q1
(b) :
Corolar 4.
repartizate N (0; 1) : Notam Y = (Y1 ; :::; Yk )0 : Fie Y0 A1 Y 2 (a)
si Y0 A2 Y 2 (b) : O conditie necesara si sucienta ca cele
doua forme patratice sa e independente este ca A1 A2 = 0:
============================================
Revenim la ANOVA pentru dreapta de regresie:

Proprietatea 5.
Daca
atunci
b = 0;
2
x
2
x
1
(1
2)
1
(1
2)
SSregresie
2
SStotal
(1)
(n
1)
iar variabilele (11 ) SSregresie si (11 ) SSresid sunt independente (in raport cu repartitia conditionata).
2
x
2
x
Demonstratie:
Daca
N a;
2
x
atunci repartitia conditionata a lui
b = 0;
2
Xi
este
; 8i:
(i) Ne ocupam intai de SSregresie

SSregresie
n
X
i=1
bb
ci
X
n
2X
n
X
i=1
(yi
i=1
y) = P
n
i=1
1
(yi
(yi
n
X
i=1
i=1
SSregresie = P
n
b
a + bbyi
2
y)
n
X
(yi
y) Xi
i=1
1
X1
B : C
C
(X1 ; :::; Xn ) B B
@ : A
2
y)
Xn
19
bby + bbyi
!2
unde
notat
y) (yj
B = k(yi
y)ki;j=1;:::;n = kbij k
Presupunem ca nu suntem in cazul degenerat si observam ca pentru 1 i < j n avem

1
b1i
C
y B
B : C
y @ : A
bni
1
b1j
B : C
B
C
@ : A=0
bnj
yj
yi
Deci rang (B) = n
1) = 1.
(n
Prin calcul direct se verica
1
B
ns2y
1
B
ns2y
Cum
1
2 (1
x
2)
SSregresie =
2
x
2)
(1
!0
1
B
ns2y
1
2
x
(1
2)
putem aplica Corolarul 1 si obtinem faptul ca

2
x
1
(1
2)
SSregresie
(1) :
(ii) Continuam cu variabila aleatoare SStotal :

SStotal =
n
X
Xi
i=1
Putem scrie
SStotal =
n
X
Xi
i=1
1
X1
B : C
1
C
X Xi = 2 (X1 ; :::; Xn ) A B
@ : A
n
Xn
unde A = kaij ki;j=1;:::;n ; aii = n (n 1) ; aij = n pentru i 6= j:

Aplicam succesiv transformarile elementare pe coloane
( Ci ! Ci Ci+1 , i = 1; :::; n 1 ) si obtinem
1
n2
B
B
B
A=B
B
B
@
0
1
0
:::::
0
0
0
1
1
:::::
0
0
::::: 0
::::: 0
::::: 0
::::: :::::
:::::
1
::::: 1 1
20
1=n
1=n
1=n
:::::
1=n
1=n
1
C
C
C
C
C
C
A
Notam Ce1 ; :::; Cen coloanele acestei matrice si observam ca

1e
2e
n 1e
C1 + C
Cn
2 + ::::: +
n
n
n
en = 0
+C
iar Ce1 ; :::; Cen sunt vectori liniar independenti. Deci rang
n
1:
1
n2 A
Rezulta ca
2
x
1
(1
2)
SStotal
(n
1) :
(iii) Prin calcul direct se verica relatia

1
A
n2
1
B
ns2y
1
B=0
ns2y
Cum avem si
2
x
2
x
2
x
1
(1
1
(1
2)
2)
1
(1
2)
SSresid =
SSregresie =
SSresid =
2
x
2
x
1
(1
1
(1
2)
2
x
1
(1
2)
2)
(SStotal
SSregresie ) ;
0
B
1
(X1 ; :::; Xn ) B B
@
2
sy
(X1 ; :::; Xn )
1
A
n2
1
B
ns2y
1
X1
: C
C
: A
Xn
0
X1
B :
B
@ :
Xn
1
C
C
A
(1) ;
(n
putem aplica Corolar 4 si obtinem independenta variabilelor (11 ) SSregresie si (11 ) SSresid:
2
x
2
x
21
2) ;
TABELUL ANOVA PENTRU DREAPTA DE

REGRESIE
Sursa de variabilitate
abaterile predictorilor de la x
reziduuri aleatoare
abaterile observatiilor de la x
FUNCTII IN
> cauza
> ef ect
> model
Functia
SS
SSregresie
SSresid
SStotal
Grade de libertate
1
n 2
n 1
SS (mean SS)
SSregresie = SSregresie
SSresid = n 1 2 SSresid
c (y1 ; :::; yn )
c (x1 ; :::; xn )
lm (ef ect cauza)
lm
returneaza
coe cients
b
a; bb
summary: statistica descriptiva pentru reziduuri

fxi
> anova(model)
xbi ; i = 1; :::; ng
Functia anova returneaza tabelul ANOVA si teste pentru ipoteza fb = 0g despre care discutam in ultima parte a
cursului.
22
APLICATIE
longley {datasets}
R Documentation
Longleys Economic Regression Data
Description
A macroeconomic data set which provides a well-known
example for a highly collinear regression.
Usage
longley
Format
A data frame with 7 economical variables, observed
yearly from 1947 to 1962 (n=16).
GNP.deator: GNP implicit price deator (1954=100)
GNP: Gross National Product.
Unemployed: number of unemployed.
Armed.Forces: number of people in the armed forces.
Population: noninstitutionalized population >= 14
years of age.
Year: the year (time).
Employed: number of people employed.
The regression lm(Employed ~.) is known to be highly
collinear.
Alegem ca variabila raspuns Employed, cu covariata
Population
> X <- longley[, "Employed"]
> Y <- longley[,"Population"]
> model1<-lm(X~Y2)
> model1
Call:
lm(formula = X ~Y)
Coe cients:
(Intercept)...........Y
8.3807 .........0.4849
23
> summary(model1)
Call:
lm(formula = X ~Y2)
Residuals:
Min........ .......1Q.......... Median....... 3Q .............Max
-1.4362 ...-0.9740 .........0.2021...... 0.5531 ......1.9048
Coe cients:
....................Estimate .....Std. Error...... t value.......Pr(>jtj)
(Intercept) ...8.3807 .......4.4224 ..........1.895 ........0.079 .
Y................ 0.4849 ........0.0376 ..........12.896 .....3.69e-09
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-Squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF,
p-value: 3.693e-09
p-value < 0.05, deci modelul regresiei liniare este corect
> anova(model1)
Analysis of Variance Table
Response: X
...................Df...... Sum Sq........Mean Sq .......F value........Pr(>F)
Y........ ........1....... 170.643 ......170.643 .......166.30 ......3.693e-09
Residuals ...14 ......14.366 .........1.026
24

Regresie

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Regresie

Încărcat de

Drepturi de autor:

Formate disponibile

VALOARE MEDIE CONDITIONATA

MODELE DE REGRESIE; ESTIMAREA

(rezulta din inegalitatea Schwartz)

corelatie pozitiva maxima

corelatie negativa maxima

In cazul repartitiilor discrete,

X; Y independente , p (x; y) = pX (x) pY (y) 8x 2 A; y 2 B

In cazul repartitiilor continue,

X; Y independente , f (x; y) = fX (x) fY (y) 8x; y 2 R

Coecientul de corelatie apare ca o masura cantitativa

Teorema (existenta si unicitate)

In particular, daca X este integrabila rezulta ca M (X j F)

variabila aleatoare nenegativa si e

este o masura nita, absolut continua in raport cu

masurabila, asa incat

Vom nota aceasta unica aplicatie cu g = M (X j F) si o

X + si X pozitive, integrabile, X + = max fX; 0g ; X =

care satisface prorpietatile din enuntul teoremei.

VERSIUNE A MEDIEI CONDITIONATE

(B) : Deci, pentru orice B 2 B

MODALITATI DE CALCUL PENTRU

cel mult numarabila. Aratam ca

o functie B masurabila, asa incat

Notam suportul lui

Aplicand propozitia anterioara, obtinem c.t.d.

(b) Cazul repartitiilor continue

Observam ca denitia este corecta pentru y cu fY (y) > 0:

Aplicand propozitia anterioara, obtinem c.t.c.

Regresia este liniara daca

Dreapta de regresie este data de ecuatia

REGRESIA LINIARA PENTRU

matrice simetrica, pozitiv denita.

Repartitia marginala a lui

Analog se obtine si repartitia marginala a lui

Proprietatea rezulta imediat, calculand

ESTIMAREA PARAMETRILOR DREPTEI DE

pentru care facem ipoteza

astfel incat ecuatia dreptei de regresie este x = a + by:

Lucrand cu repartitia conditionata, apare modelul liniar

unde Z1 ; :::; Zn sunt variabile aleatoare indep, de medie

Sistemul de ecuatii normale

Determinantul matricii sistemului liniar este egal cu

Solutia unica a sistemului de ecuatii normale este

Obtinem dreapta de regresie de selectie

Estimatorii obtinuti prin metoda celor mai mici patrate,

sunt nedeplasati (medierea conditionata):

Putem calcula valoarea minima a sumei abaterilor patratice,

(b) Cu specicarea repartitiei normale a lui

Fie vectorul aleator (X; Y )0 pentru care facem ipoteza

valorile observate ale variablei raspuns

predictorii dati de modelul regresiei liniare (tted values)

Introducem urmatoarele "sume de abateri patratice"

(vom utiliza aceste notatii atat pentru valorile numerice

Cunoastem repartitia variabilei aleatoare (11 ) SSresid

in situatia in care am avea

AUXILIAR: TEOREMA LUI COCHRAN

unde, pentru orice

este matrice simetrica, de rang rj :

Presupunem ca exista transformarea

trebuie sa e nesingulara. Rezulta

Scriem matriceal relatia de descompunere din ipoteza

Vom construi matricea

simetrica, de rang r1 : Rezulta