Sunteți pe pagina 1din 20

CURS 2

PLANUL DE REGRESIE PENTRU MODELUL NORMAL


TRIDIMENSIONAL
Fie vectorul aleator (A, 1
1
, 1
2
)
0
~ (3; , ) , cu
=
_
j
r
,
0

_
0
,
0

= (j
1
, j
2
)
=
_
o
2
r

r

0
r

_
,
r
=
_
o
r1
o
r2
_
,

=
_
o
2
1
o
12
o
12
o
2
2
_
Repartitii marginale, repartitii conditionate
Consideram partitia
(A, 1
1
, 1
2
)
0
= (A, , Y
0
)
0
, cn Y = (1
1
, 1
2
)
0
Repartitiile marginale sunt normale,
A ~
_
j
r
, o
2
r
_
Y ~
_
2;

_
Repartitiile conditionate sunt normale,
A [ Y = y ~
_
' (A [ Y = y) , 1
2
(A [ Y = y)
_
' (A [ Y = y) = j
r
+
_
o
r1
o
r2
_
_
o
2
1
o
12
o
12
o
2
2
_
1
_
j
1
j
1
j
2
j
2
_
1
2
(A [ Y = y) = o
2
r

_
o
r1
o
r2
_
_
o
2
1
o
12
o
12
o
2
2
_
1
_
o
r1
o
r2
_
Avem
' (A [ 1
1
= j
1
, 1
2
= j
2
) = j
r
+
+
1
o
2
1
o
2
2
o
2
12
_
o
r1
o
r2
_
_
o
2
2
o
12
o
12
o
2
1
__
j
1
j
1
j
2
j
2
_
Adica,
' (A [ 1
1
= j
1
, 1
2
= j
2
) = j
r
+/
1
(j
1
j
1
) +/
2
(j
2
j
2
)
/
1
=
o
r1
o
2
2
o
r2
o
12
o
2
1
o
2
2
o
2
12
/
2
=
o
r2
o
2
1
o
r1
o
12
o
2
1
o
2
2
o
2
12
1
1
2
(A [ 1
1
= j
1
, 1
2
= j
2
) =
= o
2
r

1
o
2
1
o
2
2
o
2
12
_
o
r1
o
r2
_
_
o
2
2
o
12
o
12
o
2
1
__
o
r1
o
r2
_
Notatie:
o
2
= 1
2
(A [ 1
1
= j
1
, 1
2
= j
2
) = o
2
r

o
2
r1
o
2
2
+o
2
r2
o
2
1
2o
r1
o
r2
o
12
o
2
1
o
2
2
o
2
12
Regresia lui A in Y este functia
(j
1
, j
2
) ' (A [ 1
1
= j
1
, 1
2
= j
2
)
Ecuatia planului de regresie este
r j
r
= /
1
(j
1
j
1
) +/
2
(j
2
j
2
)
INFERENTA STATISTICA PENTRU PLANUL DE REGRESIE
(a) Fara specicarea repartitiei lui (A, 1
1
, 1
2
)
0
ESTIMAREA PARAMETRILOR PLANULUI DE REGRESIE
PRIN METODA CELOR MAI MICI PATRATE
Fie vectorul aleator (A, 1
1
, 1
2
)
0
pentru care facem ipoteza
' (A [ 1
1
= j
1
, 1
2
= j
2
) = a +/
1
j
1
+/
2
j
2
astfel incat ecuatia planului de regresie este
r = a +/
1
j
1
+/
2
j
2
.
Fie observatiile (A
I
, 1
I1
, 1
I2
)
0
, = 1, ..., :, care sunt vectori aleatori indepen-
denti, identic repartizati ca si (A, 1
1
, 1
2
)
0
si e (r
I
, j
I1
, j
I2
)
0
i = 1, ..., : datele
statistice corespunzatoare.
' (A
I
[ 1
I1
= j
I1
, 1
I2
= j
I2
, i = 1, ..., :) = ' (A
I
[ 1
I1
= j
I1
, 1
I2
= j
I2
)
= a +/
1
j
I1
+/
2
j
I2
Lucrand cu repartitia conditionata, apare modelul liniar :dimensional
A
I
= (a +/
1
j
I1
+/
2
j
I2
) +7
I
, i = 1, ..., :
unde 7
1
, ..., 7
n
sunt variabile aleatoare indep, de medie zero. Aplicam metoda
celor mai mici patrate:
oo (a, /
1
, /
2
) =
n

I=1
(r
I
a /
1
j
I1
/
2
j
I2
)
2
2
Sistemul de ecuatii normale
JSS
Jo
=
JSS
Jb1
=
JSS
Jb2
= 0 se scrie sub forma
_

_
:a +/
1
n

I=1
j
I1
+/
2
n

I=1
j
I2
=
n

I=1
r
I
a
n

I=1
j
I1
+/
1
n

I=1
j
2
I1
+/
2
n

I=1
j
I1
j
I2
=
n

I=1
r
I
j
I1
a
n

I=1
j
I2
+/
1
n

I=1
j
I1
j
I2
+/
2
n

I=1
j
2
I2
=
n

I=1
r
I
j
I2

/
1
=
1
:(

j
I1
j
I2
)
2
2 (:j
1
) (:j
2
)

j
I1
j
I2
+ (:j
1
)
2

j
2
I2
+ (:j
2
)
2

j
2
I1
:(

j
2
I1
)

j
2
I2

[:
_

r
I
j
I2
__

j
I1
j
I2
_
+ (:j
2
)
2

r
I
j
I1
:
_

r
I
j
I1
_

j
I1
j
2
I2

(:r) (:j
2
)

j
I1
j
I2
(:j
1
) (:j
2
)

r
I
j
I2
+ (:r) (:j
1
)

j
2
I2
]

/
2
=
1
:(

j
I1
j
I2
)
2
2 (:j
1
) (:j
2
)

j
I1
j
I2
+ (:j
1
)
2

j
2
I2
+ (:j
2
)
2

j
2
I1
:(

j
2
I1
)

j
2
I2

[:
_

r
I
j
I1
_

j
I1
j
I2
+ (:j
1
)
2

r
I
j
I2
:
_

r
I
j
I2
_

j
2
I1

(:r) (:j
1
)

j
I1
j
I2
(:j
1
) (:j
2
)

r
I
j
I1
+ (:r) (:j
2
)

j
2
I1
]
a = r

/
1
j
1


/
2
j
2
Ecuatia planului de regresie de selectie este:
r r =

/
1
(j
1
j
1
) +

/
2
(j
2
j
2
)
Notatie:
:
2
1
=

(j
I1
j
1
)
2
=

(j
I1
j
1
) j
I1
:
2
2
=

(j
I2
j
2
)
2
=

(j
I2
j
2
) j
I2
:
12
=

(j
I1
j
1
) (j
I2
j
2
) =

j
I1
j
I2
: j
1
j
2
:
r1
=

(j
I1
j
1
) (r
I
r) =

(j
I1
j
1
) r
I
:
r2
=

(j
I2
j
2
) (r
I
r) =

(j
I2
j
2
) r
I
:
2
r
=

(r
I
r)
2
=

(r
I
r) r
I
Cu aceste cantitati se pot construi estimatori nedeplasati ai dispersiilor si
covariantelor. De exemplu,

o
2
1
= :
2
1
, (: 1) .
r
r1
=
:
r1
:
r
:
1
r
r2
=
:
r2
:
r
:
2
3
Rezulta (calculatoriu):

/
1
=
:
r1
:
2
2
:
r2
:
12
:
2
1
:
2
2
:
2
12

/
2
=
:
r2
:
2
1
:
r1
:
12
:
2
1
:
2
2
:
2
12
a = r

/
1
j
1


/
2
j
2
!!! Pastram aceeasi notatie si pentru estimatori
Din proprietatile LSE, avem nedeplasarea conditionata:
'
_

/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
= /
1
'
_

/
2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
= /
2
' (a [ 1
I
= j
I
, i = 1, ..., :, , = 1, 2) = a
(b) Cu specicarea repartitiei lui (A, 1
1
, 1
2
)
0
~ (3; ,) (repartitie
normala)
Putem calcula covarianta si dispersiile conditionate ale estimatorilor
coecientilor planului de regresie:
1
2
_

/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
:
2
2
:
2
1
:
2
2
:
2
12
o
2
1
2
_

/
2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
:
2
1
:
2
1
:
2
2
:
2
12
o
2
co
_

/
1
,

/
2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
:
12
:
2
1
:
2
2
:
2
12
o
2
Vericam prima relatie (TEMA: vericarea celorlalte doua relatii)
1
2
_

/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
= 1
2
_
:
r1
:
2
2
:
r2
:
12
:
2
1
:
2
2
:
2
12
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
1
(:
2
1
:
2
2
:
2
12
)
2
1
2
_
:
r1
:
2
2
:
r2
:
12
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
1
(:
2
1
:
2
2
:
2
12
)
2
[:
4
2
1
2
(:
r1
[ 1
I1
= j
I1
, i = 1, ..., :) +
+:
2
12
1
2
(:
r2
[ 1
I2
= j
I2
, i = 1, ..., :)
2:
2
2
:
12
co (:
r1
, :
r2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2)]
4
1
2
(:
r1
[ 1
I1
= j
I1
, i = 1, ..., :) =

(j
I1
j
1
)
2
o
2
= :
2
1
o
2
1
2
(:
r2
[ 1
I2
= j
I2
, i = 1, ..., :) =

(j
I2
j
2
)
2
o
2
= :
2
2
o
2
co (:
r1
, :
r2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2)
= co
_

(j
I1
j
1
) r
I
,

(j
|2
j
2
) r
|
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=

(j
I1
j
1
) (j
I2
j
2
) o
2
= :
12
o
2
1
2
_

/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
1
(:
2
1
:
2
2
:
2
12
)
2
_
:
4
2
:
2
1
o
2
+:
2
12
:
2
2
o
2
2:
2
2
:
12
:
12
o
2
_
=
o
2
:
2
2
(:
2
1
:
2
2
:
2
12
)
2
_
:
2
2
:
2
1
:
2
12
_
=
o
2
:
2
2
(:
2
1
:
2
2
:
2
12
)
Proprietate
Variabila aleatoare
oo
:tsIJ
=
n

I=1
_
A
I
a

/
1
j
I1


/
2
j
I2
_
2
are proprietatea
1
o
2
oo
:tsIJ
~
2
(: 3)
(Rezulta dintr-o proprietate de la metoda celor mai mici patrate).
In acest moment dispunem de urmatoarele valori:
j
I1
, j
I2
, i = 1, .., :, valorile observate ale covariatelor (ale variabilelor
"cauza")
r
I
, i = 1, ..., :, valorile observate ale variablei raspuns ("efect")
r
I
= a +

/
1
j
I1
+

/
2
j
I2
, i = 1, ..., :, predictorii dati de modelul regresiei
liniare (tted values)
r
I
r
I
, i = 1, ..., :, reziduuri
Introducem urmatoarele "sume de abateri patratice" (sum of squares):
oo
:tsIJ
=
n

I=1
(r
I
r
I
)
2
=
n

I=1
_
r
I
a

/
1
j
I1


/
2
j
I2
_
2
5
oo
:t:tsIt
=
n

I=1
( r
I
r)
2
oo
|o|ol
=
n

I=1
(r
I
r)
2
Proprietate (ecuatia ANOVA)
oo
|o|ol
= oo
:t:tsIt
+oo
:tsIJ
Proprietate
Daca /
1
= /
2
= 0, atunci
1
o
2
oo
:t:tsIt
~
2
(2)
1
o
2
oo
|o|ol
~
2
(: 1)
iar variabilele
1
c
2
oo
:t:tsIt
si
1
c
2
oo
:tsIJ
sunt independente (in raport cu
repartitia conditionata).
TABELUL ANOVA PENTRU PLANUL DE REGRESIE
Sursa de variabilitate oo Grade de libertate oo (mean oo)
abaterile pred de la r oo
:t:tsIt
2 oo
:t:tsIt
=
1
2
oo
:t:tsIt
reziduuri aleatoare oo
:tsIJ
: 3 oo
:tsIJ
=
1
n3
oo
:tsIJ
abaterile obs de la r oo
|o|ol
: 1
6
TESTUL FISHER PENTRU PARAMETRII PLANULUI DE
REGRESIE
(testing the overall model)
Formulam ipoteza H : /
1
= /
2
= 0 cu alternativa H
.
: i : /
I
,= 0.
Daca H este adevarata, atunci variabila aleatoare
7 =
1
2

1
o
2
oo
:t:tsIt
_
1
: 3

1
o
2
oo
:tsIJ
no|o|
=
oo
:t:tsIt
oo
:tsIJ
are o repartitie Fisher cu (2, : 3) grade de libertate.
Pentru c (0, 1) arbitrar xat, e )
(2,n3);1o
cuantila de rang (1 c) a
repartitiei Fisher cu (2, : 3) grade de libertate.
Regiunea critica pentru H : /
1
= /
2
= 0 este
1 =
_
oo
:t:tsIt
oo
:tsIJ
_ )
(2,n3);1o
_
1
(b1=b2=0)
_
oo
:t:tsIt
oo
:tsIJ
_ )
(2,n3);1o
_
= c
Este posibila si alta abordare, in vederea testarii individuale a coeci-
entilor de regresie
Formulam ipotezele H
1
: /
1
= 0 si H
2
: /
2
= 0.
Daca H
2
este adevarata, atunci avem modelul redus al unei drepte de
regresie
r = a +/
1
j
1
Are loc o descompunere
oo
2 j 1
= oo
:t:tsIt(1&2)
oo
:t:tsIt(1)
Proprietate
Daca /
2
= 0 atunci
1
o
2
oo
2 j 1
~
2
(1) ,
Pe baza acestei variabile se pot construi e un test Fisher partial dat de
oo
2 j 1
oo
:tsIJ
~ 1 (1, : 3) ,
e un test t pentru ipoteza H
2
: /
2
= 0
Analog pentru H
1
: /
1
= 0,
oo
1 j 2
= oo
:t:tsIt(1&2)
oo
:t:tsIt(2)
7
RECOMANDARE IMPORTANTA
Inainte de a construi un model de regresie liniara pentru efect si cauze canti-
tative, se recomanda calcularea coecientului de corelatie (Pearson) de regresie
j (A, 1 ) =
co (A, 1 )
_
1
2
(A) 1
2
(1 )
Pentru dreapta de regresie se estimeaza
j (A, 1 ) = r =
:
r
_
:
2
r
:
2

Pentru planul de regresie se estimeaza


j (A, 1
1
) = r
r,1
=
:
r1
_
:
2
r
:
2
1
j (A, 1
2
) = r
r,2
=
:
r2
_
:
2
r
:
2
2
Valorile [r[ < 0.2 sunt considerate, de regula, prea mici pentru a lua in
consideratie o relatie de cauzalitate.
Exista un test de necorelare, care verica ipoteza
H : j = 0
cor.test {stats}
Test for Association/Correlation Between Paired Samples
Description
Test for association between paired samples, using one of Pearsons product
moment correlation coecient, Kendalls tau or Spearmans rho.
Usage: cor.test(x, ...)
cor.test(x, y, alternative = c("two.sided", "less", "greater"), method = c("pearson",
"kendall", "spearman"), exact = NULL, conf.level = 0.95, ...)
If method is "pearson", the test statistic is based on Pearsons product mo-
ment correlation coecient cor(r, j) and follows a t distribution with length(x)-2
degrees of freedom if the samples follow independent normal distributions.
8
ALTE MODELE DE REGRESIE "CANTITATIV ~ CANTITATIV"
1) Regresie parabolica a lui A in 1
r = a +/
1
j +/
2
j
2
Pentru datele statistice (r
I
, j
I
) , i = 1, ..., :, se minimizeza
oo (a, /
1
, /
2
) =
n

I=1
_
r
I
a /
1
j
I
/
2
j
2
I
_
2
!!! Remarcam liniaritatea modelului in raport cu parametrii a, /
1
, /
2
2) Regresie exponentiala a lui A in 1
r = a /

, r 0
Modelul revine la o regresie liniara pentru (log A, 1 ) , dat de dreapta de
regresie
log r = log a +j log /
oo (a, /) =
n

I=1
(log r
I
log a j
I
log /)
2
Notam
log a =
log / = 1
oo (, 1) =
n

I=1
(log r
I
1 j
I
)
2
3) Regresie putere a lui A in 1
r = a j
b
, r 0, j 0
Modelul revine la o regresie liniara pentru (log A, log 1 ) , dat de dreapta de
regresie
log r = log a +/ log j
oo (a, /) =
n

I=1
(log r
I
log a / log j
I
)
2
Notam
log a =
oo (, /) =
n

I=1
(log r
I
/ log j
I
)
2
9
MODEL LINIAR GENERALIZAT
REGRESIE LINIARA GENERALIZATA
a) REGRESIE LOGISTICA CU DATE BINARE
Exemplu de problema:
In procedura de testare a sensibilitatii la un factor alergen (de ex. polen) se
iau in studiu urmatoarele variabile:
- variabila "raspuns" la test (pozitiv / negativ)
- indicatorii statusului imunitar (factori imunitari cantitativi cum ar : his-
tamina in sangele circulant, acetilcolina, serotonina, crioglobulina, etc)
Probabilitatea de a obtine reactia pozitiva la factorul alergen "polen" este
functie de nivelele indicatorilor imunitari pentru ecare pacient.
Cum poate modelata matematic aceasta relatie intre covariate cantitative
si o variabila "raspuns" binara?
Modelul probabilist:
(A, 1
1
, ..., 1
J
)
0 no|o|
= (A, Y
0
)
0
y ' (A [ Y = y)
A [ Y = y ~ 1(1; (y))
(y) =
exp(c +y
0
)
1 + exp (c +y
0
)
' (A [ Y = y) =
exp(c +y
0
)
1 + exp (c +y
0
)
b) REGRESIE LOGISTICA CU DATE BINOMIALE
Exemplu de problema:
In procedura de testare a sensibilitatii la un anumit numar de factori alergeni
(de ex. polen, praf de casa, praf de creta, etc) se iau in studiu urmatoarele
variabile:
- variabila "raspuns" la test (numarul de alergeni la care s-a constatat
raspuns pozitiv)
- indicatorii statusului imunitar (factori imunitari cantitativi cum ar : his-
tamina in sangele circulant, acetilcolina, serotonina, crioglobulina, etc)
Probabilitatea de a obtine o reactie pozitiva la oricare dintre factorii alergeni
este functie de nivelele indicatorilor imunitari pentru ecare pacient.
Cum poate modelata matematic aceasta relatie intre covariate cantitative
si o variabila "raspuns" binomiala?
Modelul probabilist:
(A, 1
1
, ..., 1
J
)
0 no|o|
= (A, Y
0
)
0
y ' (A [ Y = y)
10
A [ Y = y ~ 1(:; (y))
(y) =
exp(c +y
0
)
1 + exp (c +y
0
)
' (A [ Y = y) = : (y) =
: exp(c +y
0
)
1 + exp (c +y
0
)
c) REGRESIE LOG-LINIARA CU DATE POISSON
Exemplu de problema:
In investigarea numarului de atacuri de angor pe saptamana se iau in studiu
urmatoarele variabile:
- variabila "raspuns" (numarul de atacuri de angor pe saptamana pe care le
sufera un pacient)
- factorii de risc (indicatori cantitativi sau categoriali ai pacientului, cum ar
: varsta, nivelul colesterolului, tensiunea sistolica, incidenta diabetului, etc)
Cum poate modelata matematic aceasta relatie intre covariate cantitative
si o variabila "raspuns" repartizata Poisson?
Modelul probabilist:
(A, 1
1
, ..., 1
J
)
0 no|o|
= (A, Y
0
)
0
y ' (A [ Y = y)
A [ Y = y ~ 1oi::o:(j(y))
j(y) = exp (c +y
0
)
' (A [ Y = y) = exp (c +y
0
)
Observatii: (A
I
, Y
0
I
)
0
, vectori al indep, id rep.
Date statistice: (r
I
, y
0
I
) i = 1, ..., :, cu y
I
= (j
I1
, ..., j
IJ
)
0
Comentariu: Vectorii y
I
, i = 1, .., : pot valori observate ale unor vec-
tori aleatori (in cazul regresiei), sau vectori nealeatori, in care se inregistreaza
covariatele deterministe (de ex. conditiile experimentale).
11
"Componenta aleatoare": X =(A
1
, ..., A
n
)
0
Vectorul medie: = (j
1
, ..., j
n
)
0
= (' (A
1
) , ..., ' (A
n
))
0
(in cazul re-
gresiei, este media conditionata)
"Componenta sistematica": Y,
unde Y =|j
I
|
I=1,...,n; =1,...,J
si =(,
1
, ..., ,
J
)
0
MODELUL LINIAR
A
I
au repartitii normale,
_
j
I
, o
2
_
, i = 1, .., :
Legatura dintre componenta aleatoare si componenta sistematica:
= Y
MODELUL LINIAR GENERALIZAT
A
I
au repartitii din clasa exponentiala
Legatura dintre componenta aleatoare si componenta sistematica este data
de o functie de legatura
q (j
I
) = j
I
, i = 1, ..., :
= (j
1
, ..., j
n
)
0
asa incat
= Y
MODELELE DE REGRESIE (LINIARA / LINIARA GENERALIZATA)
Y
I
= (1
I1
, ..., 1
IJ
)
0
i = 1, ..., : sunt vectorii covariatelor aleatoare (variabilele
"cauza")
Modele cu o variabila "efect", d covariate si : observatii.
12
MODELE LINIARE GENERALIZATE CU COVARIATE
NEALEATOARE
Clasa exponentiala
) (r; 0, c) = exp
_
1
a (c)
(r0 / (0)) +c (r; c)
_
in caz continuu
j (r; 0, c) = exp
_
1
a (c)
(r0 / (0)) +c (r; c)
_
in caz discret
Ga::a
_
c,

o
_
) (r; c, j) =
1
_

o
_
o
(c)
r
o1
exp
_

c
j
r
_
= exp
_
c
_

1
j
r lnj
_
+ (c 1) lnr +clnc ln(c)
_
0 =
1
j
c =
1
c
/ (0) = ln(0)
a (c) =
1
c
c (r; c) =
_
1
c
1
_
lnr +
1
c
ln
1
c

_
1
c
_
1i:o:ia|a (:, )
j (r; ) = C
r
n

r
(1 )
nr
= exp
_
rln

1
+:ln(1 ) + lnC
r
n
_
0 = ln

1
c =
1
:
/ (0) = ln
_
1 +c
0
_
a (c) =
1
c
c (r; c) = lnC
r
1/
13
1oi::o:(j)
j (r; j) =
j
r
r!
c

= exprlnj j ln(r!)
0 = lnj
c = 1
/ (0) = c
0
a (c) = 1
c (r; c) = ln(r!)
Legatura dintre functiile ce denesc clasa exponentiala si caracter-
isticile numerice ale lui A
Folosim proprietatile cunoscute ale unei densitati de repartitie (cand derivarea
in raport cu parametrul comuta cu integrarea / sumarea):
'
_
0 ln)
00
_
= 0
'
_
0
2
ln)
00
2
_
= '
_
0 ln)
00
_
2
ln) =
1
a (c)
(r0 / (0)) +c (r; c)
0 ln)
00
=
1
a (c)
(r /
0
(0))
0
2
ln)
00
2
=
1
a (c)
/
00
(0)
' (A) /
0
(0) = 0
1
a
2
(c)
' (A /
0
(0))
2
=
1
a (c)
/
00
(0)
' (A) = /
0
(0)
1
2
(A) = a (c) /
00
(0)
14
E.V.M. pentru parametrul al modelului liniar generalizat
Fie modelul liniar generalizat cu:
Componenta aleatoare: X = (A
1
, ..., A
n
)
0
, de componente din clasa expo-
nentiala
Vectorul medie: = (j
1
, ..., j
n
)
0
= (' (A
1
) , ..., ' (A
n
))
0
Functia de legatura: q (j
I
) = j
I
, i = 1, ..., :; = (j
1
, ..., j
n
)
0
, q strict
monotona, derivabila
Componenta sistematica: = Y (cu Y specicat, ra:qY = d, si para-
metrul necunoscut)
Functia de log-verosimilitate
ln1() =
n

I=1
|
I
()
|
I
() =
1
a (c)
(r
I
0
I
/ (0
I
)) +c (r
I
; c)
Sistemul de verosimilitate maxima
0 ln1()
0,

= 0, , = 1, ..., d
se scrie sub forma unui sistem neliniar in ,de forma
: (; x) = 0,
care se rezolva prin metode iterative.
Scriem formula lui Taylor pentru iteratia (r) , retinand doar termenii de
ordin _ 1 :
: (; x) :
_

(:)
; x
_
+H
_

(:)
; x
__

(:)
_
H
_

(:)
; x
_
=
0
2
ln1()
00
0
j
(r)
Valoarea
(:+1)
este solutia sistemului liniar
H
_

(:)
; x
__

(:)
_
= :
_

(:)
; x
_
Algoritmul Fisher - scoring inlocuieste matricea hessiana cu matricea
informationala Fisher,
1 () = ' (H (; X))
Valoarea
(:+1)
este solutia sistemului liniar
1
_

(:)
__

(:)
_
= :
_

(:)
; x
_
Convergenta algoritmului se obtine din rezultate cunoscute de analiza nu-
merica
15
LABORATOR 2
DREAPTA DE REGRESIE
FUNCTII IN R : |:, a:oa
can.a c (j
1
, ..., j
n
)
c)cct c (r
1
, ..., r
n
)
:odc| |:(c)cct ~ can.a)
Functia |: returneaza
coecients
_
a,

/
_
summary: statistica descriptiva pentru reziduuri
r
I
r
I
, i = 1, ..., :
a:oa(model)
Functia a:oa returneaza tabelul ANOVA si teste pentru ipoteza / = 0
despre care discutam in ultima parte a cursului.
APLICATIE: dreapta de regresie
longley {datasets} R Documentation
Longleys Economic Regression Data
Description
A macroeconomic data set which provides a well-known example for a highly
collinear regression.
Usage
longley
Format
A data frame with 7 economical variables, observed yearly from 1947 to 1962
(n=16).
GNP.deator: GNP implicit price deator (1954=100)
GNP: Gross National Product.
Unemployed: number of unemployed.
Armed.Forces: number of people in the armed forces.
Population: noninstitutionalized population = 14 years of age.
Year: the year (time).
Employed: number of people employed.
16
The regression lm(Employed ~.) is known to be highly collinear.
1) Alegem ca variabila raspuns Employed, cu covariata Population
X <- longley[, "Employed"]
Y <- longley[,"Population"]
model1<-lm(X~Y)
model1
Call:
lm(formula = X ~Y)
Coecients:
(Intercept)...........Y
8.3807 .........0.4849
summary(model1)
Call:
lm(formula = X ~Y2)
Residuals:
Min........ .......1Q.......... Median....... 3Q .............Max
-1.4362 ...-0.9740 .........0.2021...... 0.5531 ......1.9048
Plotarea obseratiilor si a dreptei de regresie
Y <- longley[,"Population"]
X <- longley[,Employed"]
model1 <- lm(X~Y)
plot(X~Y, ylim = c(5,80))
abline(model1)
Coecients:
....................Estimate .....Std. Error...... t value.......Pr([t[)
(Intercept) ...8.3807 .......4.4224 ..........1.895 ........0.079 .
Y................ 0.4849 ........0.0376 ..........12.896 .....3.69e-09
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-Squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF,
p-value: 3.693e-09
Cum j a|nc < 0.05,decidem sa respingem ipoteza H : / = 0, deci
modelul regresiei liniare este corect
anova(model1)
Analysis of Variance Table
Response: X
...................Df...... Sum Sq........Mean Sq .......F value........Pr(F)
Y........ ........1....... 170.643 ......170.643 .......166.30 ......3.693e-09
Residuals ...14 ......14.366 .........1.026
17
CORELATII
1) CAZUL REPARTITIEI NORMALE BIDIMENSIONALE
Fie (A, 1 )
0
~ (2; , ) ,cu
=
_
j
r
j

_
=
_
o
2
r
o
r
o
r
o
2

_
=
_
o
2
r
j o
r
o

j o
r
o

o
2

_
.Avem
1 ~
_
j

, o
2

_
A [ 1 = j ~
_
j
r
+j
o
r
o

_
j j

_
, o
2
r
_
1 j
2
_
_
Fie (A
I
, 1
I
)
0
, i = 1, ..., : observatii i.i.r. ca (A, 1 )
0
si e (r
I
, j
I
) , i = 1, ..., :
datele statistice
Coecientul de corelatie (Pearson) de selectie este
r =
:
r
:
r
:

=
n

I=1
(r
I
r) (j
I
j)
_
n

I=1
(r
I
r)
2

_
n

I=1
(j
I
j)
2
Propozitie
Daca ipoteza de necorelare H : j = 0 este adevarata, atunci variabila
aleatoare
T =
r
_
: 2
_
1 r
2
este repartizata Student t(: 2).
Testul t pentru ipoteza H : j = 0
input datele statistice (r
I
, j
I
) , i = 1, ..., : (disponibile, sau generate)
calculeaza r
calculeaza T
colc
pentru c (0, 1) xat, e t
n2, 1o/2
cuantila de rang
_
1
o
2
_
a repartitiei
t(: 2)
1aca [T
colc
[ _ t
n2, 1o/2
, rc:ji:q H
1aca [T
colc
[ < t
n2, 1o/2
, acccjt H
18
Varianta de decizie cu j a|nc :
j a|nc =
_

_
2
T
calc
_
1
dc::itatca t(: 2), T
colc
< 0
2
1
_
T
calc
dc::itatca t(: 2), T
colc
_ 0
1aca j a|nc _ 0.05, rc:ji:q H
1aca j a|nc 0.05, acccjt H
Interval de incredere pentru j
Propozitie
Daca ipoteza de necorelare H : j = j
0
este adevarata, atunci variabila
aleatoare obtinuta prin "transformarea Fisher"
7 =
1
2
ln
_
1 +r
1 r
_
este aproximativ normal repartizata, de parametri
' (7) =
1
2
ln
_
1 +j
0
1 j
0
_
no|o|
= .
0
1
2
(7) =
1
: 3
Corolar
Daca ipoteza de necorelare H : j = j
0
este adevarata, atunci
_
: 3 (7 .
0
) ~ (0, 1)
Un interval de estimare cu coecient de incredere (1 c) pentru .
0
este
_
7
colc

1
_
: 3
.
1 o/2
, 7
colc
+
1
_
: 3
.
1 o/2
_
Aplicand tranformarea Fisher inversa
r =
exp(27) 1
exp(27) + 1
,
un interval de estimare cu coecient de incredere (1 c) pentru j
0
este
_
_
exp
_
2
_
7
colc

1
p
n3
.
1 o/2
__
1
exp
_
2
_
7
colc

1
p
n3
.
1 o/2
__
+ 1
,
exp
_
2
_
7
colc
+
1
p
n3
.
1 o/2
__
1
exp
_
2
_
7
colc
+
1
p
n3
.
1 o/2
__
+ 1
_
_
19
APLICATIE
Input
=
_
1
3
_
=
_
1 0.8 1 2
0.8 1 2 4
_
=
_
1 1.6
1.6 4
_
Generarea datelor
1 < r:or:(100, 3, 2)
A < r:or:(100, 1 + 0.8 + 1 + (1 3),2, 2 + :rt(1 0.64))
Calculul corelatiei
cor(A, 1 )
Testul t si interval de incredere
cor.tc:t(A, 1 )
TEMA: generati date si estimati coecientii pentru alte tipuri de modele
de regresie, reductibile la regresia liniara
20

S-ar putea să vă placă și