2 Biostat

CURS 2
PLANUL DE REGRESIE PENTRU MODELUL NORMAL

TRIDIMENSIONAL
Fie vectorul aleator (A, 1
1
, 1
2
)
0
~ (3; , ) , cu
=
_
j
r
,
0
_
0
,
0
= (j
1
, j
2
)
=
_
o
2
r

r
0
r

_
,
r
=
_
o
r1
o
r2
_
,
=
_
o
2
1
o
12
o
12
o
2
2
_
Repartitii marginale, repartitii conditionate
Consideram partitia
(A, 1
1
, 1
2
)
0
= (A, , Y
0
)
0
, cn Y = (1
1
, 1
2
)
0
Repartitiile marginale sunt normale,
A ~
_
j
r
, o
2
r
_
Y ~
_
2;
_
Repartitiile conditionate sunt normale,
A [ Y = y ~
_
' (A [ Y = y) , 1
2
(A [ Y = y)
_
' (A [ Y = y) = j
r
+
_
o
r1
o
r2
_
_
o
2
1
o
12
o
12
o
2
2
_
1
_
j
1
j
1
j
2
j
2
_
1
2
(A [ Y = y) = o
2
r

_
o
r1
o
r2
_
_
o
2
1
o
12
o
12
o
2
2
_
1
_
o
r1
o
r2
_
Avem
' (A [ 1
1
= j
1
, 1
2
= j
2
) = j
r
+
+
1
o
2
1
o
2
2
o
2
12
_
o
r1
o
r2
_
_
o
2
2
o
12
o
12
o
2
1
__
j
1
j
1
j
2
j
2
_
Adica,
' (A [ 1
1
= j
1
, 1
2
= j
2
) = j
r
+/
1
(j
1
j
1
) +/
2
(j
2
j
2
)
/
1
=
o
r1
o
2
2
o
r2
o
12
o
2
1
o
2
2
o
2
12
/
2
=
o
r2
o
2
1
o
r1
o
12
o
2
1
o
2
2
o
2
12
1
1
2
(A [ 1
1
= j
1
, 1
2
= j
2
) =
= o
2
r

1
o
2
1
o
2
2
o
2
12
_
o
r1
o
r2
_
_
o
2
2
o
12
o
12
o
2
1
__
o
r1
o
r2
_
Notatie:
o
2
= 1
2
(A [ 1
1
= j
1
, 1
2
= j
2
) = o
2
r

o
2
r1
o
2
2
+o
2
r2
o
2
1
2o
r1
o
r2
o
12
o
2
1
o
2
2
o
2
12
Regresia lui A in Y este functia
(j
1
, j
2
) ' (A [ 1
1
= j
1
, 1
2
= j
2
)
Ecuatia planului de regresie este
r j
r
= /
1
(j
1
j
1
) +/
2
(j
2
j
2
)
INFERENTA STATISTICA PENTRU PLANUL DE REGRESIE
(a) Fara specicarea repartitiei lui (A, 1
1
, 1
2
)
0
ESTIMAREA PARAMETRILOR PLANULUI DE REGRESIE
PRIN METODA CELOR MAI MICI PATRATE
Fie vectorul aleator (A, 1
1
, 1
2
)
0
pentru care facem ipoteza
' (A [ 1
1
= j
1
, 1
2
= j
2
) = a +/
1
j
1
+/
2
j
2
astfel incat ecuatia planului de regresie este
r = a +/
1
j
1
+/
2
j
2
.
Fie observatiile (A
I
, 1
I1
, 1
I2
)
0
, = 1, ..., :, care sunt vectori aleatori indepen-
denti, identic repartizati ca si (A, 1
1
, 1
2
)
0
si e (r
I
, j
I1
, j
I2
)
0
i = 1, ..., : datele
statistice corespunzatoare.
' (A
I
[ 1
I1
= j
I1
, 1
I2
= j
I2
, i = 1, ..., :) = ' (A
I
[ 1
I1
= j
I1
, 1
I2
= j
I2
)
= a +/
1
j
I1
+/
2
j
I2
Lucrand cu repartitia conditionata, apare modelul liniar :dimensional
A
I
= (a +/
1
j
I1
+/
2
j
I2
) +7
I
, i = 1, ..., :
unde 7
1
, ..., 7
n
sunt variabile aleatoare indep, de medie zero. Aplicam metoda
celor mai mici patrate:
oo (a, /
1
, /
2
) =
n
I=1
(r
I
a /
1
j
I1
/
2
j
I2
)
2
2
Sistemul de ecuatii normale
JSS
Jo
=
JSS
Jb1
=
JSS
Jb2
= 0 se scrie sub forma
_
_
:a +/
1
n
I=1
j
I1
+/
2
n
I=1
j
I2
=
n
I=1
r
I
a
n
I=1
j
I1
+/
1
n
I=1
j
2
I1
+/
2
n
I=1
j
I1
j
I2
=
n
I=1
r
I
j
I1
a
n
I=1
j
I2
+/
1
n
I=1
j
I1
j
I2
+/
2
n
I=1
j
2
I2
=
n
I=1
r
I
j
I2
/
1
=
1
:(
j
I1
j
I2
)
2
2 (:j
1
) (:j
2
)
j
I1
j
I2
+ (:j
1
)
2
j
2
I2
+ (:j
2
)
2
j
2
I1
:(
j
2
I1
)
j
2
I2
[:
_
r
I
j
I2
__
j
I1
j
I2
_
+ (:j
2
)
2
r
I
j
I1
:
_
r
I
j
I1
_
j
I1
j
2
I2

(:r) (:j
2
)
j
I1
j
I2
(:j
1
) (:j
2
)
r
I
j
I2
+ (:r) (:j
1
)
j
2
I2
]
/
2
=
1
:(
j
I1
j
I2
)
2
2 (:j
1
) (:j
2
)
j
I1
j
I2
+ (:j
1
)
2
j
2
I2
+ (:j
2
)
2
j
2
I1
:(
j
2
I1
)
j
2
I2
[:
_
r
I
j
I1
_
j
I1
j
I2
+ (:j
1
)
2
r
I
j
I2
:
_
r
I
j
I2
_
j
2
I1

(:r) (:j
1
)
j
I1
j
I2
(:j
1
) (:j
2
)
r
I
j
I1
+ (:r) (:j
2
)
j
2
I1
]
a = r

/
1
j
1

/
2
j
2
Ecuatia planului de regresie de selectie este:
r r =

/
1
(j
1
j
1
) +

/
2
(j
2
j
2
)
Notatie:
:
2
1
=

(j
I1
j
1
)
2
=
(j
I1
j
1
) j
I1
:
2
2
=

(j
I2
j
2
)
2
=
(j
I2
j
2
) j
I2
:
12
=

(j
I1
j
1
) (j
I2
j
2
) =
j
I1
j
I2
: j
1
j
2
:
r1
=

(j
I1
j
1
) (r
I
r) =
(j
I1
j
1
) r
I
:
r2
=

(j
I2
j
2
) (r
I
r) =
(j
I2
j
2
) r
I
:
2
r
=

(r
I
r)
2
=
(r
I
r) r
I
Cu aceste cantitati se pot construi estimatori nedeplasati ai dispersiilor si
covariantelor. De exemplu,

o
2
1
= :
2
1
, (: 1) .
r
r1
=
:
r1
:
r
:
1
r
r2
=
:
r2
:
r
:
2
3
Rezulta (calculatoriu):
/
1
=
:
r1
:
2
2
:
r2
:
12
:
2
1
:
2
2
:
2
12
/
2
=
:
r2
:
2
1
:
r1
:
12
:
2
1
:
2
2
:
2
12
a = r

/
1
j
1

/
2
j
2
!!! Pastram aceeasi notatie si pentru estimatori
Din proprietatile LSE, avem nedeplasarea conditionata:
'
_
/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
= /
1
'
_
/
2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
= /
2
' (a [ 1
I
= j
I
, i = 1, ..., :, , = 1, 2) = a
(b) Cu specicarea repartitiei lui (A, 1
1
, 1
2
)
0
~ (3; ,) (repartitie
normala)
Putem calcula covarianta si dispersiile conditionate ale estimatorilor
coecientilor planului de regresie:
1
2
_
/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
:
2
2
:
2
1
:
2
2
:
2
12
o
2
1
2
_
/
2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
:
2
1
:
2
1
:
2
2
:
2
12
o
2
co
_
/
1
,
/
2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
:
12
:
2
1
:
2
2
:
2
12
o
2
Vericam prima relatie (TEMA: vericarea celorlalte doua relatii)
1
2
_
/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
= 1
2
_
:
r1
:
2
2
:
r2
:
12
:
2
1
:
2
2
:
2
12
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
1
(:
2
1
:
2
2
:
2
12
)
2
1
2
_
:
r1
:
2
2
:
r2
:
12
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
1
(:
2
1
:
2
2
:
2
12
)
2
[:
4
2
1
2
(:
r1
[ 1
I1
= j
I1
, i = 1, ..., :) +
+:
2
12
1
2
(:
r2
[ 1
I2
= j
I2
, i = 1, ..., :)
2:
2
2
:
12
co (:
r1
, :
r2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2)]
4
1
2
(:
r1
[ 1
I1
= j
I1
, i = 1, ..., :) =

(j
I1
j
1
)
2
o
2
= :
2
1
o
2
1
2
(:
r2
[ 1
I2
= j
I2
, i = 1, ..., :) =

(j
I2
j
2
)
2
o
2
= :
2
2
o
2
co (:
r1
, :
r2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2)
= co
_
(j
I1
j
1
) r
I
,
(j
|2
j
2
) r
|
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=

(j
I1
j
1
) (j
I2
j
2
) o
2
= :
12
o
2
1
2
_
/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
1
(:
2
1
:
2
2
:
2
12
)
2
_
:
4
2
:
2
1
o
2
+:
2
12
:
2
2
o
2
2:
2
2
:
12
:
12
o
2
_
=
o
2
:
2
2
(:
2
1
:
2
2
:
2
12
)
2
_
:
2
2
:
2
1
:
2
12
_
=
o
2
:
2
2
(:
2
1
:
2
2
:
2
12
)
Proprietate
Variabila aleatoare
oo
:tsIJ
=
n
I=1
_
A
I
a

/
1
j
I1

/
2
j
I2
_
2
are proprietatea
1
o
2
oo
:tsIJ
~
2
(: 3)
(Rezulta dintr-o proprietate de la metoda celor mai mici patrate).
In acest moment dispunem de urmatoarele valori:
j
I1
, j
I2
, i = 1, .., :, valorile observate ale covariatelor (ale variabilelor
"cauza")
r
I
, i = 1, ..., :, valorile observate ale variablei raspuns ("efect")
r
I
= a +

/
1
j
I1
+

/
2
j
I2
, i = 1, ..., :, predictorii dati de modelul regresiei
liniare (tted values)
r
I
r
I
, i = 1, ..., :, reziduuri
Introducem urmatoarele "sume de abateri patratice" (sum of squares):
oo
:tsIJ
=
n
I=1
(r
I
r
I
)
2
=
n
I=1
_
r
I
a

/
1
j
I1

/
2
j
I2
_
2
5
oo
:t:tsIt
=
n
I=1
( r
I
r)
2
oo
|o|ol
=
n
I=1
(r
I
r)
2
Proprietate (ecuatia ANOVA)
oo
|o|ol
= oo
:t:tsIt
+oo
:tsIJ
Proprietate
Daca /
1
= /
2
= 0, atunci
1
o
2
oo
:t:tsIt
~
2
(2)
1
o
2
oo
|o|ol
~
2
(: 1)
iar variabilele
1
c
2
oo
:t:tsIt
si
1
c
2
oo
:tsIJ
sunt independente (in raport cu
repartitia conditionata).
TABELUL ANOVA PENTRU PLANUL DE REGRESIE
Sursa de variabilitate oo Grade de libertate oo (mean oo)
abaterile pred de la r oo
:t:tsIt
2 oo
:t:tsIt
=
1
2
oo
:t:tsIt
reziduuri aleatoare oo
:tsIJ
: 3 oo
:tsIJ
=
1
n3
oo
:tsIJ
abaterile obs de la r oo
|o|ol
: 1
6
TESTUL FISHER PENTRU PARAMETRII PLANULUI DE
REGRESIE
(testing the overall model)
Formulam ipoteza H : /
1
= /
2
= 0 cu alternativa H
.
: i : /
I
,= 0.
Daca H este adevarata, atunci variabila aleatoare
7 =
1
2

1
o
2
oo
:t:tsIt
_
1
: 3

1
o
2
oo
:tsIJ
no|o|
=
oo
:t:tsIt
oo
:tsIJ
are o repartitie Fisher cu (2, : 3) grade de libertate.
Pentru c (0, 1) arbitrar xat, e )
(2,n3);1o
cuantila de rang (1 c) a
repartitiei Fisher cu (2, : 3) grade de libertate.
Regiunea critica pentru H : /
1
= /
2
= 0 este
1 =
_
oo
:t:tsIt
oo
:tsIJ
_ )
(2,n3);1o
_
1
(b1=b2=0)
_
oo
:t:tsIt
oo
:tsIJ
_ )
(2,n3);1o
_
= c
Este posibila si alta abordare, in vederea testarii individuale a coeci-
entilor de regresie
Formulam ipotezele H
1
: /
1
= 0 si H
2
: /
2
= 0.
Daca H
2
este adevarata, atunci avem modelul redus al unei drepte de
regresie
r = a +/
1
j
1
Are loc o descompunere
oo
2 j 1
= oo
:t:tsIt(1&2)
oo
:t:tsIt(1)
Proprietate
Daca /
2
= 0 atunci
1
o
2
oo
2 j 1
~
2
(1) ,
Pe baza acestei variabile se pot construi e un test Fisher partial dat de
oo
2 j 1
oo
:tsIJ
~ 1 (1, : 3) ,
e un test t pentru ipoteza H
2
: /
2
= 0
Analog pentru H
1
: /
1
= 0,
oo
1 j 2
= oo
:t:tsIt(1&2)
oo
:t:tsIt(2)
7
RECOMANDARE IMPORTANTA
Inainte de a construi un model de regresie liniara pentru efect si cauze canti-
tative, se recomanda calcularea coecientului de corelatie (Pearson) de regresie
j (A, 1 ) =
co (A, 1 )
_
1
2
(A) 1
2
(1 )
Pentru dreapta de regresie se estimeaza
j (A, 1 ) = r =
:
r
_
:
2
r
:
2
Pentru planul de regresie se estimeaza

j (A, 1
1
) = r
r,1
=
:
r1
_
:
2
r
:
2
1
j (A, 1
2
) = r
r,2
=
:
r2
_
:
2
r
:
2
2
Valorile [r[ < 0.2 sunt considerate, de regula, prea mici pentru a lua in
consideratie o relatie de cauzalitate.
Exista un test de necorelare, care verica ipoteza
H : j = 0
cor.test {stats}
Test for Association/Correlation Between Paired Samples
Description
Test for association between paired samples, using one of Pearsons product
moment correlation coecient, Kendalls tau or Spearmans rho.
Usage: cor.test(x, ...)
cor.test(x, y, alternative = c("two.sided", "less", "greater"), method = c("pearson",
"kendall", "spearman"), exact = NULL, conf.level = 0.95, ...)
If method is "pearson", the test statistic is based on Pearsons product mo-
ment correlation coecient cor(r, j) and follows a t distribution with length(x)-2
degrees of freedom if the samples follow independent normal distributions.
8
ALTE MODELE DE REGRESIE "CANTITATIV ~ CANTITATIV"
1) Regresie parabolica a lui A in 1
r = a +/
1
j +/
2
j
2
Pentru datele statistice (r
I
, j
I
) , i = 1, ..., :, se minimizeza
oo (a, /
1
, /
2
) =
n
I=1
_
r
I
a /
1
j
I
/
2
j
2
I
_
2
!!! Remarcam liniaritatea modelului in raport cu parametrii a, /
1
, /
2
2) Regresie exponentiala a lui A in 1
r = a /
, r 0
Modelul revine la o regresie liniara pentru (log A, 1 ) , dat de dreapta de
regresie
log r = log a +j log /
oo (a, /) =
n
I=1
(log r
I
log a j
I
log /)
2
Notam
log a =
log / = 1
oo (, 1) =
n
I=1
(log r
I
1 j
I
)
2
3) Regresie putere a lui A in 1
r = a j
b
, r 0, j 0
Modelul revine la o regresie liniara pentru (log A, log 1 ) , dat de dreapta de
regresie
log r = log a +/ log j
oo (a, /) =
n
I=1
(log r
I
log a / log j
I
)
2
Notam
log a =
oo (, /) =
n
I=1
(log r
I
/ log j
I
)
2
9
MODEL LINIAR GENERALIZAT
REGRESIE LINIARA GENERALIZATA
a) REGRESIE LOGISTICA CU DATE BINARE
Exemplu de problema:
In procedura de testare a sensibilitatii la un factor alergen (de ex. polen) se
iau in studiu urmatoarele variabile:
- variabila "raspuns" la test (pozitiv / negativ)
- indicatorii statusului imunitar (factori imunitari cantitativi cum ar : his-
tamina in sangele circulant, acetilcolina, serotonina, crioglobulina, etc)
Probabilitatea de a obtine reactia pozitiva la factorul alergen "polen" este
functie de nivelele indicatorilor imunitari pentru ecare pacient.
Cum poate modelata matematic aceasta relatie intre covariate cantitative
si o variabila "raspuns" binara?
Modelul probabilist:
(A, 1
1
, ..., 1
J
)
0 no|o|
= (A, Y
0
)
0
y ' (A [ Y = y)
A [ Y = y ~ 1(1; (y))
(y) =
exp(c +y
0
)
1 + exp (c +y
0
)
' (A [ Y = y) =
exp(c +y
0
)
1 + exp (c +y
0
)
b) REGRESIE LOGISTICA CU DATE BINOMIALE
In procedura de testare a sensibilitatii la un anumit numar de factori alergeni
(de ex. polen, praf de casa, praf de creta, etc) se iau in studiu urmatoarele
variabile:
- variabila "raspuns" la test (numarul de alergeni la care s-a constatat
raspuns pozitiv)
- indicatorii statusului imunitar (factori imunitari cantitativi cum ar : his-
tamina in sangele circulant, acetilcolina, serotonina, crioglobulina, etc)
Probabilitatea de a obtine o reactie pozitiva la oricare dintre factorii alergeni
este functie de nivelele indicatorilor imunitari pentru ecare pacient.
si o variabila "raspuns" binomiala?
(A, 1
1
, ..., 1
J
)
0 no|o|
= (A, Y
0
)
0
y ' (A [ Y = y)
10
A [ Y = y ~ 1(:; (y))
(y) =
exp(c +y
0
)
1 + exp (c +y
0
)
' (A [ Y = y) = : (y) =
: exp(c +y
0
)
1 + exp (c +y
0
)
c) REGRESIE LOG-LINIARA CU DATE POISSON
In investigarea numarului de atacuri de angor pe saptamana se iau in studiu
urmatoarele variabile:
- variabila "raspuns" (numarul de atacuri de angor pe saptamana pe care le
sufera un pacient)
- factorii de risc (indicatori cantitativi sau categoriali ai pacientului, cum ar
: varsta, nivelul colesterolului, tensiunea sistolica, incidenta diabetului, etc)
si o variabila "raspuns" repartizata Poisson?
(A, 1
1
, ..., 1
J
)
0 no|o|
= (A, Y
0
)
0
y ' (A [ Y = y)
A [ Y = y ~ 1oi::o:(j(y))
j(y) = exp (c +y
0
)
' (A [ Y = y) = exp (c +y
0
)
Observatii: (A
I
, Y
0
I
)
0
, vectori al indep, id rep.
Date statistice: (r
I
, y
0
I
) i = 1, ..., :, cu y
I
= (j
I1
, ..., j
IJ
)
0
Comentariu: Vectorii y
I
, i = 1, .., : pot valori observate ale unor vec-
tori aleatori (in cazul regresiei), sau vectori nealeatori, in care se inregistreaza
covariatele deterministe (de ex. conditiile experimentale).
11
"Componenta aleatoare": X =(A
1
, ..., A
n
)
0
Vectorul medie: = (j
1
, ..., j
n
)
0
= (' (A
1
) , ..., ' (A
n
))
0
(in cazul re-
gresiei, este media conditionata)
"Componenta sistematica": Y,
unde Y =|j
I
|
I=1,...,n; =1,...,J
si =(,
1
, ..., ,
J
)
0
MODELUL LINIAR
A
I
au repartitii normale,
_
j
I
, o
2
_
, i = 1, .., :
Legatura dintre componenta aleatoare si componenta sistematica:
= Y
MODELUL LINIAR GENERALIZAT
A
I
au repartitii din clasa exponentiala
Legatura dintre componenta aleatoare si componenta sistematica este data
de o functie de legatura
q (j
I
) = j
I
, i = 1, ..., :
= (j
1
, ..., j
n
)
0
asa incat
= Y
MODELELE DE REGRESIE (LINIARA / LINIARA GENERALIZATA)
Y
I
= (1
I1
, ..., 1
IJ
)
0
i = 1, ..., : sunt vectorii covariatelor aleatoare (variabilele
"cauza")
Modele cu o variabila "efect", d covariate si : observatii.
12
MODELE LINIARE GENERALIZATE CU COVARIATE
NEALEATOARE
Clasa exponentiala
) (r; 0, c) = exp
_
1
a (c)
(r0 / (0)) +c (r; c)
_
in caz continuu
j (r; 0, c) = exp
_
1
a (c)
(r0 / (0)) +c (r; c)
_
in caz discret
Ga::a
_
c,

o
_
) (r; c, j) =
1
_
o
_
o
(c)
r
o1
exp
_
c
j
r
_
= exp
_
c
_
1
j
r lnj
_
+ (c 1) lnr +clnc ln(c)
_
0 =
1
j
c =
1
c
/ (0) = ln(0)
a (c) =
1
c
c (r; c) =
_
1
c
1
_
lnr +
1
c
ln
1
c

_
1
c
_
1i:o:ia|a (:, )
j (r; ) = C
r
n

r
(1 )
nr
= exp
_
rln

1
+:ln(1 ) + lnC
r
n
_
0 = ln

1
c =
1
:
/ (0) = ln
_
1 +c
0
_
a (c) =
1
c
c (r; c) = lnC
r
1/
13
1oi::o:(j)
j (r; j) =
j
r
r!
c
= exprlnj j ln(r!)
0 = lnj
c = 1
/ (0) = c
0
a (c) = 1
c (r; c) = ln(r!)
Legatura dintre functiile ce denesc clasa exponentiala si caracter-
isticile numerice ale lui A
Folosim proprietatile cunoscute ale unei densitati de repartitie (cand derivarea
in raport cu parametrul comuta cu integrarea / sumarea):
'
_
0 ln)
00
_
= 0
'
_
0
2
ln)
00
2
_
= '
_
0 ln)
00
_
2
ln) =
1
a (c)
(r0 / (0)) +c (r; c)
0 ln)
00
=
1
a (c)
(r /
0
(0))
0
2
ln)
00
2
=
1
a (c)
/
00
(0)
' (A) /
0
(0) = 0
1
a
2
(c)
' (A /
0
(0))
2
=
1
a (c)
/
00
(0)
' (A) = /
0
(0)
1
2
(A) = a (c) /
00
(0)
14
E.V.M. pentru parametrul al modelului liniar generalizat
Fie modelul liniar generalizat cu:
Componenta aleatoare: X = (A
1
, ..., A
n
)
0
, de componente din clasa expo-
nentiala
Vectorul medie: = (j
1
, ..., j
n
)
0
= (' (A
1
) , ..., ' (A
n
))
0
Functia de legatura: q (j
I
) = j
I
, i = 1, ..., :; = (j
1
, ..., j
n
)
0
, q strict
monotona, derivabila
Componenta sistematica: = Y (cu Y specicat, ra:qY = d, si para-
metrul necunoscut)
Functia de log-verosimilitate
ln1() =
n
I=1
|
I
()
|
I
() =
1
a (c)
(r
I
0
I
/ (0
I
)) +c (r
I
; c)
Sistemul de verosimilitate maxima
0 ln1()
0,
= 0, , = 1, ..., d
se scrie sub forma unui sistem neliniar in ,de forma
: (; x) = 0,
care se rezolva prin metode iterative.
Scriem formula lui Taylor pentru iteratia (r) , retinand doar termenii de
ordin _ 1 :
: (; x) :
_
(:)
; x
_
+H
_
(:)
; x
__

(:)
_
H
_
(:)
; x
_
=
0
2
ln1()
00
0
j
(r)
Valoarea
(:+1)
este solutia sistemului liniar
H
_
(:)
; x
__

(:)
_
= :
_
(:)
; x
_
Algoritmul Fisher - scoring inlocuieste matricea hessiana cu matricea
informationala Fisher,
1 () = ' (H (; X))
Valoarea
(:+1)
este solutia sistemului liniar
1
_
(:)
__

(:)
_
= :
_
(:)
; x
_
Convergenta algoritmului se obtine din rezultate cunoscute de analiza nu-
merica
15
LABORATOR 2
DREAPTA DE REGRESIE
FUNCTII IN R : |:, a:oa
can.a c (j
1
, ..., j
n
)
c)cct c (r
1
, ..., r
n
)
:odc| |:(c)cct ~ can.a)
Functia |: returneaza
coecients
_
a,
/
_
summary: statistica descriptiva pentru reziduuri
r
I
r
I
, i = 1, ..., :
a:oa(model)
Functia a:oa returneaza tabelul ANOVA si teste pentru ipoteza / = 0
despre care discutam in ultima parte a cursului.
APLICATIE: dreapta de regresie
longley {datasets} R Documentation
Longleys Economic Regression Data
Description
A macroeconomic data set which provides a well-known example for a highly
collinear regression.
Usage
longley
Format
A data frame with 7 economical variables, observed yearly from 1947 to 1962
(n=16).
GNP.deator: GNP implicit price deator (1954=100)
GNP: Gross National Product.
Unemployed: number of unemployed.
Armed.Forces: number of people in the armed forces.
Population: noninstitutionalized population = 14 years of age.
Year: the year (time).
Employed: number of people employed.
16
The regression lm(Employed ~.) is known to be highly collinear.
1) Alegem ca variabila raspuns Employed, cu covariata Population
X <- longley[, "Employed"]
Y <- longley[,"Population"]
model1<-lm(X~Y)
model1
Call:
lm(formula = X ~Y)
Coecients:
(Intercept)...........Y
8.3807 .........0.4849
summary(model1)
Call:
lm(formula = X ~Y2)
Residuals:
Min........ .......1Q.......... Median....... 3Q .............Max
-1.4362 ...-0.9740 .........0.2021...... 0.5531 ......1.9048
Plotarea obseratiilor si a dreptei de regresie
Y <- longley[,"Population"]
X <- longley[,Employed"]
model1 <- lm(X~Y)
plot(X~Y, ylim = c(5,80))
abline(model1)
Coecients:
....................Estimate .....Std. Error...... t value.......Pr([t[)
(Intercept) ...8.3807 .......4.4224 ..........1.895 ........0.079 .
Y................ 0.4849 ........0.0376 ..........12.896 .....3.69e-09
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-Squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF,
p-value: 3.693e-09
Cum j a|nc < 0.05,decidem sa respingem ipoteza H : / = 0, deci
modelul regresiei liniare este corect
anova(model1)
Analysis of Variance Table
Response: X
...................Df...... Sum Sq........Mean Sq .......F value........Pr(F)
Y........ ........1....... 170.643 ......170.643 .......166.30 ......3.693e-09
Residuals ...14 ......14.366 .........1.026
17
CORELATII
1) CAZUL REPARTITIEI NORMALE BIDIMENSIONALE
Fie (A, 1 )
0
~ (2; , ) ,cu
=
_
j
r
j
_
=
_
o
2
r
o
r
o
r
o
2
_
=
_
o
2
r
j o
r
o
j o
r
o
o
2
_
.Avem
1 ~
_
j
, o
2
_
A [ 1 = j ~
_
j
r
+j
o
r
o
_
j j
_
, o
2
r
_
1 j
2
_
_
Fie (A
I
, 1
I
)
0
, i = 1, ..., : observatii i.i.r. ca (A, 1 )
0
si e (r
I
, j
I
) , i = 1, ..., :
datele statistice
Coecientul de corelatie (Pearson) de selectie este
r =
:
r
:
r
:
=
n
I=1
(r
I
r) (j
I
j)
_
n
I=1
(r
I
r)
2
_
n
I=1
(j
I
j)
2
Propozitie
Daca ipoteza de necorelare H : j = 0 este adevarata, atunci variabila
aleatoare
T =
r
_
: 2
_
1 r
2
este repartizata Student t(: 2).
Testul t pentru ipoteza H : j = 0
input datele statistice (r
I
, j
I
) , i = 1, ..., : (disponibile, sau generate)
calculeaza r
calculeaza T
colc
pentru c (0, 1) xat, e t
n2, 1o/2
cuantila de rang
_
1
o
2
_
a repartitiei
t(: 2)
1aca [T
colc
[ _ t
n2, 1o/2
, rc:ji:q H
1aca [T
colc
[ < t
n2, 1o/2
, acccjt H
18
Varianta de decizie cu j a|nc :
j a|nc =
_
_
2
T
calc
_
1
dc::itatca t(: 2), T
colc
< 0
2
1
_
T
calc
dc::itatca t(: 2), T
colc
_ 0
1aca j a|nc _ 0.05, rc:ji:q H
1aca j a|nc 0.05, acccjt H
Interval de incredere pentru j
Propozitie
Daca ipoteza de necorelare H : j = j
0
este adevarata, atunci variabila
aleatoare obtinuta prin "transformarea Fisher"
7 =
1
2
ln
_
1 +r
1 r
_
este aproximativ normal repartizata, de parametri
' (7) =
1
2
ln
_
1 +j
0
1 j
0
_
no|o|
= .
0
1
2
(7) =
1
: 3
Corolar
Daca ipoteza de necorelare H : j = j
0
este adevarata, atunci
_
: 3 (7 .
0
) ~ (0, 1)
Un interval de estimare cu coecient de incredere (1 c) pentru .
0
este
_
7
colc

1
_
: 3
.
1 o/2
, 7
colc
+
1
_
: 3
.
1 o/2
_
Aplicand tranformarea Fisher inversa
r =
exp(27) 1
exp(27) + 1
,
un interval de estimare cu coecient de incredere (1 c) pentru j
0
este
_
_
exp
_
2
_
7
colc

1
p
n3
.
1 o/2
__
1
exp
_
2
_
7
colc

1
p
n3
.
1 o/2
__
+ 1
,
exp
_
2
_
7
colc
+
1
p
n3
.
1 o/2
__
1
exp
_
2
_
7
colc
+
1
p
n3
.
1 o/2
__
+ 1
_
_
19
APLICATIE
Input
=
_
1
3
_
=
_
1 0.8 1 2
0.8 1 2 4
_
=
_
1 1.6
1.6 4
_
Generarea datelor
1 < r:or:(100, 3, 2)
A < r:or:(100, 1 + 0.8 + 1 + (1 3),2, 2 + :rt(1 0.64))
Calculul corelatiei
cor(A, 1 )
Testul t si interval de incredere
cor.tc:t(A, 1 )
TEMA: generati date si estimati coecientii pentru alte tipuri de modele
de regresie, reductibile la regresia liniara
20

2 Biostat

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

2 Biostat

Încărcat de

Drepturi de autor:

Formate disponibile

CURS 2

PLANUL DE REGRESIE PENTRU MODELUL NORMAL

Pentru planul de regresie se estimeaza

S-ar putea să vă placă și