Documente Academic
Documente Profesional
Documente Cultură
_
0
,
0
= (j
1
, j
2
)
=
_
o
2
r
r
0
r
_
,
r
=
_
o
r1
o
r2
_
,
=
_
o
2
1
o
12
o
12
o
2
2
_
Repartitii marginale, repartitii conditionate
Consideram partitia
(A, 1
1
, 1
2
)
0
= (A, , Y
0
)
0
, cn Y = (1
1
, 1
2
)
0
Repartitiile marginale sunt normale,
A ~
_
j
r
, o
2
r
_
Y ~
_
2;
_
Repartitiile conditionate sunt normale,
A [ Y = y ~
_
' (A [ Y = y) , 1
2
(A [ Y = y)
_
' (A [ Y = y) = j
r
+
_
o
r1
o
r2
_
_
o
2
1
o
12
o
12
o
2
2
_
1
_
j
1
j
1
j
2
j
2
_
1
2
(A [ Y = y) = o
2
r
_
o
r1
o
r2
_
_
o
2
1
o
12
o
12
o
2
2
_
1
_
o
r1
o
r2
_
Avem
' (A [ 1
1
= j
1
, 1
2
= j
2
) = j
r
+
+
1
o
2
1
o
2
2
o
2
12
_
o
r1
o
r2
_
_
o
2
2
o
12
o
12
o
2
1
__
j
1
j
1
j
2
j
2
_
Adica,
' (A [ 1
1
= j
1
, 1
2
= j
2
) = j
r
+/
1
(j
1
j
1
) +/
2
(j
2
j
2
)
/
1
=
o
r1
o
2
2
o
r2
o
12
o
2
1
o
2
2
o
2
12
/
2
=
o
r2
o
2
1
o
r1
o
12
o
2
1
o
2
2
o
2
12
1
1
2
(A [ 1
1
= j
1
, 1
2
= j
2
) =
= o
2
r
1
o
2
1
o
2
2
o
2
12
_
o
r1
o
r2
_
_
o
2
2
o
12
o
12
o
2
1
__
o
r1
o
r2
_
Notatie:
o
2
= 1
2
(A [ 1
1
= j
1
, 1
2
= j
2
) = o
2
r
o
2
r1
o
2
2
+o
2
r2
o
2
1
2o
r1
o
r2
o
12
o
2
1
o
2
2
o
2
12
Regresia lui A in Y este functia
(j
1
, j
2
) ' (A [ 1
1
= j
1
, 1
2
= j
2
)
Ecuatia planului de regresie este
r j
r
= /
1
(j
1
j
1
) +/
2
(j
2
j
2
)
INFERENTA STATISTICA PENTRU PLANUL DE REGRESIE
(a) Fara specicarea repartitiei lui (A, 1
1
, 1
2
)
0
ESTIMAREA PARAMETRILOR PLANULUI DE REGRESIE
PRIN METODA CELOR MAI MICI PATRATE
Fie vectorul aleator (A, 1
1
, 1
2
)
0
pentru care facem ipoteza
' (A [ 1
1
= j
1
, 1
2
= j
2
) = a +/
1
j
1
+/
2
j
2
astfel incat ecuatia planului de regresie este
r = a +/
1
j
1
+/
2
j
2
.
Fie observatiile (A
I
, 1
I1
, 1
I2
)
0
, = 1, ..., :, care sunt vectori aleatori indepen-
denti, identic repartizati ca si (A, 1
1
, 1
2
)
0
si e (r
I
, j
I1
, j
I2
)
0
i = 1, ..., : datele
statistice corespunzatoare.
' (A
I
[ 1
I1
= j
I1
, 1
I2
= j
I2
, i = 1, ..., :) = ' (A
I
[ 1
I1
= j
I1
, 1
I2
= j
I2
)
= a +/
1
j
I1
+/
2
j
I2
Lucrand cu repartitia conditionata, apare modelul liniar :dimensional
A
I
= (a +/
1
j
I1
+/
2
j
I2
) +7
I
, i = 1, ..., :
unde 7
1
, ..., 7
n
sunt variabile aleatoare indep, de medie zero. Aplicam metoda
celor mai mici patrate:
oo (a, /
1
, /
2
) =
n
I=1
(r
I
a /
1
j
I1
/
2
j
I2
)
2
2
Sistemul de ecuatii normale
JSS
Jo
=
JSS
Jb1
=
JSS
Jb2
= 0 se scrie sub forma
_
_
:a +/
1
n
I=1
j
I1
+/
2
n
I=1
j
I2
=
n
I=1
r
I
a
n
I=1
j
I1
+/
1
n
I=1
j
2
I1
+/
2
n
I=1
j
I1
j
I2
=
n
I=1
r
I
j
I1
a
n
I=1
j
I2
+/
1
n
I=1
j
I1
j
I2
+/
2
n
I=1
j
2
I2
=
n
I=1
r
I
j
I2
/
1
=
1
:(
j
I1
j
I2
)
2
2 (:j
1
) (:j
2
)
j
I1
j
I2
+ (:j
1
)
2
j
2
I2
+ (:j
2
)
2
j
2
I1
:(
j
2
I1
)
j
2
I2
[:
_
r
I
j
I2
__
j
I1
j
I2
_
+ (:j
2
)
2
r
I
j
I1
:
_
r
I
j
I1
_
j
I1
j
2
I2
(:r) (:j
2
)
j
I1
j
I2
(:j
1
) (:j
2
)
r
I
j
I2
+ (:r) (:j
1
)
j
2
I2
]
/
2
=
1
:(
j
I1
j
I2
)
2
2 (:j
1
) (:j
2
)
j
I1
j
I2
+ (:j
1
)
2
j
2
I2
+ (:j
2
)
2
j
2
I1
:(
j
2
I1
)
j
2
I2
[:
_
r
I
j
I1
_
j
I1
j
I2
+ (:j
1
)
2
r
I
j
I2
:
_
r
I
j
I2
_
j
2
I1
(:r) (:j
1
)
j
I1
j
I2
(:j
1
) (:j
2
)
r
I
j
I1
+ (:r) (:j
2
)
j
2
I1
]
a = r
/
1
j
1
/
2
j
2
Ecuatia planului de regresie de selectie este:
r r =
/
1
(j
1
j
1
) +
/
2
(j
2
j
2
)
Notatie:
:
2
1
=
(j
I1
j
1
)
2
=
(j
I1
j
1
) j
I1
:
2
2
=
(j
I2
j
2
)
2
=
(j
I2
j
2
) j
I2
:
12
=
(j
I1
j
1
) (j
I2
j
2
) =
j
I1
j
I2
: j
1
j
2
:
r1
=
(j
I1
j
1
) (r
I
r) =
(j
I1
j
1
) r
I
:
r2
=
(j
I2
j
2
) (r
I
r) =
(j
I2
j
2
) r
I
:
2
r
=
(r
I
r)
2
=
(r
I
r) r
I
Cu aceste cantitati se pot construi estimatori nedeplasati ai dispersiilor si
covariantelor. De exemplu,
o
2
1
= :
2
1
, (: 1) .
r
r1
=
:
r1
:
r
:
1
r
r2
=
:
r2
:
r
:
2
3
Rezulta (calculatoriu):
/
1
=
:
r1
:
2
2
:
r2
:
12
:
2
1
:
2
2
:
2
12
/
2
=
:
r2
:
2
1
:
r1
:
12
:
2
1
:
2
2
:
2
12
a = r
/
1
j
1
/
2
j
2
!!! Pastram aceeasi notatie si pentru estimatori
Din proprietatile LSE, avem nedeplasarea conditionata:
'
_
/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
= /
1
'
_
/
2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
= /
2
' (a [ 1
I
= j
I
, i = 1, ..., :, , = 1, 2) = a
(b) Cu specicarea repartitiei lui (A, 1
1
, 1
2
)
0
~ (3; ,) (repartitie
normala)
Putem calcula covarianta si dispersiile conditionate ale estimatorilor
coecientilor planului de regresie:
1
2
_
/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
:
2
2
:
2
1
:
2
2
:
2
12
o
2
1
2
_
/
2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
:
2
1
:
2
1
:
2
2
:
2
12
o
2
co
_
/
1
,
/
2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
:
12
:
2
1
:
2
2
:
2
12
o
2
Vericam prima relatie (TEMA: vericarea celorlalte doua relatii)
1
2
_
/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
= 1
2
_
:
r1
:
2
2
:
r2
:
12
:
2
1
:
2
2
:
2
12
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
1
(:
2
1
:
2
2
:
2
12
)
2
1
2
_
:
r1
:
2
2
:
r2
:
12
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
1
(:
2
1
:
2
2
:
2
12
)
2
[:
4
2
1
2
(:
r1
[ 1
I1
= j
I1
, i = 1, ..., :) +
+:
2
12
1
2
(:
r2
[ 1
I2
= j
I2
, i = 1, ..., :)
2:
2
2
:
12
co (:
r1
, :
r2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2)]
4
1
2
(:
r1
[ 1
I1
= j
I1
, i = 1, ..., :) =
(j
I1
j
1
)
2
o
2
= :
2
1
o
2
1
2
(:
r2
[ 1
I2
= j
I2
, i = 1, ..., :) =
(j
I2
j
2
)
2
o
2
= :
2
2
o
2
co (:
r1
, :
r2
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2)
= co
_
(j
I1
j
1
) r
I
,
(j
|2
j
2
) r
|
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
(j
I1
j
1
) (j
I2
j
2
) o
2
= :
12
o
2
1
2
_
/
1
[ 1
I
= j
I
, i = 1, ..., :, , = 1, 2
_
=
1
(:
2
1
:
2
2
:
2
12
)
2
_
:
4
2
:
2
1
o
2
+:
2
12
:
2
2
o
2
2:
2
2
:
12
:
12
o
2
_
=
o
2
:
2
2
(:
2
1
:
2
2
:
2
12
)
2
_
:
2
2
:
2
1
:
2
12
_
=
o
2
:
2
2
(:
2
1
:
2
2
:
2
12
)
Proprietate
Variabila aleatoare
oo
:tsIJ
=
n
I=1
_
A
I
a
/
1
j
I1
/
2
j
I2
_
2
are proprietatea
1
o
2
oo
:tsIJ
~
2
(: 3)
(Rezulta dintr-o proprietate de la metoda celor mai mici patrate).
In acest moment dispunem de urmatoarele valori:
j
I1
, j
I2
, i = 1, .., :, valorile observate ale covariatelor (ale variabilelor
"cauza")
r
I
, i = 1, ..., :, valorile observate ale variablei raspuns ("efect")
r
I
= a +
/
1
j
I1
+
/
2
j
I2
, i = 1, ..., :, predictorii dati de modelul regresiei
liniare (tted values)
r
I
r
I
, i = 1, ..., :, reziduuri
Introducem urmatoarele "sume de abateri patratice" (sum of squares):
oo
:tsIJ
=
n
I=1
(r
I
r
I
)
2
=
n
I=1
_
r
I
a
/
1
j
I1
/
2
j
I2
_
2
5
oo
:t:tsIt
=
n
I=1
( r
I
r)
2
oo
|o|ol
=
n
I=1
(r
I
r)
2
Proprietate (ecuatia ANOVA)
oo
|o|ol
= oo
:t:tsIt
+oo
:tsIJ
Proprietate
Daca /
1
= /
2
= 0, atunci
1
o
2
oo
:t:tsIt
~
2
(2)
1
o
2
oo
|o|ol
~
2
(: 1)
iar variabilele
1
c
2
oo
:t:tsIt
si
1
c
2
oo
:tsIJ
sunt independente (in raport cu
repartitia conditionata).
TABELUL ANOVA PENTRU PLANUL DE REGRESIE
Sursa de variabilitate oo Grade de libertate oo (mean oo)
abaterile pred de la r oo
:t:tsIt
2 oo
:t:tsIt
=
1
2
oo
:t:tsIt
reziduuri aleatoare oo
:tsIJ
: 3 oo
:tsIJ
=
1
n3
oo
:tsIJ
abaterile obs de la r oo
|o|ol
: 1
6
TESTUL FISHER PENTRU PARAMETRII PLANULUI DE
REGRESIE
(testing the overall model)
Formulam ipoteza H : /
1
= /
2
= 0 cu alternativa H
.
: i : /
I
,= 0.
Daca H este adevarata, atunci variabila aleatoare
7 =
1
2
1
o
2
oo
:t:tsIt
_
1
: 3
1
o
2
oo
:tsIJ
no|o|
=
oo
:t:tsIt
oo
:tsIJ
are o repartitie Fisher cu (2, : 3) grade de libertate.
Pentru c (0, 1) arbitrar xat, e )
(2,n3);1o
cuantila de rang (1 c) a
repartitiei Fisher cu (2, : 3) grade de libertate.
Regiunea critica pentru H : /
1
= /
2
= 0 este
1 =
_
oo
:t:tsIt
oo
:tsIJ
_ )
(2,n3);1o
_
1
(b1=b2=0)
_
oo
:t:tsIt
oo
:tsIJ
_ )
(2,n3);1o
_
= c
Este posibila si alta abordare, in vederea testarii individuale a coeci-
entilor de regresie
Formulam ipotezele H
1
: /
1
= 0 si H
2
: /
2
= 0.
Daca H
2
este adevarata, atunci avem modelul redus al unei drepte de
regresie
r = a +/
1
j
1
Are loc o descompunere
oo
2 j 1
= oo
:t:tsIt(1&2)
oo
:t:tsIt(1)
Proprietate
Daca /
2
= 0 atunci
1
o
2
oo
2 j 1
~
2
(1) ,
Pe baza acestei variabile se pot construi e un test Fisher partial dat de
oo
2 j 1
oo
:tsIJ
~ 1 (1, : 3) ,
e un test t pentru ipoteza H
2
: /
2
= 0
Analog pentru H
1
: /
1
= 0,
oo
1 j 2
= oo
:t:tsIt(1&2)
oo
:t:tsIt(2)
7
RECOMANDARE IMPORTANTA
Inainte de a construi un model de regresie liniara pentru efect si cauze canti-
tative, se recomanda calcularea coecientului de corelatie (Pearson) de regresie
j (A, 1 ) =
co (A, 1 )
_
1
2
(A) 1
2
(1 )
Pentru dreapta de regresie se estimeaza
j (A, 1 ) = r =
:
r
_
:
2
r
:
2
I=1
_
r
I
a /
1
j
I
/
2
j
2
I
_
2
!!! Remarcam liniaritatea modelului in raport cu parametrii a, /
1
, /
2
2) Regresie exponentiala a lui A in 1
r = a /
, r 0
Modelul revine la o regresie liniara pentru (log A, 1 ) , dat de dreapta de
regresie
log r = log a +j log /
oo (a, /) =
n
I=1
(log r
I
log a j
I
log /)
2
Notam
log a =
log / = 1
oo (, 1) =
n
I=1
(log r
I
1 j
I
)
2
3) Regresie putere a lui A in 1
r = a j
b
, r 0, j 0
Modelul revine la o regresie liniara pentru (log A, log 1 ) , dat de dreapta de
regresie
log r = log a +/ log j
oo (a, /) =
n
I=1
(log r
I
log a / log j
I
)
2
Notam
log a =
oo (, /) =
n
I=1
(log r
I
/ log j
I
)
2
9
MODEL LINIAR GENERALIZAT
REGRESIE LINIARA GENERALIZATA
a) REGRESIE LOGISTICA CU DATE BINARE
Exemplu de problema:
In procedura de testare a sensibilitatii la un factor alergen (de ex. polen) se
iau in studiu urmatoarele variabile:
- variabila "raspuns" la test (pozitiv / negativ)
- indicatorii statusului imunitar (factori imunitari cantitativi cum ar : his-
tamina in sangele circulant, acetilcolina, serotonina, crioglobulina, etc)
Probabilitatea de a obtine reactia pozitiva la factorul alergen "polen" este
functie de nivelele indicatorilor imunitari pentru ecare pacient.
Cum poate modelata matematic aceasta relatie intre covariate cantitative
si o variabila "raspuns" binara?
Modelul probabilist:
(A, 1
1
, ..., 1
J
)
0 no|o|
= (A, Y
0
)
0
y ' (A [ Y = y)
A [ Y = y ~ 1(1; (y))
(y) =
exp(c +y
0
)
1 + exp (c +y
0
)
' (A [ Y = y) =
exp(c +y
0
)
1 + exp (c +y
0
)
b) REGRESIE LOGISTICA CU DATE BINOMIALE
Exemplu de problema:
In procedura de testare a sensibilitatii la un anumit numar de factori alergeni
(de ex. polen, praf de casa, praf de creta, etc) se iau in studiu urmatoarele
variabile:
- variabila "raspuns" la test (numarul de alergeni la care s-a constatat
raspuns pozitiv)
- indicatorii statusului imunitar (factori imunitari cantitativi cum ar : his-
tamina in sangele circulant, acetilcolina, serotonina, crioglobulina, etc)
Probabilitatea de a obtine o reactie pozitiva la oricare dintre factorii alergeni
este functie de nivelele indicatorilor imunitari pentru ecare pacient.
Cum poate modelata matematic aceasta relatie intre covariate cantitative
si o variabila "raspuns" binomiala?
Modelul probabilist:
(A, 1
1
, ..., 1
J
)
0 no|o|
= (A, Y
0
)
0
y ' (A [ Y = y)
10
A [ Y = y ~ 1(:; (y))
(y) =
exp(c +y
0
)
1 + exp (c +y
0
)
' (A [ Y = y) = : (y) =
: exp(c +y
0
)
1 + exp (c +y
0
)
c) REGRESIE LOG-LINIARA CU DATE POISSON
Exemplu de problema:
In investigarea numarului de atacuri de angor pe saptamana se iau in studiu
urmatoarele variabile:
- variabila "raspuns" (numarul de atacuri de angor pe saptamana pe care le
sufera un pacient)
- factorii de risc (indicatori cantitativi sau categoriali ai pacientului, cum ar
: varsta, nivelul colesterolului, tensiunea sistolica, incidenta diabetului, etc)
Cum poate modelata matematic aceasta relatie intre covariate cantitative
si o variabila "raspuns" repartizata Poisson?
Modelul probabilist:
(A, 1
1
, ..., 1
J
)
0 no|o|
= (A, Y
0
)
0
y ' (A [ Y = y)
A [ Y = y ~ 1oi::o:(j(y))
j(y) = exp (c +y
0
)
' (A [ Y = y) = exp (c +y
0
)
Observatii: (A
I
, Y
0
I
)
0
, vectori al indep, id rep.
Date statistice: (r
I
, y
0
I
) i = 1, ..., :, cu y
I
= (j
I1
, ..., j
IJ
)
0
Comentariu: Vectorii y
I
, i = 1, .., : pot valori observate ale unor vec-
tori aleatori (in cazul regresiei), sau vectori nealeatori, in care se inregistreaza
covariatele deterministe (de ex. conditiile experimentale).
11
"Componenta aleatoare": X =(A
1
, ..., A
n
)
0
Vectorul medie: = (j
1
, ..., j
n
)
0
= (' (A
1
) , ..., ' (A
n
))
0
(in cazul re-
gresiei, este media conditionata)
"Componenta sistematica": Y,
unde Y =|j
I
|
I=1,...,n; =1,...,J
si =(,
1
, ..., ,
J
)
0
MODELUL LINIAR
A
I
au repartitii normale,
_
j
I
, o
2
_
, i = 1, .., :
Legatura dintre componenta aleatoare si componenta sistematica:
= Y
MODELUL LINIAR GENERALIZAT
A
I
au repartitii din clasa exponentiala
Legatura dintre componenta aleatoare si componenta sistematica este data
de o functie de legatura
q (j
I
) = j
I
, i = 1, ..., :
= (j
1
, ..., j
n
)
0
asa incat
= Y
MODELELE DE REGRESIE (LINIARA / LINIARA GENERALIZATA)
Y
I
= (1
I1
, ..., 1
IJ
)
0
i = 1, ..., : sunt vectorii covariatelor aleatoare (variabilele
"cauza")
Modele cu o variabila "efect", d covariate si : observatii.
12
MODELE LINIARE GENERALIZATE CU COVARIATE
NEALEATOARE
Clasa exponentiala
) (r; 0, c) = exp
_
1
a (c)
(r0 / (0)) +c (r; c)
_
in caz continuu
j (r; 0, c) = exp
_
1
a (c)
(r0 / (0)) +c (r; c)
_
in caz discret
Ga::a
_
c,
o
_
) (r; c, j) =
1
_
o
_
o
(c)
r
o1
exp
_
c
j
r
_
= exp
_
c
_
1
j
r lnj
_
+ (c 1) lnr +clnc ln(c)
_
0 =
1
j
c =
1
c
/ (0) = ln(0)
a (c) =
1
c
c (r; c) =
_
1
c
1
_
lnr +
1
c
ln
1
c
_
1
c
_
1i:o:ia|a (:, )
j (r; ) = C
r
n
r
(1 )
nr
= exp
_
rln
1
+:ln(1 ) + lnC
r
n
_
0 = ln
1
c =
1
:
/ (0) = ln
_
1 +c
0
_
a (c) =
1
c
c (r; c) = lnC
r
1/
13
1oi::o:(j)
j (r; j) =
j
r
r!
c
= exprlnj j ln(r!)
0 = lnj
c = 1
/ (0) = c
0
a (c) = 1
c (r; c) = ln(r!)
Legatura dintre functiile ce denesc clasa exponentiala si caracter-
isticile numerice ale lui A
Folosim proprietatile cunoscute ale unei densitati de repartitie (cand derivarea
in raport cu parametrul comuta cu integrarea / sumarea):
'
_
0 ln)
00
_
= 0
'
_
0
2
ln)
00
2
_
= '
_
0 ln)
00
_
2
ln) =
1
a (c)
(r0 / (0)) +c (r; c)
0 ln)
00
=
1
a (c)
(r /
0
(0))
0
2
ln)
00
2
=
1
a (c)
/
00
(0)
' (A) /
0
(0) = 0
1
a
2
(c)
' (A /
0
(0))
2
=
1
a (c)
/
00
(0)
' (A) = /
0
(0)
1
2
(A) = a (c) /
00
(0)
14
E.V.M. pentru parametrul al modelului liniar generalizat
Fie modelul liniar generalizat cu:
Componenta aleatoare: X = (A
1
, ..., A
n
)
0
, de componente din clasa expo-
nentiala
Vectorul medie: = (j
1
, ..., j
n
)
0
= (' (A
1
) , ..., ' (A
n
))
0
Functia de legatura: q (j
I
) = j
I
, i = 1, ..., :; = (j
1
, ..., j
n
)
0
, q strict
monotona, derivabila
Componenta sistematica: = Y (cu Y specicat, ra:qY = d, si para-
metrul necunoscut)
Functia de log-verosimilitate
ln1() =
n
I=1
|
I
()
|
I
() =
1
a (c)
(r
I
0
I
/ (0
I
)) +c (r
I
; c)
Sistemul de verosimilitate maxima
0 ln1()
0,
= 0, , = 1, ..., d
se scrie sub forma unui sistem neliniar in ,de forma
: (; x) = 0,
care se rezolva prin metode iterative.
Scriem formula lui Taylor pentru iteratia (r) , retinand doar termenii de
ordin _ 1 :
: (; x) :
_
(:)
; x
_
+H
_
(:)
; x
__
(:)
_
H
_
(:)
; x
_
=
0
2
ln1()
00
0
j
(r)
Valoarea
(:+1)
este solutia sistemului liniar
H
_
(:)
; x
__
(:)
_
= :
_
(:)
; x
_
Algoritmul Fisher - scoring inlocuieste matricea hessiana cu matricea
informationala Fisher,
1 () = ' (H (; X))
Valoarea
(:+1)
este solutia sistemului liniar
1
_
(:)
__
(:)
_
= :
_
(:)
; x
_
Convergenta algoritmului se obtine din rezultate cunoscute de analiza nu-
merica
15
LABORATOR 2
DREAPTA DE REGRESIE
FUNCTII IN R : |:, a:oa
can.a c (j
1
, ..., j
n
)
c)cct c (r
1
, ..., r
n
)
:odc| |:(c)cct ~ can.a)
Functia |: returneaza
coecients
_
a,
/
_
summary: statistica descriptiva pentru reziduuri
r
I
r
I
, i = 1, ..., :
a:oa(model)
Functia a:oa returneaza tabelul ANOVA si teste pentru ipoteza / = 0
despre care discutam in ultima parte a cursului.
APLICATIE: dreapta de regresie
longley {datasets} R Documentation
Longleys Economic Regression Data
Description
A macroeconomic data set which provides a well-known example for a highly
collinear regression.
Usage
longley
Format
A data frame with 7 economical variables, observed yearly from 1947 to 1962
(n=16).
GNP.deator: GNP implicit price deator (1954=100)
GNP: Gross National Product.
Unemployed: number of unemployed.
Armed.Forces: number of people in the armed forces.
Population: noninstitutionalized population = 14 years of age.
Year: the year (time).
Employed: number of people employed.
16
The regression lm(Employed ~.) is known to be highly collinear.
1) Alegem ca variabila raspuns Employed, cu covariata Population
X <- longley[, "Employed"]
Y <- longley[,"Population"]
model1<-lm(X~Y)
model1
Call:
lm(formula = X ~Y)
Coecients:
(Intercept)...........Y
8.3807 .........0.4849
summary(model1)
Call:
lm(formula = X ~Y2)
Residuals:
Min........ .......1Q.......... Median....... 3Q .............Max
-1.4362 ...-0.9740 .........0.2021...... 0.5531 ......1.9048
Plotarea obseratiilor si a dreptei de regresie
Y <- longley[,"Population"]
X <- longley[,Employed"]
model1 <- lm(X~Y)
plot(X~Y, ylim = c(5,80))
abline(model1)
Coecients:
....................Estimate .....Std. Error...... t value.......Pr([t[)
(Intercept) ...8.3807 .......4.4224 ..........1.895 ........0.079 .
Y................ 0.4849 ........0.0376 ..........12.896 .....3.69e-09
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-Squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF,
p-value: 3.693e-09
Cum j a|nc < 0.05,decidem sa respingem ipoteza H : / = 0, deci
modelul regresiei liniare este corect
anova(model1)
Analysis of Variance Table
Response: X
...................Df...... Sum Sq........Mean Sq .......F value........Pr(F)
Y........ ........1....... 170.643 ......170.643 .......166.30 ......3.693e-09
Residuals ...14 ......14.366 .........1.026
17
CORELATII
1) CAZUL REPARTITIEI NORMALE BIDIMENSIONALE
Fie (A, 1 )
0
~ (2; , ) ,cu
=
_
j
r
j
_
=
_
o
2
r
o
r
o
r
o
2
_
=
_
o
2
r
j o
r
o
j o
r
o
o
2
_
.Avem
1 ~
_
j
, o
2
_
A [ 1 = j ~
_
j
r
+j
o
r
o
_
j j
_
, o
2
r
_
1 j
2
_
_
Fie (A
I
, 1
I
)
0
, i = 1, ..., : observatii i.i.r. ca (A, 1 )
0
si e (r
I
, j
I
) , i = 1, ..., :
datele statistice
Coecientul de corelatie (Pearson) de selectie este
r =
:
r
:
r
:
=
n
I=1
(r
I
r) (j
I
j)
_
n
I=1
(r
I
r)
2
_
n
I=1
(j
I
j)
2
Propozitie
Daca ipoteza de necorelare H : j = 0 este adevarata, atunci variabila
aleatoare
T =
r
_
: 2
_
1 r
2
este repartizata Student t(: 2).
Testul t pentru ipoteza H : j = 0
input datele statistice (r
I
, j
I
) , i = 1, ..., : (disponibile, sau generate)
calculeaza r
calculeaza T
colc
pentru c (0, 1) xat, e t
n2, 1o/2
cuantila de rang
_
1
o
2
_
a repartitiei
t(: 2)
1aca [T
colc
[ _ t
n2, 1o/2
, rc:ji:q H
1aca [T
colc
[ < t
n2, 1o/2
, acccjt H
18
Varianta de decizie cu j a|nc :
j a|nc =
_
_
2
T
calc
_
1
dc::itatca t(: 2), T
colc
< 0
2
1
_
T
calc
dc::itatca t(: 2), T
colc
_ 0
1aca j a|nc _ 0.05, rc:ji:q H
1aca j a|nc 0.05, acccjt H
Interval de incredere pentru j
Propozitie
Daca ipoteza de necorelare H : j = j
0
este adevarata, atunci variabila
aleatoare obtinuta prin "transformarea Fisher"
7 =
1
2
ln
_
1 +r
1 r
_
este aproximativ normal repartizata, de parametri
' (7) =
1
2
ln
_
1 +j
0
1 j
0
_
no|o|
= .
0
1
2
(7) =
1
: 3
Corolar
Daca ipoteza de necorelare H : j = j
0
este adevarata, atunci
_
: 3 (7 .
0
) ~ (0, 1)
Un interval de estimare cu coecient de incredere (1 c) pentru .
0
este
_
7
colc
1
_
: 3
.
1 o/2
, 7
colc
+
1
_
: 3
.
1 o/2
_
Aplicand tranformarea Fisher inversa
r =
exp(27) 1
exp(27) + 1
,
un interval de estimare cu coecient de incredere (1 c) pentru j
0
este
_
_
exp
_
2
_
7
colc
1
p
n3
.
1 o/2
__
1
exp
_
2
_
7
colc
1
p
n3
.
1 o/2
__
+ 1
,
exp
_
2
_
7
colc
+
1
p
n3
.
1 o/2
__
1
exp
_
2
_
7
colc
+
1
p
n3
.
1 o/2
__
+ 1
_
_
19
APLICATIE
Input
=
_
1
3
_
=
_
1 0.8 1 2
0.8 1 2 4
_
=
_
1 1.6
1.6 4
_
Generarea datelor
1 < r:or:(100, 3, 2)
A < r:or:(100, 1 + 0.8 + 1 + (1 3),2, 2 + :rt(1 0.64))
Calculul corelatiei
cor(A, 1 )
Testul t si interval de incredere
cor.tc:t(A, 1 )
TEMA: generati date si estimati coecientii pentru alte tipuri de modele
de regresie, reductibile la regresia liniara
20