Monica Dumitrescu - Statistica Matematica (Note de Curs)

FACULTATEA DE MATEMATICA SI INFORMATICA
DOMENIUL DE LICENTA: MATEMATICA

STATISTICA

NOTE DE CURS

Prof. Dr. MONICA DUMITRESCU

2010

CONTINUTUL CURSULUI

1. Teorema limita centrala si teorema lui Pearson
2. Testul CHI ptrat, test de concordanta cu un model probabilist. Aplicaii
software
3. Estimatori nedeplasai, eficieni. Teorema Rao-Cramer
4. Metoda verosimilitii maxime. Aplicaii software
5. Metoda celor mai mici ptrate. Aplicaii software
6. Valoare medie condiionata, modele de regresie
7. Estimarea parametrilor regresiei liniare. Aplicaii software
8. Teste statistice pentru ipoteze simple. Teorema Neyman Pearson.
Aplicaii software
9. Testul raportului de verosimilitate.
10. Intervale de ncredere si teste pentru parametrii unei repartiii normale.
Aplicaii software

BIBLIOGRAFIE:

M. Dumitrescu, A. Batatorescu, Applied statistics using the R system, Ed. Universitatii Buc.,
2006
V. Craiu, Statistica Matematica Partea I (Repartitii, selectie, estimarea punctuala) Ed.
Universitatii Buc.,1997
V. Craiu, V. Paunescu, Elemente de statistica matematica cu aplicatii, Ed. Mondo-Ec,
1998
Ashish Sen, Muni Srivastava : Regression analysis - Theory, methods and applications.
Springer Verlag, New York, 1990.

DATE STATISTICE
MODELE STOCASTICE
TESTE DE CONCORDANTA (goodness-of-t)
fenomen aleator

date statistice model stocastic

test de concordanta
Fenomene aleatoare
prin natura lor; Exemple din biologie, medicina, -
nante
prin modul de colectare a datelor; Exemple din son-
daje statistice
(A) DATE STATISTICE
1. Valori calitative;
Exemplu: intrebare cu raspunsuri posibile "f. nemul-
tumit", "nemultumit", "indiferent", "multumit", "foarte
multumit"
: indivizi independenti, alesi in mod aleator dintr-o aceeasi
categorie, raspund la intrebare
> rasp=c("fnem","nem","ind","mul","fmul")
> p=c(0.2,0.3,0.1,0.3,0.1)
> x<-sample(rasp,50,replace=T,prob=p)
> x
"fmul" "ind" "mul" "mul" "nem" "nem" "fmul" "nem" "nem"
"nem" "fnem" "fnem" "nem" "nem" "nem" "mul" "fnem" "fnem"
"fnem" "nem" "fnem" "mul" "fnem" "fnem" "mul" "nem" "nem"
"mul" "nem" "mul" "mul" "ind" "fmul" "mul" "fmul" "fnem" "nem"
"nem" "fmul" "nem" "mul" "fnem" "mul" "nem" "nem" "fnem"
"nem" "fnem" "ind" "nem"
1
2. Valori cantitative
apartinand unei multimi cel mult numarabile de nu-
mere reale
apartinand lui 1 sau unui interval inclus in 1
Exemplu: nota obtinuta la un examen ( 0 = absent)
: indivizi independenti, alesi in mod aleator dintr-o
aceeasi categorie
> nota=c(0:10)
> p=c(0.05,0,0,0,0.3,0.2,0.15,0.1,0.05,0.1,0.05)
> y<-sample(nota,25,replace=T,prob=p)
> y
4 6 8 4 4 6 5 5 9 7 8 4 6 9 4 8 4 4 4 7 5 5 6 5 7
Exemplu: tensiunea arteriala sistolica
: indivizi independenti, alesi in mod aleator dintr-o
aceeasi categorie
> z<-c(rnorm(50,13,1.5))
> z
11.4, 14.2, 14.9, 12.5, 12.8, 13.8, 10.7, 13.1, 15.1, 11.4,
11.6, 15.5, 11.8, 12.9, 15.3, 13.7, 13.5, 11.8, 11.9, 12.9,
13.3, 14.2, 14.5, 12.7, 12.4, 13.7, 10.9, 15.4, 14.1, 9.4,
12.5, 11.7, 13.2, 14.9, 14.5, 13.5, 12.5, 13.8, 13.3, 12.8,
10.5, 12.1, 13.5, 14.6, 10.7, 12.1, 10.9, 11.5, 11.7, 11.1
Statistica descriptiva (pt datele statistice)
1. Repartitia de frecvente
valori distincte r "fnem" "nem" "ind" "mul" "fmul"
frecvente
12
50
19
50
3
50
11
50
5
50
valori distincte j 0 1 2 3 4 5 6 7 8 9 10
frecvente 0 0 0 0
8
25
5
25
4
25
3
25
3
25
2
25
0
2
2. Histograma
interv val . [9,10) [10,11) [11,12) [12.13) [13,14) [14.15) [15,16]
frecv cum
1
50
5
50
10
50
11
50
11
50
8
50
4
50
package:........graphics.........R Documentation
Description: The generic function hist computes a
histogram of the given data values. If plot=TRUE,
the resulting object of class "histogram" is plotted by
plot.histogram, before it is returned.
Usage: hist(x, ...)
Arguments: x: a vector of values for which the his-
togram is desired.
3. Indicatori de pozitie (date cantitative)
Datele (r
1
, ..., r
n
)
Datele ordonate r
(1)
_ r
(2)
_ ... _ r
(n)
Minim, maxim, cuartile
r
(1)
= min
I
r
I
r
(n)
= max
I
r
I
Q
2
= 'c =
_
r
(|+1)
, : = 2/ + 1
1
2
_
r
(|)
+r
(|+1)
_
, : = 2/
Q
1
= mediana pt. r
(1)
_ ... _ 'c
Q
3
= mediana pt. 'c _ ... _ r
(n)
Media (de selectie)
r =
1
:
n
I=1
r
I
> x
3, 4, 6, 5, 5, 7, 3, 5, 6, 4, 5, 7, 4, 3, 2, 4, 4, 5, 7, 5, 6, 4, 5, 2, 6,
4, 8, 6, 7, 5, 7, 4, 4, 2, 3, 2, 0, 1, 4, 4, 3, 7, 5, 7, 4, 3, 7, 2, 5, 5, 7, 5,
7, 7, 5, 4, 4, 7, 3, 8, 5, 6, 5, 6, 5, 6, 4, 5, 8, 2, 6, 4, 6, 5, 5, 5, 3, 5, 4,
3, 7, 7, 2, 4, 5, 4, 6, 5, 3, 1, 5, 7, 4, 5, 3, 3, 10, 6, 7, 6
> summary(x)
Min........1st Qu...... Median....... Mean....... 3rd Qu......... Max.
0.00 .......4.00 ...........5.00 .............4.81 ..........6.00 ...........10.00
3
4. Indicatori de variabilitate (date cantitative)
Amplitudinea
a = r
(n)
r
(1)
Dispersia de selectie, abaterea standard
:
2
=
1
: 1
n
I=1
(r
I
r)
2
: =
_
:
2
Functii din R
> mean(x)
[1] 4.81
> var(x)
[1] 3.165556
> sd(x)
[1] 1.779201
5. Indicatori ai formei (date cantitative)
Notam momentele de selectie centrate, de ordin 3 si 4
cu
:
3
=
1
:
n
I=1
(r
I
r)
3
:
4
=
1
:
n
I=1
(r
I
r)
4
Coecient de asimetrie (skewness)
,
1
=
:
3
_
(:
2
)
3
Coecient de aplatizare (kurtosis)
,
2
=
:
4
(:
2
)
2
3
4
(B) MODELE STOCASTICE (variabile aleatoare)
(, /, 1
0
) , 0 _ 1
|
, / _ 1;
Spatiul starilor (al valorilor) (o, o)
o = 1, cel mult numarabila;.....(, T ())
o = 1; ..... (1, E)
Variabila aleatoare = functie masurabila A : o
1. Repartitia lui A
1
0
A
1
: o [0, 1]
Variabila aleatoare cu repartitie discreta
_
1
0
A
1
_
(r) = j (r; 0) [0, 1] , r
1
0
A
1
=

r.
j (r; 0) c
]r]
r.
j (r; 0) = 1
Exemple:
A ~ l1, ..., r, r , r _ 2, = 1, 2, ..., r (ex: numarul de
puncte la aruncarea unui zar),
1
0
A
1
=
:
r=1
1
r
c
]r]
A ~ 1(1, 0) , 0 (0, 1) , = 0, 1 (ex: aparitia unui "succes"
intr-o proba cu doua rezultate posibile),
1
0
A
1
=
1
r=0
0
r
(1 0)
1r
c
]r]
A ~ 1(r, 0) , 0 (0, 1) , = 0, 1, ..., r (ex: numarul de "suc-
cese" in r probe independente, cu cate doua rezultate
posibile),
1
0
A
1
=
:
r=0
C
r
:
0
r
(1 0)
:r
c
]r]
5
A ~ 1o (0) , 0 (0, ) , = (ex: numarul de defecte
ce pot identicate la piesele dintr-un lot de volum
mare),
1
0
A
1
=
o
r=0
0
r
r!
exp(0) c
]r]
Variabila aleatoare cu repartitie continua si cu densi-
tate de repartitie
_
1
0
A
1
_
(r) = 0, \r 1
_
1
0
A
1
_
(1) =
_
1
) (r; 0) dr,
) (r; 0) _ 0, \r 1
_
1
) (r; 0) dr = 1
Exemple:
A ~ l (0, 0) , 0 (0, ) ,
) (r; 0) =
_
1
0
, r [0, 0]
0, r , [0, 0]
A ~ 1rjo(0), 0 (0, ) ,
) (r; 0) =
_
1
0
exp
_
r
0
_
, r [0, )
0, r (, 0)
A ~ Ga::a (c, 0) , c (0, ) , 0 (0, ) ,
) (r; c, 0) =
_
1
(o)0
r
o1
exp
_
r
0
_
, r [0, )
0, r (, 0)
A ~
_
j, o
2
_
, 0 =
_
j, o
2
_
1 (0, ) ,
)
_
r; j, o
2
_
=
1
_
2o
2
exp
_
1
2o
2
(r j)
2
_
, r 1
6
densitatea (0, 1)
) (r) =
1
_
2t
exp
_
1
2
r
2
_
5 2.5 0 -2.5 -5
0.3
0.2
0.1
0
x
y
x
y
2. Functia de repartitie a lui A
1
0
: 1 [0, 1]
1
0
(j) =
_
1
0
A
1
_
((, j)) = 1
0
(A < j)
1
0
(j) =

r.
r<
j (r; 0) , j 1, (functie in scara)
1
0
(j) =
_
o
) (r; 0) dr, j 1
Exemplu:
A ~ 1rjo (2)
) (r) =
_
1
2
exp
_
r
2
_
, r [0, )
0, r (, 0)
1
0
(j) =
_
_
_
0, r (, 0)
_
0
1
2
exp
_
r
2
_
dr, r [0, )
=
_
0, r (, 0)
1 exp
_
r
2
_
, r [0, )
1 exp
_
r
2
_
7
10 7.5 5 2.5 0
1
0.75
0.5
0.25
0
x
y
x
y
3. Cuantila de rang c a lui A
Fie c (0, 1) xat.
Notam
o
o cu proprietatea
1
0
(A <
o
) _ c
1
0
(A _
o
) _ c
Pentru modelele cu repartitie continua,
1
0
(A <
o
) = 1
0
(A _
o
) = c
4. Medie, momente; dispersie
'
0
(A) =
_
Ad1
0
=
_
_
_
r.
r j (r; 0) , (< ) , pt. rep. discreta
_
1
r ) (r; 0) dr, (< ) , pt. rep. continua
'
0
(A
:
) =
_
A
:
d1
0
=
_
_
_
r.
r
:
j (r; 0) , (< ) , pt. rep. discreta
_
1
r
:
) (r; 0) dr, (< ) , pt. rep. continua
, r
+
1
2
0
(A) = '
0
_
(A '
0
(A))
2
_
= '
0
_
A
2
_
('
0
(A))
2
8
Exemple:
A ~ l1, ..., r, r , r _ 2,
' (A) =
:
r=1
r
1
r
=
r + 1
2
1
2
(A) =
r
2
1
12
A ~ 1(1, 0) , 0 (0, 1) ,
'
0
(A) =
1
r=0
r 0
r
(1 0)
1r
= 0
1
2
0
(A) = 0 (1 0)
A ~ 1(r, 0) , 0 (0, 1) ,
'
0
(A) =
:
r=0
r C
r
:
0
r
(1 0)
:r
= r0
1
2
0
(A) = r0 (1 0)
A ~ 1o (0) , 0 (0, ) ,
'
0
(A) =
o
r=0
r
0
r
r!
exp(0) = 0
1
2
0
(A) = 0
A ~ l (0, 0) , 0 (0, ) ,
'
0
(A) =
0
_
0
r
1
0
dr =
0
2
1
2
0
(A) =
0
2
12
A ~ 1rjo(0), 0 (0, ) ,
'
0
(A) =
o
_
0
r
1
0
exp
_
r
0
_
dr = 0
1
2
0
(A) = 0
2
9
A ~ Ga::a (c, 0) , c (0, ) , 0 (0, ) ,
'
0
(A) =
1
(c) 0
o
o
_
0
r r
o1
exp
_
r
0
_
dr = c0
1
2
0
(A) = c0
2
A ~
_
j, o
2
_
, 0 =
_
j, o
2
_
1 (0, ) ,
'
0
(A) =
1
_
2o
2
o
_
o
r exp
_
1
2o
2
(r j)
2
_
dr = j
1
2
0
(A) = o
2
5. Functie generatoare, functie caracteristica
Fie 1
0
A
1
=
o
r=0
j (r; 0) c
]r]
. Functia generatoare asociata
este
G
: [1, 1] 1
G
(t) =
o
r=0
j (r; 0) t
r
Pentru variabile cu medie (dispersie) nita se verica
relatiile
'
0
(A) = G
t
(1)
1
2
0
(A) = G
tt
(1) +G
t
(1) (G
t
(1))
2
Fie variabila aleatoare A, cu valori in 1. Functia car-
acteristica asociata este
,
: 1 C
,
(t) = '
0
_
c
I|
_
Daca repartitia 1
0
A
1
are densitatea de repartitie ) (r; 0) ,
atunci
,
(t) =
_
1
c
I|r
) (r; 0) dr
Pentru variabile cu medie (dispersie) nita se verica
relatiile
'
0
(A) =
1
i
,
t
(0)
1
2
0
(A) = ,
tt
(0) + (,
t
(0))
2
10
6. Transformata Laplace
Fie variabila aleatoare A, cu valori in 1
+
. Transformta
Laplace asociata este
c : 1
+
1
+
c (`) = '
_
c
X
_
Daca repartitia 1
0
A
1
pe (1
+
, E
+
) are densitatea de
repartitie ) (r; 0) pentru r _ 0, atunci
c (`) =
o
_
0
c
Xr
) (r; 0) dr
11
(C) CONCORDANTA DINTRE
DATE STATISTICE / MODEL STOCASTIC
Datele statistice sunt valori observate ale unor vari-
abile aleatoare independente, identic repartizate, cu repar-
titia data de un model stocastic.
Analiza de statistica descriptiva ne permite sa alegem
un model stocastic - drept sursa posibila a datelor sta-
tistice.
Consideram modelul stocastic reprezentat de variabila
aleatoare A cu repartitia 1
0
A
1
complet specicata. Negli-
jam indicele 0, caci presupunem cunoscuta valoarea para-
metrului.
Fie modelul stocastic dat de variabila aleatoare A cu
repartitia 1 A
1
si functia de repartitie 1 (j) .
Fie "observatiile" A
1
, ..., A
n
, care sunt variabile aleatoare
independente, identic repartizate, cu repartitia 1A
1
Fie datele statistice (r
1
, ..., r
n
) = (A
1
, ..., A
n
) (.)
Problema: Putem conrma ipoteza ca datele statistice
(r
1
, ..., r
n
) furnizate de un beneciar provin intr-adevar din
modelul considerat?
Vom compara functia de repartitie "teoretica" 1(j) cu
o functie construita din datele statistice (r
1
, ..., r
n
) .
Spatiul de selectie :dimensional
Fie modelul stocastic 1
0
A
1
cu multimea valorilor lui
A egala cu o = (cel mult numarabila) sau cu o = 1.
Fie observatiile A
1
, ..., A
n
v.a.i.i.r. (1
0
A
1
).
Spatiul de selectie :dimensional este campul de prob-
abilitate construit pe multimea valorilor lui (A
1
, ..., A
n
) :
_
n
, (T ())
n
,
n
I=1
1
0
A
1
I
_
_
1
n
, E
n
,
n
I=1
1
0
A
1
I
_
12
Functia de repartitie de selectie (empirica)
Fie functia de repartitie complet specicata, 1 (j) , pen-
tru variabila aleatoare A : o.
Fie observatiile A
1
, ..., A
n
v.a.i.i.r. ca si A.
DEFINITIE: Functia de repartitie de selectie
1
n
(, ) : 1 [0, 1]
1
n
(j, .) =
1
:
card i [ i 1, ..., :, r
I
= A
I
(.) < j
Observatie:
1
n
(j, .) =
1
:

n
I=1
1
]i<]
(.)
PROPRIETATEA 1
Pentru . arbitrar xat, 1
n
(, .) este functia de repartitie
a unei repartitii Uniforme discrete
n
I=1
1
:
c
]ri]
Demonstratie:
Notam (A
1
, ..., A
n
) (.) = (r
1
, ..., r
n
) valori xate (pentru .
xat).
Notam cu 7 o variabila aleatoare cu repartitia uni-
forma data de
1 (7 = r
I
) =
1
:
, i = 1, ..., :
1
2
(j) = 1 (7 < j) =

ri<
1
:
=
1
:

n
I=1
1
]ri<]
= 1
n
(j, .)
PROPRIETATEA 2
Pentru j arbitrar xat, 1
n
(j, ) este variabila aleatoare
cu proprietatea
: 1
n
(j, ) ~ 1(:, 1 (j))
Demonstratie:
Pentru \i, 1
]i<]
este v.a. cu valori in 0, 1 si cu
1
_
1
]i<]
= 1
_
= 1 (A
I
< j) = 1 (j)
13
adica
1
]i<]
~ 1(1, 1 (j))
Avem
_
1
]i<]
, i = 1, ..., :
_
v.a. indep, id. rep 1(1, 1 (j)) .
Rezulta
n
I=1
1
]i<]
~ 1(:, 1 (j))
: 1
n
(j, ) ~ 1(:, 1 (j))
COROLAR
' (1
n
(j, )) = 1 (j)
1
2
(1
n
(j, )) =
1
:
1 (j) (1 1 (j))
PROPRIETATEA 3
Pentru j arbitrar xat, sirul de var. al. 1
n
(j, ) , : = 1, 2, ...
are proprietatea
1
n
(j, )
1o.s.
1 (j) pentru :
Demonstratie
Avem sirul
_
1
]i<]
, i = 1, ..., :
_
de v.a. indep, id. rep
1(1, 1 (j)) , avand '
_
1
]1<]
_
= 1 (j) . Aplicam legea tare a
numerelor mari:
1
:

n
I=1
1
]ri<]
1o.s.
'
_
1
]1<]
_
= 1 (j) pentru :
Spunem ca functia de repartitie de selectie este un

estimator consistent si nedeplasat la functiei de repartitie
pt modelul din care provin datele statistice.
Functii din R: functia ccd) ploteaza functia de repartitie
de selectie
> data < c (r
1
, ..., r
n
)
> ccd)(data)
14
"Distanta" Kolmogorov dintre functia de repartitie de
selectie si functia de repartitie a modelului
1
n
(.) =
_
:sup
1
[1
n
(j, .) 1 (j)[
Pentru datele statistice (A
1
, ..., A
n
) (.) = (r
1
, ..., r
n
) , se poate
calcula valoarea
1
n
=
_
: max
1In
[1
n
(r
I
, .) 1 (r
I
)[
TEOREMA LUI KOLMOGOROV
Fie modelul probabilist dat de o variabila aleatoare A,
cu functia de repartitie 1 (j) continua. Daca A
n
, : _ 1
este un sir de variabile aleatoare independente, identic
repartizate ca si A pentru care notam 1
n
(j, .) , : _ 1 sirul
functiilor de repartitie de selectie atunci, pentru orice
. 1, are loc convergenta
lim
no
1 (1
n
< .) = 1 (.) ,
unde 1 (.) este functia de repartitie Kolmogorov,
1 (.) = 1 2
o
=1
(1)
1
exp
_
2,
2
.
2
_
Pentru demonstratie:
PARTHASARATHY, K., R., Probability measures on
metric spaces, Academic Press, 1967.
TESTUL LUI KOLMOGOROV DE CONCORDANTA
( R:.....ks.test for one sample)
1
, ..., r
n
) si e modelul stocastic
dat de variabila aleatoare A cu functia de repartitie 1 (j)
continua.
Pentru c (0, 1) arbitrar xat, notam .
1o
cuantila de
rang (1 c) a repartitiei Kolmogorov,
1 (.
1o
) = 1 c
15
Formulam ipoteza H :{variabilele aleatoare indepen-
dente si identic repartizate A
1
, ..., A
n
care au generat datele
statistice au functia de repartitie 1 (j)}
Algoritm:
Se ordoneaza datele statistice, r
(1)
_ r
(2)
_ ... _ r
(n)
Se calculeaza 1
_
r
(I)
_
si 1
n
_
r
(I)
, .
_
, i = 1, ..., :
Se calculeaza

1
n
=
_
: max
1In
1
n
_
r
(I)
, .
_
1
_
r
(I)
_
Regula de decizie: Daca

1
n
_ .
1o
, decidem sa resp-
ingem ipoteza H (nu avem concordanta intre model
si datele statistice)
Comentariu: Testul se bazeaza pe teorema lui Kol-
mogorov (este un test asimptotic), deci : trebuie sa e
mare (: _ 100)
======================
16
APLICATIE: TESTAREA NORMALITATII
DATELOR
Input : (r
1
, ..., r
n
) = (A
1
, ..., A
n
) (.)
H : variabilele aleatoare independente A
1
, ..., A
n
au repartitie
normala
(a) Partea exploratorie
> data c (r
1
, ..., r
n
)
> mean(data)
> var(data)
> hist(data)
qq - line (quantile - quantile line)
A ~
_
j, o
2
_
=
A j
o
~ (0, 1)
1
(,c
2
)
(r
o
) = c = 1
(0,1)
_
r
o
j
o
_
= c
.
o
=
1
o
(r
o
j) , c (0, 1)
> qqnorm(data)
> qqline(data)
(b) Test de concordanta
Pentru a utiliza ks.test (for one sample) trebuie sa
specicam valorile
_
j, o
2
_
> ks.test(data)
j a|nc = 1 1
_
1
n
_
j a|nc _ 0.05 respingem ipoteza H (respingem normalitatea)
Observatie: Exista o varianta a testului, testul Lil-
liefors, in care programul isi alege singur valorile
j = :ca:(data)
o = :d(data)
17
Alt test de concordanta este "Testul Chi Patrat", con-
struit pentru modele stocastice 1 A
1
avand functia de
repartitie 1 (j) continua sau nu.
AUXILIAR: Convergenta in repartitie
Notam cu j
n
, : _ 1 si j probabilitati pe (1, E) (reparti-
tii)
Notam cu 1
n
, : _ 1 si 1 functiile de repartitie core-
spunzatoare,
1
n
(j) = j
n
(, j)
1 (j) = j(, j)
Notam cu ,
n
, : _ 1 si , functiile caracteristice core-
spunzatoare,
,
n
(t) =
_
1
c
I|r
dj
n
(r)
,(t) =
_
1
c
I|r
dj(r)
Pentru cazul cand j
n
, : _ 1 si j sunt probabilitati pe
(1
+
, E
+
) , notam cu c
n
, : _ 1 si c transformatele Laplace
corespunzatoare,
c
n
(`) =
_
(0,o)
c
Xr
dj
n
(r)
c (`) =
_
(0,o)
c
Xr
dj(r)
DEFINITIE (convergenta slaba, sau convergenta in
repartitie)
j
n
==j
daca _
1
/dj
n

no
_
1
/dj
pentru orice functie / continua si marginita, denita pe
1 cu valori in 1.
18
TEOREMA 1
O conditie necesara si sucienta ca j
n
== j este ca
1
n
(j)
no
1 (j) pentru orice j care este punct de continui-
tate al lui 1.
TEOREMA 2 (PAUL LEVY)
a) Daca j
n
==j, atunci ,
n

no
, uniform pe orice com-
pact din 1.
b) Notam cu ,
n
, : _ 1 functiile caracteristice corespun-
zatoare repartitiilor j
n
, : _ 1. Daca ,
n
(t)
no
,(t) pentru
orice t si , este continua in origine, atunci exista o repar-
titie j asa incat j
n
== j, iar , este functia caracteristica
pt j.
TEOREMA 3
Fie j
n
, : _ 1 si j probabilitati pe (1
+
, E
+
) .
a) Daca j
n
==j, atunci c
n
()
no
c (`) pentru orice ` _ 0.
b) Notam cu c
n
, : _ 1 transformatele Laplace core-
spunzatoare repartitiilor j
n
, : _ 1. Daca c
n
()
no
c (`)
pentru orice ` 0 si lim
X0
c (`) = 1, atunci exista o repartitie
j asa incat j
n
==j, iar c este transformata Laplace pt j.
TEOREMA LIMITA CENTRALA (LINDEBERG -
LEVY)
Fie A
n
, : _ 1 un sir de variabile aleatoare indepen-
dente, identic repartizate, cu ' (A
n
) = j \: si 1
2
(A
n
) = o
2
<
\:. Notam
1
n
=
1
_
:o
2
_
n
I=1
A
I
:j
_
Atunci sirul
_
1 1
1
n
_
n
converge slab la repartitia (0, 1) .(spunem
ca sirul 1
n
, : _ 1 converge in repartitie la o variabila
aleatoare cu repartitia (0, 1))
Pentru demonstratii:
CIUCU G., TUDOR C., Teoria probabilitatilor si apli-
catii, Editura Stiintica si Enciclopedica, 1983
================
19
Repartitia "CHI Patrat" cu d grade de libertate (d
+
)
A~
2
(d) = ) (r) =
1
2
J/2

_
J
2
_r
J/21
exp
_
r
2
_
, r _ 0
,
_
2
(J)
(t) = (1 2it)
J/2
c
_
2
(J)
(`) = (1 + 2`)
J/2
Repartitia Multinomiala ' (r; j
1
, ..., j
J
)
Denitie
X = (A
1
, ..., A
J
)
t
~ ' (r; j
1
, ..., j
J
) daca
1 X
1
=
:
r1,...,r
d
=0
r1+...+r
d
=:
r!
r
1
!...r
J
!
(j
1
)
r1
... (j
J
)
r
d
c
(r1,...,r
d
)
unde r
+
, j
I
[0, 1] pentru i = 1, ..., d si

J
I=1
j
I
= 1
Experiment: O urna cu bile de d culori, din care se
fac r extrageri cu revenire. Vectorul aleator X = (A
1
, ..., A
J
)
inregistreaza numarul de bile de ecare culoare care au
fost extrase.
Bibliograe:
Dumitrescu M, Florea D, Tudor C, Probleme de teoria
probabilitatilor si statistica matematica, Editura Tehnica,
1985
======================
20
TEOREMA LUI PEARSON
Pentru r
+
consideramurmatoarele variabile aleatoare:
Y
:
= (1
:1
, ..., 1
:J
)
t
~ ' (r; j
1
, ..., j
J
) , cu j
I
[0, 1] , \i,
J
I=1
j
I
= 1
A
2
:
=
J
=1
(1
:
rj
)
2
rj
Notam repartitia lui A

2
:
cu G
:
= 1
_
A
2
:
_
1
. Atunci
G
:
==
:o

2
(d 1)
(spunem ca sirul A
2
:
, r _ 1 converge in repartitie la o vari-
abila repartizata CHI Patrat cu (d 1) grade de libertate).
Demonstratie (prof. Ioan Cuculescu)
In schema multinomiala ( d culori, r extrageri inde-
pendente) apar r partitii independente, corespunzatoare
celor r extrageri,
_
(|)
, , = 1, ..., d
_
, / = 1, ..., r
Notam
1
:
=
:
|=1
1
.
(k)
j
, , = 1, ..., d
Z
:
=
_
1
:1
rj
1
_
rj
1
, ...,
1
:J
rj
J
_
rj
J
_
t
Atunci
A
2
:
= |Z
:
|
2
c
2
r
(`) = '
_
exp
_
`|Z
:
|
2
__
Vom arata ca
c
2
r
(`)
:o
(1 + 2`)
(J1)/2
Notam
v = (
1
, ...,
J
)
t
t = (t
1
, ..., t
J
)
t
21
exp
_
`|v|
2
_
=
J
=1
exp
_
`
2
_
Dar
exp
_
`
2
_
= ,
(0,2X)
(
) =
1
_
4`
o
_
o
exp(i
) exp
_
1
4`
t
2
_
dt
Notand cu < v, t produsul scalar, putem scrie

exp
_
`|v|
2
_
=
1
(4`)
J/2
o
_
o
...
o
_
o
exp(i < v, t ) exp
_
1
4`
|t|
2
_
dt
1
...dt
J
Putem scrie
c
2
r
(`) =
1
(4`)
J/2
o
_
o
...
o
_
o
'
_
exp(i < Z
:
, t ) exp
_
1
4`
|t|
2
__
dt
1
...dt
J
=
1
(4`)
J/2
o
_
o
...
o
_
o
'
_
,
<Zr,t,
(1) exp
_
1
4`
|t|
2
__
dt
1
...dt
J
Identicamurmatorii vectori independenti, identic repar-
tizati
f
|
=
_
1
_
j
1
1
.
(k)
1
, ...,
1
_
j
J
1
.
(k)
d
_
t
, / = 1, ..., r
cu
' (f
|
) =
_
j
1
_
j
1
, ...,
j
J
_
j
J
_
t
= (
_
j
1
, ...,
_
j
J
)
t
, / = 1, ..., r
< Z
:
, t =
1
_
r
(< f
1
, t +...+ < f
:
, t r' (< f , t ))
Dar
' (< f , t ) =< ' (f ) , t =
J
=1
t
_
j
' (< f , t )
2
= '
_
_
J
=1
t
_
j
1
.
(k)
j
_
_
2
= '
_
_
J
=1
t
2
1
.
(k)
j
_
_
=
J
=1
t
2
1
2
(< f , t ) =
J
=1
t
2

_
_
J
=1
t
_
j
_
_
2
22
Consideram n
1
, ..., n
J
o baza ortonormala a lui 1
J
, cu
n
1
=
_
_
j
1
, ...,
_
j
J
_
t
.
1
2
(< f , t ) = |t|
2
< t, u
1

2
=
J
=2
< t, u

2
Pentru sirul de variabile aleatoare independente, iden-
tic repartizate
< Z
:
, t , r = 1, 2, ... ,
de medie 0,aplicam teorema limita centrala si teorema lui
Paul Levy (pentru t = 1) :
,
<Zr,t,
(1)
:o
,
(0,1
2
(<f ,t,))
(1) = exp
_
_
1
2
J
=2
< t, u

2
_
_
Rezulta
c
2
r
(`)
:o
1
(4`)
J/2
o
_
o
...
o
_
o
exp
_
_
1
2
J
=2
< t, u

2
_
_
exp
_
1
4`
|t|
2
_
dt
1
...dt
J
Dar trecerea de la coordonatele t
1
, ..., t
J
la coordonatele
1
=< t, u
1
, ...,
J
=< t, u
J
este ortogonala, deci de deter-
minant 1.
lim
:o
c
2
r
(`) =
1
(4`)
J/2
o
_
o
...
o
_
o
exp
_
_
1
2
J
=2
_
_
exp
_
_
1
4`
J
=1
_
_
d
1
...d
J
=
1
(4`)
J/2
_
_
o
_
o
exp
_
2
4`
_
d
_
_
_
_
o
_
o
exp
_
2
_
1
4`
+
1
2
__
d
_
_
J1
=
1
(4`)
J/2

_

_
4` ()
(J1)/2
_
1
4`
+
1
2
_
(J1)/2
=
1
(4`)
(J1)/2
_
1
4`
+
1
2
_
(J1)/2
= (1 + 2`)
(J1)/2
Am demonstrat deci ca
c
2
r
(`)
:o
(1 + 2`)
(J1)/2
23
si cum (1 + 2`)
(J1)/2
este transformata Laplace corespun-
zatoare repartitiei
2
(d 1) , am obtinut c.t.d.
Testul Chi Patrat pentru concordanta dintre modelul

stocastic si datele statistice
1
, ..., r
n
). Din interpretarea lor,
plus elementele de statistica descriptiva, alegem un posi-
bil model stocastic din care ar proveni aceste date (ca
valori ale unor observatii independente, identic reparti-
zate).
Notam 1 A
1
modelul ales si cu o = A () spatiul star-
ilor.
Partitionam A () in d submultimi masurabile
1
, ...,
J
,
= pentru i ,= ,,

J
I=1
I
= A () .
Calculam
j
= 1 (A
) , , = 1, ..., d, j
[0, 1] \,,
J
=1
j
= 1
Formulam ipoteza ca observatiile independente, iden-
tic repartizate A
1
, ..., A
n
care au produs datele statis-
tice (r
1
, ..., r
n
) au repartitia 1 A
1
H : A
1
, ..., A
n
sunt identic repartizate ca si A
Daca ipoteza H este adevarata, atunci functioneaza
teorema lui Pearson.
Calculam
:
= card i [ i = 1, ..., :, r
I

=
n
I=1
1
.j
(r
I
) , , = 1, ..., d
J
=1
:
= :
24
Calculam"distanta Pearson" dintre (j
1
, ..., j
J
) si
_
n1
n
, ...,
n
d
n
_
o
2
n
=
J
=1
:
j
_
:
:
j
_
2
=
J
=1
(:
:j
)
2
:j
Fie c (0, 1) arbitrar xat valoarea acceptata a proba-

bilitatii de eroare (respingerea ipotezei H cand aceasta
este adevarata).
Fie /
J1;1o
cuantila de rang (1 c) a repartitiei
2
(d 1) .
REGULA DE DECIZIE: Daca o
2
n
_ /
J1;1o
, deci-
dem sa respingem ipoteza H
Comentarii:
- Testul se bazeaza pe teorema lui Pearson (este un
test asimptotic), deci : trebuie sa e mare (: _ 100)
- Recomandari pentru alegerea valorii d :
d 1 + 3.322 log :
d =
_
:
3
_
- Recomandari pentru alegerea elementelor partitiei:
asa incat j

1
d
, , = 1, .., d
- Pentru implementarea in 1
j a|nc = 1
_
2
(J1)
_
o
2
n
_
Daca j a|nc _ 0.05, decidem sa respingem ipoteza H
25
ESTIMAREA PARAMETRILOR
Prin alegerea modelului:
forma functionala specicata
existenta unor parametri necunoscuti
"Model parametric"
1
0
A
1
, 0 _ 1
|
, / _ 1
A : o, v.a., o = sau o = 1
Presupunemmodelul "corect": valoarea adevarata, ne-
cunoscuta 0
0
.
Observatiile A
1
, ..., A
n
v.a.i.i.r. 1
0
A
1
_
o
n
, o
n
,
n
I=1
1
0
A
1
I
_
_
n
, (T ())
n
,
n
I=1
1
0
A
1
I
_
_
1
n
, E
n
,
n
I=1
1
0
A
1
I
_
Denitie:
Fie o functie masurabila

0 : o
n
. Atunci

0 (A
1
, ..., A
n
)
se numeste estimator al parametrului 0.
(1,...,n)
o
n
b
0(r1,...,rn)

Pentru datele statistice (r
1
, ..., r
n
) , valoarea

0 (r
1
, ..., r
n
) se
numeste estimatie a lui 0.
Notatii (presupunand ca toate mediile de mai jos ex-
ista):
0 = (0
1
, ..., 0
|
)
0
0 =
_
0
1
, ...,
0
|
_
0
'
0
_
0
_
=
_
'
0
_
0
1
_
, ..., '
0
_
0
|
__
0
1
Co
0
_
0,
0
_
=
_
_
_co
0
_
0
I
,
__
_
_
I,=1,...,|
=
_
_
_'
0
__
0
I
'
0
_
0
I
___
'
0
_
____
_
_
I,=1,...,|
Pentru. / = 1, '
0
_
0
_
, 1
2
0
_
0
_
Denitii:

0 (A
1
, ..., A
n
) este estimator nedeplasat daca
'
0
_
0 (A
1
, ..., A
n
)
_
= 0, \0

0 (A
1
, ..., A
n
) este estimator nedeplasat, de dispersie min-
ima (ENDM) daca este nedeplasat si pentru orice alt
estimator nedeplasat q (A
1
, ..., A
n
) matricea
Co
0
(q, q) Co
0
_
0,
0
_
este semipozitiv denita, \0 .
Comentariu:
Pentru / = 1,

0 (A
1
, ..., A
n
) este ENDM daca
'
0
_
0
_
= 0, \0
1
2
0
_
0
_
_ 1
2
0
(q) , \0
pentru orice alt estimator nedeplasat q (A
1
, ..., A
n
) .
DEPLASAREA estimatorului

0
1ia:
_
0
_
= '
0
_
0
_
0
EROAREA MEDIE PATRATICA a estimatorului

0
'
0
_
0 0
_
2
= 1
2
0
_
0
_
+
_
1ia:
_
0
__
2
Denitie:
Fie un sir de observatii i.i.r., (A
n
)
n
si e
_
0 (A
1
, ..., A
n
)
_
n
.
Spunem ca

0 este un estimator consistent daca
0 (A
1
, ..., A
n
)
1
0 pentru : , \0
"Estimatori buni" == nedeplasati, ENDM, consis-
tenti.
2
Metode:
metoda momentelor
metoda verosimiltatii maxime (maximum likelihood)
metoda celor mai mici patrate (least squares)
metoda lui Bayes
METODA MOMENTELOR
utila cand semnicatia lui 0 este direct legata de
momentele lui A
Momentele lui A (presupunem ca exista)
j
:
= ' (A
:
) , r
j
1
= ' (A)
Momentele centrate ale lui A (presupunem ca exista)
j
:
= ' ((A j
1
)
:
) , r
j
2
= 1
2
(A)
Pentru observatiile i.i.d. A
1
, ..., A
n
, denim momentele
de selectie
j
:
=
1
:
n
I=1
A
:
I
, r
j
1
= A
j
:
=
1
:
n
I=1
_
A
I
A
_
:
, r
\
1
2
(A) =
1
:
n
I=1
_
A
I
A
_
2
3
Proprietatea 1
' ( j
:
) = j
:
(estimator nedeplasat)
'
_
\
1
2
(A)
_
=
: 1
:
1
2
(A) (estimator deplasat)
Demonstratie:
' ( j
:
) =
1
:
n
I=1
' (A
:
I
) =
1
:
:j
:
= j
:
'
_
A
_
= ' (A)
1
2
_
A
_
=
1
:
2
n
I=1
1
2
(A
I
) =
1
:
2
:1
2
(A) =
1
:
1
2
(A)
\
1
2
(A) =
1
:
n
I=1
_
(A
I
' (A))
_
A ' (A)
__
2
=
=
1
:
_
n
I=1
(A
I
' (A))
2
:
_
A ' (A)
_
2
_
'
_
\
1
2
(A)
_
=
1
:
_
:1
2
(A) :1
2
_
A
__
=
: 1
:
1
2
(A)
Un estimator nedeplasat pentru 1

2
(A) este
o
2
=
1
: 1
n
I=1
_
A
I
A
_
2
=
:
: 1
\
1
2
(A)
Cat poate sa e dispersia unor estimatori nedeplasati?
4
TEOREMA RAO - CRAMER (pentru / = 1)
Fie modelul 1
0
A
1
, avand densitatea de repartitie
) (r, 0) , r 1,
cu 0 _ 1.
Fie observatiile i.i.r. A
1
, ..., A
n
si notam densitatea de
repartitie a vectorului (A
1
, ..., A
n
) cu
) (r
1
, ..., r
n
; 0) =
n
I=1
) (r
I
; 0)
Fie

0 (A
1
, ..., A
n
) un estimator nedeplasat pentru 0.
Presupunem vericate urmatoarele conditii de regu-
laritate:
este multime deschisa;
) (r
1
, ..., r
n
; 0) derivabila in raport cu 0 pe oricare ar
(r
1
, ..., r
n
) , cu derivata integrabila pe 1
n
;
Pentru orice 0, au loc egalitatile
0
00
_
1
n
) (r
1
, ..., r
n
; 0) dr
1
...dr
n
=
_
1
n
0) (r
1
, ..., r
n
; 0)
00
dr
1
...dr
n
0
00
_
1
n
0 (r
1
, ..., r
n
) ) (r
1
, ..., r
n
; 0) dr
1
...dr
n
=
_
1
n
0 (r
1
, ..., r
n
)
0) (r
1
, ..., r
n
; 0)
00
dr
1
...dr
n
Exista "informatia Fisher"
'
0
_
0 ln) (A
1
, ..., A
n
; 0)
00
_
2
no|o|
= i
n
(0) 0
Atunci are loc inegalitatea
1
2
0
_
0
_
_
1
i
n
(0)
, 0
Egalitatea are loc daca si numai daca exista o constanta
, independenta de (r
1
, ..., r
n
) , asa incat
0 (r
1
, ..., r
n
) 0
_
=
0) (r
1
, ..., r
n
; 0)
00
, \(r
1
, ..., r
n
)
5
Demonstratie:
Notam
1 =
0 ln) (A
1
, ..., A
n
; 0)
00
Avem
'
0
(1 ) =
_
1
n
_
1
) (r
1
, ..., r
n
; 0)

0) (r
1
, ..., r
n
; 0)
00
_
) (r
1
, ..., r
n
; 0) dr
1
...dr
n
=
0
00
_
_
_
1
n
) (r
1
, ..., r
n
; 0) dr
1
...dr
n
_
_
= 0
'
0
_
1
2
_
=i
n
(0)
Utilizam inegalitatea integrala a lui Schwartz,
(' ([l\ [))
2
_ '
_
[l[
2
_
'
_
[\ [
2
_
,
pentru l =

0 0 si \ = 1 '
0
(1 ) .
Obtinem
_
co
0
_
0, 1
__
2
_ 1
2
0
_
0
_
i
n
(0)
Dar
co
0
_
0, 1
_
= '
0
_
0 1
_
'
0
_
0
_
'
0
(1 ) =
=
_
1
n
_
0 (r
1
, ..., r
n
)
1
) (r
1
, ..., r
n
; 0)

0) (r
1
, ..., r
n
; 0)
00
_
) (r
1
, ..., r
n
; 0) dr
1
...dr
n
=
0
00
_
_
_
1
n
0 (r
1
, ..., r
n
) ) (r
1
, ..., r
n
; 0) dr
1
...dr
n
_
_
=
00
00
= 1
Rezulta
1 _ 1
2
0
_
0
_
i
n
(0) .
O c.n.s. pentru a obtine egalitate in inegalitatea Schwartz
este sa existe o constanta ,independenta de (r
1
, ..., r
n
) ,asa
incat
0 (r
1
, ..., r
n
) 0
_
=
0) (r
1
, ..., r
n
; 0)
00
, \(r
1
, ..., r
n
)
6
Remarca:
i
n
(0) = : i
1
(0)
Demonstratie:
0 ln) (A
1
, ..., A
n
; 0)
00
=
n
I=1
0 ln) (A
I
; 0)
00
i
n
(0) = '
0
_
n
I=1
0 ln) (A
I
; 0)
00
_
2
=
=
n
I=1
'
0
_
0 ln) (A
I
; 0)
00
_
2
+ 2
I<
'
0
_
0 ln) (A
I
; 0)
00

0 ln) (A
; 0)
00
_
=
= : i
1
(0) + 2
I<
'
0
_
0 ln) (A
I
; 0)
00
_
'
0
_
0 ln) (A
; 0)
00
_
= : i
1
(0)
Denitie
Un estimator nedeplasat

0 pentru care
1
2
0
_
0
_
=
1
: i
1
(0)
se numeste estimator ecient.
EXEMPLU
Modelul: Repartitia Exponentiala 1rjo (0) ,0 (0, )
) (r; 0) =
_
1
0
exp
_
r
0
_
, r [0, )
0, r (, 0)
Semnicatia parametrului
'
0
(A) =
1
0
1
_
0
r exp
_
r
0
_
dr = 0
_
[0, )
n
,
_
E
[0,1)
_
n
,
n
I=1
1
0
A
1
I
_
7
) (r
1
, ..., r
n
; 0) =
n
I=1
) (r
I
; 0) =
_
_
_
1
0
n
exp
_
1
0
n
I=1
r
I
_
, r
I
[0, ), \i
0, in rest
Aplicam Metoda Momentelor
0 (A
1
, ..., A
n
) = A,
'
0
_
0
_
= 0, \0
Dispersia estimatorului
1
2
0
_
0
_
=
1
:
2
n
I=1
1
2
0
(A
I
) =
1
:
1
2
0
(A)
1
2
0
(A) =
1
0
1
_
0
r
2
exp
_
r
0
_
dr 0
2
= 0
2
1
2
0
_
0
_
=
0
2
:
Informatia Fisher
i
1
(0) = '
0
_
0 ln) (A; 0)
00
_
2
= '
0
_
1
0
2
(A 0)
_
2
=
1
0
4
1
2
0
(A) =
1
0
2
i
n
(0) = : i
1
(0) =
:
0
2
Marginea Rao Cramer
1
i
n
(0)
=
0
2
:
= 1
2
0
_
0
_
Deci

0 (A
1
, ..., A
n
) = A este estimator ecient al lui 0.
TEOREMA RAO - CRAMER (pentru / 1)
Fie modelul 1
0
A
1
, avand densitatea de repartitie
) (r, 0) , r 1,
cu 0 _ 1
|
, / 1.
8
Fie observatiile i.i.r. A
1
, ..., A
n
si notam densitatea de
repartitie a vectorului (A
1
, ..., A
n
) cu
) (r
1
, ..., r
n
; 0) =
n
I=1
) (r
I
; 0)
Fie
0 (A
1
, ..., A
n
) =
_
0
1
(A
1
, ..., A
n
) , ...,

0
|
(A
1
, ..., A
n
)
_
0
un estimator nedeplasat pentru 0 = (0
1
, ..., 0
|
)
0
.
Presupunem vericate urmatoarele conditii de regu-
laritate:
este multime deschisa;
) (r
1
, ..., r
n
; 0) derivabila partial in raport cu 0
I
, i = 1, ..., /,
oricare ar (r
1
, ..., r
n
) , cu derivatele partiale integrabile
pe 1
n
;
Pentru orice 0, au loc egalitatile
0
00
I
_
1
n
) (r
1
, ..., r
n
; 0) dr
1
...dr
n
=
_
1
n
0) (r
1
, ..., r
n
; 0)
00
I
dr
1
...dr
n
, i = 1, ..., /
0
00
I
_
1
n
(r
1
, ..., r
n
) ) (r
1
, ..., r
n
; 0) dr
1
...dr
n
=
_
1
n
(r
1
, ..., r
n
)
0) (r
1
, ..., r
n
; 0)
00
I
dr
1
...dr
n
, i, , = 1, ..., /
Exista si este pozitiv denita "matricea information-
ala Fisher"
_
_
_
_
'
0
_
0 ln) (A
1
, ..., A
n
; 0)
00
I

0 ln) (A
1
, ..., A
n
; 0)
00
__
_
_
_
I,=1,...,|
no|o|
= 1
n
(0)
Atunci matricea
Co
0
_
0,
0
_
1
1
n
(0)
este semipozitiv denita.
Remarca:
1
n
(0) = : 1
1
(0)
9
METODA VEROSIMILITATII MAXIME
Fie modelul
1
0
A
1
=
_
r2.
j (r; 0) c
frg
, caz discret
sau
) (r; 0) |, r 1, caz continuu
Fie A
1
, ..., A
n
observatii i.i.r. si (o
n
, o
n
) spatiul :dimensional
al valorilor de selectie.
Denitii
Pentru datele statistice (r
1
, ..., r
n
) o
n
, functia de verosimil-
itate este denita prin
1(r
1
, ..., r
n
; 0) =
_
_
j (r
1
, ..., r
n
; 0) =
n
I=1
j (r
I
; 0) , caz discret
sau
) (r
1
, ..., r
n
; 0) =
n
I=1
) (r
I
; 0) , caz continuu
Fie functia masurabila

0 : o
n
. Functia

0 (A
1
, ..., A
n
)
se numeste estimator de verosimilitate maxima (E.V.M.)
daca, pentru orice (r
1
, ..., r
n
) , valoarea

0 (r
1
, ..., r
n
) este so-
lutia problemei de optimizare
sup
02
1(r
1
, ..., r
n
; 0)
sau a problemei echivalente
sup
02
ln1(r
1
, ..., r
n
; 0)
Notatie:

0
\ 1
(Maximum Likelihood Estimator)
Comentariu:
In cazul discret,
1(r
1
, ..., r
n
; 0) = 1
0
(A
I
= r
I
, i = 1, ..., :)
0
\ 1
(r
1
, ..., r
n
) este acea valoare a parametrului 0 care face
da datele statistice (r
1
, ..., r
n
) sa e cel mai verosimile.
10
APLICATIA 1
E.V.M. pentru parametrul 0 al repartitiei 1(1, 0)
Modelul
1
0
A
1
=
1
r=0
0
r
(1 0)
1r
c
frg
, 0(0, 1)
Datele statistice
(r
1
, ..., r
n
) 0, 1
n
Functia de verosimilitate
1(r
1
, ..., r
n
; 0) =
n
I=1
0
ri
(1 0)
1ri
= 0
P
n
i=1
ri
(1 0)
n
P
n
i=1
ri
Constructia EVM
ln1 =
n
I=1
r
I
ln0 +
_
:
n
I=1
r
I
_
ln(1 0)
0 ln1
00
=
1
0
n
I=1
r
I
1
1 0
_
:
n
I=1
r
I
_
0
2
ln1
00
2
=
1
0
2
n
I=1
r
I
1
(1 0)
2
_
:
n
I=1
r
I
_
0 ln1
00
= 0
0 (r
1
, ..., r
n
) =
1
:
n
I=1
r
I
= r
0
2
ln1
00
2
[
r
=
:
r(1 r)
< 0
0
\ 1
(A
1
, ..., A
n
) =
1
:
n
I=1
A
I
= A
Proprietatile EVM: vom stabili repartitia exacta a es-
timatorului, vom cerceta nedeplasarea si vom calcula
eroarea medie patratica.
11
Repartitia lui

0
\ 1
(A
1
, ..., A
n
)
Propozitie
Fie variabilele aleatoare independente 1
I
~ 1(r
I
, 0) ,i = 1.2.
Atunci 1
1
+1
2
~ 1(r
1
+r
2
, 0)
Rezulta
:
0
\ 1
(A
1
, ..., A
n
) =
n
I=1
A
I
~ 1(:, 0)
Eroarea medie patratica pentru

0
\ 1
(A
1
, ..., A
n
)
'
0
_
:
0
\ 1
_
= :0
1
2
0
_
:
0
\ 1
_
= :0 (1 0)
'
0
_
0
\ 1
_
= 0 (nedeplasare)
1
2
0
_
0
\ 1
_
=
0 (1 0)
:
'
0
_
0
\ 1
0
_
2
=
0 (1 0)
:
APLICATIA 2
E.V.M. pentru parametrul 0 al repartitiei Uniforme
l (0, 0)
Modelul
1
0
A
1
=) (r; 0) |
) (r; 0) =
_
1
0
, r [0, 0]
0, in rest
, 0 (0, )
1
(j) = 1
0
(1 < j) =
_
_
_
0, j < 0
0
, j [0, 0]
1, j 0
'
0
(A) =
0
_
0
r
0
dr =
0
2
12
1
2
0
(A) =
0
_
0
r
2
0
dr
0
2
4
=
0
2
12
Datele statistice
(r
1
, ..., r
n
) [0, 0]
n
1(r
1
, ..., r
n
; 0) =
_
1
0
n
, r
I
[0, 0] , i = 1, ..., :
0, in rest
1(r
1
, ..., r
n
; 0) =
_
1
0
n
, 0 _ max
I
r
I
_ 0
0, 0 < max
I
r
I
Constructia EVM
max
02(0,1)
1(r
1
, ..., r
n
; 0) =
1
_
max
I
r
I
_
n
se atinge pentru
0
\ 1
(r
1
, ..., r
n
) = max
I
r
I
no|o|
= r
(n)
E.V.M. este
0
\ 1
(A
1
, ..., A
n
) = max
I
A
I
no|o|
= A
(n)
Repartitia lui

0
\ 1
(A
1
, ..., A
n
)
1
b
0
V M
(j) = 1
(n)
(j) = 1
0
_
A
(n)
< j
_
=
n
I=1
1
0
(A
I
< j) = (1
(j))
n
1
b
0
V M
(j) =
_
_
_
0, j < 0
_
0
_
n
, j [0, 0]
1, j 0
)
b
0
V M
(j) =
_
n
0
n
j
n1
, j [0, 0]
0, in rest
Eroarea medie patratica a lui

0
\ 1
(A
1
, ..., A
n
)
'
0
_
0
\ 1
_
=
0
_
0
j
:
0
n
j
n1
dj =
:
: + 1
0
13
1ia:
_
0
\ 1
_
=
:
: + 1
0 0 =
1
: + 1
0
'
0
_
0
\ 1
_
2
=
0
_
0
j
2
:
0
n
j
n1
dj =
:
: + 2
0
2
1
2
0
_
0
\ 1
_
=
:
: + 2
0
2
_
:
: + 1
_
2
0
2
=
:
(: + 2) (: + 1)
2
0
2
'
0
_
0
\ 1
0
_
2
=
:
(: + 2) (: + 1)
2
0
2
+
1
(: + 1)
2
0
2
=
20
2
(: + 1) (: + 2)
Construim un estimator nedeplasat
0 (A
1
, ..., A
n
) =
: + 1
:

0
\ 1
(A
1
, ..., A
n
)
'
0
_
0
_
= 0
1
2
0
_
0
_
=
_
: + 1
:
_
2
:
(: + 2) (: + 1)
2
0
2
=
0
2
:(: + 2)
'
0
_
0 0
_
2
=
0
2
:(: + 2)
Comparam cei doi estimatori
'
0
_
0
\ 1
0
_
2
'
0
_
0 0
_
2
=
2:
: + 1
1, : 1
'
0
_
0 0
_
2
< '
0
_
0
\ 1
0
_
2
14
APLICATIA 3
E.V.M. pentru parametrul 0 =
_
j, o
2
_
al repartitiei
Normale
_
j, o
2
_
Modelul
1
0
A
1
= )
_
r; j, o
2
_
|
)
_
r; j, o
2
_
=
1
_
2o
2
exp
_
1
2o
2
(r j)
2
_
'
0
(A) = j
1
2
0
(A) = o
2
Datele statistice
(r
1
, ..., r
n
) 1
n
1
_
r
1
, ..., r
n
; j, o
2
_
=
1
(2o
2
)
n/2
exp
_
1
2o
2
n
I=1
(r
I
j)
2
_
Constructia EVM
ln1 =
:
2
ln(2)
:
2
ln
_
o
2
_
1
2o
2
n
I=1
(r
I
j)
2
0 ln1
0j
=
1
o
2
n
I=1
(r
I
j)
0 ln1
0o
2
=
:
2

1
o
2
+
1
2 (o
2
)
2
n
I=1
(r
I
j)
2
0
2
ln1
0j
2
=
:
o
2
0
2
ln1
0j0o
2
=
1
(o
2
)
2
n
I=1
(r
I
j)
0
2
ln1
0 (o
2
)
2
=
:
2

1
(o
2
)
2

1
(o
2
)
3
n
I=1
(r
I
j)
2
Sistemul de verosimilitate maxima
_
J ln J
J
= 0
J ln J
Jc
2
= 0
15
_
_
n
I=1
(r
I
j) = 0
:o
2
+
n
I=1
(r
I
j)
2
= 0
j(r
1
, ..., r
n
) =
1
:
n
I=1
r
I
= r
o
2
(r
1
, ..., r
n
) =
1
:
n
I=1
(r
I
r)
2
0
2
ln1
0j
2
[
b ,
c
c
2
=
:
o
2
< 0
0
2
ln1
0j0o
2
[
b ,
c
c
2
= 0
0
2
ln1
0 (o
2
)
2
[
b ,
c
c
2
=
:
2

1
_
o
2
_
2
< 0
Rezulta ca
_
j(r
1
, ..., r
n
) ,
o
2
(r
1
, ..., r
n
)
_
este punct de maxim
pentru ln1, iar EVM este
_
j
\ 1
,
o
2
\ 1
_
(A
1
, ..., A
n
) =
_
A,
1
:
n
I=1
_
A
I
A
_
2
_
Pentru a stabili repartitia lui
_
j
\ 1
,
o
2
\ 1
_
avem nevoie
de "denitia constructiva" a repartitiei CHI Patrat
Repartitia Ga::a (c, 0)
Repartitia
2
(r)
Denitie
Variabila aleatoare A are o repartitie Ga::a (c, 0) ,c, 0
(0, ) , daca are densitatea de repartitie
) (j) =
_
1
0
(o)
j
o1
exp
_
0
_
, j _ 0
0, j < 0
16
Reamintim
(c) =
1
_
0
t
o1
c
|
dt
(c) = (c 1) (c 1)
(r) = (r 1)!, r
' (1 ) =
1
_
0
1
0
o
(c)
j
o
exp
_
j
0
_
dj =
0
o+1
(c + 1)
0
o
(c)
= 0c
'
_
1
2
_
=
1
_
0
1
0
o
(c)
j
o+1
exp
_
j
0
_
dj =
0
o+2
(c + 2)
0
o
(c)
= 0
2
c(c + 1)
1
2
(1 ) = 0
2
c(c + 1) 0
2
c
2
= 0
2
c
,
Y
(t) = '
_
c
I|Y
_
=
1
0
o
(c)
_
1
0
it
_
o
(c) = (1 it0)
o
Proprietatea 2
Fie variabilele aleatoare independente 1
I
~ Ga::a (c
I
, 0) ,i =
1, 2. Atunci 1
1
+1
2
~ Ga::a (c
1
+c
2
, 0)
Demonstratie
,
Y1+Y2
(t) = ,
Y1
(t) ,
Y2
(t) = (1 it0)
o1+o2
Denitie
Repartitia Ga::a
_
:
2
, 2
_
, cu r
se numeste repartitia
CHI Patrat cu r grade de libertate, avand densitatea de
repartitie
) (j) =
1
2
:/2
_
:
2
_j
r
2
1
exp
_
j
2
_
, j _ 0
' (1 ) = r
1
2
(1 ) = 2r
17
Proprietatea 3
Fie A
1
, ..., A
:
variabile aleatoare independente, identic
repartizate Normal (0, 1) . Atunci
1 =
:
I=1
A
2
I
este repartizata
2
(r) .
Demonstratie:
1
_
A
2
1
< .
_
=
_
0, . < 0
1 ([A
1
[ <
_
.) , . _ 0
=
_
_
_
0, . < 0
2
p
2t
p
:
_
0
c
r
2
/2
dr, . _ 0
)
2
1
(.) =
_
0, . < 0
2
p
2t
c
:/2
1
2
p
:
, . _ 0
)
2
1
(.) =
1
2
1/2
_
1
2
_ .
1
2
1
c
:/2
, . _ 0
Adica A
2
1
este repartizata
2
(1) = Ga::a
_
1
2
, 2
_
.
Avem A
2
1
, ..., A
2
:
repartizate Ga::a
_
1
2
, 2
_
. Rezulta
:
I=1
A
2
I
~ Ga::a
_
r
2
, 2
_
=
2
(r) .
Proprietatea 4
Fie 1
1
, ..., 1
n
variabile aleatoare independente, identic repar-
tizate Normal (0, 1) si e
1 =
1
:
n
I=1
1
I
H =
n
I=1
_
1
I
1
_
2
Atunci 1 ~
_
0,
1
n
_
, H ~
2
(: 1) , iar 1 si H sunt variabile
aleatoare independente.
18
Demonstratie:
n
I=1
1
I
~ (0, :) == 1 ~
_
0,
1
:
_
Notam
Y = (1
1
, ..., 1
n
)
0
Vectorul aleator 1 are (prin denitie) o repartitie nor-
mala :dimensionala, (:; 0, I) , cu
' (Y) = 0 = (0, ..., 0)
0
Co (Y, Y) = |co (1
I
, 1
)|
I,=1,...,n
= I
Consideram transformarea liniara
Z = Y
cu
=
_
_
_
_
_
_
_
_
1
p
12
1
p
12
0 ..... 0
1
p
23
1
p
23
2
p
23
..... 0
... ... ... ..... ...
1
_
(n1)n
1
_
(n1)n
1
_
(n1)n
.....
(n1)
_
(n1)n
1
p
n
1
p
n
1
p
n
.....
1
p
n
_
_
_
_
_
_
_
_
Avem
0
= I.
Vectorul aleator Z = (7
1
, ..., 7
n
)
0
are o repartitie normala
:dimensionala, cu
' (Z) = ' (Y) = 0
Co (Z, Z) = '
_
Z Z
0
_
=
_
Y Y
0
A
0
_
= Co (Y, Y)
0
= I
0
= I
Componentele lui Z sunt variabile aleatoare indepen-
dente, identic repartizate (0, 1) .Observam ca:
n
I=1
7
2
I
= Z
0
Z = Y
0
0
Y = Y
0
Y =
n
I=1
1
2
I
Dar
7
n
=
1
_
:
n
I=1
1
I
=
_
: 1 .
n1
I=1
7
2
I
=
n
I=1
1
2
I
7
2
n
=
n
I=1
1
2
I
:
_
1
_
2
=
n
I=1
_
1
I
1
_
2
= H
19
Deci
1 =
1
_
:
7
n
,
H =
n1
I=1
7
2
I
Rezulta ca 1 si H sunt variabile aleatoare independente
si H ~
2
(: 1) .
Revenim la problema repartitiei E.V.M.

_
j
\ 1
,
o
2
\ 1
_
(A
1
, ..., A
n
) =
_
A,
1
:
n
I=1
_
A
I
A
_
2
_
Proprietatea 5
Fie A
1
, ..., A
n
repartizate
_
j, o
2
_
si e
_
j
\ 1
,
o
2
\ 1
_
E.V.M. construit mai
sus. Atunci
j
\ 1
= A ~
_
j,
o
2
:
_
,
:
o
2

o
2
\ 1
~
2
(: 1)
si cele doua componente ale E.V.M. sunt independente.
Demonstratie:
Aplicam Proprietatea 4 pentru
1
I
=
A
I
j
o
~ (0, 1) , i = 1, ..., :
1 =
1
:
n
I=1
A
I
j
o
=
A j
o
H =
n
I=1
_
A
I
j
o

A j
o
_2
=
1
o
2
n
I=1
_
A
I
A
_
2
=
:
o
2

o
2
\ 1
Rezulta ca

c
are repartitia
_
0,
1
n
_
, adica A are repar-
titia
_
j,
c
2
n
_
, iar
n
c
2

o
2
\ 1
are repartitia
2
(: 1) .
Independenta celor doua componente ale E.V.M. rezulta
tot din proprietatea 4.
20
EROARILE MEDII PATRATICE ALE
COMPONENTELOR E.V.M.
_
j
\ 1
,
o
2
\ 1
_
'
0
_
A
_
= j
1ia:
_
A
_
= 0
1
2
0
_
A
_
=
o
2
:
'
0
_
A j
_
2
=
o
2
:
'
0
_
o
2
\ 1
_
=
: 1
:
o
2
1ia:
_
o
2
\ 1
_
=
: 1
:
o
2
o
2
=
o
2
:
1
2
0
_
o
2
\ 1
_
=
2 (: 1)
:
2
o
4
'
0
_
o
2
\ 1
o
2
_
2
=
2 (: 1)
:
2
o
4
+
o
4
:
2
=
2: 1
:
2
o
4
Putem construi un estimator nedeplasat pentru o
2
:
o
2
=
:
: 1
o
2
\ 1
=
1
: 1
n
I=1
_
A
I
A
_
2
: 1
o
2
o
2
~
2
(: 1)
'
0
_
o
2
_
= o
2
1ia:
_
o
2
_
= 0
1
2
0
_
o
2
_
=
2o
4
: 1
'
0
_
o
2
o
2
_
2
=
2o
4
: 1
Observam ca, desi o
2
este un estimator nedeplasat pentru
o
2
, eroarea sa medie patratica este mai mare decat cea a
lui

o
2
\ 1
:
'
0
_
o
2
\ 1
o
2
_
2
'
0
(o
2
o
2
)
2
=
(2: 1) (: 1)
2:
2
< 1
21
METODA CELOR MAI MICI PATRATE
Se adreseaza estimarii parametrilor "MODELELOR
LINIARE"
MODELUL LINIAR :DIMENSIONAL,
CU OBSERVATII INDEPENDENTE
Fie un sir de variabile aleatoare independente, neiden-
tic repartizate, de forma
A
I
= '
0
(A
I
) +7
I
, i = 1, 2, ...
unde:
7
I
, i = 1, 2, ... sunt v.a. indep, identic repartizate, cu
'
0
(7
I
) = 0,1
2
0
(7
I
) = o
2
,\i
'
0
(A
I
) = j
0
I
0 =
|
=1
j
I
0
,i = 1, 2, ...
0 = (0
1
, ..., 0
|
)
0
_ 1
|
,/ _ 1
Observam primele : variabile ale sirului, : /, si notam
X = (A
1
, ..., A
n
)
0
Z = (7
1
, ..., 7
n
)
0
Y = |j
I
|
I=1,...,n; =1,...|
Denitie:
Secventa de : variabile aleatoare independente, neiden-
tic repartizate, de forma
A
I
= y
0
I
0 +7
I
, i = 1, 2, ...:
se numeste model liniar :dimensional, cu observatii in-
dependente.
Are loc scrierea matriceala
X = Y0 +Z
22
Exemplu:
A = cresterea lunara in greutate la copilul de 12 - 18
luni
Cresterea in greutate depinde de regimul alimentar ad-
ministrat (ratia zilnica de proteine, ratia zilnica de glu-
cide, ratia zilnica de lipide)
"regim alimentar" =(j
1
, j
2
, j
3
)
0
va speciat (cunoscut)
pt ecare copil luat in studiu
A = j
1
0
1
+j
2
0
2
+j
3
0
3
+7
parametrul necunoscut 0 = (0
1
, 0
2
, 0
3
)
0
exprima inuenta
ecarui principiu nutritiv asupra cresterii in greutate
: copii sunt inclusi in studiu in mod independent unul
de altul si se dau j
I
= (j
I1
, j
I2
, j
I3
)
0
,i = 1, ..., :
se inregistreaza cresterile in greutate din luna in care
are loc studiul, (r
1
, ..., r
n
)
se estimeaza 0
Proprietati ale modelului
'
0
(Z) = ('
0
(7
1
) , ..., '
0
(7
n
))
0
= (0, ..., 0)
0
= 0
Co
0
(Z, Z) = |co
0
(7
I
, 7
)|
I,=1,...,n
= o
2
I
'
0
(X) = Y0 +'
0
(Z) = Y0
Co
0
(X, X) = Co
0
(Z, Z) = o
2
I
Denitii:
Modelul liniar :dimensional X = Y0+Z se numeste nesin-
gular daca rangul matricii Y este maximal,
ra:q (Y) = /
Modelul liniar :dimensional X = Y0 +Z se numeste or-
togonal daca caloanele lui Y sunt vectori ortogonali din
1
n
.
23
Modelul liniar :dimensional X = Y0+Z se numeste nor-
mal daca variabilele aleatoare indep, id. repartizate 7
1
, ..., 7
n
au repartitie normala,
_
0, o
2
_
.
Fie r= (r
1
, ..., r
n
)
0
datele statistice observate.
Suma abaterilor patratice (Sum of Squares)
oo (r
1
, ..., r
n
; 0) =
n
I=1
(r
I
y
0
I
0)
2
= (x Y0)
0
(x Y0) = |(x Y0)|
2
Denitie
Estimatorul

0 (A
1
, ..., A
n
) se numeste estimator prin metoda
celor mai mici patrate (Least Squares Estimator, (L.S.E.))
daca, pentru orice r= (r
1
, ..., r
n
)
0
, valoarea

0 (r
1
, ..., r
n
) se ob-
tine ca solutie a problemei de optimizare
inf
02
oo (r
1
, ..., r
n
; 0)
Estimatorul se noteaza

0
JS
(A
1
, ..., A
n
) .
Fie oo (r
1
, ..., r
n
; 0) . Sistemul
0oo
00
= 0
se numeste sistemul de ecuatii normale. Explicit, sis-
temul liniar se scrie:
Y
0
(x Y0) = 0
sau
Y
0
Y0 = Y
0
x
Proprietatea 6 (existenta L.S.E.)
Un estimator

0 este L.S.E,

0 =

0
JS
, daca si numai daca,
pentru orice r= (r
1
, ..., r
n
)
0
, valoarea

0 (r
1
, ..., r
n
) este solutia
sistemului de ecuatii normale Y
0
Y0 = Y
0
x.
Demonstratie:
Fie x = (r
1
, ..., r
n
)
0
arbitrar xat.
inf
02
oo (x; 0) = inf
02
|(x Y0)|
2
24
Fie / spatiul liniar generat de coloanele liniar indepen-
dente ale lui Y (subspatiu liniar al lui 1
n
).
Solutia problemei
inf
z2L
|(x z)|
2
este
z
= jr
L
(x)
Atunci,
0 (x) =

0
JS
(x) = Y
0 (x) = jr
L
(x) =
x Y
0 (x) l / = Y
0
_
x Y
0 (x)
_
= 0
Proprietatea 7 (L.S.E. este cel mai bun estimator liniar

nedeplasat al lui 0)
Fie modelul liniar :dimensional cu observatii inde-
pendente X = Y0+Z.
Presupunem modelul nesingular (ra:q (Y) = / < :) .
Atunci sistemul de ecuatii normale are solutia unica
0
JS
(x) = (Y
0
Y)
1
Y
0
x,
si estimatorul

0
JS
(X) verica urmatoarele proprietati:
este nedeplasat,
'
0
_
0
JS
(X)
_
= 0, \0 ,
pentru orice estimator g liniar, nedeplasat al lui 0,matricea
Co
0
(g, g) Co
0
_
0
JS
,
0
JS
_
este semipozitiv denita, \0 .
Demonstratie:
Cum ra:q (Y) = /, rezulta ra:q (Y
0
Y) = /, deci Y
0
Y0= Y
0
x este
sistem Cramer, cu solutia unica

0
JS
(x) = (Y
0
Y)
1
Y
0
x.
25
'
0
_
0
JS
_
= (Y
0
Y)
1
Y
0
'
0
(X) = (Y
0
Y)
1
Y
0
Y0 = 0, \0
Co
0
_
0
JS
,
0
JS
_
= (Y
0
Y)
1
Y
0
Co
0
(X, X) Y(Y
0
Y)
1
=
= (Y
0
Y)
1
Y
0
o
2
I Y(Y
0
Y)
1
= o
2
(Y
0
Y)
1
Fie g (X) = 1X un estimator liniar, nedeplasat pentru 0.
Conditia de nedeplasare revine la
'
0
(g) = 0, \0 ,
respectiv la
1Y0 = 0, \0 ,
adica 1Y = I.
Co
0
(g, g) = 1 Co
0
(X, X) 1
0
= o
2
11
0
Co
0
(g, g) Co
0
_
0
JS
,
0
JS
_
= o
2
11
0
o
2
(Y
0
Y)
1
Folosind relatia 1Y = I obtinem
Co
0
(g, g) Co
0
_
0
JS
,
0
JS
_
= o
2
_
1 (Y
0
Y)
1
Y
0
__
1 (Y
0
Y)
1
Y
0
_
0
Notam = 1 (Y
0
Y)
1
Y
0
si obtinem
z
0
_
Co
0
(g, g) Co
0
_
0
JS
,
0
JS
__
z = o
2
z
0
0
. = o
2
(
0
z)
0
(
0
z) _ 0
valorile observate: r
I
, i = 1, ..., :
predictorii (tted values): r
I
= y
0
I
0
JS
, i = 1, ..., :
reziduuri (residuals) r
I
r
I
, i = 1, ..., :
Denim variabila aleatoare "Suma reziduurilor patrat-
ice"
oo
:t:IJ
=
n
I=1
_
A
I
y
0
I
0
JS
_
2
=
_
_
_XY
0
JS
_
_
_
2
26
Proprietatea 8
Fie modelul liniar :dimensional cu observatii inde-
pendente X = Y0+Z.
Presupunem modelul nesingular si normal. Atunci
1
o
2
oo
:t:IJ
~
2
(: /)
Demonstratie:
Fie / spatiul liniar generat de coloanele liniar indepen-
dente ale lui Y.
dim/ = ra:q Y = /
dim/
?
= : /
Fie u
|+1
, ..., u
n
o baza ortonormata pentru /
?
.
Pentru x 1
n
, avem Y
0
JS
(x) /, x Y
0
JS
(x) /
?
. Putem
scrie
x Y
0
JS
(x) =
n
I=|+1
u
0
I
x
1
o
2
oo
:t:IJ
=
n
I=|+1
_
u
0
I
x
o
_
2
Dar
1
c
u
0
I
X, i = / + 1, ..., : sunt var. al. independente,
identic repartizate (0, 1) caci:
sunt combinatii liniare de componentele normal repar-
tizate ale lui X =(A
1
, ..., A
n
)
0
si
'
0
_
1
o
u
0
I
X
_
=
1
o
u
0
I
Y0 = 0, i = / + 1, ..., :
co
0
_
1
o
u
0
I
X,
1
o
u
0
X
_
=
1
o
2
u
0
I
Co
0
(X, X) u
=
1
o
2
u
0
I
_
o
2
I
_
u
= u
0
I
u
= c
I
,
i, , = / + 1, ..., :
ind var al necorelate, identic repartizate normal,
(0, 1) ,sunt si independente.
Rezulta
n
I=|+1
_
u
0
I
x
o
_
2
~
2
(: /)
27
VALOARE MEDIE CONDITIONATA
MODELE DE REGRESIE; ESTIMAREA
PARAMETRILOR REGRESIEI LINIARE
Problema:
Pentru perechea de variabile aleatoare (A, 1 ) = (efect,
cauza), cum evidentiem dependenta lor (cantitativ si cal-
itativ)?
Exemplu: (A, 1 ) = (valoarea tensiunii arteriale sistolice,
nivelul colesterolului)
COEFICIENT DE CORELATIE
Fie (A, 1 ) pentru care exista momentele de ordinul 2.
Reamintim denitiile covariantei si a coecientului de
corelatie:
co (A, 1 ) = ' ((A ' (A)) (1 ' (1 ))) = ' (A1 ) ' (A) ' (1 )
j =
co (A, 1 )
_
1
2
(A) 1
2
(1 )
Proprietate: [j[ _ 1 (rezulta din inegalitatea Schwartz)
j = 1, corelatie pozitiva maxima
j = 1, corelatie negativa maxima
j = 0, necorelare
Repartitii asociate:
1 (A, 1 )
1
=
_
r2.
21
j (r, j) c
(r,)
, rep. discreta
sau
) (r, j) |
2
, rep. continua
1 A
1
(C
1
) =
_
_
_
1 (A, 1 )
1
(C
1
1) , rep. discreta
sau
1 (A, 1 )
1
(C
1
1) , rep. continua
1
1 1
1
(C
2
) =
_
_
_
1 (A, 1 )
1
(C
2
) , rep. discreta
sau
1 (A, 1 )
1
(1 C
2
) , rep. continua
In cazul repartitiilor discrete,
j
(r) =

21
j (r, j) , r
j
Y
(j) =

r2.
j (r, j) , j 1
A, 1 independente = j (r, j) = j
(r) j
Y
(j) \r , j 1
In cazul repartitiilor continue,
)
(r) =
_
1
) (r, j) dj, r 1
)
Y
(j) =
_
1
) (r, j) dr, j 1
A, 1 independente = ) (r, j) = )
(r) )
Y
(j) \r, j 1
Proprietate:
A, 1 independente == A, 1 necorelate
Coecientul de corelatie apare ca o masura cantitativa
a dependentei dintre A si 1.
Introducem si un model stocastic al acestei dependente
(al relatiei "cauza - efect")
VALOARE MEDIE CONDITIONATA
Lema
Fie (, /, 1) , T /, T corp borelian si e / : 1 o vari-
abila aleatoare nenegativa sau integrabila, Tmasurabila.
Atunci _
/ d1
jF
=
_
/ d1
Demonstratie:
Notam aplicatia identitate cu i : (, /) (, T) . Rezulta
ca i este masurabila si 1 i
1
= 1
jF
_
/ d1
jF
=
_
/ d1 i
1
=
_
/ i d1 =
_
/ d1
2
Teorema (existenta si unicitate)
Fie (, /, 1) , T /, T corp borelian.
a) Daca A este o variabila aleatoare nenegativa, atunci
exista o variabila aleatoare nenegativa ' (A [ T) astfel in-
cat
i) ' (A [ T) este T -masurabila
ii)
_
.
' (A [ T) d1 =
_
.
Ad1 \ T
In particular, daca A este integrabila rezulta ca ' (A [ T)
este integrabila.
' (A [ T) este unica (1 a.:.) variabila aleatoare cu pro-
prietatile i) si ii).
b) Daca A este o variabila aleatoare integrabila, atunci
exista si este unica (1 a.:.) o variabila aleatoare integra-
bila ' (A [ T) , cu proprietatile i) si ii).
Demonstratie:
a) :
Demonstram intai unicitatea: Daca exista q
1
, q
2
vari-
abile aleatoare cu proprietatile i) si ii), rezulta
_
.
q
1
d1 =
_
.
q
2
d1 \ T
Dar q
1
, q
2
sunt Tmasurabile. Rezulta q
1
= q
2
1 a.:.
Fie A variabila aleatoare nenegativa si e
j : T 1
+
j() =
_
.
Ad1
j este o masura onita, absolut continua in raport cu
1
jF
. Rezulta din teorema Radon - Nicodym ca exista o
unica aplicatie
q : 1
+
3
Tmasurabila, asa incat
j() =
_
.
qd1
jF
\ T
Aplicam Lema:
_
.
qd1
jF
=
_
1
.
qd1
jF
=
_
1
.
qd1 =
_
.
qd1
Deci _
.
Ad1 =
_
.
qd1 \ T
Vom nota aceasta unica aplicatie cu q = ' (A [ T) si o
vom numi "media lui A conditionata de T".
b) :
Fie A variabila aleatoare integrabila. Atunci
A = A
+
A
,
cu A
+
si A
pozitive, integrabile, A
+
= max A, 0 , A
=
max A, 0 .
Din a), () (!) ' (A
+
[ T) , ' (A
[ T) variabile aleatoare neneg-

ative, integrabile, cu proprietatile i) si ii). Luam
' (A [ T) = '
_
A
+
[ T
_
'
_
A
[ T
_
,
care satisface prorpietatile din enuntul teoremei.
CAZURI PARTICULARE
1, A = 1
.
. Atunci notam
' (1
.
[ T) = 1 ( [ T)
1 variabila aleatoare, T = E(1 ) = 1
1
(E) . Atunci notam
' (A [ E(1 )) = ' (A [ 1 )
1, A = 1
.
si T = E(1 ) . Atunci notam
' (1
.
[ E(1 )) = 1 ( [ 1 )
4
VERSIUNE A MEDIEI CONDITIONATE
Fie A si 1 variabile aleatoare, cu A nenegativa sau
integrbila.
Se numeste versiune a mediei conditionate ' (A [ 1 ) func-
tia masurabila
' (A [ 1 = j) : 1 1
cu proprietatea
' (A [ 1 = j) 1 = ' (A [ 1 ) 1 a.:.
Propozitie
Fie A si 1 variabile aleatoare, cu A nenegativa sau
integrabila. Functia masurabila , : 1 1 este versiune a
mediei conditionate ' (A [ 1 ) daca si numai daca
_
1
,(j) d1 1
1
(j) =
_
Y
1
(1)
Ad1, \1 E
Demonstratie:
, 1 = ' (A [ 1 ) 1 a.:. =
_
.
, 1 d1 =
_
.
' (A [ 1 ) d1, \ E(1 )
Dar E(1 ) = 1
1
(E) . Deci, pentru orice 1 E
_
1
,(j) d1 1
1
(j) =
_
Y
1
(1)
, 1 d1 =
_
Y
1
(1)
' (A [ 1 ) d1 =
_
Y
1
(1)
Ad1
MODALITATI DE CALCUL PENTRU ' (A [ 1 = j)

(a) Cazul repartitiilor discrete
Presupunem
1 1
1
=

|21
1 (1 = a
|
) c
fo
k
g
1 (1 = a
|
) 0 \/,

|21
1 (1 = a
|
) = 1
5
cu 1 cel mult numarabila. Aratam ca
' (A [ 1 = a
|
) =
1
1 (1 = a
|
)
_
fY =o
k
g
Ad1.
Notam cu , o functie Emasurabila, asa incat
,(a
|
) =
1
1 (1 = a
|
)
_
fY =o
k
g
Ad1, / 1
Notam suportul lui 1 1
1
cu = a
|
, / 1 . Fie 1 E.
Avem
_
1
,(j) d1 1
1
(j) =
_
1\.
,(j) d1 1
1
(j) =

o
k
21\.
,(a
|
) 1 (1 = a
|
) =
=

o
k
21\.
_
fY =o
k
g
Ad1 =
_
Y
1
(1)
Ad1
Aplicand propozitia anterioara, obtinem c.t.d.
Daca presupunem chiar mai mult, si anume ca (A, 1 )
este un vector aleator cu repartitie discreta
1 (A, 1 )
1
=

r2.
0
2.
j (r, j) c
f(r,)g
0
= a
0
|
, / 1
= a
|
, / 1
atunci
' (A [ 1 = a
|
) =
|21
a
0
|

1 (A = a
0
|
, 1 = a
|
)
1 (1 = a
|
)
=
|21
a
0
|
1 (A = a
0
|
[ 1 = a
|
)
(b) Cazul repartitiilor continue
Presupunem ca (A, 1 ) are densitatea de repartitie ) (r, j) .
Notam
)
Y
(j) =
_
1
) (r, j) dr
Aratam ca
' (A [ 1 = j) =
_
1
r
) (r, j)
)
Y
(j)
dr
6
Observam ca denitia este corecta pentru j cu )
Y
(j) 0.
In punctele in care )
(j) = 0 se ia ' (A [ 1 = j) egala cu o

constanta arbitrara.
Notam functia masurabila
,(j) =
_
1
r
) (r, j)
)
Y
(j)
dr
Fie 1 E
_
1
,(j) d1 1
1
(j) =
_
1
_
_
_
1
r
) (r, j)
)
Y
(j)
dr
_
_
)
Y
(j) dj =
=
_
11
r ) (r, j) drdj =
_
11
r 1
1
(j) ) (r, j) drdj =
=
_
(1
1
1 ) Ad1 =
_
Y
1
(1)
Ad1
Aplicand propozitia anterioara, obtinem c.t.c.
Notatie (densitatea de repartitie conditionata a lui A)

) (r [ j) =
) (r, j)
)
Y
(j)
' (A [ 1 = j) =
_
1
r ) (r [ j) dr
Denitie
Fie vectorul aleator (A, 1 ) cu componente integrabile.
Se numeste regresia lui A in 1 functia
j ' (A [ 1 = j)
Regresia este liniara daca
' (A [ 1 = j) = a +/j
Dreapta de regresie este data de ecuatia
r = a +/j
7
REGRESIA LINIARA PENTRU
MODELUL NORMAL BIDIMENSIONAL
Fie urmatorii parametri:
=
_
j
r
, j
_
0
1
2
=
_
o
2
r
o
r
o
r
o
2
_
=
_
o
2
r
jo
r
o
jo
r
o
o
2
_
,
matrice simetrica, pozitiv denita.
Vectorul aleator (A, 1 )
0
are o repartitie normala bidi-
mensionala (2; , ) daca are densitatea de repartitie
) (r.j) =
1
2
_
o
2
r
o
2
(1 j
2
)
exp
_
1
2 (1 j
2
)
_
_
r j
r
o
r
_
2
2j
r j
r
o
r

j j
+
_
j j
_
2
__
Proprietatea 1
Repartitiile marginale ale lui (2; , ) sunt
1 A
1
=
_
j
r
, o
2
r
_
, 1 1
1
=
_
j
, o
2
_
Demonstratie:
Adunand si scazand j
2
_
y
cy
_
2
la exponent obtinem
) (r.j) =
1
_
2o
2
_
2o
2
r
(1 j
2
)
exp
_
1
2o
2
r
(1 j
2
)
_
r
_
j
r
+j
o
r
o
_
j j
_
__
2
1
2o
2
_
j j
_
2
_
Repartitia marginala a lui 1 este
)
Y
(j) =
_
1
) (r, j) dr =
1
_
2o
2
exp
_
1
2o
2
_
j j
_
2
_
Analog se obtine si repartitia marginala a lui A.
8
Proprietatea 2
Repartitia lui A conditionata de 1 este normala,
_
j
r
+j
o
r
o
_
j j
_
; o
2
r
_
1 j
2
_
_
Proprietatea rezulta imediat, calculand
) (r [ j) =
) (r, j)
)
Y
(j)
Corolar
' (A [ 1 = j) = j
r
+j
o
r
o
_
j j
_
1
2
(A [ 1 = j) = o
2
r
_
1 j
2
_
Rezulta ca, pentru modelul normal bidimensional, re-
gresia lui A in 1 este liniara, iar ecuatia dreptei de regresie
este
r =
_
j
r
j
o
r
o
_
+j
o
r
o
j
ESTIMAREA PARAMETRILOR DREPTEI DE
REGRESIE
(a) Fara specicarea repartitiei lui (A, 1 )
Fie vectorul aleator (A, 1 )
0
pentru care facem ipoteza
' (A [ 1 = j) = a +/j
astfel incat ecuatia dreptei de regresie este r = a +/j.
Fie observatiile (A
I
, 1
I
)
0
, = 1, ..., :, care sunt vectori aleatori
independenti, identic repartizati ca si (A, 1 )
0
si e (r
I
, j
I
)
0
i = 1, ..., : datele statistice corespunzatoare.
' (A
I
[ 1
1
= j
1
, ..., 1
I
= j
I
, ..., 1
n
= j
n
) = ' (A
I
[ 1
I
= j
I
) = a +/j
I
Lucrand cu repartitia conditionata, apare modelul liniar
:dimensional
A
I
= (a +/j
I
) +7
I
, i = 1, ..., :
9
unde 7
1
, ..., 7
n
sunt variabile aleatoare indep, de medie
zero. Aplicam metoda celor mai mici patrate:
oo (a, /) =
n
I=1
(r
I
a /j
I
)
2
Sistemul de ecuatii normale
JSS
Jo
=
JSS
Jb
= 0 se scrie sub
forma _
_
:a +/
n
I=1
j
I
=
n
I=1
r
I
a
n
I=1
j
I
+/
n
I=1
j
2
I
=
n
I=1
r
I
j
I
Determinantul matricii sistemului liniar este egal cu
zero doar in cazul degenerat (cand toti j
I
= j, \i), caz care
apare cu probabilitatea zero:
=
:
n
I=1
j
I
n
I=1
j
I
n
I=1
j
2
I
= :
n
I=1
j
2
I
(:j)
2
= :
n
I=1
(j
I
j)
2
0
Notatie:
:
2
r
=
1
:
n
I=1
(r
I
r)
2
:
2
=
1
:
n
I=1
(j
I
j)
2
:
r
=
1
:
n
I=1
(r
I
r) (j
I
j)
r =
:
r
:
r
:
Solutia unica a sistemului de ecuatii normale este
/ =
:
r
:
2
= r
:
r
:
a = r
/ j
Obtinem dreapta de regresie de selectie
r r = r
:
r
:
(j j)
10
Estimatorii obtinuti prin metoda celor mai mici pa-
trate,
/ (A
1
, ..., A
n
) =
1
n
I=1
(j
I
j)
2
n
I=1
_
A
I
A
_
(j
I
j) =
1
n
I=1
(j
I
j)
2
n
I=1
A
I
(j
I
j)
a (A
1
, ..., A
n
) = A
/ (A
1
, ..., A
n
) j
sunt nedeplasati (medierea conditionata):
'
_
/ [ 1
1
= j
1
, ..., 1
n
= j
n
_
= /
' (a [ 1
1
= j
1
, ..., 1
n
= j
n
) = a
Putem calcula valoarea minima a sumei abaterilor pa-
tratice,
oo
min
=
n
I=1
_
r
I
a
/j
I
_
2
no|o|
= oo
:tsIJ
(b) Cu specicarea repartitiei normale a lui (A, 1 )
Fie vectorul aleator (A, 1 )
0
pentru care facem ipoteza
ca urmaza o repartitie normala bidimensionala (2; , ) .
Utilizand proprietatile modelului, avem
1
2
(A
I
[ 1
1
= j
1
, ..., 1
n
= j
n
) = o
2
r
_
1 j
2
_
, i = 1, ..., :
Proprietatea 3.
Variabila aleatoare
oo
:tsIJ
=
n
I=1
_
A
I
a
/j
I
_
2
are proprietatea
1
o
2
r
(1 j
2
)
oo
:tsIJ
~
2
(: 2)
Rezulta din Proprietatea 8 de la "Estimarea para-
metrilor" (metoda celor mai mici patrate).
11
In continuare facem o analiza a surselor de variabili-
tate ale datelor, utilizand modelul regresiei liniare
(ANOVA pentru dreapta de regresie)
In acest moment dispunem de urmatoarele valori:
j
I
, i = 1, .., :, valorile observate ale covariatei (ale vari-
abilei "cauza")
r
I
, i = 1, ..., :, valorile observate ale variablei raspuns
("efect")
r
I
= a +
/ j
I
, i = 1, ..., :, predictorii dati de modelul regre-
siei liniare (tted values)
r
I
r
I
, i = 1, ..., :, reziduuri
Introducem urmatoarele "sume de abateri patratice"
(sum of squares):
oo
:tsIJ
=
n
I=1
(r
I
r
I
)
2
=
n
I=1
_
r
I
a
/j
I
_
2
oo
:t:tsIt
=
n
I=1
( r
I
r)
2
oo
|o|ol
=
n
I=1
(r
I
r)
2
(vom utiliza aceste notatii atat pentru valorile numerice
calculate ale oourilor, cat si pentru variabilele aleatoare
corespunzatoare)
Proprietatea 4 (ecuatia ANOVA)
oo
|o|ol
= oo
:t:tsIt
+oo
:tsIJ
Demonstratie:
oo
|o|ol
=
n
I=1
(r
I
r
I
+ r
I
r)
2
=
= oo
:tsIJ
+oo
:t:tsIt
+ 2
n
I=1
(r
I
r
I
) ( r
I
r)
12
n
I=1
(r
I
r
I
) ( r
I
r) =
n
I=1
_
r
I
a
/j
I
__
a +
/j
I
r
_
=
=
n
I=1
_
r
I
r +
/j
/j
I
__
r
/j +
/j
I
r
_
=
=
/
n
I=1
_
(r
I
r)
/ (j
I
j)
_
(j
I
j) =
=
/
_
::
r

:
r
:
2
::
2
_
= 0
Cunoastem repartitia variabilei aleatoare

1
c
2
x
(1
2
)
oo
:tsIJ
(proprietatea 3).
Ne propunem sa stabilimrepartitiile variabilelor aleatoare
1
o
2
r
(1 j
2
)
oo
:t:tsIt
si
1
o
2
r
(1 j
2
)
oo
|o|ol
,
in situatia in care am avea
/ = 0
13
AUXILIAR: TEOREMA LUI COCHRAN
Propozitie (rezultat algebric, pentru variabile scalare)
Fie vectorul y = (j
1
, ..., j
)
0
1
. Presupunem ca suma de
patrate
I=1
j
2
I
se descompune in suma a : forme patratice
o,o=1
a
oo
j
o
j
o
, , = 1, ...:,
I=1
j
2
I
=
n
=1
,
unde, pentru orice , = 1, ..., :,
=
_
_
_a
oo
_
_
_
o,o=1,...,
este matrice simetrica, de rang r
.
O conditie necesara si sucienta ca sa existe o trans-
formare ortogonala
z = 1y
asa incat
=
:1+...+:j
|=:1+...+:j1+1
.
2
|
, , = 1, ...:
este ca
r
1
+... +r
n
=
Demonstratie:
" == "
Presupunem ca exista transformarea . = 1j, 1
0
1 = I, cu
proprietatea din enunt. Transformarea
(j
1
, ..., j
) (.
1
, ..., .
:1+...+:m
)
trebuie sa e nesingulara. Rezulta
r
1
+... +r
n
_
14
Scriem matriceal relatia de descompunere din ipoteza
y
0
y =
n
=1
y
0
y
Rezulta
n
=1
= I
ra:q
_
_
n
=1
_
_
=
Dar
ra:q
_
_
n
=1
_
_
_
n
=1
ra:q (
) =
n
=1
r
Deci
_ r
1
+... +r
n
" == "
Vom construi matricea 1 intr-o forma partitionata,
1 =
_
_
_
_
_
_
_
_
1
1
.....
:
:
.....
1
n
_
_
_
_
_
_
_
_
Pentru i = 1 :
1
este dimensionala, simetrica, de rang r
1
. Rezulta
ca exista o matrice nesingulara 1
0
asa incat
1
0
1
1
0
0
=
_
_
I
j
0 0
0 I
:1j
0
0 0 0
_
_
unde este numarul de valori proprii pozitive ale lui
1
si
(r
1
) este numarul de valori proprii negative ale lui
1
.
Notam
1
0
= 1
1
0
1 = |d
oo
|
15
si avem
1
= 1
0
_
_
I
j
0 0
0 I
:1j
0
0 0 0
_
_
1
Retinem
/
(1)
oo
= d
oo
, c = 1, ..., r
1
; , = 1, ...,
1
1
=
_
_
_/
(1)
oo
_
_
_
o=1,...,:1; o=1,...,
Consideram transformarea liniara denita de aceasta
matrice,
.
o
=

o=1
/
(1)
oo
j
o
, c = 1, ..., r
1
z
(1)
= (.
1
, ..., .
:1
)
0
= 1
1
y
Atunci
1
= y
0
1
y = y
0
1
0
_
_
I
j
0 0
0 I
:1j
0
0 0 0
_
_
1y =
= .
2
1
+... +.
2
j
.
2
j+1
... .
2
:1
1
=
:1
o=1
c
o
.
2
o
, c
o
1, 1.
Pentru i arbitrar:
In mod analog obtinem
.
o
=

o=1
/
(I)
oo
j
o
, c = r
1
+... +r
I1
+ 1, ..., r
1
+... +r
I
1
I
=
_
_
_/
(I)
oo
_
_
_
o=:1+...+:i1+1,...,:1+...+:i;
o=1,...,
I
=
:1+...+:i
o=:1+...+:i1+1
c
o
.
2
o
, c
o
1, 1.
Atunci
n
I=1
I
=

o=1
c
o
.
2
o
, c
o
1, 1.
16
Dar
n
I=1
I
= y
0
y 0 \y ,= 0
Deci

o=1
c
o
.
2
o
este pozitiv denita si deci c
o
= 1 \c = 1, ..., .
Am obtinut
I
=
:1+...+:i
o=:1+...+:i1+1
.
2
o
, i = 1, ..., :
Formam matricea 1 = |/
oo
| , de dimensiune , parti-
tionata in componentele 1
I
. Avem
.
o
=

o=1
/
oo
j
o
, c = 1, ...,
o=1
j
2
o
=

o=1
.
2
o
Ultima relatie este echivalenta cu
y
0
y =(1y)
0
(1y) = y
0
1
0
1y,
deci 1
0
1 = I, adica transformarea este ortogonala.
TEOREMA LUI COCHRAN

Fie 1
1
, ..., 1

repartizate (0, 1) . Notam Y = (1
1
, ..., 1
)
0
. Presupunem ca
Y
0
Y se descompune in suma a : forme patratice
Q
I
= Y
0
I
Y,i = 1, ..., :,
cu
I
=
_
_
_a
(I)
oo
_
_
_
o,o=1,...,
matrici simetrice, de rang r
I
, i = 1, ..., :,
asa incat
Y
0
Y =
n
I=1
Q
I
.
O conditie necesara si sucienta ca variabilele aleatoare
Q
I
sa e repartizate
2
(r
I
) , i = 1, ..., : si Q
I
sa e indepen-
denta de Q
pentru orice i ,= , este ca

r
1
+... +r
n
=
17
Demonstratie
" == "
Aceasta implicatie rezulta cu aceleasi argumente ca
cele utilizate in demonstrarea implicatiei similare din
rezultatul algebric.
" == "
Folosind rezultatul algebric rezulta ca exista o trans-
formare Z = 1Y, 1 = |/
oo
| , asa incat
Q
I
=
:1+...+:i
o=:1+...+:i1+1
7
2
o
, i = 1, ..., :
7
o
=

o=1
/
oo
1
o
, c = 1, ...,
Din proprietatile combinatiilor liniare de variabile in-
dependente, repartizate normal rezulta ca 7
o
este repar-
tizata (0, 1) pentru orice c = 1, ..., si 7
1
, ..., 7
sunt inde-
pendente. Atunci, din avem Q
I
~
2
(r
I
) , i = 1, ..., : si, din
asociativitatea independentei, Q
I
este independenta de Q
pentru orice i ,= ,.
Corolar 1
Fie 1
1
, ..., 1
|
1
, ..., 1
|
)
0
. O conditie nece-
sara si sucienta caY
0
Ysa e repartizata
2
este ca
2
= ,
caz in care numarul de grade de libertate este egal cu
ra:q().
Corolar 2.
Fie 1
1
, ..., 1
|
1
, ..., 1
|
)
0
. Presupunem ca
Y
0
Y =Q
1
+Q
2
, unde
Q
1
= Y
0
Y ~
2
(r)
Atunci Q
2
~
2
(/ r) .
Corolar 3.
Fie 1
1
, ..., 1
|
1
, ..., 1
|
)
0
. Fie Q, Q
1
, Q
2
forme
18
patratice in Y asa incat Q = Q
1
+ Q
2
, Q ~
2
(a) , Q
1
~
2
(/) .
Atunci Q
2
~
2
(a /) .
Corolar 4.
Fie 1
1
, ..., 1
|
1
, ..., 1
|
)
0
. Fie Y
0
1
Y ~
2
(a)
si Y
0
2
Y ~
2
(/) . O conditie necesara si sucienta ca cele
doua forme patratice sa e independente este ca
1
2
= 0.
============================================
Revenim la ANOVA pentru dreapta de regresie:
Proprietatea 5.
Daca / = 0, atunci
1
o
2
r
(1 j
2
)
oo
:t:tsIt
~
2
(1)
1
o
2
r
(1 j
2
)
oo
|o|ol
~
2
(: 1)
iar variabilele
1
c
2
x
(1
2
)
oo
:t:tsIt
si
1
c
2
x
(1
2
)
oo
:tsIJ
sunt indepen-
dente (in raport cu repartitia conditionata).
Demonstratie:
Daca / = 0, atunci repartitia conditionata a lui A
I
este
_
a, o
2
r
_
1 j
2
__
, \i.
(i) Ne ocupam intai de oo
:t:tsIt
oo
:t:tsIt
=
n
I=1
_
A
I
A
_
2
=
n
I=1
_
a +
/j
I
A
_
2
=
n
I=1
_
A
/j +
/j
I
A
_
2
=
=
_
/
_
2
n
I=1
(j
I
j)
2
=
1
n
I=1
(j
I
j)
2
_
n
I=1
(j
I
j) A
I
_
2
,
oo
:t:tsIt
=
1
n
I=1
(j
I
j)
2
(A
1
, ..., A
n
) 1
_
_
_
_
A
1
:
:
A
n
_
_
_
_
19
unde
1 = |(j
I
j) (j
j)|
I,=1,...,n
no|o|
= |/
I
|
Presupunem ca nu suntem in cazul degenerat si obser-
vam ca pentru 1 _ i < , _ : avem
j
j
j
I
j

_
_
_
_
/
1I
:
:
/
nI
_
_
_
_
_
_
_
_
/
1
:
:
/
n
_
_
_
_
= 0
Deci ra:q (1) = :(: 1) = 1. Prin calcul direct se verica
_
1
::
2
1
_
2
=
1
::
2
1
Cum
1
o
2
r
(1 j
2
)
oo
:t:tsIt
=
_
1
_
o
2
r
(1 j
2
)
A
_
0
1
::
2
1
_
1
_
o
2
r
(1 j
2
)
A
_
putem aplica Corolarul 1 si obtinem faptul ca
1
o
2
r
(1 j
2
)
oo
:t:tsIt
~
2
(1) .
(ii) Continuam cu variabila aleatoare oo
|o|ol
:
oo
|o|ol
=
n
I=1
_
A
I
A
_
2
Putem scrie
oo
|o|ol
=
n
I=1
_
A
I
A
_
A
I
=
1
:
2
(A
1
, ..., A
n
)
_
_
_
_
A
1
:
:
A
n
_
_
_
_
unde = |a
I
|
I,=1,...,n
, a
II
= :(: 1) , a
I
= : pentru i ,= ,.
Aplicam succesiv transformarile elementare pe coloane
( C
I
C
I
C
I+1
, i = 1, ..., : 1 ) si obtinem
1
:
2
=
_
_
_
_
_
_
_
_
0 0 ..... 0 1,:
1 1 ..... 0 1,:
0 1 ..... 0 1,:
..... ..... ..... ..... .....
0 0 ..... 1 1,:
0 0 ..... 1 1 1,:
_
_
_
_
_
_
_
_
20
Notam

C
1
, ...,

C
n
coloanele acestei matrice si observam ca
1
:

C
1
+
2
:

C
2
+..... +
: 1
:

C
n1
+

C
n
= 0
iar

C
1
, ...,

C
n
sunt vectori liniar independenti. Deci ra:q
_
1
n
2
_
=
: 1.
Rezulta ca
1
o
2
r
(1 j
2
)
oo
|o|ol
~
2
(: 1) .
(iii) Prin calcul direct se verica relatia
_
1
:
2
1
::
2
1
_
1
::
2
1 = 0
Cum avem si
1
o
2
r
(1 j
2
)
oo
:tsIJ
=
1
o
2
r
(1 j
2
)
(oo
|o|ol
oo
:t:tsIt
) ,
1
o
2
r
(1 j
2
)
oo
:t:tsIt
=
1
o
2
r
(1 j
2
)

1
:
2
(A
1
, ..., A
n
) 1
_
_
_
_
A
1
:
:
A
n
_
_
_
_
~
2
(1) ,
1
o
2
r
(1 j
2
)
oo
:tsIJ
=
1
o
2
r
(1 j
2
)
(A
1
, ..., A
n
)
_
1
:
2
1
::
2
1
_
_
_
_
_
A
1
:
:
A
n
_
_
_
_
~
2
(: 2) ,
putem aplica Corolar 4 si obtinem independenta vari-
abilelor
1
c
2
x
(1
2
)
oo
:t:tsIt
si
1
c
2
x
(1
2
)
oo
:tsIJ.
21
TABELUL ANOVA PENTRU DREAPTA DE
REGRESIE
Sursa de variabilitate oo Grade de libertate oo (mean oo)
abaterile predictorilor de la r oo
:t:tsIt
1 oo
:t:tsIt
= oo
:t:tsIt
reziduuri aleatoare oo
:tsIJ
: 2 oo
:tsIJ
=
1
n2
oo
:tsIJ
abaterile observatiilor de la r oo
|o|ol
: 1
FUNCTII IN 1
can.a c (j
1
, ..., j
n
)
c)cct c (r
1
, ..., r
n
)
:odc| |:(c)cct ~ can.a)
Functia |: returneaza
coecients
_
a,
/
_
summary: statistica descriptiva pentru reziduuri
r
I
r
I
, i = 1, ..., :
a:oa(model)
Functia a:oa returneaza tabelul ANOVA si teste pen-
tru ipoteza / = 0 despre care discutam in ultima parte a
cursului.
22
APLICATIE
longley {datasets} R Documentation
Longleys Economic Regression Data
Description
A macroeconomic data set which provides a well-known
example for a highly collinear regression.
Usage
longley
Format
A data frame with 7 economical variables, observed
yearly from 1947 to 1962 (n=16).
GNP.deator: GNP implicit price deator (1954=100)
GNP: Gross National Product.
Unemployed: number of unemployed.
Armed.Forces: number of people in the armed forces.
Population: noninstitutionalized population >= 14
years of age.
Year: the year (time).
Employed: number of people employed.
The regression lm(Employed ~.) is known to be highly
collinear.
Alegem ca variabila raspuns Employed, cu covariata
Population
> X <- longley[, "Employed"]
> Y <- longley[,"Population"]
> model1<-lm(X~Y2)
> model1
Call:
lm(formula = X ~Y)
Coecients:
(Intercept)...........Y
8.3807 .........0.4849
23
> summary(model1)
Call:
lm(formula = X ~Y2)
Residuals:
Min........ .......1Q.......... Median....... 3Q .............Max
-1.4362 ...-0.9740 .........0.2021...... 0.5531 ......1.9048
Coecients:
....................Estimate .....Std. Error...... t value.......Pr(>[t[)
(Intercept) ...8.3807 .......4.4224 ..........1.895 ........0.079 .
Y................ 0.4849 ........0.0376 ..........12.896 .....3.69e-09
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-Squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF,
p-value: 3.693e-09
p-value < 0.05, deci modelul regresiei liniare este corect
> anova(model1)
Analysis of Variance Table
Response: X
...................Df...... Sum Sq........Mean Sq .......F value........Pr(>F)
Y........ ........1....... 170.643 ......170.643 .......166.30 ......3.693e-09
Residuals ...14 ......14.366 .........1.026
24
TESTE PARAMETRICE
Notiuni generale
Modelul: 1
0
= 1
0
A
1
cu parametrul 0 _ 1
|
,/ _ 1
Consideram familia
1
0
, 0
Pentru
0
, o ipoteza statistica este o subfamilie
H : 1
0
, 0
0
no|o|
= 0
0
Ipoteza alternativa lui H este subfamilia complemen-

tara
H
.
: 1
0
, 0
0
no|o|
= 0
0
Ipoteza H se numeste simpla daca

0
se reduce la un
singur punct,
0
= 0
0
.
Ipoteza H se numeste compusa daca card (
0
) 1.
Observatiile: A
1
, ..., A
n
, var. al. indep. id. rep (1
0
)
_
o
n
, o
n
,
n
I=1
1
0
A
1
I
_
Denitie:
O multime masurabila 1 o
n
se numeste regiune critica
pentru ipoteza H : 0
0
daca i se ataseaza urmatoarea
regula de decizie:
(A
1
, ..., A
n
) (.) = (r
1
, ..., r
n
) 1 == respingem ipoteza H :
0
0
(A
1
, ..., A
n
) (.) = (r
1
, ..., r
n
) 1
c
== acceptam ipoteza H :
0
0
A construi un test pentru ipoteza H : 0

0
cu alter-
nativa H
.
: 0
0
revine la a deni o regiune critica 1
pentru H.
1
Fie ipotezele H,H
.
si un test bazat pe o regiune critica
1.Posibilele erori de decizie sunt:
eroare de I tip: respingerea lui H cand H este ade-
varata
eroare de II tip: acceptarea lui H cand H este falsa.
Probabilitatile de eroare sunt
c(0) = 1
0
((A
1
, ..., A
n
) 1) pentru 0
0
, (0) = 1
0
_
(A
1
, ..., A
n
) 1
c
_
pentru 0
0
Functia caracteristica operatoare a testului este
OC (0) = 1
0
_
(A
1
, ..., A
n
) 1
c
_
, 0
Puterea testului
(0) = 1 OC (0) , 0
2
TESTE PENTRU IPOTEZE SIMPLE CU
ALTERNATIVE SIMPLE
Pentru doua valori 0
0
, 0
1
,0
0
,= 0
1
restrangem familia de
repartitii la 1
0
, 0 0
0
, 0
1
si formulam ipotezele
H : 0 = 0
0
, H
.
: 0 = 0
1
Pentru un test bazat pe regiunea critica 1 avem

c = 1
00
((A
1
, ..., A
n
) 1)
, = 1
01
_
(A
1
, ..., A
n
) 1
c
_
Observatie:
Daca 1 = o
n
, avem c = 1 si , = 0
Daca 1 = , avem c = 0 si , = 1.
Strategia Neyman - Pearson de constructie a lui 1 :
probabilitatea erorii de I tip se tine sub control;
se cauta 1
care minimizeaza probabilitatea erorii de

II tip.
Denitii:
Fie ipoteza simpla H : 0 = 0
0
cu alternativa simpla H
.
:
0 = 0
1
. Fie c (0, 1) xat (va numit "prag de semni-
catie").
Familia regiunilor critice pentru H pentru care proba-
bilitatea erorii de I tip este egala cu c este
(
o
= 1 o
n
[ 1
00
((A
1
, ..., A
n
) 1) = c
Multimea 1
(
o
se numeste cea mai buna regiune crit-
ica pentru H, la pragul de semnicatie c, daca pentru orice
1 (
o
are loc relatia
1
01
_
(A
1
, ..., A
n
) (1
)
c
_
_ 1
01
_
(A
1
, ..., A
n
) 1
c
_
sau relatia echivalenta
1
01
((A
1
, ..., A
n
) 1
) _ 1
01
((A
1
, ..., A
n
) 1)
3
In continuare vom construi o asemenea regiune critica.
Fie modelul 1
0
= 1
0
A
1
,
1
0
=
_
r
j (r; 0) c
frg
, in caz discret
sau
) (r; 0) |, in caz continuu
Repartitia vectorului observatiilor (A
1
, ..., A
n
) este e disc-
reta, data prin masele de probabilitate
1
0
(A
1
= r
1
, ..., A
n
= r
n
) =
n
I=1
j (r
I
, 0) ,
e continua, data prin densitatea de repartite
) (r
1
, ..., r
n
; 0) =
n
I=1
) (r
I
, 0) .
Denitie:
Fie modelul 1
0
= 1
0
A
1
,0 0
0
, 0
1
, ipotezele simple H :
0 = 0
0
, H
.
: 0 = 0
1
si datele statistice (r
1
, ..., r
n
) = (A
1
, ..., A
n
) (.) .
Numim raport al probabilitatilor functia
n
n
(r
1
, ..., r
n
) =
_
_
n
I=1
(ri,01)
(ri,00)
, in caz discret
sau
n
I=1
}(ri,01)
}(ri,00)
, in caz continuu
Teorema Neyman - Pearson
Fie modelul 1
0
= ) (r; 0) |, 0 _ 1
|
, / _ 1 si e ipoteza
simpla H : 0 = 0
0
cu alternativa simpla H
.
: 0 = 0
1
, 0
0
,= 0
1
.
Fie A
1
, ...., A
n
observatii independente, identic repartizate
(1
0
) si e n
n
(r
1
, ..., r
n
) raportul probabilitatilor corespunza-
tor. Fie c (0, 1) arbitrar xat si e /
1o
cuantila de rang
(1 c) a repartitiei lui n
n
(A
1
, ..., A
n
) cand 0 = 0
0
, adica
1
00
(n
n
(A
1
, ..., A
n
) < /
1o
) = 1 c.
Atunci multimea masurabila
1 = (r
1
, ..., r
n
) [ n
n
(r
1
, ..., r
n
) _ /
1o
4
este cea mai buna regiune critica pentru H la pragul de
semnicatie c (adica

1 = 1
)
Demonstratie:
Avem

1 (
o
pentru ca
1
00
_
(A
1
, ..., A
n
)

1
_
= 1
00
(n
n
(A
1
, ..., A
n
) _ /
1o
) = c
Fie 1 (
o
. Evaluam urmatoarea diferenta
1
01
_
(A
1
, ..., A
n
)

1
_
1
01
((A
1
, ..., A
n
) 1) =
1
01
_
(A
1
, ..., A
n
)

1 1
c
_
1
01
_
(A
1
, ..., A
n
)
_
1
_
c
1
_
=
_
e
1\1
C
n
I=1
) (r
I
, 0
1
) dr
1
...dr
n

_
(
e
1)
C
\1
n
I=1
) (r
I
, 0
1
) dr
1
...dr
n
=
_
e
1\1
C
n
n
(r
1
, ..., r
n
)
n
I=1
) (r
I
, 0
0
) dr
1
...dr
n
_
(
e
1)
C
\1
n
n
(r
1
, ..., r
n
)
n
I=1
) (r
I
, 0
0
) dr
1
...dr
n
Tinand cont de constructia lui

1 obtinem
1
01
_
(A
1
, ..., A
n
)

1
_
1
01
((A
1
, ..., A
n
) 1) _
_
e
1\1
C
/
1o
n
I=1
) (r
I
, 0
0
) dr
1
...dr
n

_
(
e
1)
C
\1
/
1o
n
I=1
) (r
I
, 0
0
) dr
1
...dr
n
=
/
1o
_
1
00
_
(A
1
, ..., A
n
)

1 1
c
_
1
00
_
(A
1
, ..., A
n
)
_
1
_
c
1
__
=
/
1o
_
1
00
_
(A
1
, ..., A
n
)

1
_
1
00
((A
1
, ..., A
n
) 1)
_
= /
1o
(c c) = 0
Deci
1
01
_
(A
1
, ..., A
n
)

1
_
_ 1
01
((A
1
, ..., A
n
) 1)
adica

1 = 1
In concluzie, FORMA celei mai bune regiuni critice

este
1
= (r
1
, ..., r
n
) [ n
n
(r
1
, ..., r
n
) _ /
= (r
1
, ..., r
n
) [ lnn
n
(r
1
, ..., r
n
) _ c
5
iar constanta / (respectiv c) se determina din conditia ca
pragul de semnicatie sa e c,
1
00
(n
n
(A
1
, ..., A
n
) < /) = 1 c
O versiune a teoremei Neyman - Pearson se obtine
imediat pentru cazul discret,
1
0
=

r2.
j (r; 0) c
frg
.
TESTUL RAPORTULUI PROBABILITATILOR
PENTRU H : 0 = 0
0
, H
.
: 0 = 0
1
(a) Constructia lui 1
se calculeaza n
n
(r
1
, ..., r
n
)
se determina / = /
1o
(respectiv c = c
1o
) asa incat
1
00
(n
n
(A
1
, ..., A
n
) < /
1o
) = 1 c
(b) Aplicarea testului
Se observa (r
1
, ..., r
n
)
Se calculeaza valoarea numerica a lui n
n
(r
1
, ..., r
n
)
Regula de decizie:
n
n
(r
1
, ..., r
n
) _ /
1o
== se respinge H : 0 = 0
0
n
n
(r
1
, ..., r
n
) < /
1o
== se accepta H : 0 = 0
0
Valorile probabilitatilor de eroare:

Prin constructie,
1
00
((A
1
, ..., A
n
) 1
) = c
In virtutea teoremei Neyman - Pearson,
, = ,
min
= 1
01
(n
n
(r
1
, ..., r
n
) < /
1o
)
6
APLICATIA 1
T.R.P. pentru modelul 1(1; 0) , 0 (0, 1)
1
0
=
1
r=0
0
r
(1 0)
1r
c
frg
, 0 (0, 1)
Consideram 0 < 0
0
< 0
1
< 1 si ipotezele H : 0 = 0
0
, H
.
:
0 = 0
1
.
n
n
(r
1
, ..., r
n
) =
n
I=1
0
ri
1
(1 0
1
)
1ri
0
ri
0
(1 0
0
)
1ri
=
_
0
1
0
0
_
P
n
i=1
ri
_
1 0
1
1 0
0
_
n
P
n
i=1
ri
lnn
n
(r
1
, ..., r
n
) =
n
I=1
r
I
ln
0
1
(1 0
0
)
0
0
(1 0
1
)
+:ln
1 0
1
1 0
0
Pentru c (0, 1) arbitar xat, forma celei mai bune
regiuni critice pentru H la pragul de semnicatie c este
1
= lnn
n
(r
1
, ..., r
n
) _ c =
_
n
I=1
r
I
_ C
_
unde
C =
1
ln
01(100)
00(101)
_
c :ln
1 0
1
1 0
0
_
Determinam constanta C asa incat 1
(
o
.
Pentru 0 = 0
0
, repartitia variabilei aleatoare

n
I=1
A
I
este
binomiala, 1(:; 0
0
) .
Fie C
1o
cuantila de rang (1 c) a acestei repartitii,
n
=0
<c1
C
n
0
0
(1 0
0
)
n
_ 1 c
n
=0
c1
C
n
0
0
(1 0
0
)
n
_ 1 c
Rezulta
1
=
_
(r
1
, ..., r
n
) [
n
I=1
r
I
_ C
1o
_
7
si avem
1
00
((A
1
, ..., A
n
) 1
) = 1
00
_
n
I=1
A
I
_ C
1o
_
= 1 1
00
_
n
I=1
A
I
< C
1o
_
_ c
1
00
_
n
I=1
A
I
C
1o
_
= 1 1
00
_
n
I=1
A
I
_ C
1o
_
_ c
,
min
= 1
01
_
(A
1
, ..., A
n
) (1
)
c
_
=
n
=0
<c1
C
n
0
1
(1 0
1
)
n
APLICATIA 2
T.R.P. pentru modelul (0, 1) , 0 1
) (r; 0) =
1
_
2
exp
_
1
2
(r 0)
2
_
, r 1; 0 1
Consideram 0
0
< 0
1
si ipotezele H : 0 = 0
0
, H
.
: 0 = 0
1
.
n
n
(r
1
, ..., r
n
) =
n
I=1
1
p
2t
exp
_
1
2
(r
I
0
1
)
2
_
1
p
2t
exp
_
1
2
(r
I
0
0
)
2
_
= exp
_
(0
1
0
0
)
n
I=1
r
I

:
2
_
0
2
1
0
2
0
_
_
lnn
n
(r
1
, ..., r
n
) = (0
1
0
0
)
n
I=1
r
I

:
2
_
0
2
1
0
2
0
_
Pentru c (0, 1) arbitar xat, forma celei mai bune
regiuni critice pentru H la pragul de semnicatie c este
1
= lnn
n
(r
1
, ..., r
n
) _ c =
_
n
I=1
r
I
_ C
_
unde
C =
1
0
1
0
0
_
c +
:
2
_
0
2
1
0
2
0
_
_
Determinam constanta C asa incat 1
(
o
.
8
Pentru 0 = 0
0
, repartitia variabilei aleatoare

n
I=1
A
I
este
normala, (:0
0
, :) . Rezulta
1
_
:
_
n
I=1
A
I
:0
0
_
~ (0, 1)
Pentru determinarea constantei C impunem conditia
1
00
_
1
_
:
_
n
I=1
A
I
:0
0
_
<
1
_
:
(C :0
0
)
_
= 1 c
Fie .
1o
cuantila de rang (1 c) a repartitiei (0, 1) . Rezulta
1
_
:
(C :0
0
) = .
1o
,
C =
_
:.
1o
+:0
0
Cea mai buna regiune critica la pragul de semnicatie
c este
1
=
_
n
I=1
r
I
_
_
:.
1o
+:0
0
_
=
_
r _ 0
0
+
1
_
:
.
1o
_
si probabilitatile de eroare sunt
1
00
((A
1
, ..., A
n
) 1
) = 1
00
_
n
I=1
A
I
_
_
:.
1o
+:0
0
_
= c
,
min
= 1
01
_
n
I=1
A
I
<
_
:.
1o
+:0
0
_
=
= 1
01
_
n
I=1
A
I
:0
1
_
:
<
_
:.
1o
+:0
0
:0
1
_
:
_
=
= 1
01
_
n
I=1
A
I
:0
1
_
:
< .
1o

_
:(0
1
0
0
)
_
= 1
(0,1)
_
.
1o

_
:(0
1
0
0
)
_
9
TESTE PENTRU IPOTEZE SIMPLE CU
ALTERNATIVE COMPUSE
Fie modelul 1
0
= 1
0
A
1
, 0 _ 1
|
, / _ 1 si e 0
0
=
_
0
0
1
, ..., 0
0
|
_
0
.
Ne propunem sa testam ipoteza simpla
H : 0 = 0
0
cu alternativa compusa
H
.
: 0 0
0
= 0 ,= 0
0
.
Fie sirul observatiilor independente, identic reparti-
zate (A
1
, A
2
.....) si, pentru primele : observatii, notam cu
1(r
1
, ..., r
n
; 0) functia de verosimilitate.
1(r
1
, ..., r
n
; 0) =
_
_
n
I=1
j (r
I
; 0) , in caz discret
n
I=1
) (r
I
; 0) , in caz continuu
In conditii de regularitate pentru1 ca functie in0, scriem
sistemul de verosimilitate maxima
0 ln1
00
I
= 0, i = 1, ..., /
Notam cu

0
\ 1
(A
1
, ..., A
n
) estimatorul de verosimilitate
maxima, determinat pentru selectii :dimensionale.
Numim raport al verosimilitatilor functia
(r
1
, ..., r
n
) =
1(r
1
, ..., r
n
; 0
0
)
1
_
r
1
, ..., r
n
;
0
\ 1
(r
1
, ..., r
n
)
_
TEOREMA (cazul / = 1)
Fie A
n
, : _ 1 un sir de variabile aleatoare independente,
identic repartizate 1
0
= 1
0
A
1
, 0 _ 1 si e 0
0
valoarea
adevarata a parametrului. Presupunem vericate urma-
toarele conditii:
1. este un interval deschis al lui 1;
10
2. 1
0
admite densitatea de repartitie ) (r; 0) si r [ ) (r; 0) 0
este independenta de 0;
3. Exista o vecinatate \ a lui 0
0
asa incat pentru orice
0 \ avem:
functia ) (r; 0) este de trei ori derivabila in raport cu 0
oricare ar r si derivatele sunt integrabile;
exista functiile G
1
, G
2
si H (, 0) integrabile pe 1 asa incat
0) (r; 0)
00
< G
1
(r)
0
2
) (r; 0)
00
2
< G
2
(r)
0
3
) (r; 0)
00
3
< H (r, 0)
_
1
H (r, 0) ) (r; 0) dr < 1
unde 1 este o constanta independenta de 0;
exista "informatia Fisher"
'
0
_
0) (A; 0)
00
_
2
no|o|
= i
1
(0)
0 < i
1
(0) <
Atunci, cu o probabilitate tinzand la 1, ecuatia de verosimil-
itate maxima
0 ln1
00
= 0
are o solutie

0
n
(r
1
, ..., r
n
) asa incat au loc urmatoarele con-
vergente pentru : :
0
n
(A
1
, ..., A
n
)
1
0
0
0
_
:
_
0
n
(A
1
, ..., A
n
) 0
0
_
:to:|I|It
1 ~
_
0;
1
i
1
(0
0
)
_
2 ln (A
1
, ..., A
n
)
:to:|I|It
7 ~
2
(1)
(rezultatul va reluat la cursul de "Capitole de sta-
tistica matematica" de la Master)
11
Pentru demonstratie:
Craiu Virgil, Paunescu Virgil, "Elemente de statistica
matematica cu aplicatii", Editura Mondo - Ec, 1998
EXTENSIA TEOREMEI in cazul / 1 (parametrul 0
este un vector /dimensional) ofera pentru comporta-
mentul asimptotic al raportului de verosimilitati urma-
toarea concluzie:
2 ln (A
1
, ..., A
n
)
:to:|I|It
7 ~
2
(/)
TESTUL RAPORTULUI DE VEROSIMILITATI
PENTRU H : 0 = 0
0
, H
.
: 0 ,= 0
9
Algoritm:
se observa (r
1
, ..., r
n
) ;
se calculeaza valorile

0
\ 1
(r
1
, ..., r
n
) si (r
1
, ..., r
n
) ;
pentru c (0, 1) arbitrar xat, e /
|;1o
cuantila de rang
(1 c)a repartitiei
2
cu / grade de libertate. Daca
2 ln (r
1
, ..., r
n
) _ /
|;1o
decidem sa respingem ipoteza H : 0 = 0
0
.
Observatii:
Asimptotic, probabilitatea erorii de I tip (respingerea
ipotezei H cand H este adevarata) este egala cu c.
Acesta este un test general, caci repartitia limita a lui
2 ln (A
1
, ..., A
n
) este independenta de model.
12
APLICATIE
T.R.V pentru modelul
_
j, o
2
_
, 0 =
_
j, o
2
_
1 (0, )
H :
_
0 =
_
j
0
, o
2
0
__
, H
.
:
_
0 ,=
_
j
0
, o
2
0
__
Functia de verosimilitate este
1
_
r
1
, ..., r
n
; j, o
2
_
=
_
2o
2
_
n/2
exp
_
1
2o
2
n
I=1
(r
I
j)
2
_
Reamintim ca E.V.M. pentru parametrii repartitiei
normale sunt
j
\ 1
(A
1
, ..., A
n
) = A =
1
:
n
I=1
A
I
o
2
\ 1
(A
1
, ..., A
n
) =
1
:
n
I=1
_
A
I
A
_
2
Raportul de verosimilitati este
(r
1
, ..., r
n
) =
1
_
r
1
, ..., r
n
; j
0
, o
2
0
_
1
_
r
1
, ..., r
n
; j
\ 1
,
o
2
\ 1
_ =
=
_
2o
2
0
_
n/2
exp
_
1
2c
2
0
n
I=1
(r
I
j
0
)
2
_
_
2
o
2
\ 1
_
n/2
exp
_
1
2
c
c
2
V M
n
I=1
(r
I
r)
2
_ =
=
_
o
2
0
o
2
\ 1
_
n/2
exp
_
1
2o
2
0
n
I=1
(r
I
j
0
)
2
+
:
2
_
2 ln (r
1
, ..., r
n
)
= :ln
_
o
2
0
o
2
\ 1
_
+
n
I=1
_
r
I
j
0
o
0
_
2
:
Repartitia limita a lui 2 ln (A
1
, ..., A
n
) pentru : este
repartitia
2
(2) .
Pentru c (0, 1) arbitrar xat, e /
2;1o
cuantila de rang
(1 c) a repartitiei
2
cu 2 grade de libertate. Daca
2 ln (r
1
, ..., r
n
) _ /
2;1o
decidem sa respingem ipoteza H :
_
0 =
_
j
0
, o
2
0
__
.
13
INTERVALE DE INCREDERE SI TESTE
PENTRU PARAMETRII REPARTITIEI NORMALE
_
j, o
2
_
Auxiliar: Repartitii de lucru deduse din repartitia
normala ("CHI patrat", "Student", "Fisher")
(a) Repartitia "CHI patrat" cu r grade de libertate
_
2
(r)
_
a fost introdusa la capitolul "Estimarea parametrilor"
Denitie
Repartitia Ga::a
_
:
2
, 2
_
, cu r
se numeste repartitia
CHI Patrat cu r grade de libertate, avand densitatea de
repartitie
) (j) =
1
2
:/2
_
:
2
_j
r
2
1
exp
_
j
2
_
, j _ 0
' (1 ) = r
1
2
(1 ) = 2r
Proprietate
Fie A
1
, ..., A
:
repartizate Normal (0, 1) . Atunci
1 =
:
I=1
A
2
I
este repartizata
2
(r) .
(b) Repartitia Student cu r grade de libertate (t (r))
Denitie:
Spunem ca o variabila aleatoare 7 este repartizata t (r)
daca are densitatea de repartie
) (.) =

_
:+1
2
_
_
r
_
:
2
_
_
1 +
.
2
r
_
(:+1)/2
, . 1
1
Observatii
Pentru r = 1, repartitia t (1) se numeste "repartitia Cauchy"
si pentru aceasta nu exista ' (A) .
' ([7[) =
2
1
_
0
.
1 +.
2
d. =
1
lim
b!1
ln
_
1 +/
2
_
=
Pentru r = 2, repartitia t (2) are ' (7) = 0, iar '
_
7
2
_
nu
exista.
Pentru r 2, repartitia t (r) are
' (7) = 0
1
2
(7) =
r
r 2
Proprietate
Fie A si 1 variabile aleatoare independente, cu A ~
(0, 1) si 1 ~
2
(r) . Atunci variabila aleatoare
7 =
A
_
1
:
1
are repartitia t (r) .
Demonstratie:
)
(,Y )
(r, j) = )
(r) )
Y
(j) =
=
1
2
(:+1)/2
_
_
:
2
_j
r
2
1
exp
_
r
2
2

j
2
_
, r 1, j _ 0
Consideram schimbarea de variabila
_
. =
r
_
1
r
j = j
, . 1, j _ 0
respectiv transformarea inversa
_
r = .
_
1
:
j
j = j
2
de Jacobian
_
j,
_
r. Atunci densitatea de repartite a vec-
torului aleator (7, 1 ) este
)
(2,Y )
(., j) =
1
2
(:+1)/2
_
_
:
2
_j
r
2
1
exp
_
.
2
j
2r

j
2
_
_
j
_
r
, . 1, j _ 0
Densitatea marginala a lui 7 este
)
2
(.) =
1
_
0
)
(2,Y )
(., j) dj =
=
1
_
r
_
:
2
_
1
2
(:+1)/2
1
_
0
j
r+1
2
1
exp
_
j
2
_
1 +
.
2
r
__
dj
Cu schimbarea de variabila
t =
j
2
_
1 +
.
2
r
_
obtinem
)
2
(.) =
1
_
r
_
:
2
_
_
r + 1
2
__
1 +
.
2
r
_
(:+1)/2
, . 1
(c) Repartitia Fisher cu(r

1
, r
2
) grade de libertate (T (r
1
, r
2
))
Denitie:
Spunemca o variabila aleatoare 7 este repartizata T (r
1
, r
2
)
daca are densitatea de repartie
) (.) =
_
r
1
r
2
_
:1/2
_
:1+:2
2
_
_
:1
2
_
_
:2
2
_ .
r
1
2
1
_
1 +
r
1
r
2
.
_
(:1+:2)/2
, . _ 0
Proprietate
Fie A si 1 variabile aleatoare independente, cu A ~
2
(r
1
)
si 1 ~
2
(r
2
) . Atunci variabila aleatoare
7 =
A
r
1
_
1
r
2
are repartita T (r
1
, r
2
) .
3
Demonstratie
)
(,Y )
(r, j) = )
(r) )
Y
(j) =
=
1
2
(:1+:2)/2

_
:1
2
_
_
:2
2
_ r
r
1
2
1
j
r
2
2
1
exp
_
r
2

j
2
_
, r, j _ 0
Consideram schimbarea de variabila
_
. =
:2
:1

r
j = j
, . _ 0, j _ 0
respectiv transformarea inversa
_
r =
:1
:2
j.
j = j
de Jacobian r
1
j,r
2
. Atunci densitatea de repartite a vec-
torului aleator (7, 1 ) este
)
(2,Y )
(., j) =
1
2
(:1+:2)/2

_
:1
2
_
_
:2
2
_
_
r
1
r
2
_
:1/2
.
r
1
2
1
j
r
1
+r
2
2
1
exp
_
j
2
_
1 +
r
1
r
2
.
__
,
. _ 0, j _ 0
Densitatea marginala a lui 7 este
)
2
(.) =
1
_
0
)
(2,Y )
(., j) dj =
=
_
r
1
r
2
_
:1/2
1
_
:1
2
_
_
:2
2
_.
r
1
2
1
1
2
(:1+:2)/2
1
_
0
j
r
1
+r
2
2
1
exp
_
j
2
_
1 +
r
1
r
2
.
__
dj
Cu schimbarea de variabila
t =
j
2
_
1 +
r
1
r
2
.
_
obtinem
)
2
(.) =
_
r
1
r
2
_
:1/2
_
:1+:2
2
_
_
:1
2
_
_
:2
2
_ .
r
1
2
1
_
1 +
r
1
r
2
.
_
(:1+:2)/2
, . _ 0
4
INTERVALE DE ESTIMARE (DE INCREDERE)
Denitie
Fie modelul 1
0
= 1
0
A
1
cu0 _ 1 si e A
1
, ..., A
n
variabile
aleatore independente, identic repartizate (1
0
) . Fie c (0, 1)
si functiile
o
, 1
o
: o
n
1 cu proprietatile:
i)
o
, 1
o
sunt masurabile si
o
(r
1
, ..., r
n
) _ 1
o
(r
1
, ..., r
n
) \(r
1
, ..., r
n
) o
n
,
ii) are loc relatia
1
0
(
o
(A
1
, ..., A
n
) _ 0 _ 1
o
(A
1
, ..., A
n
)) = 1 c
Atunci, pentru datele statistice (r
1
, ..., r
n
) , intervalul
C
n;1o
(r
1
, ..., r
n
) = [
o
(r
1
, ..., r
n
) , 1
o
(r
1
, ..., r
n
)]
se numeste interval de estimare pentru 0, cu coecientul
de incredere (1 c) (sau interval de incredere pentru 0).
Propozitie
Fie modelul 1
0
= 1
0
A
1
cu 0 _ 1 si e A
1
, ..., A
n
vari-
abile aleatore independente, identic repartizate (1
0
) . Pre-
supunem ca exista o functie
q : o
n
1
cu urmatoarele proprietati:
q ((r
1
, ..., r
n
) , ) continua si strict monotona ca functie in
0, \(r
1
, ..., r
n
)
q (, 0) masurabila ca functie in (r
1
, ..., r
n
) , \0 si variabila
aleatoare q ((A
1
, ..., A
n
) , 0) are repartitia independenta de
0 (o notam G).
Atunci, pentru orice c (0, 1) arbitrar xat, existaC
n;1o
(r
1
, ..., r
n
)
interval de incredere pentru 0.
Demonstratie:
Fie c (0, 1) si 0 arbitrari, xati. Fie a (c) , / (c) doua
cuantile ale repartitiei G = 1
0
q
1
asa incat
1
0
(a (c) _ q ((A
1
, ..., A
n
) , 0) _ / (c)) = G(/) G(a) = 1 c
5
Rezolvand doua inegalitati in 0, putem scrie
. [ a (c) _ q ((A
1
, ..., A
n
) (.) , 0) _ / (c)
= . [
o
(A
1
, ..., A
n
) (.) _ 0 _ 1
o
(A
1
, ..., A
n
) (.)
Rezulta ca
C
n;1o
(r
1
, ..., r
n
) = [
o
(r
1
, ..., r
n
) , 1
o
(r
1
, ..., r
n
)]
este un interval de estimare pentru 0 cu coecient de in-
credere (1 c) .
Comentariu:
Cuantilele a (c) , / (c) nu sunt unic determinate prin con-
ditia G(/) G(a) = 1 c, deci nici intervalul de incredere nu
este unic. Este de interes sa construim cel mai scurt
interval de estimare cu coecient de incredere dat.
TESTE BAZATE PE INTERVALE DE INCREDERE
PENTRU IPOTEZA SIMPLA CU ALTERNATIVA
COMPUSA
H : 0 = 0
0
, H
.
: 0 ,= 0
0
Ne plasam in conditiile propozitiei anterioare, care

asigura existenta unui interval de incredere pentru 0.
Pornim de la relatia
1
00
(a (c) _ q ((A
1
, ..., A
n
) , 0
0
) _ / (c)) = 1 c
Alegem REGIUNEA DE ACCEPTARE a ipotezei H :
0 = 0
0
la pragul de semnicatie c
n;1o
(0
0
) = (r
1
, ..., r
n
) [ a _ q ((r
1
, ..., r
n
) , 0
0
) _ /
si REGIUNEA CRITICA pentru H : 0 = 0
0
la pragul de
semnicatie c
1 =
c
n;1o
(0
0
)
Probabilitatea erorii de I tip este egala cu c,
1
00
((A
1
, ..., A
n
) 1) = 1 (1 c) = c
6
Functia caracteristica operatoare a testului bazat pe
aceasta regiune critica este
OC (0) = 1
0
((A
1
, ..., A
n
)
n;1o
(0
0
))
APLICATIA 1
Interval de incredere si testul "." pentru media unei
repartii normale cu dispersie cunoascuta
Modelul: 1
A
1
=
_
j, o
2
_
, o
2
cunoscut, j 1
Observatii: A
1
, ..., A
n
v.i.i.r.
_
j, o
2
_
A ~
_
j,
o
2
:
_
_
:
_
A j
_
o
~ (0, 1)
Functia
q ((r
1
, ..., r
n
) ; j) =
_
:(r j)
o
indeplineste conditiile din constructiile anterioare.
Pentru c (0, 1) xat, e a, / doua cuantile ale repartitiei
(0, 1) asa incat
1
_
a _
_
:
_
A j
_
o
_ /
_
= 1 c
_
a _
_
:(r j)
o
_ /
_
=
_
r /
o
_
:
_ j _ r a
o
_
:
_
C
n;1o
(r
1
, ..., r
n
) =
_
r /
o
_
:
, r a
o
_
:
_
Lungimea acestui interval de incredere este
| =
o
_
:
(/ a)
Determinam acum cel mai scurt interval de incredere
pentru j,cu coecientul de incredere (1 c) .
7
Utilizand faptul ca / = / (a) , conditiile
_
1
(0,1)
(/) 1
(0,1)
(a) = 1 c
min
_
c
p
n
(/ a)
_
conduc la
_
)
(0,1)
(/)
Jb
Jo
)
(0,1)
(a) = 0
Jb
Jo
1 = 0
,
de unde obtinem
)
(0,1)
(/) = )
(0,1)
(a)
Rezulta
/ = .
1
2
, a = .
1
2
si deci cel mai scurt interval de incredere este
C
n;1o
(r
1
, ..., r
n
) =
_
r .
1
2
o
_
:
, r +.
1
2
o
_
:
_
Consideram acum ipoteza H : j = j
0
cu alternativa H
.
:
j ,= j
0
1
0
_
.
1
2
_
_
:
_
A j
0
_
o
_ .
1
2
_
= 1 c
n;1o
(j
0
) =
_
(r
1
, ..., r
n
) [ .
1
2
_
_
:(r j
0
)
o
_ .
1
2
_
=
_
j
0
.
1
2
o
_
:
_ r _ j
0
+.
1
2
o
_
:
_
Testul "." se bazeaza pe regiunea critica
1 =
c
n;1o
(j
0
)
1
0
((A
1
, ..., A
n
) 1) = c
OC (j) = 1
_
.
1
2
_
_
:
_
A j
0
_
o
_ .
1
2
_
=
= 1
_
.
1
2
_
_
:
_
A j
_
o
+
_
:(j j
0
)
o
_ .
1
2
_
=
= 1
(0,1)
_
.
1
2

_
:(j j
0
)
o
_
1
(0,1)
_
.
1
2

_
:(j j
0
)
o
_
8
APLICATIA 2
Interval de incredere si testul "t" pentru media unei
repartii normale cu dispersie necunoascuta
Modelul: 1
A
1
=
_
j, o
2
_
, o
2
necunoscut, j 1
Observatii: A
1
, ..., A
n
v.i.i.r.
_
j, o
2
_
La "estimarea parametrilor" s-a demonstrat:
Proprietate
Fie A
1
, ..., A
n
repartizate
_
j, o
2
_
si e E.V.M.
j
\ 1
= A
o
2
\ 1
=
1
:
n
I=1
_
A
I
A
_
2
Atunci
j
\ 1
= A ~
_
j,
o
2
:
_
,
:
o
2

o
2
\ 1
~
2
(: 1)
si cele doua componente ale E.V.M. sunt independente.
Constructie:
o
2
=
:
: 1
o
2
\ 1
_
:
_
A j
_
o
~ (0, 1)
: 1
o
2
o
2
~
2
(: 1)
independenta
7 =
_
:
_
A j
_
o
_
_
1
: 1
: 1
o
2
o
2
=
_
:
_
A j
_
o
~ t (: 1)
Functia
q ((r
1
, ..., r
n
) ; j) =
_
:(r j)
:
9
Pentru c (0, 1) xat, e a, / doua cuantile ale repartitiei
t (: 1) asa incat
1
_
a _
_
:
_
A j
_
o
_ /
_
= 1 c
_
a _
_
:(r j)
:
_ /
_
=
_
r /
:
_
:
_ j _ r a
:
_
:
_
C
n;1o
(r
1
, ..., r
n
) =
_
r /
:
_
:
, r a
:
_
:
_
| =
:
_
:
(/ a)
Determinam acum cel mai scurt interval de incredere
pentru j,cu coecientul de incredere (1 c) .
_
1
|(n1)
(/) 1
|(n1)
(a) = 1 c
min
_
s
p
n
(/ a)
_
conduc la
_
)
|(n1)
(/)
Jb
Jo
)
|(n1)
(a) = 0
Jb
Jo
1 = 0
,
de unde obtinem
)
|(n1)
(/) = )
|(n1)
(a)
Rezulta
/ = t
n1;1
2
, a = t
n1;1
2
si deci cel mai scurt interval de incredere este
C
n;1o
(r
1
, ..., r
n
) =
_
r t
n1;1
2
:
_
:
, r +t
n1;1
2
:
_
:
_
Consideram acum ipoteza H : j = j
0
cu alternativa H
.
:
j ,= j
0
1
0
_
t
n1;1
2
_
_
:
_
A j
0
_
o
_ t
n1;1
2
_
= 1 c
10
n;1o
(j
0
) =
_
(r
1
, ..., r
n
) [ t
n1;1
2
_
_
:(r j
0
)
:
_ t
n1;1
2
_
=
_
j
0
t
n1;1
2
:
_
:
_ r _ j
0
+t
n1;1
2
:
_
:
_
Testul "t" se bazeaza pe regiunea critica
1 =
c
n;1o
(j
0
)
1
0
((A
1
, ..., A
n
) 1) = c
OC (j) = 1
_
t
n1;1
2
_
_
:
_
A j
0
_
o
_ t
n1;1
2
_
=
= 1
_
t
n1;1
2
_
_
:
_
A j
_
o
+
_
:(j j
0
)
o
_ t
n1;1
2
_
=
= 1
|(n1)
_
t
n1;1
2

_
:(j j
0
)
:
_
1
|(n1)
_
t
n1;1
2

_
:(j j
0
)
:
_
Functia din R: t.test(x,...)
t.test(x, alternative =c("two.sided", "less", "greater"),
mu = 0, conf.level = 0.95, ...)
Arguments
x a numeric vector of data values.
alternative a character string specifying the alter-
native hypothesis, must be one of "two.sided" (default),
"greater" or "less".
mu a number indicating the true value of the
mean
conf.level condence level of the interval.
11
APLICATIA 3
Interval de incredere si testul "CHI patrat" pentru
dispersia unei repartii normale cu medie cunoascuta
Modelul: 1
A
1
=
_
j, o
2
_
, j cunoscut, o
2
(0, )
Observatii: A
1
, ..., A
n
v.i.i.r.
_
j, o
2
_
. Variabilele aleatoare
A
I
j
o
, i = 1, ..., :
sunt i.i.r. (0, 1) . Rezulta ca
1
o
2
n
I=1
(A
I
j)
2
~
2
(:) .
Functia
q
_
(r
1
, ..., r
n
) ; o
2
_
=
1
o
2
n
I=1
(r
I
j)
2
Pentru c (0, 1) xat, e 0 < a < / doua cuantile ale repar-
titiei
2
(:) asa incat
1
c
2
_
a _
1
o
2
n
I=1
(A
I
j)
2
_ /
_
= 1 c
_
a _
1
o
2
n
I=1
(r
I
j)
2
_ /
_
=
_
1
/
n
I=1
(r
I
j)
2
_ o
2
_
1
a
n
I=1
(r
I
j)
2
_
C
n;1o
(r
1
, ..., r
n
) =
_
1
/
n
I=1
(r
I
j)
2
,
1
a
n
I=1
(r
I
j)
2
_
| =
n
I=1
(r
I
j)
2
_
1
/

1
a
_
Cautam cel mai scurt interval de incredere pentru o
2
,cu
coecientul de incredere (1 c) .
_
_
_
1
_
2
(n)
(/) 1
_
2
(n)
(a) = 1 c
min
_
n
I=1
(r
I
j)
2
_
1
b

1
o
_
_
12
conduc la
_
)
_
2
(n)
(/)
Jb
Jo
)
_
2
(n)
(a) = 0
1
b
2

Jb
Jo
+
1
o
2
= 0
,
de unde rezulta
/
2
)
_
2
(n)
(/) = a
2
)
_
2
(n)
(a)
Aceasta ecuatie nu are o solutie analitica explicita, deci
nu putem obtine forma explicita a celui mai scurt interval
de incredere pentru o
2
, cu coecientul de incredere (1 c) .
Prin CONVENTIE, lucram cu
C
n;1o
(r
1
, ..., r
n
) =
_
1
/
n;1
2
n
I=1
(r
I
j)
2
,
1
/
n;
2
n
I=1
(r
I
j)
2
_
,
unde /
n;
2
si /
n;1
2
sunt cuantile ale repartitiei
2
(:) .
Consideram acum ipoteza H : o
2
= o
2
0
cu alternativa
H
.
: o
2
,= o
2
0
1
c
2
0
_
/
n;
2
_
1
o
2
0
n
I=1
(A
I
j)
2
_ /
n;1
2
_
= 1 c
n;1o
_
o
2
0
_
=
_
(r
1
, ..., r
n
) [ /
n;
2
_
1
o
2
0
n
I=1
(r
I
j)
2
_ /
n;1
2
_
=
_
o
2
0
/
n;
2
_
n
I=1
(r
I
j)
2
_ o
2
0
/
n;1
2
_
Testul "CH1 jatrat" se bazeaza pe regiunea critica
1 =
c
n;1o
_
o
2
0
_
1
c
2
0
((A
1
, ..., A
n
) 1) = c
OC
_
o
2
_
= 1
c
2
_
/
n;
2
_
1
o
2
0
n
I=1
(A
I
j)
2
_ /
n;1
2
_
=
= 1
c
2
_
/
n;
2

o
2
0
o
2
_
1
o
2
n
I=1
(A
I
j)
2
_ /
n;1
2

o
2
0
o
2
_
=
= 1
_
2
(n)
_
/
n;1
2

o
2
0
o
2
_
1
_
2
(n)
_
/
n;
2

o
2
0
o
2
_
13
APLICATIA 4
Interval de incredere si testul "CHI patrat" pentru
dispersia unei repartii normale cu medie necunoscuta
Modelul: 1
A
1
=
_
j, o
2
_
, j 1 necunoscut, o
2
(0, )
Observatii: A
1
, ..., A
n
v.i.i.r.
_
j, o
2
_
. Am demonstrat ca
1
o
2
n
I=1
_
A
I
A
_
2
~
2
(: 1) .
Functia
q
_
(r
1
, ..., r
n
) ; o
2
_
=
1
o
2
n
I=1
(r
I
r)
2
=
(: 1) :
2
o
2
Pentruc (0, 1) xat, e /
n1;
2
si /
n1;1
2
cuantile ale repar-
titiei
2
(: 1) . Ca si in Aplicatia 3, obtinem
C
n;1o
(r
1
, ..., r
n
) =
_
(: 1) :
2
/
n1;1
2
,
(: 1) :
2
/
n1;
2
_
Consideram acum ipoteza H : o
2
= o
2
0
cu alternativa
H
.
: o
2
,= o
2
0
1
c
2
0
_
/
n1;
2
_
1
o
2
0
n
I=1
_
A
I
A
_
2
_ /
n1;1
2
_
= 1 c
n;1o
_
o
2
0
_
=
_
(r
1
, ..., r
n
) [ /
n1;
2
_
(: 1) :
2
o
2
0
_ /
n1;1
2
_
=
_
o
2
0

/
n1;
2
: 1
_ :
2
_ o
2
0

/
n1;1
2
: 1
_
Testul "CH1 jatrat" se bazeaza pe regiunea critica
1 =
c
n;1o
_
o
2
0
_
1
c
2
0
((A
1
, ..., A
n
) 1) = c
14
OC
_
o
2
_
= 1
c
2
_
/
n1;
2
_
1
o
2
0
n
I=1
_
A
I
A
_
2
_ /
n1;1
2
_
=
= 1
c
2
_
/
n1;
2

o
2
0
o
2
_
1
o
2
n
I=1
_
A
I
A
_
2
_ /
n1;1
2

o
2
0
o
2
_
=
= 1
_
2
(n1)
_
/
n1;1
2

o
2
0
o
2
_
1
_
2
(n1)
_
/
n1;
2

o
2
0
o
2
_
15
APLICATIA 5
TESTUL FISHER PENTRU DREAPTA DE
REGRESIE
La capitolul "Regresie" am stabilit urmatoarele rezul-
tate:
Variabila aleatoare
oo
:tsIJ
=
n
I=1
_
A
I
a
/j
I
_
2
are proprietatea
1
o
2
r
(1 j
2
)
oo
:tsIJ
~
2
(: 2)
Daca / = 0, atunci
1
o
2
r
(1 j
2
)
oo
:t:tsIt
~
2
(1)
1
o
2
r
(1 j
2
)
oo
|o|ol
~
2
(: 1)
iar variabilele
1
c
2
x
(1
2
)
oo
:t:tsIt
si
1
c
2
x
(1
2
)
oo
:tsIJ
sunt in-
dependente.
Formulam ipoteza H : / = 0 cu alternativa H
.
: / ,= 0.
Daca H este adevarata, atunci variabila aleatoare
7 =
1
o
2
r
(1 j
2
)
oo
:t:tsIt
_
1
: 2

1
o
2
r
(1 j
2
)
oo
:tsIJ
no|o|
=
oo
:t:tsIt
oo
:tsIJ
are o repartitie Fisher cu (1, : 2) grade de libertate.
Pentru c (0, 1) arbitrar xat, e )
(1,n2);1o
cuantila de
rang (1 c) a repartitiei Fisher cu (1, : 2) grade de liber-
tate.
TESTUL FISHER: Regiunea critica pentru H : / = 0
este
1 =
_
oo
:t:tsIt
oo
:tsIJ
_ )
(1,n2);1o
_
16
1
(b=0)
_
oo
:t:tsIt
oo
:tsIJ
_ )
(1,n2);1o
_
= c
Acest test este implementat in functia "a:oa" din R.
Testul Fisher prezentat aici este echivalent cu un test
"t", bazat pe urmatoarele fapte:
/
_
c
2
x
(1
2
)
n
P
i=1
(i)
2
~ (0, 1)
oo
:t:tsIt
=
_
/
_
2
n
I=1
(j
I
j)
2
1
o
2
r
(1 j
2
)
oo
:tsIJ
~
2
(: 2)
oo
:t:tsIt
si oo
:tsIJ
sunt variabile aleatoare independente,
ceea ce implica
/ si oo
:tsIJ
sunt variabile aleatoare indepen-
dente. Atunci
/
_
c
2
x
(1
2
)
n
P
i=1
(i)
2
__
1
: 2

1
o
2
r
(1 j
2
)
oo
:tsIJ
~ t (: 2)
TESTUL "t": Regiunea critica pentru H : / = 0 la
pragul de semnicatie c este
1 =
_
/
_
(: 2)
n
I=1
(j
I
j)
2
_
oo
:tsIJ
_ t
n2;1o
_
_
,
unde t
n2;1o
este cuantila de rang(1 c) a repartitiei t (: 2) .
Si acest test este implementat in functia "a:oa" din R.
17
APLICATIA 6
COMPARAREA TRATAMENTELOR
(COMPARAREA PARAMETRILOR A DOUA
REPARTITII NORMALE)
PROBLEMA DE BIOSTATISTICA:
Caracteristica de interes care este investigata poate
modelata printr-o variabila aleatoare cu reparti-
tie normala
_
j, o
2
_
(ex: nivelul colesterolului, nivelul
tensiunii arteriale sistolice, nivelul hemoglobinei, etc.)
Exista doua tratamente posibile T
1
si T
2
. Eventual
T
1
="tratament" si T
2
="placebo".
Se considera doua loturi independente, formate din
pacienti suferind de aceeasi boala, selectati in mod
independent dintr-o populatie bine denita (ex: bar-
bati, din mediul urban, in varsta 40 - 50 ani, suprapon-
derali).
Pacientilor din primul lot li se administreaza T
1
si
celor din al doilea lot li se administreaza T
2
.Experimentul
este "blind", adica pacientii nu stiu ca primesc trata-
mente diferite.
Se doreste identicarea situatiei in care se obtin raspun-
suri diferite la cele doua tratamente.
Model: T
1
= A
1
~
_
j
1
, o
2
1
_
; T
2
= A
2
~
_
j
2
, o
2
2
_
, A
1
, A
2
vari-
abile aleatoare independente
Observatii:
A
11
, A
12
, ..., A
1n
.a.i.i.r.
_
j
1
, o
2
1
_
A
21
, A
22
, ..., A
2n
.a.i.i.r.
_
j
2
, o
2
2
_
A
11
, A
12
, ..., A
1n
, A
21
, A
22
, ..., A
2n
familii independente
Ipoteze ce urmeaza a testate:
H
1
:
_
o
2
1
= o
2
2
_
, H
1.
:
_
o
2
1
,= o
2
2
_
H
2
: j
1
= j
2
, H
2.
: j
1
,= j
2
18
Reamintimproprietatile E.V.M. pentru parametrii repar-
titiei normale:
A
1
=
1
:
n
=1
A
1
~
_
j
1
,
o
2
1
:
_
o
2
1
=
1
: 1
n
=1
_
A
1
A
1
_
2
;
: 1
o
2
1
o
2
1
~
2
(: 1)
A
1
,
: 1
o
2
1
o
2
1
independente
A
2
=
1
:
n
=1
A
2
~
_
j
2
,
o
2
2
:
_
o
2
2
=
1
:1
n
=1
_
A
2
A
2
_
2
;
:1
o
2
2
o
2
2
~
2
(:1)
A
2
,
:1
o
2
2
o
2
2
independente
(a) Testul Fisher de comparare a dispersiilor,
H
1
:
_
o
2
1
= o
2
2
_
, H
1.
:
_
o
2
1
,= o
2
2
_
Folosind asociativitatea independentei, avem
1
: 1

: 1
o
2
1
o
2
1
_
1
:1

:1
o
2
2
o
2
2
=
o
2
2
o
2
1

o
2
1
o
2
2
~ T (: 1, :1)
Reparametrizam si rescriem ipotezele H
1
, H
1.
:
=
o
2
2
o
2
1
H
1
: = 1 , H
1.
: ,= 1
Daca ipotezaH
1
este adevarata, atunci o
2
1
,o
2
2
~ T (: 1, :1) .
Pentru c (0, 1) arbitrar xat, e )
1,o
si )
2,o
cuantile ale
repartitiei T (: 1, :1), cu proprietatea
1
F(n1,n1)
()
2,o
) 1
F(n1,n1)
()
1,o
) = 1 c
19
Facem observatia ca aceasta relatie determina unic
cuantilele pentru ca
7 ~ T (: 1, :1) ==
1
7
~ T (:1, : 1)
deci avem si
1
F(n1,n1)
_
1
)
1,o
_
1
F(n1,n1)
_
1
)
2,o
_
= 1 c.
Regiunea de acceptare a ipotezei H
1
: = 1 este
n,n;1o
( = 1) =
_
(r
11
, ..., r
1n
, r
21
, ..., r
2n
) [ )
1,o
_
:
2
1
:
2
2
_ )
2,o
_
iar regiunea critica este 1 =
c
n,n;1o
( = 1) . Probabilitatea
erorii de I tip este
1
(~=1)
((A
11
, ..., A
1n
, A
21
, ..., A
2n
) 1) = c
si functia caracteristica operatoare a testului este
OC () = 1
~
_
)
1,o
_
o
2
1
o
2
2
_ )
2,o
_
= 1
~
_
)
1,o
_
o
2
1
o
2
2
_ )
2,o
_
=
= 1
F(n1,n1)
( )
2,o
) 1
F(n1,n1)
( )
1,o
)
Functia din R: var.test(x,y,...)
var.test(x, y, ratio = 1, alternative = c("two.sided",
"less", "greater"), conf.level = 0.95, ...)
Arguments
x, y numeric vectors of data values, or tted linear
model objects (inheriting from class "lm").
ratio the hypothesized ratio of the population vari-
ances of x and y.
conf.level condence level for the returned con-
dence interval.
20
(/) Testul "t" de comparare a mediilor,
H
2
: j
1
= j
2
, H
2.
: j
1
,= j
2
Presupunem ca s-a acceptat ipoteza de egalitate a dis-

persiilor, H
1
:
_
o
2
1
= o
2
2
_
. Rezulta:
A
1
~
_
j
1
,
o
2
:
_
A
2
~
_
j
2
,
o
2
:
_
Folosind independenta, avem
A
1
A
2
~
_
j
1
j
2
, o
2
_
1
:
+
1
:
__
Pe de alta parte,
1
o
2
_
(: 1) o
2
1
+ (:1) o
2
2
_
~
2
(: +:2)
Folosind asociativitatea independentei,
_
A
1
A
2
_
(j
1
j
2
)
_
o
2
_
1
n
+
1
n
_
_
_
1
: +:2

1
o
2
((: 1) o
2
1
+ (:1) o
2
2
) ~ t (: +:2)
Reparametrizam si rescriem ipotezele H
2
, H
2.
:
c = j
1
j
2
H
2
: c = 0 , H
2.
: c ,= 0
Daca ipoteza H
2
este adevarata, atunci
7 =
A
1
A
2
_
1
n+n2
_
1
n
+
1
n
_
((: 1) o
2
1
+ (:1) o
2
2
)
~ t (: +:2)
Pentru c (0, 1) arbitrar xat, e t
n+n2;1o/2
cuantila de
rang
_
1
o
2
_
a repartitiei t (: +:2) .
Regiunea de acceptare a ipotezei H
2
este
n,n;1o
(c = 0) =
_
(r
11
, ..., r
1n
, r
21
, ..., r
2n
) [ t
n+n2;1o/2
_ . _ t
n+n2;1o/2
_
Regiunea critica pentru H
2
, la pragul de semnicatie c
este
1 =
c
n,n;1o
(c = 0)
21
cu probabilitatea de eroare de tip I
1
(o=0)
((A
11
, ..., A
1n
, A
21
, ..., A
2n
) 1) = c
si functia caracteristica operatoare
OC (c) = 1
o
_
t
n+n2;1o/2
_ 7 _ t
n+n2;1o/2
_
=
1
|(n+n2)
_
t
n+n2;1o/2
c
__
1
: +:2
_
1
:
+
1
:
_
((: 1) :
2
1
+ (:1) :
2
2
)
_
1
|(n+n2)
_
t
n+n2;1o/2
c
__
1
: +:2
_
1
:
+
1
:
_
((: 1) :
2
1
+ (:1) :
2
2
)
_
Functia din R: t.test(x,y,....)
t.test(x, y =NULL, alternative =c("two.sided", "less",
"greater"), mu =0, paired =FALSE, var.equal =FALSE,
conf.level = 0.95, ...)
Arguments
x a numeric vector of data values.
y an optional numeric vector data values.
mu a number indicating the dierence in means
(if you are performing a two sample test).
paired a logical indicating whether you want a
paired t-test.
var.equal a logical variable indicating whether to
treat the two variances as being equal. If TRUE then the
pooled variance is used to estimate the variance. Other-
wise the Welch approximation to the degrees of freedom
is used.
conf.level condence level of the interval.
22

Monica Dumitrescu - Statistica Matematica (Note de Curs)

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Monica Dumitrescu - Statistica Matematica (Note de Curs)

Încărcat de

Drepturi de autor:

Formate disponibile

FACULTATEA DE MATEMATICA SI INFORMATICA

DOMENIUL DE LICENTA: MATEMATICA

Spunem ca functia de repartitie de selectie este un

Regula de decizie: Daca

Notam repartitia lui A

Notand cu < v, t produsul scalar, putem scrie

Testul Chi Patrat pentru concordanta dintre modelul

Fie c (0, 1) arbitrar xat valoarea acceptata a proba-

Un estimator nedeplasat pentru 1

Revenim la problema repartitiei E.V.M.

Proprietatea 7 (L.S.E. este cel mai bun estimator liniar

[ T) variabile aleatoare neneg-

MODALITATI DE CALCUL PENTRU ' (A [ 1 = j)

(j) = 0 se ia ' (A [ 1 = j) egala cu o

Notatie (densitatea de repartitie conditionata a lui A)

Solutia unica a sistemului de ecuatii normale este

Cunoastem repartitia variabilei aleatoare

TEOREMA LUI COCHRAN

variabile aleatoare independente, identic

pentru orice i ,= , este ca

Ipoteza alternativa lui H este subfamilia complemen-

Ipoteza H se numeste simpla daca

A construi un test pentru ipoteza H : 0

Pentru un test bazat pe regiunea critica 1 avem

care minimizeaza probabilitatea erorii de

In concluzie, FORMA celei mai bune regiuni critice

(a) Constructia lui 1

Valorile probabilitatilor de eroare:

(c) Repartitia Fisher cu(r

Ne plasam in conditiile propozitiei anterioare, care

Presupunem ca s-a acceptat ipoteza de egalitate a dis-

S-ar putea să vă placă și