Sunteți pe pagina 1din 22

ESTIMAREA NEDEPLASATĂ, CU DISPERSIE MINIMĂ,

GENERALIZATĂ
Într-o problemă de estimare a unui parametru necunoscut, θ, dispunem de cele
N eșantioane de date {x[0], x[1], …, x[N-1]}. Fiecare dintre acestea poartă
informație despre parametrul necunoscut. Ne punem întrebarea dacă nu putem
găsi un singur număr,T,care depinde de date și poartă toată informația despre θ
T ( x [ 0] , x [1] ,..., x [ N − 1]) = T ( x )
Ca și datele, T(x) este o variabilă aleatoare, numită “statistică”. Vom considera
modelul de semnal
x [n ] = A + w [ n ] ; n = 0,1,..., N − 1; w ∼ N 0, σ 2Iu ( )
Am arătat că media eșantion este un estimator MVU eficient Pentru
componenta continuă, A
N −1
1
 = x =
N
∑ x [n ]
n =0
Pentru a estima A nu trebuie să cunoaștem toate valorile x[n]. Ne putem
mărgini la cunoașterea unei singure valori, statistica T(x)
N −1
T (x) = ∑ x [ n]
n =0 1
Ea se numește și “statistică suficientă”

Dacă pentru două seturi diferite de date


x1 ≠ x 2
dar pentru care valorile statisticii T(x) sunt identice, adică
T ( x1 ) = T ( x 2 )
atunci valorile estimatului pentru θ determinate din cele două seturi de date
sunt identice
Ne putem pune întrebarea firească “câte statistici suficiente există ?”
Dacă ne referim tot la exemplul în care se estimează componenta continuă, A,
cele N date măsurate sunt suficiente pentru măsurare (de altele nici nu
dispunem). Prin urmare, mulțimea
S1 = { x [ 0] , x [1] ,..., x [ N − 1]}
constituie o statistică suficientă. În oricare situație, datele măsurate formează o
statistică suficientă
Dar, în mod evident, o statistică suficientă o constituie și mulțimea
S2 = { x [ 0] + x [1] , x [ 2] + x [3] ,....}
La început am văzut că mulțimea cu un singur element
⎧ N −1 ⎫
S 3 = ⎨ ∑ x [ n ]⎬
⎩ n =0 ⎭
este și ea o statistică suficientă dar pe care o vom numi și “minimală” deoarece
2
are numărul minim de elemente între statisticile suficiente posibile

1
Pentru exemplul luat în considerare, avem
⎧ 1 N −1 2⎫
∑ ( x [ n] − A)
1
p ( x; A ) = exp ⎨− 2 ⎬
( ) ⎩ 2σ
N
2πσ n =0 ⎭

Dacă datele x măsurate determină o valoare fixă pentru statistica suficientă


N −1
T (x) = ∑ x [ n] = T0
n =0
atunci densitatea de repartiție condiționată de aceasta nu mai poate fi funcție
de parametrul necunoscut, A.
⎛ N −1 ⎞
p⎜x ∑ x [ n] = T0 ; A ⎟
⎝ n =0 ⎠
Dacă ar exista dependența de A, din date x diferite, dar care ar da aceeași
valoare a statisticii suficiente, am mai putea obține informații privind parametrul
necunoscut, A. Dar atunci T(x) nu ar fi statistică suficientă!
Pentru
⎛ N −1 ⎞
p ⎜ x = x0 ∑ x [n ] = T0 ; A ⎟ ; x 0 fixat, dar arbitrar
3
⎝ n =0 ⎠

se arată în figură independența de valoarea parametrului necunoscut, A, dacă


T(x) este o statistică suficientă

Dacă există variație funcție de valoarea parametrului necunoscut, A, deși


pentru diverse seturi de date se obține aceeași valoare a statisticii T(x), așa
cum se vede din figură,

atunci nu avem de-a face cu o statistică suficientă! 4

2
Se pune întrebarea “cum poate fi determinată statistica suficientă (eventual
minimală)?” Răspunsul este dat de teorema de factorizare Neyman-Fisher
(Noiman-Fișer), al cărui enunț îl dăm fără demonstrație

Teorema de factorizare Neyman-Fisher


Dacă densitatea de probabilitate a datelor, x, p(x; θ), dependentă de
parametrul necunoscut θ, poate fi factorizată sub forma
p( x;θ ) = g ( T ( x ), θ ) h( x )
în care g(.) este o funcție care depinde de datele x numai prin intermediul
statisticii T(x) iar h(.) este o funcție numai de datele x, nu și de statistica T(x)
sau de parametrul necunoscut θ, atunci T(x) este o statistică suficientă pentru θ

Reciproc, dacă T(x este o statistică suficientă pentru θ, atunci se poate obține
factorizarea de mai sus

***
5

Statistica suficientă pentru estimarea unui nivel continuu, în zgomot alb,


gaussian
Dacă în expresia densității de repartiție corespunzătoare se dezvoltă pătratul
de la exponent, putem obține forma cerută de teorema de factorizare
N −1 N −1
1 ⎪⎧ 1 ⎡ ⎤ ⎪⎫ ⎧ 1 ⎫
p ( x; A ) = exp ⎨ − 2 ⎢ NA2 − 2 A ∑ x [n ]⎥ ⎬ exp ⎨ − 2 ∑ x 2 [ n ]⎬
( ) σ ⎩ 2σ
N
2π σ ⎩⎪ 2 ⎣ n =0 ⎦ ⎭⎪ n =0 ⎭
h(x )
g ⎛⎜ T (x ), A⎞⎟
⎝ ⎠

și deducem că statistica suficientă pentru estimarea componentei continue este


N −1
T (x) = ∑ x [ n]
n =0
Statistica suficientă pentru estimarea puterii zgomotului alb, gaussian

Pentru zgomotul alb gaussian, cu puterea (dispersia) necunoscută


x [n ] = w [n ] ; n = 0,1,..., N − 1, w [n ] ∼ N 0, σ 2 ( )
factorizarea este evidentă dacă scriem densitatea de repartiție sub forma
⎧ 1 N −1 ⎫
(
p x;σ 2 = ) 1
exp ⎨ − 2 ∑ x 2 [ n ]⎬ ⋅ 1
( ) ⎩ 2σ
N 2
2πσ 2 n =0 ⎭ h(x )
6
g ⎛⎜ T ( x );σ 2 ⎞⎟
⎝ ⎠

3
și rezultă că statistica suficientă pentru estimarea dispersiei zgomotului este
N −1
T (x) = ∑
n =0
x 2 [n ]

Problema estimării fazei unei sinusoide


Pentru modelul de semnal sinusoidal cu faza inițială, Φ, necunoscută, afectată
de un zgomot alb, gaussian datele x[n] au forma
x [n ] = A cos ( 2π f 0n + Φ ) + w [n ] ; n = 0,1,..., N − 1; w ∼ N 0, σ 2Iu ( )
iar densitatea de probabilitate a datelor x are forma
⎧ 1 N −1 2⎫
∑ ⎡⎣ x [ n] − A cos ( 2π f0n + Φ )⎤⎦
1
p ( x; Φ ) = exp ⎨− 2 ⎬
( ) ⎩ 2σ
N
2πσ n =0 ⎭
Dezvoltăm pătratul de la exponent și obținem
N −1
∑ ⎡⎣ x [ n] − A cos ( 2π f0n + Φ )⎤⎦
2

n =0
N −1 N −1 N −1
= ∑ x2 [ n] − 2 A n∑=0 x [ n] cos ( 2π f0 n + Φ ) + A2 n∑=0 cos2 ( 2π f0 n + Φ )
n =0
N −1 ⎡ N −1 ⎤
= ∑ x2 [ n] − 2 A cos Φ ⎢ n∑=0 x [ n] cos 2π f0n ⎥
n =0 ⎣ ⎦
⎡ N −1 ⎤ N −1
+ 2 A sin Φ ⎢ ∑ x [ n ] sin 2π f0 n ⎥ + A2 ∑ cos 2 ( 2π f0 n + Φ ) 7
⎣ n = 0 ⎦ n =0

Cu notațiile
N −1
T1 ( x ) = ∑ x [ n] cos 2π f0 n
n =0
N −1
T2 ( x ) = ∑ x [ n] sin 2π f0n
n =0

expresia anterioară devine

N −1 2

∑ ⎡ x [ n ] − A cos ( 2π f 0 n + Φ ) ⎤
⎣ ⎦
n =0
N −1
= ∑ x 2 [ n ] − 2 AT1 ( x ) cos Φ + 2 AT2 ( x ) sin Φ
n =0
N −1
+ A2 ∑ cos 2 ( 2π f 0 n + Φ )
n =0 8

4
Densitatea de probabilitate a datelor x se poate factoriza acum

1
p ( x; Φ ) =
( )
N
2π σ
⎧⎪ 1 ⎡ 2 N −1 2 ⎤ ⎫⎪
⋅ exp ⎨ − 2 ⎢ A ∑ cos ( 2π f 0t + Φ ) − 2 A cos Φ ⋅ T1 ( x ) + 2 A sin Φ ⋅ T2 ( x )⎥ ⎬
⎩⎪ 2σ⎣ n =0 ⎦ ⎭⎪
g (T1 ( x ),T2 ( x ),Φ )

⎧ 1 N −1

⋅ exp ⎨− 2 ∑ x 2 [ n ]⎬
⎩ 2σ n =0 ⎭
h( x )

Apar două statistici în loc de una. Teorema de factorizare Neyman-Fisher se


poate extinde, după cum urmează

Extinderea teoremei de factorizare Neyman- Fisher pentru un


grup de r statistici suficiente
Dacă densitatea de probabilitate a datelor, x, dependentă de parametrul
necunoscut θ, p(x; θ) poate fi factorizată sub forma
p( x;θ ) = g ( T1 ( x ), T2 ( x ),..., Tr (x );θ ) h (x )
atunci
{T1 (x), T2 (x),..., Tr (x )}
formează un grup de r statistici mutual suficiente pentru estimarea parametrului
necunoscut, θ. Reciproca teoremei este adevărată.
***
În orice problemă de estimare, deoarece densitatea de repartiție a datelor se
poate scrie sub forma
p ( x;θ ) = p ( x [ 0] , x [1] ,..., x [ N − 1] ;θ ) ⋅ 1
h( x )
⎛ ⎞
g ⎜ x ⎡⎣⎢0⎤⎦⎥, x ⎡⎣⎢1⎤⎦⎥,..., x ⎡⎣⎢ N −1⎤⎦⎥;θ ⎟
⎝ ⎠
rezultă că, la limită, datelepot fi asimilate cu un grup de N statistici mutual
suficiente pentru estimarea parametrului necunoscut
{ x [0] , x [1] ,..., x [ N − 1]} 10

5
Determinarea estimatorilor MVU plecând de la o statistică
suficientă

Dacă am determinat o statistică suficientă, T(x), pentru un parametru


necunoscut, θ, se poate găsi un estimator MVU în două feluri, dintre care vom
prezenta doar unul:
se caută o funcție g(.), atfel încât
θˆ = g (T (x ) )
să fie un estimator nedeplasat pentru θ, adică

{}
E θˆ = E {g ( T (x ) )} = θ
Pentru exemplificare reluăm problema estimării componentei continue pentru
care statistica suficientă este
N −1
T (x) = ∑ x [ n]
n =0
Trebuie găsită funcția g(x) pentru care să avem

⎪⎧ ⎛ N −1 ⎞ ⎪⎫
E ⎨ g ⎜ ∑ x [ n] ⎟ ⎬ = A
⎩⎪ ⎝ n=0 ⎠ ⎭⎪ 11

Funcția g(x) are forma evidentă


x
g ( x) =
N
astfel că estimatorul componentei continue A este, în mod evident
N −1
1
 =
N
∑ x [ n]
n =0
Dacă funcția g(.) este unică, statistica suficientă T(x) se spune că este
“completă”

Familia de repartiții exponențial-scalare, ce are forma

p ( x;θ ) = exp { A (θ ) B ( x ) + C ( x ) + D (θ )}
are proprietatea de a genera statistici suficiente complete pentru parametrul
necunoscut, θ. Repartiția gaussiană cu media μ necunoscută, repartiția
Rayleigh cu dispersia necunoscută și repartiția exponențială cu parametrul λ
necunoscut, fac toate parte din familia exponențial-scalară
12

6
Repartiția exponențial scalară poate fi factorizată conform teoremei
Neyman-Fisher sub forma
p ( x;θ ) = exp { A (θ ) B ( x ) + D (θ )} exp {C ( x )}
g ⎛⎜T ( x ),θ ⎞⎟ h( x )
⎝ ⎠
din care rezultă că statistica suficientă pentru parametrul necunoscut θ este
T ( x) = B ( x)
Considerăm că datele
x = ⎡⎣ x [ 0] x [1] x [ N − 1]⎤⎦
T

sunt de tip IID, motiv pentru care densitatea de repartiție a vectorului x este
N −1
p ( x; θ ) = ∏ p ( x [ n ] ; θ )
n =0
N −1
{ } {
= ∏ ⎡⎣exp A (θ ) B ( x [ n ] ) + D (θ ) exp C ( x [ n ] ) ⎤⎦ }
n =0
⎧ N −1 ⎫ ⎧ N −1 ⎫
= exp ⎨ A (θ ) ∑ B ( x [ n ] ) + ND (θ ) ⎬ exp ⎨ ∑ C ( x [ n ] ) ⎬
⎩ n =0 ⎭ ⎩ n =0 13

Statistica suficientă și completă pentru parametrul necunoscut este, conform


teoremei Neyman-Fisher
N −1
T ( x) = ∑ B ( x [ n ])
n =0
Prezentăm câteva exemple
1) Pentru o repartiție gaussiană de medie μ necunoscută, densitatea de
repartiție este
1 ⎧ 1 2⎫
p ( x; μ ) = exp ⎨− 2 ( x − μ ) ⎬
2πσ ⎩ 2σ ⎭
⎧ μ μ 2 ⎫ ⎧ x2 ⎫
= exp ⎨ 2 x − − ln 2π − ln σ ⎬ exp ⎨− 2 ⎬
⎩ σ 2σ 2
⎭ ⎩ 2σ ⎭
Se observă că
B ( x) = x
și deci statistica suficientă și completă, pentru cazul unui vector de date x este,
pentru medie
N −1
T1 ( x ) = ∑ x [ n]
n =0
14

7
2) Pentru o repartiție Rayleigh de dispersie necunoscută, densitatea de
repartiție este
⎧⎪ x 2 ⎫⎪
(
p x; σ 2 = ) x
σ2
exp ⎨− 2 ⎬ u ( x )
⎩⎪ 2σ ⎭⎪
⎧ 1 ⎫
{ }
= exp ⎨− 2 x 2 − ln σ 2 ⎬ exp ln ⎡⎣ xu ( x ) ⎤⎦
⎩ 2σ ⎭
în care u(x) este treapta unitară
⎧1, x>0
u( x ) = ⎨
⎩0, x<0
Prin identificare rezultă că
B ( x) = x 2

și deci statistica suficientă și completă, pentru cazul unui vector de date x este,
pentru dispersie
N −1
( ) ∑
T2 x = x2 n [ ] 15
n =0

3) Pentru o repartiție exponențială parametru λ necunoscut, densitatea de


repartiție este

p ( x; λ ) = λ exp {−λ x} u ( x )
= exp {−λ x + ln λ } exp {ln u ( x )}

Prin identificare rezultă că

B ( x) = x
și deci statistica suficientă și completă, pentru cazul unui vector de date x este,
pentru parametrul λ
N −1
T3 ( x ) = ∑ x [n]
n =0
16

8
Pentru exemplul 1), am stabilit deja că funcția g(x) este
x
g ( x) =
N
și deci estimatorul mediei devine
N −1
1
μˆ =
N
∑ x [ n]
n =0
Pentru exemplul 2), vom căuta forma funcției g(x). Media de ordinul doi a
variabilei aleatoare Rayleigh este


⎧ x2 ⎫
{ } x
E x 2 = ∫ x 2 2 exp ⎨ − 2 ⎬ dx = 2σ 2 ∫ ve-v dv
σ
0 ⎩ 2σ ⎭ 0


(
= 2σ 2 v -e-v
0
)
+ 2σ 2 ∫ e-v dv = 2σ 2
0
Calculăm media statisticii suficiente pentru cazul 2). Avem
⎧ N −1 ⎫ N −1 N −1
{ }
E ⎨ ∑ x 2 [ n ]⎬ = ∑ E x 2 [ n ] = ∑ σ 2 [ n ] = 2 N σ 2 ≠ σ 2
⎩ n =0 ⎭ n =0 n =0
Nu este greu de observat că
⎧ 1 N −1 ⎫
E⎨ ∑ x 2 [ n ]⎬ = σ 2
⎩ 2N n =0 ⎭ 17

așa că funcția g(x), pentru cazul 2) este, evident


g ( x ) = x (2N )
Am obținut, pentru acest caz estimatorul
^ 1 N −1 2
σ2 = ∑ x [n ]
2 N n =0
Și pentru exemplul 3) trebuie căutată forma funcției g(x). Media variabilei
aleatoare exponențiale este
∞ ∞
⎛ 1 ⎞∞ 1 1
E { x} = ∫ xλ exp {−λ x}dx = λ x ⎜ − e − λ x ⎟ + λ ∫ e − λ x dx =
0 ⎝ λ ⎠ 0 0λ λ
și deci
⎧ N −1 ⎫ N −1
E ⎨ ∑ x [ n ]⎬ = ∑ E { x [ n ]} = ≠ λ
N
⎩ n =0 ⎭ n =0 λ
Această expresie a mediei ne sugerează să luăm ca parametru necunoscut
θ =1 λ
Pentru noul parametru necunoscut, θ, avem densitatea de repartiție
⎧ x⎫
1
p ( x; λ ) = p ( x;θ ) =
exp ⎨− ⎬ u ( x )
θ ⎩ θ⎭
⎧ 1 1⎫
= exp ⎨− ⋅ x + ln ⎬ exp {ln u ( x )} 18
⎩ θ θ⎭

9
Rezultă că
B ( x) = x
Dacă ținem seama că media datelor x[n] este, așa cum am stabilit mai înainte θ
avem, pentru media statisticii suficiente din acest caz
E {x [n ]} =
1

λ
⎧ N −1 ⎫ N −1
E ⎨ ∑ x [n ]⎬ = ∑ E {x [n ]} =Nθ ≠ θ
⎩ n =0 ⎭ n =0
Rezultă din
⎧ 1 N −1 ⎫
E ⎨ ∑ x [ n ]⎬ = θ
⎩ N n =0 ⎭
estimatorul MVU pentru θ ca fiind media eșantion a datelor
N −1
1 1
θˆ =
N
∑ x [ n] = λˆ
n =0
Ținînd seama de relația dintre θ și λ rezultă estimatorul căutat
1 1
λˆ = = N −1
x 1
N
∑ x [ n]
n =0
19

Cazul existenţei unui grup de statistici mutual suficiente

Reluăm problema estimării fazei inițiale Φ a unui semnal sinusoidal, afectat de


un zgomot alb, gaussian
(
x [ n ] = A cos ( 2π f 0n + Φ ) + w [ n ] ; n = 0,1,..., N − 1; w [ n ] ∼ N 0, σ 2 )
pentru care există două statistici mutual suficiente. Pentru a determina forma
estimatorului MVU trebuie să găsim funcția g(.,.), astfel încât media ei statistică
să fie chiar Φ
{ }
E g (T1 ( x ) , T2 ( x ) ) = Φ
Prima statistică suficientă poate fi aproximată cu relația
N −1
T1 ( x ) = ∑ x [n ] cos 2π f0n
n =0
N −1
= ∑ ⎡⎣ A cos ( 2π f0n + Φ ) + w [n ]⎤⎦ cos 2π f0n
n =0
N −1 N −1
∑ ⎡⎣cos Φ + cos ( 4π f0n + Φ )⎤⎦ + n∑=0 w [n ] cos 2π f0n
A
=
n =0 2
N −1
NA
≅ cos Φ + ∑ w [ n ] cos 2π f 0n 20
2 n =0

10
care, pentru un raport semnal/zgomot (SNR) mare devine
2
NA A
T1 ( x ) ≅ cos Φ; SNR= 1
2 2σ 2
O formă asemănătoare se poate stabili și pentru a doua statistică suficientă
2
NA A
T2 ( x ) ≅ − sin Φ; SNR= 2 1
2 2σ
Raportul celor două statistici suficiente
( )
T1 x
≅ −tg Φ; SNR= 2 1
A2
( )
T2 x 2σ

ne permite să estimăm faza inițială a sinusoidei dar numai în cazul unui raport
semnal/zgomot mare

ˆ ≅ − arctg T2 ( x ) ; SNR= A
2
Φ 1
T1 ( x ) 2σ 2
21

Mediile statistice ale celor două statistici suficiente se determină ușor


N −1
E {T1 ( x )} = cos Φ + ∑ E {w [ n ]}cos 2π f 0n
NA
2 n =0
=0
NA
= cos Φ
2
E {T2 ( x )} = −
NA
sin Φ
2
Media statistică a estimatorului fazei, chiar si pentru SNR mare, nu este Φ !
NA
⎪⎧ T2 ( x ) ⎪⎫ E {T2 ( x )} −
2
sin Φ
E ⎨ −arctg ⎬ ≠ − arctg = − arctg =Φ
⎪⎩ T1 ( x ) ⎪⎭ E {T1 ( x )} NA
cos Φ
2
Prin urmare
{ }
E Φ
ˆ ≠Φ
și deci estimatorul introdus pentru fază nu este un estimator MVU. Acest fapt
22
se datorează neliniarității funcției arctg(x)

11
O extindere pentru cazul mai multor parametrii necunoscuți, organizați sub
forma unui vector, θ de dimensiune p.

Cele r statistici se organizează sub forma unui vector

Tr×1 ( x ) = ⎡⎣T1 ( x ) T2 ( x ) Tr ( x ) ⎤⎦
T

Teorema Neyman-Fisher se extinde și la cest caz. Astfel, dacă poate avea loc o
factorizare de forma

p ( x;θ ) = g ( T ( x ) ;θ ) h ( x )
atunci vectorul T(x) este un vector statistică suficientă pentru parametrul
vector θ

Reciproca teoremei este adevărată

23

Exemple de determinare a estimatorului MVU pentru cazul


parametrului vector θ

Vom considera un exemplu de semnal sinusoidal, afectat de un zgomot alb,


gaussian
x [ n ] = A cos 2π f 0n + w [ n ] ; n = 0,1,..., N − 1; w [ n ] ∼ N 0, σ 2 ( )
Parametrii necunoscuți sunt amplitudinea, frecvența (digitală) și puterea
zgomotului. Cei trei parametri necunoscuți sunt componente ale vectorului
T
θ = ⎡⎣ A f 0 σ 2 ⎤⎦
Vectorul de date are componentele gaussiene, IID, cu densitatea de repartiție

⎧ 1 N −1 2⎫
∑ ( x [ n] − A cos 2π f0 n )
1
p ( x;θ ) = exp ⎨ − 2 ⎬
⎩ 2σ
N
( 2πσ )
2 2 n =0 ⎭

24

12
Paranteza de la exponent se dezvoltă sub forma
N −1 N −1 N −1 N −1
∑ ( x [n ] − A cos 2π f0n ) ∑ x 2 [ n ] − 2 A ∑ cos 2π f 0n + A2 ∑ cos2 2π f 0n
2
=
n =0 n =0 n =0 n =0

Pentru determinarea estimatorului pentru vectorul θ vom proceda la o abordare


graduală
1) Dacă se cunoaște frecvența digitală, vectorul parametrilor necunoscuți va
avea doar două compponente
T
θ1 = ⎡⎣ A σ 2 ⎤⎦

Vom proceda la factorizarea Neyman-Fisher pentru acest caz de complexitate


mai redusă. Avem
p ( x;θ1 ) =
1 ⎪⎧ 1 ⎡ N −1 N −1 N −1 ⎤ ⎪⎫
exp ⎨− 2 ⎢ ∑ x 2 [ n ] − 2 A ∑ x [ n ] cos 2π f 0 n + A2 ∑ cos 2 2π f 0 n ⎥ ⎬ ⋅ 1
⎩⎪ 2σ ⎣ n =0
N
⎦ ⎭⎪ h( x )
( )
2πσ 2 2
n =0 n =0

g ⎛⎜ T( x ),θ ⎞⎟
⎝ ⎠ 25

Vectorul statisticilor suficiente are două componente (scalare)


⎡ N −1 ⎤
⎢T1 ( x ) = ∑ x [ n ] cos 2π f 0n ⎥
n =0
T (x) = ⎢ ⎥
⎢ N −1 ⎥


T 2 ( x ) = ∑
n = 0
x 2
[ ] ⎥
n

1.1) Vom arăta că prima componentă scalară a vectorului T(x) corespunde unei
statistici suficiente pentru amplitudinea A. Într-adevăr, dacă numai parametrul A
ar fi necunoscut, factorizarea Neyman-Fisher ar lua forma
1 ⎪⎧ 1 ⎡ 2 N −1 2 N −1 ⎤ ⎪⎫
p ( x; A ) = N exp ⎨ − 2 ⎢
A ∑ cos 2π f 0 n − 2 A ∑ x [ n ] cos 2π f 0 n ⎥ ⎬ ⋅
⎪⎩ σ ⎦ ⎭⎪
( ) ⎣ n =0
2 n =0
2πσ 2 2

(
g T '( x ); A )
⎧ 1 N −1 ⎫
exp ⎨− 2 ∑ x 2 [ n ]⎬
⎩ 2σ n =0 ⎭
h( x )
Din care rezultă că statistica suficientă pentru estimarea amplitudinii A este
N −1
T '(x) = ∑ x [ n] cos 2π f0 n ≡ T1 ( x )
n =0
26
statistică suficientă identică cu prima componentă a vectorului T(x)

13
Va trebui să găsim acea funție care face ca statistica suficientă pentru A să fie
nedeplasată, adică să aibă media statistică egală cu A. Avem
E { x [ n ]} = A cos 2π f0 n
și apoi
N −1
E {T ' ( x )} = ∑ E { x [ n]} cos 2π f0n
n =0
N −1
= A ∑ cos 2 2π f 0 n
n =0
din care rezultă că
⎧ ⎫
⎪⎪ T '(x) ⎪⎪
E ⎨ N −1 ⎬= A
⎪ cos 2π f 0 n ⎪
⎪⎩ n∑
2
=0 ⎪⎭
Prin urmare, estimatorul MVU pentru amplitudinea A a sinusoidei este
N −1
∑ x [ n] cos 2π f0n
n =0
Aˆ = N −1

n =0
cos 2 2π f 0 n 27

1.2) Dacă nici A nici dispersia nu se cunosc, vom lua în considerare și a doua
componentă a vectorului statistică suficientă, T(x). Media ei statististică este

⎧ N −1 ⎫ N −1
E {T2 ( x )} = E ⎨ ∑ x 2 [ n ]⎬ = ∑ E x 2 [ n ]
⎩ n =0 ⎭ n=0
{ }
∑ E {( A cos 2π f0n + w [n ]) }
N −1 2
=
n =0
N −1
= ∑ E { A2 cos2 2π f 0n + 2 Aw [ n ] cos 2π f 0n + w2 [n ]}
n =0

N −1
= ∑ ⎡ A2 cos 2 2π f n + 2 AE {w [ n ]} cos 2π f n + E {w2 [ n ]}⎤
n =0
⎣ 0 0 ⎦
N −1
= A2 ∑ cos2 2π f 0n +N σ 2 ≠ σ 2
n =0
28

14
Avem deja estimatorul pentru amplitudinea A. Momentul de ordinul doi al
acestuia se poate calcula aplicând definiția
⎧ N −1 N −1 ⎫
{ }
E Aˆ 2 =
1
2 E ⎨ ∑ ∑ x [n ] x [m ] cos 2π f 0n cos 2π f 0m ⎬
⎛ N −1 2 ⎞ ⎩ n =0 m =0 ⎭
⎜ ∑ cos 2π f 0n ⎟
⎝ n =0 ⎠
N −1 N −1
2 ∑ ∑ E {x [ n ] x [ m ]}cos 2π f 0n cos 2π f 0m
1
=
⎛ N −1 2 ⎞ n =0 m =0
⎜ ∑ cos 2π f 0n ⎟
⎝ n =0 ⎠
În formulă intră corelația datelor, care se determină tot prin calcul direct, ținând
seama de faptul că zgomotul w[n] este alb și are deci eșantioanele necorelate.
Avem
E {x [n ] x [m ]} = E {( A cos 2π f0n + w [n ]) ( A cos 2π f0m + w [m])}
= E { A2 cos 2π f 0n cos 2π f 0m} + E { Aw [ m ] cos 2π f 0n}
+ E { Aw [n ] cos 2π f 0m} + E {w [ n ] w [ m ]}
29
= A2 cos 2π f 0n cos 2π f 0m + σ 2δ n ,m

care substituită în expresia momentului de ordinul doi al estimatorului


amplitudinii conduce la relația

{ }
E Aˆ 2 =
1
2
⎛ N −1 ⎞
⎜ ∑ cos 2π f 0n ⎟
2
⎝ n =0 ⎠
N −1 N −1
⋅∑ ∑
n =0 m = 0
( A2 cos 2π f 0n cos 2π f 0m + σ 2δ n,m ) cos 2π f 0n cos 2π f 0m

1 ⎛ 2 N −1 2 N −1 N −1

=
− 2⎜

A ∑ cos 2π f 0 ∑
n cos 2
2π f 0 m + σ 2
∑ cos2 2π f 0n ⎟

⎛ N 1 ⎞ = = =
⎜ ∑ cos 2π f 0n ⎟
n 0 m 0 n 0
2
⎝ n =0 ⎠
1 ⎡ ⎛ N −1 ⎞
2 N −1 ⎤
= 2
⎢ A2
⎜ ∑ cos 2
2π f 0 ⎟ + σ ∑ cos 2π f 0n ⎥
n 2 2
⎛ N −1 2 ⎞ ⎢⎣ ⎝ n =0 ⎠ n =0 ⎥⎦
⎜ ∑ cos 2π f 0n ⎟
⎝ n =0 ⎠
σ2
= A2 + N −1

n =0
cos2 2π f 0n
30

15
Din ultima relație rezultă că
σ2
{ }
A2 = E Aˆ 2 − N −1
∑ cos2 2π f0n
n =0
formă ce se substituie în E{T2 }. Obținem
⎛ ⎞
⎜ ⎟
⎜ ⎟ N −1
σ 2

⎜ { }
E {T2 ( x )} = ⎜ E Aˆ 2 − N −1

⎟ ∑ cos2 2π f 0n + Nσ 2
⎜ ∑ cos2 2π f 0n ⎟ n =0
⎜⎜ n =0 ⎟⎟
⎝ A2 ⎠
⎧ N −1 ⎫
= E ⎨ Aˆ 2 ∑ cos2 2π f 0n + ( N − 1) σ 2 ⎬
⎩ n =0 ⎭
Comparând cei doi membri ai egalității de mai sus, rezultă că
N −1
T2 ( x ) = Aˆ 2 ∑ cos 2 2π f 0 n + ( N − 1) σ 2 31
n =0

Se explicitează, din această ultimă relație dispersia


N −1
1 ⎧ ⎫
T2' ( x ) = ⎨T2 ( x ) − Aˆ ∑ cos 2π f 0n ⎬ = σ
2 2 2
N −1 ⎩ n =0 ⎭
am definit astfel un estimator MVU pentru dispersie, deoarece

{ }
E T2' ( x ) = σ 2
Grupăm cei doi estimatori MVU găsiți, pentru amplitudine și pentru dispersie,
sub forma unui vector estimator cu două componente

⎡ N −1 ⎤
⎢ ∑
n =0
x [n ] cos 2π f 0n ⎥
⎢ ⎥
⎡ Aˆ ⎤ ⎢ ⎛ N −1 ⎞
2

θˆ 1 = ⎢ ^ ⎥ = ⎢ ⎜ ∑ cos 2π f 0n ⎟
2

⎢ 2⎥ ⎢ ⎝ n =0 ⎠ ⎥
⎣σ ⎦ ⎢
1 ⎡ N −1 2 N −1 ⎤⎥
⎢ ⎢ ∑ x [n ] − A ∑ cos 2π f 0n ⎥ ⎥
ˆ 2 2
⎢⎣ N − 1 ⎣ n =0 n =0 ⎦ ⎦⎥ 32

16
Rezultatul obținut se poate aplica imediat, dacă se cunoaște frecvența digitală
a sinusoidei. Pentru frecvență nulă se ajunge la modelul de semnal
componentă continuă, în care nu se cunosc amplitudinea acesteia și puterea
zgomotului alb
(
x [ n ] = A + w [ n ] ; n = 0,1,..., N − 1; w [ n ] ∼ N 0, σ 2
)
Vectorul parametrilor necunoscuți este
T
θ1 = ⎡⎣ A σ 2 ⎤⎦
Estimatorul vector MVU se obține din estimatorul stabilit anterior, punând
valoarea zero pentru frecvența digitală. Obținem estimatorul vector

⎡ 1 N −1 ⎤
⎡ Aˆ ⎤ ⎢ ∑ x [ n] ⎥
⎢ N = ⎥
θˆ 1 = ⎢ ^ ⎥ =
n 0
⎢ 2⎥ ⎢ 1 ⎛ − ⎥
ˆ2 ⎞
N 1
⎣⎢σ ⎦⎥ ⎢ ⎜ ∑ x [ n ] − NA ⎟ ⎥
2

⎣⎢ N − 1 ⎝ n =0 ⎠ ⎦⎥
33

în care
N −1
1
Aˆ =
N
∑ x [n] = x
n =0
și
^ 1 ⎛ N −1 2 2⎞
σ2 = ⎜ ∑ x [ n ] − Nx ⎟
N − 1 ⎝ n =0 ⎠
Această ultimă relație se mai poate modifica

1 N −1 1 ⎛ N −1 2 N −1 N −1
2⎞
∑ ( x [n ] − x ) = ⎜ ∑ x [n ] − 2 x ∑ x [n ] − ∑ x ⎟
2
N − 1 n =0 N − 1 ⎝ n =0 n =0 n =0 ⎠
1 ⎛ N −1 2 2⎞
= ⎜ ∑ x [ n ] − 2 xNx + Nx ⎟
N − 1 ⎝ n =0 ⎠

1 ⎛ N −1 2 2⎞
= ⎜ ∑ x [ n ] − Nx ⎟
N − 1 ⎝ n =0 ⎠ 34

17
Estimatorul dispersiei poate fi utilizat și sub forma, in care se calculează
puterea fluctuației în jurul mediei estimate, medierea fiind făcută prin împărțire
cu N-1 și nu cu N
^ 1 N −1
∑ ( x [n ] − x )
2
σ2 =
N − 1 n =0
O formă posibilă a vectorului estimator, larg utilizată în calculele statistice este
⎡ Aˆ ⎤ ⎡ x ⎤
⎢ ⎥= ⎢ ⎥
1 N −1
^ ⎢ ∑ ( x [n ] − x ) ⎥
2
⎢ 2⎥
σ
⎣ ⎦ ⎣ ⎢ N − 1 n =0 ⎥⎦
Semnal de tip componentă continuă necunoscută, afectată de un zgomot alb,
gaussian cu puterea necunoscută. Reluare
x [ n ] = A + w [ n ] ; n = 0,1,..., N − 1; w [ n ] ∼ N 0, σ 2 ( )
Am stabilit în modelul semnalului sinusoidal cu frecvența cunoscută că vectorul
statistică suficientă este
⎡ N −1 ⎤
⎢ 1
T ( x ) = ∑
n =0
x [ n ] cos 2π f 0n ⎥
T (x) = ⎢ ⎥
⎢ N −1 ⎥
⎢ T2 ( x ) = ∑ x 2 [ n ] ⎥ 35
⎣ n =0 ⎦

Anulând frecvența digitală se obține vectorul statistică suficientă pentru cazul


componentă continuă afectată de zgomot alb, gaussian
⎡ N −1 ⎤
⎢ ∑ x [ n] ⎥
n =0
T (x) = ⎢ ⎥
⎢ N −1 2 ⎥
⎢ ∑ x [ n ]⎥
⎣ n =0 ⎦
Mediind vectorul T(x) nu se obține vectorul θ adică componentele estimatorului
nu sunt de tip MVU
⎡ N −1 ⎤ ⎡ N −1 ⎤
⎢ ∑ E { x [ n ]} ⎥ ⎢ ∑=0 A ⎥ ⎡ NA ⎤ ⎡ A⎤
E {T ( x )} = ⎢
n = 0 ⎥=⎢ n ⎥=⎢ ⎥ ≠ ⎢ 2⎥
⎢ N −1
{ }
⎥ ⎢ N −1 2
⎢ ∑ E x [n ] ⎥ ⎢ ∑ A + σ
2
( 2
) ⎥ ⎣
(
⎥ ⎢ N A2 + σ 2 ) ⎥⎦ ⎣σ ⎦
⎣ n =0 ⎦ ⎣ n =0 ⎦
Prin mediere se stabilesc relațiile

⎧1 ⎫
E ⎨ T1 ( x ) ⎬ = E {x } = A
⎩N ⎭
E {T2 ( x )} = A2 + σ 2
1
36
N

18
Din a doua relație rezultă
⎧1 ⎫
E ⎨ T2 ( x ) − A2 ⎬ = σ 2
⎩N ⎭
relație ce sugerează că un estimator “bun” pentru dispersie ar putea fi expresia
1
T2 ( x ) − x 2
N
Media ei se determină cu
⎧1 ⎫ ⎧1 ⎫
E ⎨ T2 ( x ) − x 2 ⎬ = E ⎨ T2 ( x ) ⎬ − E x 2
⎩N ⎭ ⎩N ⎭
{ }
Media eșanion are repartiția normală
⎛ σ2 ⎞
x ∼ N ⎜ A, ⎟
⎝ N ⎠
Drept urmare momentul de ordinul doi al mediei eșantion este
σ2
E x{ }= A
2 2
+
N 37

Media estimatorului considerat a fi “bun” pentru dispersie devine deci


⎛ σ 2 ⎞ N −1 2
⎧1
( ) ⎫ 1
(
E ⎨ T2 x − x 2 ⎬ = N A2 + σ 2 − ⎜ A2 +
⎩N ⎭
) ⎟= σ
N ⎝ N ⎠ N
Din aceasta deducem că

⎧ 1 N ⎫
E⎨ T2 ( x ) − x2⎬ =σ 2
⎩ N −1 N −1 ⎭

ceeace înseamnă că estimatorul cu adevărat bun pentru dispersie este


^ 1 N −1
N
σ2 = ∑ x 2 [ n] − x2
N − 1 n =0 N −1
1 N −1
∑ ( x [n] − x )
2
=
N − 1 n =0
estimator găsit și mai înainte
38

19
Se specifică în literatura de specialitate că dacă datele x[n] au o repartiție
normală

(
x[ n ] ∼ N μ , σ 2
)
atunci variabila aleatore
2
N −1
⎛ x[n ] − x ⎞
y = ∑⎜ ⎟ ∼ χ N −1
2

n =0 ⎝ σ ⎠
are o repartiție “hi-pătrat” cu k=N-1 grade de libertate

***
În figura următoare se dau curbele densității de probabilitate pentru repartiții
hi-pătrat cu k=2,3...9 grade de libertate și pentru repartiții hi-pătrat cu
k=70, 80, 90 și 100 grade de libertate

39

40

20
Pe măsură ce crește numărul gradelor de libertate ale unei repartiții hi-pătrat,
aceasta se apropie tot mai mult de o repartiție normală, așa cum se poate
vedea și din figură

Media variabilei alatoare cu repartiție hi- pătrat, cu k grade de libertate este k


iar dispersia ei este 2k
Din expresia estimatorului dispersiei
^ 1 N −1 σ 2 N −1 ⎛ x[n ] − x ⎞
2
σ2 = ∑ ( x[ n ] − x ) = ∑
2
⎜ ⎟
N − 1 n =0 N − 1 n =0 ⎝ σ ⎠
se poate deduce că
N − 1 ^2 N −1 ⎛ x[n ] − x ⎞
2
σ = ∑⎜ ⎟ ∼ χ N −1
2
41
σ 2
n =0 ⎝ σ ⎠

Se poate scrie, ținând seama că dispersia repartiției hi-pătrat este 2(N-1) că


⎧⎪ N -1 ^ ⎫⎪ ( N -1)2 ⎧⎪ ^ ⎫⎪
Disp ⎨ 2 σ 2 ⎬ = Disp ⎨σ 2 ⎬ = 2 ( N -1)
⎩⎪ σ σ 4
⎭⎪ ⎩⎪ ⎭⎪
{ }
Disp χ N −1
2

din care rezultă că dispersia estimatorului pentru puterea zgomotului alb


gaussian este
⎧⎪ ^ ⎫⎪ 2σ 4
Disp ⎨σ 2 ⎬ =
⎪⎩ ⎪⎭ N -1
Eșantioanele de zgomot fiind necorelate elementele din matricea de covarianță
a estimatorului sunt nule, cu excepția celor de pe diagonala principală, care
sunt dispersiile celor doi estimatori, dispersii determinate de noi. Avem deci
⎡σ 2 ⎤
⎢ 0 ⎥
N
Cˆ = ⎢ ⎥
θ ⎢ 2σ 4 ⎥
⎢ 0 N -1 ⎥⎦

Anterior am stabilit că CRLB pentru puterea zgomotului alb este


4
CRLBσ 2 = 42
N

21
Dispersia estimatorului pe care l-am stabilit este ușor mai mare decât CRLB. El
este deci neeficient. Asimptotic însă poate fi considerat eficient
2σ 4 2σ 4
> = CRLBσ 2
N -1 N
Trebuie să menționăm că se putea găsi un vector statistică suficientă și direct,
pornind de la repartiția
⎧ 1 N −1 2⎫
∑ ( x [ n] − A)
1
p ( x;θ ) = exp ⎨− 2 ⎬
( 2πσ )
2 N /2 ⎩ 2σ n =0 ⎭

Suma de la exponent se dezvoltă după cum urmează


N −1 N −1
∑ ( x [n ] − A) ∑ ⎡⎣( x [n ] − x ) + ( x − A)⎤⎦
2 2
=
n =0 n =0
N −1 N −1 N −1
∑ ( x [n ] − x ) − 2 ( x − A) ∑ ( x [n ] − x ) + ∑ ( x − A)
2 2
=
n =0 n =0 n =0
N −1 N −1
∑ ( x [n ] − x ) − 2 ( x − A)( Nx − Nx ) + ∑ ( x − A)
2 2
=
n =0 n =0
N −1
∑ ( x [n ] − x ) + N ( x − A)
2 2
=
n =0 43

Substituim această dezvoltare în expresia repariției gaussiene și obținem


factorizarea
⎧⎪ 1 ⎡ N −1 2 ⎤⎫ ⎪
exp ⎨− 2 ⎢ ∑ ( x [ n ] − x ) + N ( x − A ) ⎥ ⎬ ⋅ 1
1
p ( x;θ ) =
2

( 2πσ ) 2 N /2 ⎪⎩ 2σ ⎣ n=0 ⎦ ⎪⎭ h( x )

(
g T '( x ),θ )

din care se deduc imediat cele două statistici suficiente, pentru media A și
pentru dispersie. Vectorul statisticilor suficiente este
⎡ x ⎤

T ' ( x ) = N −1 ⎥
⎢ ( x [ n ] − x )2 ⎥
⎢⎣ n∑
=0 ⎥⎦

44

22

S-ar putea să vă placă și