Sunteți pe pagina 1din 4

Teoria selecţiei.

Fie un experiment aleator căruia îi ataşăm variabila aleatoare (caracteristica) ξ . Dacă repetăm
experimentul de n ori în mod independent obţinem un şir de valori de observaţie ale variabilei aleatoare
ξ notate x1 ,..., xn .
Definiţia 1. Mulţimea valorilor de observaţie ale variabilei aleatoare ξ având funcţia de repartiţie F, se
numeşte selecţie de volum n efectuată asupra variabilei aleatoare ξ (mai precis asupra valorilor
variabilei ξ ) cu funcţia de repartiţie F.
Selecţia poate fi cu întoarcere sau fără întoarcere; în primul caz elementul extras din populaţie este
reintrodus la loc înainte de alegerea elementului următor, iar în al doilea caz elementele alese nu se mai
reintroduc în populaţia generală.
Dacă volumul populaţiei generale este suficient de mare, iar volumul selecţiei suficient de mic,
deosebirea dintre cele două tipuri de selecţie este foarte mică, iar în aplicaţii practice o selecţie fără
întoarcere este considerată ca selecţie cu întoarcere.
Vom spune că o selecţie este reprezentativă dacă toate valorile de selecţie x1 ,..., x n au aceeaşi probabilitate
de a intra în componenţa ei.
Funcţia de repartiţie de selecţie
Fie o variabilă aleatoare ξ cu funcţia de repartiţie F. Să presupunem că avem o selecţie x1 ,..., x n , de volum
n efectuată asupra lui ξ .
Definiţia 2. Dacă n x reprezintă numărul observaţiilor în care a apărut o valoare a caracteristicii ξ
mai mică decât x vom numi funcţie de repartiţie de selecţie, funcţia definită prin relaţia
n
Fn* ( x) = x . (1)
n
Legătura dintre funcţia de repartiţie teoretică şi funcţia de repartiţie de selecţie este dată de următoarea
teoremă a lui V. I. Glivenko, care ne furnizează şi justificarea teoretică a utilizării metodei selecţiei.
Teorema 1. Dacă volumul selecţiei n → ∞ mărimea
d n = sup Fn* ( x) − F ( x) (2)
−∞ < x < +∞
converge în probabilitate către zero.
Cu alte cuvinte, pentru n → ∞ frecvenţa relativă a evenimentului {ω ξ(ω) < x} (adică Fn* ( x ) ) converge
în probabilitate către probabilitatea acestui eveniment (adică F(x)).
Deci pentru n suficient de mare funcţia de repartiţie de selecţie ne dă o imagine suficient de precisă
despre funcţia de repartiţie teoretică.
Valori tipice de selecţie
Momente de selecţie. Numim moment de selecţie de ordinul r variabila aleatoare:
1 n
α r = ∑ xir (3)
n i =1
În particular, valoarea medie de selecţie este:
1 n
x = α1 = ∑ xi
n i =1
(4)

Momentul centrat de selecţie de ordinul r este:


1 n
µr = ∑ ( x i − x )r (5)
n i =1
Rezultă de aici dispersia de selecţie:
1 n
s2 = ∑ (xi − x )
2
(6)
n i =1
Teorema 2. Dacă repartiţia teoretică are medie m şi dispersia σ 2 , atunci media de selecţie are valoarea
σ2
medie m şi dispersia .
n
x −m
Teorema 3. Momentele centrate ale variabilei tind către momentele repartiţiei normale când
2σ / n
n → ∞.
Teorema 4. Valoarea medie şi dispersia momentului de selecţie de ordin r, α r , sunt respectiv α r şi
α 2 r − α 2r
.
n

4.3.2. Teoria estimaţiei

Să considerăm că avem o selecţie dintr-o populaţie dată a cărei funcţie de repartiţiei teoretică are o formă
matematică cunoscută, în care intră anumiţi parametri cu valori necunoscute. Există o infinitate de funcţii
de selecţie (statistici) care pot fi propuse ca estimaţii pentru parametrii necunoscuţi, dar trebuie alese
acelea care dau cea mai bună aproximare a parametrilor.
De exemplu, să presupunem că studiind un fenomen ajungem la concluzia că repartiţia lui este normală
( )
N m, σ 2 deci:
( x− m ) 2
1 −
f ( x) = e 2σ
2

σ 2π
Pentru aplicaţii practice trebuie să determinăm valorile numerice ale celor doi parametri m şi σ .
Repartiţia exprimată printr-o funcţie dată în care intră anumiţi parametri necunoscuţi se spune că este o
lege de repartiţie specificată.
Dacă cunoaştem valorile numerice ale parametrilor avem o lege de repartiţie complet specificată.
Deci o lege de repartiţie nespecificată corespunde unei legi de repartiţie necunoscute.
Determinarea valorilor parametrilor unei repartiţii specificate se face cu ajutorul unei selecţii de volum n
care conduce la valorile x1 ,..., x n legate de variabila studiată.
În cele ce urmează ne vom ocupa de repartiţii specificate care depind de un singur parametru. Deci
funcţia de repartiţie teoretică conţine un singur parametru necunoscut θ . O selecţie de volum n din
colectivitate ne-a dat estimaţia θ1* altă selecţie de volum n ne dă estimaţia θ 2* etc. Repetând procedeul
obţinem estimaţiile θ1* ,..., θ r* .
Deci o estimaţie θ * a lui θ poate fi privită ca o variabilă aleatoare cu valorile posibile θ1* ,..., θ r* .
Estimaţii consistente, corecte şi absolut corecte, nedeplasate, deplasate
Fie θ un parametru al colectivităţii generale (medie, dispersie, mediană etc.) şi θ * ( x1 ,..., xn ) o funcţie de
selecţie.
Definiţia 3. Dacă θ * ( x1 ,..., xn ) converge în probabilitate către parametrul θ , spunem că θ * este o
estimaţie consistentă a lui θ .
Definiţia 4. Dacă:
(
M θ * ( x1 ,..., xn ) = θ )
n→∞
2
(
lim D θ ( x1 ,..., xn ) = 0
*
) (7)

spunem că θ * ( x1 ,..., xn ) este o estimaţie absolută corectă a parametrului θ .


Teorema 5. Momentele de selecţie sunt estimaţii absolut corecte ale momentelor teoretice.
Teorema 6. Dispersia de selecţie este o estimaţie consistentă pentru dispersia teoretică.

Funcţii de estimaţie eficiente. Metoda verosimilităţii maxime

De multe ori o estimaţie nedeplasată nu ne dă cea mai bună aproximare a parametrului de estimat. Valorile
posibile ale estimaţiei lui θ pot fi mult împrăştiate în jurul valorii medii (dacă D 2 θ * este mare), iar ( )
estimaţia calculată de o selecţie dată poate fi îndepărtată de valoarea medie a lui θ , deci se face o eroare *

alegând θ * ca estimaţie pentru θ .


( )
Dacă θ * este o estimaţie absolut corectă pentru parametrul θ > 0 şi M θ * < ∞ atunci inegalitatea lui
Cebâşev:
D 2 (θ )
P(θ * −θ ≥ ε ) <
ε2
dă un criteriu pentru alegerea estimaţiilor şi anume: alegem acea estimaţie care are dispersia minimă.
Fie f ( x,θ ) o familie de densităţi de probabilitate ale unei repartiţii specificate continue, cu θ
parametrul real. Vom admite continuitatea funcţiilor f ( x,θ ) şi existenţa derivatelor acestor funcţii în
raport cu θ până la ordinele necesare calculelor.
( )
Teorema 7. (Rao-Cramer). Dacă θ * x1 ,..., x este o estimaţie absolut corectă a parametrului θ, atunci:

(
D 2 θ * (x1 ,..., xn ) ≥ )
  ∂ ln f ( x,θ )  2 
1
(8)
nM    
 ∂θ  

Egalitatea are loc dacă şi numai dacă există o constantă k, ce depinde de n şi θ , aşa încât, aproape
sigur:
∂ ln f ( xi ,θ )
[ ]
n

∑ = k θ * (x1 ,..., xn ) − θ .
i =1 ∂θ
Definiţia 5. O estimaţie absolut corectă θ * ( x1 ,..., xn ) a parametrului θ se numeşte estimaţie eficientă
dacă are dispersia minimă.
Dacă θ * este o funcţie de estimaţie absolut corectă, raportul:
1
  ∂ ln f ( x,θ ) 2 
nM     (9)
 ∂θ  
( )
en θ =* 
D θ
2 *
( )
se numeşte eficienţa lui θ .
( ) ( )
Se observă că: 0 ≤ en θ * ≤ 1 . Dacă en θ * = 1 , estimaţia este eficientă.

Teorema 8. Două estimaţii eficiente ale parametrului θ sunt egale aproape sigur.
Fie repartiţia de tip continu f ( x,θ ) unde θ poate lua orice valoare dintr-un interval I. Valorile de
selecţie x1 ,..., x n obţinute în urma a n extracţii independente din populaţie sunt variabile aleatoare
independente cu aceeaşi densitate de probabilitate f ( x,θ ) . Fiecare selecţie ( x1 ,..., xn ) o considerăm ca
un punct în spaţiul de selecţie n-dimensional R n , iar probabilitatea elementară a vectorului ( x1 ,..., xn )
este:
P(x1 ,..., xn ;θ )dx1 ,..., dxn = f (x1 ,θ )... f ( xn ,θ )dx1...dxn (10)
Definiţia 6. Funcţia P : R n × I → R se numeşte funcţie de verosimilitate.
Definiţia 6. Estimaţia θˆ(x1 ,..., xn ) se numeşte estimaţie de verosimilitate dacă θˆ este un punct de maxim
pentru funcţia de verosimilitate.
Rezultă că θˆ este o soluţie a ecuaţiei:
∂ ln P (x1 ,..., xn ;θ ) n ∂ ln f (xi ,θ )
=∑ =0 (11)
∂θ i =1 ∂θ
Ecuaţia (11) se numeşte ecuaţie de verosimilitate.
Teorema 9. Orice estimaţie eficientă a parametrului θ este o estimaţie de verosimilitate maximă.

S-ar putea să vă placă și