Sunteți pe pagina 1din 27

Probleme rezolvate de STATISTICA

2017 2018

Considerente generale.
În anumite domenii ale activit¼ aţii umane cum ar … biologia, medicina, agri-
cultura, economia, psihologia, sociologia etc. cunoaşterea unor date, in general
foarte numeroase, nu permite efectuarea de prognoze decât cu un anumit grad
de incertitudine; aceasta inseamna ca studiul acestor date va implica in mod
necesar teoria probabilit¼aţilor şi statistica matematic¼
a.
Statistica matematica are drept obiect gruparea, analiza şi interpretarea
datelor obtinute prin masurare, numarare sau observare din activitati, fenomene
sau procese cu desfasurare aleatorie astfel incat sa se poata desprinde concluzii
pe baza carora sa se ia cele mai bune decizii.
Studiul statistic al unui fenomen, proces, activitati etc. se face pe baza
datelor pe care acestea ni le "furnizeaza". Multimea acestor date constituie
ceea ce este cunoscut drept (o) populatie statistica.
Ca o prima lucrare de statistica aparuta pe teritoriul Romaniei poate …
considerata scrierea lui Dimitrie Cantemir "Descriptio Moldaviae"(1716). Ea
a fost elaborata la cererea Academiei din Berlin si continea toate cunostintele
acumulate in domeniu la acea data.

Populaţie statistic¼
a
De…niţie.
Numim colectivitate statistic¼a sau populaţie statistic¼a o mulţime C de ele-
mente care au tr¼as¼aturi esenţiale comune şi care pot constitui obiectul unei analize statistice.
O populatie statistica este cercetat¼ a din punctul de vedere al uneia sau al mai
multor caracteristici (propriet¼ aţi). Elementele colectivit¼aţii se numesc indi-
vizi sau unitati statistice, iar num¼ arul indivizilor unei colectivit¼aţi se va numi
volumul colectivit¼aţii. Se obisnuieste ca acest numar (volum) sa se noteze prin
jCj :
O trasatura comuna tuturor indivizilor dintr-o populatie care ne intereseaza
din punct de vedere statistic se numeste caracteristica: Aceasta poate … canti-
tativa sau calitativa.
Pentru o anumita populatie se poate face o analiza statistica dupa una sau
mai multe caracteristici. Caracteristicile cantitative se impart, in principiu, in
doua mari clase:
a) caracteristici discrete (au o multime …nita sau numarabila de valori);
b) caracteristici continue (au drept multime de valori un interval).
Exemple.
1. In proiectarea bugetului unei localitati se tine cont de numarul de locuitori
ai respectivei localitati. Deci putem considera drept populatie statistica multi-
mea localitatilor din Romania, …ecare localitate din tara noastra este o unitate

1
statistica, iar caracteristica studiata este numarul locuitorilor sai; este o carac-
teristica discreta.
2. Daca pentru …ecare localitate evidentiem caracterul sau rural sau urban
obtinem o caracteristica de tip calitativ.
3. Daca populatia statistica este formata din studentii anului I de la Fac-
ultatea de Biologie a Universitatii din Bucuresti, iar caracteristica avuta in
considerare este inaltimea …ecarui student aceasta este o caracteristica de tip
continuu. Fiecare student din anul I este o unitate statistica. Faptul ca un
student este baiat sau fata constituie o caracteristica de tip calitativ.

Orice caracteristica a unei populatii statistice este de fapt o variabila aleatoare.


Unul dintre obiectivele de baza ale unei cercetari statistice este de a stabili, pe
baza datelor obtinute, carei legei probabilistice ii apartine caracteristica avuta
in vedere in studiul nostru.
Un prim mod de a face o astfel de cercetare ar consta in luarea in consid-
erare a tuturor elementelor populatiei statistice, adica sa realizam o cercetare
completa, numita si totala. Cercetarea total¼ a (care se efectueaz¼ a, de exemplu,
sub form¼ a de recens¼amânt) este o operaţie complex¼ a, care de cele mai multe
ori priveşte mai multe caracteristici ale unit¼ aţilor statistice, pentru a realiza
o analiz¼ a multilateral¼
a. Practic o cercetare total¼ a se recomand¼ a numai atunci
când volumul populaţiei C nu este prea mare, pentru a evita cheltuieli ce pot
dep¼aşi avantajele concluziilor trase sau cand, din ratiuni de stat, desi costul
este foarte ridicat, o astfel de cercetare este absolut indispensabila. Dintr-o
multime de ratiuni (timp, cost, caracterul distructiv al operatiei de investigare,
imposibilitate …zica etc.) acest tip de cercetare practic nu se realizeaza de fapt.
Un alt mod de a realiza o cercetare statistica consta in alegerea aleatoare
a unei subcolectivitati reprezentative din populatia statistica supusa studiului,
numita selectie sau esantion si determinarea valorilor caracteristicii avute in
vedere pentru …ecare dintre unitatile sale statistice. Operatia de prelevare la
intamplare a elementelor din esantion se numeste sondaj.
Pentru ca o selectie sa posede o valoare cognitiva ridicata trebuie sa indeplin-
easca anumite conditii:
i) elementele care intra in selectie sa …e alese in mod aleator;
ii) …ecare individ din populatia statistica totala ar trebui sa aiba aceeasi
sansa de a … selectat pentru a face parte din esantion;
iii) structura esantionului sa re‡ecte cat mai …del structura populatiei totale;
acest fapt va face ca selectia sa …e reprezentativa si deci informatiile si parametrii
obtinuti sa …e adecvati pentru obtinerea de concluzii corecte si rezultate utile
privind intreaga populatie.
iv) volumul esantionului sa …e su…cient de mare.
Sa retinem totusi ca ultima conditie nu este catusi de putin su…cienta pentru
a asigura veri…carea celorlalte trei.
Se accepta faptul ca un esantion reprezentativ va da informatii utile despre
intreaga populatie din care a fost extras. In conditii precise aceasta presupunere
se poate justi…ca in mod riguros din punct de vedere matematic.

2
Construirea eşantionului (subpopulaţiei de selecţie) se face cu unit¼ aţi din
populaţia C, alese dup¼ a o anumit¼ a tehnic¼a (dup¼ a anumite reguli) numit¼ a operaţie
de sondaj.
În efectuarea unui sondaj întâlnim dou¼ a metode de baz¼ a:
a) Sondaj cu revenire (sondaj non-exhaustiv):
Fiecare unitate de sondaj extras¼ a din C pentru a … studiat¼ a, se reintroduce
în C, dup¼ a cercetare, putând deci s¼ a apar¼a din nou în procesul de construcţie a
eşantionului .
Efectuarea sondajului cu revenire are ca schem¼ a probabilistic¼
a urna lui Bernoulli
(urna cu bil¼a revenit¼a).
În acest caz vom spune c¼ a s-a efectuat o selecţie repetat¼a de volum n. Son-
dajele astfel efectuate sunt:
N Echiprobabile;
N Valorile de selecţie astfel obţinute sunt independente.
b) Sondaj f¼ar¼a revenire (sondaj exhaustiv):
Fiecare unitate de sondaj extras¼ a din C pentru a … studiat¼ a nu mai este
reintrodus¼ a în C dup¼ a studiere (cercetare).
Efectuarea sondajului f¼ ar¼a revenire are ca schem¼ a probabilistic¼ a schema
urnei cu bil¼a nerevenit¼a.
În acest caz vom spune c¼ a s-a efectuat o selecţie nerepetat¼ a de volum n.
OBSERVAŢIE.
Aplicarea selecţiei nerepetate nu are sens decât în cazul când volumul pop-
ulaţiei C este …nit. Valorile de selecţie astfel obţinute sunt dependente.
Selecţia repetat¼
a şi selecţia nerepetat¼ a sunt aplicate colectivit¼aţilor omogene.
DEFINIŢIE.
O colectivitate este omogen¼a dac¼ a este constituit¼ a din elemente care sunt
susceptibile de a avea sau de a nu avea caracteristica studiat¼ a, cu o aceeaşi
pondere.
În cazul când sondajul se efectueaz¼ a dintr-o populaţie omogen¼ a, el se numeşte
sondaj simplu (selecţie simpl¼a) .
În cazul când populaţia C nu este omogen¼ a din punct de vedere al carac-
teristicii (al propriet¼
aţii) cercetate dar poate … împ¼ arţit¼
a în subpopulaţii Ci ,
1 i m; …ecare în parte omogen¼ a, ca nişte straturi ale populaţiei C, se va
efectua aşa numita selecţie strati…cat¼a.
Exista doua tipuri importante de selectii:
a) selectie repetata sau selectie bernoulliana in care elementul extras este
reintrodus, dupa examinare, in populatia statistica inainte de efectuarea urma-
toarei extrageri;
b) selectie nerepetata, adica o selectie in care elementele alese nu revin in
populatia statistica respectiva.
In cazul in care volumul esantionului este mult mai mic decat volumul popu-
latiei totale se poate considera ca si selectia nerepetata se comporta ca o selectie
cu repetitie.

3
Fie X o caracteristic¼ a a populaţiei statistice considerate. Aceast¼a caracteris-
tic¼
a asociat¼a primului experiment se noteaza cu X1 : In cazul in care se asociaza
celui de-al doilea experiment se va nota cu X2 si asa mai departe pana se obtine
caracteristica Xn : In acest fel X1 ; X2 ; :::; Xn sunt variabile aleatoare independente
si la fel repartizate cu variabila aleatoare X: Ele poarta denumirea de carac-
teristici asociate sau variabile aleatoare asociate. Orice realizare a vectorului
aleator (X1 ; X2 ; :::; Xn ) cu componentele v.a. independente si la fel repartizate
va … notata fx1 ; x2 ; :::; xn g si se va numi selectie (= esantion) de volum n:
Cercetarea statistica prezinta doua aspecte:
1) descrierea statistic¼a, numit¼ a şi statistic¼a descriptiv¼a;
2) inferenţa statistic¼a.

Prelucrarea statistic¼a primar¼a a unui set de date.


Se parcurg cei 10 (zece) paşi, dupa schema prezentata la seminar. Fiecare
pas tratat corect primeste 1 punct.
Observaţie.
Aceasta prima problema este obligatorie !!!!!

Se considera setul de date (numere reale)

e := [e
D e2 ; :::; x
x1 ; x eN ]

obtinute in urma "m¼ asur¼arii" unei anumite caracteristici X asupra unei anumite
populatii (statistice); de fapt, din mai multe motive, m¼ asur¼
atorile efective se fac
(numai) asupra unui eşantion reprezentativ din populaţie.
S¼a remarc¼ am faptul c¼aD e nu este neap¼arat o mulţime de numere, deoarece
unele valori se pot repeta (ceea ce nu se intampla in cazul unei multimi). Mai
degrab¼ aDe este o colectie de numere. Aşa se explica de ce am evitat sa utilizam
parantezele acolade; acestea sunt asociate, in mod traditional, cu multimile, iar
elementele unei multimi sunt in mod necesar, prin de…nitie, distincte.
Vrem sa obţinem anumite informaţii asupra populatiei dintr-o analiza sta-
tistica, chiar si elementara, efectuata asupra setului de date.
Prelucrarea statistica elementara efectuata asupra acestui set de date pre-
supune parcurgerea unui numar de paşi succesivi efectuati intr-o ordine deter-
minat¼ a.
Pasul 1.
Se ordoneaz¼a setul de date cresc¼ator, repetând, la nevoie, …ecare valoare de
atâtea ori de câte ori apare in setul initial de date.
Se obtine sirul crescator de date:

e(1)
x e(2)
x ::: e(N ) ;
x

4
unde 8
>
> e(1)
x = min [e e2 ; :::; x
x1 ; x eN ];
>
>
>
> e
x = min([e x1 ; xe2 ; :::; x
eN ]n[e x(1) ]);
< (2)
::: ::: ..............................
>
> e(i)
x = min([e x1 ; xe2 ; :::; x
eN ]n[e x(1) ; :::;e
x(i 1) ]
>
>
>
> ::: ::: .................................
:
e(N )
x = min([e x1 ; xe2 ; :::; x
eN ]n[e x(1) ; :::;e
x(N 1) ]:
e(N ) = max [e
De fapt, x e2 ; :::; x
x1 ; x eN ]:
Pasul 2.
Se elimina datele aberante. De multe ori, datorita unor accidente aparute in
timpul experimentului/elor ori datorita unor erori inerente procesului de inreg-
istrare a unui numar mare de date sau din alte cauze, obiective sau subiective,
unele dintre datele din setul D e nu reprezinta valori reale ale unor m¼ asur¼
atori
efectuate cu caracteristica X asupra populatiei a‡ate in studiu, ci valori "aber-
ante" ce nu-si au locul in setul de date. Pentru ca rezultatele prelucrarii statistice
sa …e relevante si conforme cu realitatea asemenea date trebuie eliminate din
setul de date ce urmeaza a … prelucrate. Este evident ca primele date vizate
de caracter aberant sunt x e(1) si x e(N ) : Exista teste speciale, destul de so…sticate,
care permit stabilirea caracterului aberant al unor asemenea date. Noi vom
veri…ca din "ochi" caracterul aberant al unora dintre date si le vom elimina.
De exemplu, daca greutatile (masurate in kilograme) a zece studenti sunt:

[59; 65; 63; 5; 37; 70; 68; 74; 152; 54; 68]

dupa ordonare obtinem sirul ordonat crescator:

[37; 54; 59; 63; 5; 65; 68; 68; 70; 74; 152]:

Evident, ne "sare in ochi" caracterul "aberant" al valorilor 37 si 152: In mod


normal aceste valori trebuie eliminate.
e = [e
In continuare vom considera c¼a din setul initial de date D e2 ; :::; x
x1 ; x eN ]
au fost eliminate datele aberante. Sa admitem ca au fost eliminate m date si sa
notam n = N m: Vom nota cu

D = [x(1) ; :::; x(n) ]


setul de date nou obtinut. Sirul crescator asociat setului D va …, dupa o renotare,
urmatorul:
x1 x2 ::: xn :
Asadar,
D = [x1 ; :::; xn ]

Pasul 3.
Se determina volumul selectiei, adica numarul total de date ce urmeaza a
… analizate. Atragem atentia ca …ecare data din setul D trebuie numarata (de
atatea ori) de cate ori apare in setul de date. In cazul nostru jDj = n:

5
In continuare se determina cei mai importanti indicatori de pozitie (nu-
miti si indicatori pe orizontala). Un asemenea indicator ne poate arata (intr-un
mod relevant) modul in care se pozitioneaza un numar mare de date fata de o
anumita "pozitie centrala" asociata respectivului set de date.
Cel mai important indicator de pozitie se obtine la:
Pasul 4.
Se determina Media de selectie.
x1 + ::: + xn x(1) + ::: + x(n)
x= = :
n n
Media este foarte importanta din punct de vedere teoretic, dar si practic.
Din pacate ea poate … puternic in‡uentata de aparitia in setul de date a unor
eventuale date aberante care nu au putut insa … "detectate".
Un alt indicator important de pozitie se obtine la:
Pasul 5.
Se determina mediana (selectiei).
Aceasta este
8
< x(k+1) ; daca n = 2k + 1;
M e(D) :=
: xk + x(k+1)
2 ; daca n = 2k:
Aceasta marime este importanta din punct de vedere practic. Merita a …
subliniat faptul ca ea nu este in‡uentata de valorile aberante.
N
In cazul seturilor de date cu volum mare un rol important il pot juca si
cvartilele.
Se determina cvartilele (setului de date). Pentru aceasta se imparte inter-
valul de variatie [x1 ; xn ] in patru parti egale astfel:

Q1 = Mediana[x1 ; M e(D)]
Q2 = Me :
Q3 = Mediana[M e(D); xn ]

In continuare se determina cei mai importanti indicatori de variatie (nu-


miti si indicatori pe verticala).
Acestia ne pot indica modul in care se abat datele din set fata de indicatorii
de pozitie.
Printre cei mai importanti indicatori de variatie se numara amplitudinea si
dispersia de selectie.
Pasul 6.
Se precizeaza mai intai intervalul de variatie a datelor (intervalul cel mai
mic care contine toate datele din setul de date analizat).
In cazul nostru acest interval va …:

[x1 ; xn ]:

6
Apoi se determina amplitudinea selectiei.
a = xn x1 :
Acest indicator ofera o informatie relevanta in cazul in care este "mic".
Cel mai important indicator de variatie se obtine la
Pasul 7.
Se detemina dispersia de selectie.
n
1X
S2 = (xk x)2 :
n
k=1


arimea v
u n
p u1 X
S= S2 = t (xk x)2
n
k=1

se numeşte abaterea medie p¼atratic¼a de selectie.


Relevanţa deosebit¼
a a acestui indicator este pus¼
a clar in evident¼
a de urm¼
a-
toarea
Observaţie.
Pentru orice y 2 R avem:
n
1X
(xk y)2 S2:
n
k=1

Pasul 8.
Se determina funcţia empiric¼a de repartiţie.
Fn : R ! [0; 1]
este data prin:
(x)
Fn (x) = ;
n
unde
(x) = cardf1 i n j xi < xg := jf1 i n j xi < xgj = :
Reamintim ca pentru o multime …nita A prin jAj am notat cardinalul lui A;
adica numarul de elemente ale lui A:
Dac¼a setul D contine k date distincte: x1 < x2 < ::: < xk ; x1 avand multi-
plicitatea n1 (numarul de aparitii, cu repetitie, ale valorii x1 = x1 in setul D),
..., xk (= xn ) avand multiplicitatea nk ; cu n1 + ::: + nk = n; atunci functia de
repartitie empirica asociata setului de date a‡at in studiu este data de:
8
>
> 0 ; x x1 ;
> n1
> ; x1 < x x2 ;
< n
Fn (x) = :
>
> n1 +:::+nk 1
>
> ; xk 1 < x xk
: n
1 ; xk < x

7
Sa observam ca daca avem in vedere matricea
x1 x2 ::: xn
1 1 1 ;
n n ::: n

atunci exista o variabila aleatoare X care admite matricea de mai sus ca matrice
de repartiţie. In ipotezele de multiplicitate de mai sus putem scrie matricea de
repartitie de mai inainte sub o forma contractata:

x1 x2 ::: xk
X! n1 n2 nk :
n n ::: n

Atunci functia Fn coincide cu functia de repartitie a variabilei aleatoare X:


N
Importanta functiei empirice de repartitie este data de faptul ca daca F :
R ! [0; 1] este functia de repartitie teoretica a caracteristicii X atunci

sup jFn (x) F (x)j ! 0;


x2R n!1

aproape sigur (teorema lui Glivenko).


Prin urmare, oriunde vom avea nevoie de functia de repartitie F a v.a. X
vom putea folosi functia de repartitie empirica Fn :
Pasul 9.
Se imparte intervalul de variatie al datelor in subintervale de lungimi egale,
in numar de r; unde
r := 1 + [log2 n]:
Am notat, in mod traditional, cu [log2 n] partea intreaga a numarului real
log2 n; adica cel mai mare numar intreg m cu proprietatea ca

m log2 n < m + 1:

Ideea utilizarii unui logaritm cu baza 2 provine dintr-o ramur¼


a a matematicii
numit¼
a teoria informaţiei.
Sa observam ca un interval, din cele mentionate, va avea lungimea
xn x1 a
h= = :
1 + [log2 n] r
Pentru a usura calculele noi vom alege de …ecare data volumul populatiei
din esantion de forma n = 2k ; k 2 N ; k 3; cand vom obtine log2 n = k 2 N :
Vom obtine intervalele:
8
>
> I1 = [x1 ; x1 + h)
>
>
< I2 = [x1 + h; x1 + 2h)
:
>
>
>
> Ir 1 = [x1 + (r 2)h; x1 + (r 1)h)
:
Ir = [x1 + (r 1)h; x1 + rh] = [xn h; xn ]

8
Sa retinem ca:
I1 [ I2 [ ::: [ Ir = [x1 ; xn ]
si
Ip \ Iq = ?; 81 p<q n:
Pasul 10.
Se traseaza histograma.
Conform dictionarelor o histograma ar … un gra…c care reprezint¼ a, prin drep-
tunghiuri, o distribuţie statistic¼
a.
Fie n1 numarul de date din setul D care se a‡a in intervalul I1 ; n2 numarul de
date care se a‡a in intervalul I2 ; :::; nr numarul de date care se a‡a in intervalul
Ir : Asadar nj reprezinta frecventa absoluta a intervalului Ij (numarul de date
din set care se a‡a in Ij ); 81 j Pr:
r
Este evident ca 0 nj n şi j=1 nj = n:
Pentru a obtine histograma asociata datelor x1 ; :::; xn vom trasa, intr-un
sistem ortogonal de axe, dreptunghiurile, cu bazele de lungimi egale,

Dj = Ij [0; nj ]; 1 j r

si apoi le hasuram. Histograma este tocmai reuniunea celor r dreptunghiuri


hasurate. In limba greaca histos inseamna tesut.
Exemplu.
Se considera setul de date: 111 = 112 = 115 = 61=112 = 109 = 110 =195= 114
= 112:

a reţinem c¼
a în acest caz N = 10:
1) In ordine cresc¼
atoare datele vor …:

61 < 109 =110 = 111 = 112 = 112 =112 = 114 = 115 < 195:

e(1) = 61 si x
2) Se observa ca x e(10) = 195 reprezinta abateri mari fata de
restul datelor. Le vom considera ca …ind erori grosolane si le vom elimina. Ne
ramane setul de date

D = [109 ; 110 ; 111 ; 112 ; 112 ; 112 ; 114 ; 115]:

3) Este evident ca n = jDj = 8:


4) Media de selectie (empirica) va …
109 + 110 + 111 + 112 + 112 + 112 + 114 + 115
x= =
8
(109 + 110) + (111 + 114) + 3 112 + 115
= =
8
219 + 225 + 115 + 336 895
= = = 111; 875 ' 112:
8 8
Asadar, pentru a nu ingreuna calculele, vom utiliza aproximarea x ' 112:

9
5) Mediana setului de date M e(D) va … o valoare care separa datele in doua
seturi de volume egale. Cum noi avem 8 date, inseamna ca …ecare set va contine
4 date.

109 < 110 111 < 112


|{z} M e(D) 112
|{z} 112 < 114 < 115:
data nr. 4 data nr. 5

Rezulta ca M e(D) = 112:


Intrucat x ' M e(D) inseamna ca acest set de date este bine centrat.
6) Este clar ca intervalul de variaţie a datelor este [109; 115]; prin urmare,
amplitudinea a a setului D va …

a(D) = 115 109 = 6:

Cum aceasta marime este destul de mica daca o comparam cu datele de-
ducem ca setul de date prezinta o variabilitate destul de mica.
7) Dispersia de selectie va …
1
S2 = [(109 112)2 + (110 112)2 + (111 112)2 + 3 02 +
8
1
+(114 112)2 + (115 112)2 ] = [( 3)2 + ( 2)2 + ( 1)2 + 3 02 +]
8
9+4+1+0+4+9 27
+22 + 32 ] = = :
8 8
Asadar, r r
27 3 3
S= = :
8 2 2
8) Functia empirica de repartitie F8 coincide cu functia de repartitie teoretica
a v.a. discrete repartizata uniform:

109 110 111 112 112 112 114 115


! 1 1 1 1 1 1 1 1 :
8 8 8 8 8 8 8 8

Întrucât valoarea 112 apare de trei ori acestei variabile aleatoare îi core-
spunde forma "contractat¼
a":

109 110 111 112 114 115


! 1 1 1 3 1 1 :
8= p1 8 = p2 8 = p3 8 = p4 8= p5 8= p6

Dac¼
a ţinem cont c¼
a

R = ( 1; 109] [ (109; 110] [ (110; 111] [ (111; 112][

[(112; 114] [ (114; 115] [ (115; +1)

10
şi de faptul c¼a F8 (x) := P ( < x); x 2 R; vom obţine:
8
>
> 0 ; x 109;
>
>
>
> p 1 = 1=8 ; 109 < x 110;
>
>
< 1 p + p 2 = 2=8 ; 110 < x 111
F8 (x) := p1 + p2 + p3 = 3=8 ; 111 < x 112 :
>
>
> p1 + p2 + p3 + p4 = 6=8
> ; 112 < x 114
>
>
>
> p 1 + p 2 + p 3 + p 4 + p 5 = 7=8 ; 114 < x 115
:
1 ; 115 < x

Reprezentarea gra…c¼
a este cea din desenul de mai jos:

9) Împ¼arţirea intervalului de variaţie în subintervale de lungimi egale.


Intrucat, în cazul nostru, n = 8 = 23 rezult¼ a

log2 8 = log2 23 = 3 log2 2 = 3 1 = 3

şi, prin urmare, r = 1 + 3 = 4:


Aşadar, lungimea unui subinterval va …:
115 109 6 6
h= = = = 1; 5:
1 + log2 23 1+3 4
Se obţin intervalele:

I1 = [109 ; 110; 5) ; I2 = [110; 5 ; 112) ; I3 = [112 ; 113; 5) ; I4 = [113; 5 ; 115]:

De aici se g¼
asesc uşor frecvenţele absolute ale acestor intervale, adic¼
a num¼ arul
de date din …ecare subinterval. In primul rând n1 = 1; pentru c¼ a în intervalul
I1 = [109; 110; 5) se a‡a¼ doar data 109: Întrucât în intervalul I2 se a‡a¼ datele
110 şi 111; deducem c¼ a n2 = 2:
Apoi, 112 apare de trei ori în I3 = [112; 113; 5) şi deci n3 = 3: În …ne, în
ultimul interval I4 = [113; 5; 115] se a‡a¼ datele 114 şi 115: Aşadar, n4 = 2:

11
Este clar c¼
a
n1 + n2 + n3 + n4 = 1 + 2 + 3 + 2 = 8:
Se obţine histograma din …gura urm¼
atoare:

Moda este data de subintervalul Ij cu cel mai mare nj :In cazul nostru se
observa ca intervalul I3 constituie moda.
N
Mai departe se pot realiza alţi paşi care conduc la o prelucrare statistic¼ a superioar¼
a
a datelor. Printre aceştia amintim:
11) Alegerea unei repartiţii probabiliste teoretice de referinţ¼ a.
12) Analiza concordanţei dintre repartiţia empiric¼ a şi repartiţia teoretic¼
a
aleas¼
a.
13) Determinarea parametrilor prin estimaţii punctuale sau intervale de
estimare.
14) Efectuarea unor teste de comparare a populaţiilor.
15) Efectuarea unor teste de concordanţ¼ a.
16) Eliminarea datelor afectate de erori grosolane, de exemplu prin testul
lui Grubbs.
17) Veri…carea unor ipoteze.
18) Compararea a dou¼ a sau mai multe proporţii.
19) Experimentare statistic¼ a.
20) Analiza dispersional¼ a.
21) Problema legaturii variabilelor. Corelatie si regresie.
22) Efectuarea unor prognoze.
23) Concluzii.
24) Comentarii.

12
Parcurgerea efectiv¼a a paşilor 11) - 24) presupune cunoştinţe superioare
şi aprofundate de teoria probabilit¼ aţilor precum şi de statistic¼a matematic¼ a de
înalt nivel.
Noi ne vom mulţumi cu ceea ce se numeşte statistic¼ a elementar¼ a, iar acest
fapt presupune numai parcurgerea primei "jum¼ at¼
aţi" a itineratiului statistic de
mai sus,adic¼a doar paşii 1) -10).
De exemplu, aşa cum se vede din histograma de mai jos, desenul ne "sug-
ereaz¼a" c¼
a ar … vorba de o repartiţie normal¼ a. Prin urmare va trebui s¼ a deter-
min¼ am, dintr-un eşantion reprezentativ de date, cei doi parametri, m şi > 0;
care caracterizeaz¼
a o asemenea repartiţie.

13
Tem¼ a.

a se prelucreze statistic elementar urm¼
atorul set de date:
e = [755; 751; 752; 687; 752; 754; 749; 797; 752; 751]
D 100m:

Reamintim c¼
a m 2 f1; 2; 3; 4g este num¼
arul de ordine asignat …ec¼
arui stu-
dent.

II. Sondaje

a consider¼am o populaţie statistic¼
a de volum N c¼ areia îi cerem "opinia" (in
termeni dichotomici de DA sau NU ) in privinţa realiz¼ arii unui anumit eveni-
ment A: Ne-ar interesa numarul raspunsurilor "pozitive" de DA. Din motive
legate de costuri, timp, e…cienta etc. nu este posibila "interogarea" tuturor
"indivizilor" din respectiva populatie. Se dovedeste ca este mult mai avantajos
sa se efectueze un sondaj pe un esantion "reprezentativ", ales la "intamplare"
(aceasta inseamna ca "persoanele" din esantion trebuie sa …e independente, din
"medii", "varste", "cartiere", "regiuni" etc. diferite). Daca se intampla asa ceva
si daca volumul esantionului n este su…cient de mare, iar numarul de raspunsuri
DA, in urma efectuarii sondajului, este m atunci raportul m n = p ar trebui sa
reprezinte probabilitatea ca raspunsul in privinta realizarii evenimentului A; dat
de un anumit individ din intreaga populatie statistica, sa …e DA.
De obicei realizarea unui sondaj cere precizarea unui prag 2 (0; 1) al erorii
(de regula este su…cient sa cerem ca eroarea sa …e sub 3%), ceea ce inseamna ca
probabilitatea de succes sa …e 1 :
Sa presupunem ca "indivizii" din populatia statistica investigata sunt iden-
ti…cabili prin cate o eticheta data de un numar natural j cuprins intre 1 si N:
Daca j este variabila aleatoare care ia valoarea 1 in cazul in care "individul"
cu numarul j raspunde DA la "intrebare" si valoarea 0 in caz contrar, atunci

14
aceste variabile aleatoare sunt independente si la fel repartizate:

1 0
j ! ;
p q

unde q = 1 p: Stim ca M ( j ) = p; D( j ) = M ( 2j ) [M ( j )]2 = p p2 = pq:


In plus v.a. sN = 1 + ::: + N reprezinta numarul de "r¼aspunsuri" DA. Dac¼ a
alegem b > 0 astfel incat

2 (b ) 1=1 ;

adica b este solutia pozitiva a ecuatiei (b ) = 1 =2 atunci


p p
P (N p b N pq sn N p + b N pq) = 2 (b ) 1 = 1 :

Altfel spus p p
sN 2 [N p b N pq; N p + b N pq];
cu o eroare sub 100%:
De exemplu, in cazul = 0; 05 rezulta b0;05 = 1; 96: Prin urmare, cu o eroare
sub 5% avem:
p p
sN 2 [N p 1; 96 N pq; N p + 1; 96 N pq]:

Analog, in cazul = 0; 03 deducem ca b0;03 = 2; 17: Asadar, cu o eroare sub


3% rezulta: p p
sN 2 [N p 2; 17 N pq; N p + 2; 17 N pq]:
In …ne, daca = 0; 01 obtinem b0;01 = 2; 58: Asadar, cu o eroare sub 1%
avem: p p
sN 2 [N p 2; 58 N pq; N p + 2; 58 N pq]:
Exemplu.
Dintr-un sondaj realizat in Bucuresti pe un esantion reprezentativ format din
10 000 de persoane a rezultat ca 6 000 de locuitori doresc cresterea suprafetei
verzi pe cap de locuitor. Ne propunem sa estimam, cu eroare sub 3% ; câţi
dintre cei 2 000 000 de locuitori ai capitalei vor sa se mareasca suprafata verde
6 000
a orasului. In acest caz p = 10 000 = 0; 6 si q = 0; 4. Apoi N = 2 000 000: Prin
urmare, intrucat
p
2 000 000 0; 6 2; 17 2 000 000 0; 6 0; 4 = 1 200 000 1 504 = 1 198 496

si
p
2 000 000 0; 6 + 2; 17 2 000 000 0; 6 0; 4 = 1 200 000 + 1 504 = 1 201 504

rezulta
s2 000 000 2 [1 198 496; 1 201 504];
cu o eroare de cel mult 3%:

15
III. Aplicatie in biologie.
Fie E un experiment in cadrul caruia se urm¼ areste realizarea unui anumit
eveniment "distins" A: Intrucat experimentul are un caracter aleatoriu, nu este
sigura obtinerea lui A intr-o singura proba. Prin urmare se realizeaza, in conditii
identice, mai multe probe, pentru a mari sansele de obtinere a evenimentului
dorit. In primul rand ne-ar interesa determinarea probabilitatii teoretice P (A) =
p 2 (0; 1): Inseamna ca

P (Ac ) = 1 P (A) = 1 p := q:

Vom nota cu i variabila aleatoare care ia valoarea 1 daca in proba cu nu-


marul i se realizeaza evenimentul special A si valoarea 0 in caz contrar, adica
in cazul realizarii evenimentului contrar Ac : Prin urmare repartitia v.a. i va …
de tip Bernoulli:
1 0
i ! p q
:

Se stie ca M ( i ) = p si D( i ) = pq:
Intrucat, prin ipoteza, probele se realizeaza in conditii identice, v.a. i si j ;
pentru i 6= j; sunt independente (chiar …zic independente, deoarece rezultatul
unei probe nu poate in‡uenta in vreun fel rezultatul celeilalte probe).
Asadar se obtin v.a. 1 ; :::; n ; peste acelasi camp de probabilitate, la fel
repartizate si independente (doua cate doua).
Inseamna ca variabila aleatoare sn := 1 + ::: + n va descrie numarul de
realizari ale lui A in cele n probe. Se mai numeste si numarul de succese (in cele n
probe), de unde se explica si notatia. Prin urmare M (sn ) = np si D(sn ) = npq:
Conform legii numerelor mari media empirica

p^n := sn =n = ( 1 + ::: + n )=n

va converge, in probabilitate, la media teoretica p = M (^


pn ):
Ne intereseaza sa a‡am care ar trebui sa …e un numar su…cient de efectuari
ale experimentului pentru ca, cu un coe…cient de incredere mai mare de 1
(sau, echivalent, cu o eroare sub 100 %) eroarea absoluta j^ pn pj sa …e mai
mica decat un " > 0; dat apriori.
Mai clar spus, pentru un " > 0 si un 2 (0; 1) date, vrem sa determinam
n = n"; 1 astfel incat
j^
pn pj ";
cu o eroare sub 100 % ; adica,

P( " p^n p ") 1

Observam ca se poate aplica teorema limita centrala, in varianta lui de


Moivre. Mai precis, pentru n 1; vom avea:
sn np
P( B p B) = 2 (B) 1:
npq n 1

16
Avand in vedere ca
sn np p^n p
p =p
npq pq=n
deducem ca
!
" p^ p "
P( " p^n p ") = P p pn p =
pq=n pq=n pq=n
" "
= 2 (p ) 1 1 () (p ) 1 =2:
pq=n pq=n
Intrucat 1 =2 2 (0; 1) exista si este unic un numar z > 0 astfel incat
(z ) = 1 =2 : Asadar va trebui sa alegem n astfel incat
" Functia este "
(p ) (z ) () p z () n pq(z =")2 :
pq=n strict crescatoare ! pq=n

Avand in vedere ca pq 1=4 , vom avea


" p crescatoare " p
p 2" n () (p ) (2" n)
pq=n pq=n

Prin urmare, va … su…cient sa alegem n astfel incat


p p z 2
(2" n) (z ) () 2" n z () n :
2"
Asadar vom lua
n"; := (z =2")2 + 1:

Caz particular.
Vom lua " = 0; 03 si = 0; 05: Inseamna ca 1 =2 = 1 0; 025 = 0; 975 =
(1; 96); adica z0;975 = 1; 96:
Vom obtine
2 2 2
1; 96 196 98 2
n= = = = [33 1=3] :
2 0; 03 2 3 3

Pentru a evita calcule insipide vom lua n = 332 = 1089.


O valoare mai usor de retinut este n = 1100:

Observatie.
Daca vom arunca o moneda corecta de un numar de ori, pentru ca numarul
de aparitii ale stemei sa …e aproximativ egal cu numarul de aparitii ale banului,
cu o eroare sub 5%; va trebui sa aruncam moneda cam de 1100 de ori.

17
O urn¼
a contine a bile albe si b bile negre, identice cu exceptia culorii. Prin
urmare probabilitatea extragerii unei bile albe este
a
p= = a=(a + b);
a+b
iar cea a extragerii unei bile negre este
b
q= = b=(a + b) = 1 p:
a+b
Se efectueaza n extrageri, cu revenire, si se constata ca au fost extrase na bile
albe. Prin urmare frecventa relativa de extragere a unei bile albe este p^n :=
na =n: Sa se dea o evaluare (inferioara) pentru n astfel incat, cu o eroare sub
5%; sa avem
j^
pn pj 0; 03:
Asadar, vrem sa a‡am o limitare inferioara pentru n astfel incat

P (j^
pn pj 0; 03) 0; 950 = 1 0; 050:

Demonstratie.
Pentru 1 k n notam cu k o variabila aleatoare care ia valoarea 1 daca
la extragerea cu numarul k se obtine o bila alba si valoarea 0 in caz contrar.
Prin urmare matricea de repartitie a variabilei aleatoare k va …:

0 1
k ! :
q p

Asadar
M ( k) = 0 q + 1 p = p
si
2 2
D( k ) = M ( 2k ) [M ( k )] = M ( k ) [M ( k )] = p p2 = p(1 p) = pq:

Sa retinem ca variabilele aleatoare 1 ; :::; n sunt la fel repartizate si mutual


independente.
Daca sn := 1 + ::: + n reprezinta numarul de "succese" dupa n probe, vom
avea: M (sn ) = np si D(sn ) = npq: Cu notatia
sn
p^n := = sn =n
n
vom obtine:
M (^
pn ) = M (sn =n) = p
si
D(^
pn ) = D(sn =n) = pq=n 1=4n :
Conform legii numerelor mari, va trebui ca

p^n ! p;
n!1

18
in probabilitate. Acest fapt inseamna ca pentru orice "0 > 0 avem

lim P (j^
pn pj "0 ) = 0;
n!1

ceea ce se mai traduce si astfel:

lim P (j^
pn pj "0 ) = 1:
n!1

Prin urmare, oricare ar … 0 < < 1 exista un rang n 1 asa incat

P (j^
pn pj "0 ) 1 ;

pentru orice n n : Legea numerelor mari ne spune doar ca o asemenea alegere


de prag inferior se poate face, dar nu ne poate da nicio indicatie privind un mod
de alegere concreta a pragului n :
O evaluare mult mai …na se obtine cu teorema limita centrala. Mai precis,
in cazul concret din enunt, vom avea:

P (j^
pn pj 0; 03) = P ( 0; 03 p^n p 0; 03) =

0; 03 p^ p 0; 03 T LC 0; 03
= P( p pn p ) = 2 (p ) 1:
pq=n pq=n pq=n pq=n
Intrucat
pq 1 1 p
() p 4n;
n 4n pq=n
iar functia este strict crescatoare, deducem ca
p
P (j^
pn pj 0; 03) 2 (0; 03 4n) 1:

Prin urmare va … su…cient sa alegem n astfel incat


p
2 (0; 03 4n) 1 0; 950;

ceea ce este echivalent cu faptul ca


p 1 + 0; 950
(0; 03 4n) = 0; 9750 = (1; 96):
2
Utilizand inca o data monotonia functei deducem ca trebuie sa avem:
p
0; 03 4n) 1; 96:

De aici rezulta ca n 1 068: Practic se alege n 1 100:


Aplicatie in biologie.
Pentru a a‡a probabilitatea nasterii unui baiat, deci si a unei fetite, se ur-
mareste, la mai multe maternitati, sexul noilor nascuti. Care este numarul
minim de nasteri care trebuie observat pentru a putea a…rma, cu o eroare sub
1%; ca p^ ' 0; 51?

19
Se vede usor ca in acest caz se ajunge la inegalitatea
p 1 + 0; 990
(0; 01 4n) = 0; 9950 = (2; 58);
2
ceea ce inseamna ca p
n 129:
In concluzie, va … su…cient sa observam circa 1302 = 16 900 nasteri pentru
a avea o evaluare de tipul p^ ' 0; 51 pentru probabilitatea nasterii unui baietel,
cu o eroare sub 1%:

Se consider¼a o selectie x1 ; x2 ; :::; xn ; de volum n 2; realizata din repartitia


de valori a unei variabile aleatoare X cu media m si dispersia 2 ( > 0): Not¼ am:
n
1 1 X
x := (x1 + ::: + xn ) şi s2 := (xi x)2 :
n n 1 i=1

Reamintim c¼ a selecţia fx1 ; x2 ; :::; xn g poate … interpretat¼


a ca …ind o re-
alizare a vectorului aleator (X1 ; :::; Xn ) in care Xk reprezinta caracteristica
(variabila aleatoare) X; avuta in vedere in studiul statistic pe care il efectuam,
in experimentul (proba) cu numarul k; 1 k n: Aşadar, vom admite, pentru
a nu complica scrierea, ca x1 ; x2 ; :::; xn sunt variabile aleatoare independente si
la fel repartizate (ca si caracteristica initiala X). Prin urmare M (xk ) = m si
D(xk ) = 2 ; 81 k n:
Ar¼ atati c¼
a:
IV) M (x) = m ;
Solutie.
n n
1X 1X 1
M (x) = M (xi ) = m= n m = m:
n i=1 n i=1 n

Asadar, x este un estimator punctual nedeplasat pentru media teoretica m:


V) M (s2 ) = 2 ;
Solutie.
Ne reamintim ca pentru o variabila aleatoare am de…nit dispersia 2 =
D( ) prin
D( ) = M ( 2 ) [M ( )]2 ;
unde m = M ( ) este media respectivei variabile aleatoare. Asadar,

M ( 2 ) = D( ) + [M ( )]2 = 2
+ m2 :

In continuare vom utiliza urmatoarele fapte:


2 2 2
a) M
P(x i ) := D(xi ) + [M (xi )] = + m2 ;
n
b) i=1 xi = nx;
c) M (x) = m ; D(x) = 2 =n;
d) M (x2 ) = D(x) + [M (x)]2 = 2 =n + m2 ;

20
Pn Pn Pn Pn
e) i=1 (xi x)2 = i=1 x2i 2x i=1 xi + nx2 = i=1 x2i nx2 :

Deci, cum
n
X n
X
(n 1)s2 = (xi x)2 = x2i nx2 ;
i=1 i=1
vom avea:
n
X n
X
(n 1)M (s2 ) = M [ (xi x)2 ] = M (x2i ) nM (x2 ) =
i=1 i=1

n
X
2
= ( + m2 ) n( 2
=n + m2 ) = n 2
+ nm2 2
nm2 = (n 1) 2
:
i=1

Simpli…cand cu (n 1) (,in ipoteza naturala n 2; ) obtinem rezultatul dorit.


In concluzie, s2 este un estimator punctual nedeplasat pentru dispersia teo-
retica 2 :: p
VI) x s N (m; = n); pentru n >> 1:
Cu alte cuvinte, x este repartizata normal, cu media m si dispersia 2 =n:
Solutie.Utilizam urmatoarea:
Observatie. Fie o variabila aleatoare repartizata normal standard. Atunci
pentru orice m 2 R si orice > 0 avem + m s N (m; ) (demonstratia se
face prin veri…care directa).
Deoarece x1 ; :::; xn sunt (considerate ca) variabile aleatoare independente si
la fel repartizate, cu media m si dispersia 2 ; aplicand teorema limita centrala
rezulta ca, pentru n >> 1; variabila aleatoare (notata,ulterior, cu )
x m
p
= n

este repartizata normal standard. De aici, deoarece


p
x = ( = n) + m;

se obtine imediat a…rmatia din enunt.


Pentru completitudine vom arata si ca + m 2 N (m; ); daca s N (0; 1);
iar > 0; m 2 R:
Demonstratia se face prin veri…care directa !
Vom avea:

P( +m x) = P ( x m) = P ( (x m)= ) =
(x Zm)= Zx
sN (0;1) 1 t2 =2 t:=(s m)= 1 (s m) 2
= p e dt =1 p e 2 2 ds; x 2 R:
2 dt= ds 2
1 1

VII) P (A x B) = ( B=pmn ) ( A=pmn ); pentru n >> 1;

21
Solutie. Tinand cont de rezultatul din problema precedenta vom avea:

P (A x B) = P (A m x m B m) =

A m x m B m B m A m
= P( p p p )= ( p ) ( p );
= n = n = n = n = n
deoarece x=pmn s N (0; 1); daca n >> 1:
VIII) Determinarea unui interval de încredere pentru medie, in ipoteza
c¼a dispersia este cunoscut¼a.

Vom ar¼
ata c¼
a
m 2 [x z p ; x + z p ];
n n
cu o eroare sub 100 %; unde z este unica soluţie pozitiv¼
a a ecuaţiei

(z) = 1 :
2
Caz concret = 0; 03 (=) z = 2; 17).
Reamintim c¼
a:
Zz
1 t2 =2
(z) := p e dt; z 2 R :
2
1

Soluţie.
A…rmaţia din enunţ este echivalenţa cu:

P (m 2 [x z p ; x + z p ]) = 1
n n

şi deci cu faptul c¼


a
x m
P( z p z )=1 :
= n

Dar, pentru n >> 1; variabila aleatoare


x m
p
= n

este repartizat¼
a normal standard şi deci, conform teoremei limit¼
a central¼
a,
x m
P( z p z ) = (z ) ( z ) = 2 (z ) 1:
= n


amâne s¼
a alegem z ca unic¼
a soluţie (strict pozitiv¼
a) a ecuaţiei:

2 (z ) 1=1 ;

22
care, la rândul s¼
au, se mai scrie sub forma:

(z ) = 1 =2:

2
Deoarece este strict cresc¼ atoare ( 0 (x) = p12 e x =2 > 0; 8x 2 R); (0) = 1=2
şi (z ) = 1 =2 > 1=2 = (0) rezult¼ a z > 0: Existenţa lui z se obţine din
egalitatea (R) = (0; 1) şi din faptul c¼
a1 =2 2 (0; 1); dac¼
a 2 (0; 1):

Pentru urmatoarele trei probleme vom prezenta, mai întâi, câteva fapte cu
caracter teoretic.
Fie X o variabil¼a aleatoare, numit¼a si caracteristic¼
a (a procesului studiat),
asociata unei experiente cu rezultate aleatoare. Notam cu F functia (teoretic¼ a)
de repartitie corespunzatoare acestei variabile. Deci

F (x) := P (X < x); x 2 R:

Intrucat lim F (x) = 0; lim F (x) = 1 convenim ca F ( 1) = 0 si F (+1) = 1:


x! 1 x!1
Se vede imediat ca daca se cunoaste F atunci se determina imediat

P (a X < b) = F (b) F (a); 8a; b 2 R = R[f 1; +1g; cu a < b:

Deoarece P (X b) = lim F (x) = F (b + 0) se pot calcula si probabilitatile:


x&b
a) P (a X < b) = P (X < b) P (X < a) = F (b) F (a);
b) P (a < X < b) = P (X < b) P (X a) = F (b) F (a + 0);
c) P (a X b) = P (X b) P (X < a) = F (b + 0) F (a);
d) P (X = a) = P (X a) P (X < a) = F (a + 0) F (a):

In anumite cazuri concrete, dupa efectuarea unei analize statistice prelim-


inare a setului de date din esantionul reprezentativ selectionat aleator, ni se "sug-
ereaza" tipul repartitiei asociate variabilei aleatoare a‡ate in studiu. Intr-unele
dintre cele mai importante cazuri intalnite in aplicatii aceste repartitii depind
de unul sau mai multi parametri de a caror determinare depinde cunoasterea
(completa a) respectivei repartitii.
Exemple importante.
a) Repartitie de tip Bernoulli :

1 0
! ;
p 1 p

parametrul …ind numarul real p 2 (0; 1):

23
b) Repartitie de tip binomial:

0 1 :::: k ::: n
! ;
qn Cn1 p1 q n 1
:::: Cnk pk q n k
::: pn

cu parametrii n 2 N si p 2 (0; 1) (am notat q := 1 p):


c) Repartitie de tip Poisson:

0 1 :::: n :::
! ;
p0 p1 :::: pn :::

unde n
pn = e ;
n!
iar n 2 N ( > 0 …ind parametrul repartitiei, numar real …xat).
d) Repartiţie normal¼a cu densitatea de probabilitate:

1 (t m)2
pm; (t) = p e 2 2 ; t 2 R;
2

avand parametrii m 2 R si > 0:


In general se alege o multime (nevida) Rk si se selecteaza parametrii
= ( 1 ; 2 ; :::; k ) 2 ; iar functia de repartitie va avea o reprezentare de forma:

F (x; ) = F (x; 1 ; :::; k ):

Functia de repartitie a vectorului aleator (X1 ; :::; Xn ) va …:

F(x1 ; :::; xn ; ) = F (x1 ; ) ::: F (xn ; ):

Cum se face estimarea parametrilor ? Am vazut ca se pot utiliza estimatori


punctuali si intervale de incredere. O alta posibilitate este data de

Metoda verosimilitatii maxime.


Cazul discret.
Presupunem c¼ a X (variabil¼
a aleatoare discret¼
a) ia o valoare x cu o proba-
bilitate depinzând de parametrul

P (X = x ; ):

Se numeste functie de verosimilitate bazat¼ a pe o selectie de volum n


functia :
L(x1 ; :::; xn ; ) := P (X = x1 ; ) ::: P (X = xn ; ):
Cazul continual.

24
Daca X este o variabil¼a aleatoare continual¼
a si f (x; ) este densitatea de
probabilitate asociat¼
a se de…neste o functie de verosimilitate bazat¼ a pe o
selectie de volum n functia :

L(x1 ; :::; xn ; ) := f (x1 ; ) ::: f (xn ; ):

De…nitie. Se numeste estimatie de verosimilitate maxima (pe scurt E.V.M.)


a cu ^ = ^n = ^n (x1 ; :::; xn );care realizeaza
acea estimatie a parametrilor, notat¼
maximul functiei de verosimilitate:

L(x1 ; :::; xn ; ^) = maxL(x1 ; :::; xn ; );


2

pentru orice selectie (x1 ; :::; xn ):


Observatie.
a) L(x1 ; :::; xn ; ) (ca functie in variabila ) admite un maxim dac¼
a (si numai
dac¼
a) functia

V (x1 ; :::; xn ; 1 ; :::; k ) := ln L(x1 ; :::; xn ; 1 ; :::; k )

admite un maxim.
a) Dac¼
a admitem c¼
a multimea este deschisa iar functia

3 7 ! V (x1 ; :::; xn ; ) 2 R

este diferentiabila, precum si existenta unei Estimari de verosimilitate max-


ima ^, atunci aceasta este solutie a sistemului:
@
V (x1 ; :::; xn ; 1 ; :::; k ) = 0; 1 j k;
@ j

cu k ecuatii si k necunoscute 1 ; :::; k :


IX) Determinati o estimatie de verosimilitate maxim¼a pentru parametrul p
dintr-o repartitie Bernoulli.
1 0
Solutie. Dac¼ aX! atunci:
p 1 p

P (X = x; p) = px (1 p)1 x
; x 2 f0; 1g; p 2 (0; 1) := :

Prin urmare
L(x1 ; :::; xn ; p) = psn (1 p)n sn
;

unde sn = x1 + ::: + xn :Deci

V (x1 ; :::; xn ; p) = sn ln p + (n sn ) ln(1 p):

25
Derivând functia V , in raport cu p; rezult¼
a:
sn n sn
= 0;
p 1 p

adic¼
a
sn sn p pn + psn = 0;

de unde
sn
p^ = = x:
n

Deoarece
@2 sn n sn
V (x1 ; :::; xn ; p^) = <0
@p2 p^2 (1 p^)2

rezult¼
a c¼
a p^ realizeaz¼
a o E.V.M.
X) Determinati o estimatie de verosimilitate maxim¼a pentru parametrii m
si dintr-o repartitie normal¼a.
Solutie.In acest caz = R (0; 1) si
Pn
n 1
i=1 (xi m)2
L(x1 ; :::; xn ; m; ) = C e 2 2 :

Prin urmare
n
1 X
V (x1 ; :::; xn ; m; ) = C1 n ln 2
(xi m)2 :
2 i=1

Din sistemul
@ 1
Pn
@m V (x1 ; :::; xn ; m; ) = 2 i=1 (x
Pi n m) = 0;
@ n 1
@ V (x1 ; :::; xn ; m; ) = + 3 i=1 (xi m)2 = 0;

rezult¼
a:
x1 +:::+xn
m
^ = = x;
Pnn
^2 = 1
n i=1 (xi x)2 = S2;
1
Pn
unde S 2 = n i=1 (xi x)2 este dispersia de selectie.
Apoi
@2 n
V (x1 ; :::; xn ; m;
^ ^) = ;
@m2 ^2
Xn
@2 @2
V (x1 ; :::; xn ; m;
^ ^) = V (x1 ; :::; xn ; m;
^ ^ ) = C(^ ) (xi x) = 0;
@m@ @ @m i=1

26
n
@2 n 3 X n 3 2n
V (x1 ; :::; xn ; m;
^ ^) = 2 (xi x)2 = n^ 2 = :
@ 2
^ ^ 4 i=1 ^2 ^4 ^2

Prin urmare, matricea hessian¼


a
n
^2
0
2n
0 ^2

are ambele valori proprii


n 2n
1 = ; 2 =
^2 ^2
^ ^ 2 ) realizeaz¼
strict negative si deci perechea (m; a o E.V.M.

Supliment.
XI) Determinati o estimatie de verosimilitate maxim¼a pentru parametrul
dintr-o repartitie Poisson.
Solutie.Dac¼ a
0 1 :::: n :::
X! ;
p0 p1 :::: pn :::
n
unde pn = n! e ; 2 (0; 1) = …ind parametrul repartitiei Poisson, functia
de verosimilitate va …:
x1 xn
n
L(x1 ; :::; xn ; ) = e ::: ; x1 ; :::; xn 2 N:
(x1 )! (xn )!

Prin urmare

V (x1 ; :::; xn ; ) := ln L(x1 ; :::; xn ; ) = n + (x1 + ::: + xn ) ln + C(x1 ; :::; xn );

unde C(x1 ; :::; xn ) este o constant¼


a (in raport cu );dar care depinde de x1 ; :::; xn .
Derivând (functia V ) in raport cu rezult¼ a:
1
n+ (x1 + ::: + xn ) = 0;

de unde
^ = x1 + ::: + xn = x:
n

Deoarece
@2 1
ln L(x1 ; :::; xn ; ^ ) = (x1 + ::: + xn ) < 0
@ 2 ^2

rezulta ca ^ realizeaza o E.V.M.

27