Documente Academic
Documente Profesional
Documente Cultură
Probabiliti i Statistic
matematic
Bucureti
2016
1
Probabiliti i Statistic matematic (Draft)
Contents
Introducere .......................................................................................................................... 4
1. Terminologie ................................................................................................................... 5
2. Variabile aleatoare ........................................................................................................ 13
3. Cteva repartiii clasice ................................................................................................. 18
3.1. Repartiii discrete .......................................................................................................... 18
3.1.1 Repartiia uniform ................................................................................................. 18
3.1.2. Repartiia binomial ............................................................................................... 18
3.1.3. Repartiia geometric ............................................................................................. 18
3.1.4. Repartiia Poisson .................................................................................................. 18
3.2. Repartiii continue ......................................................................................................... 19
3.2.1. Repartiia uniform ................................................................................................ 19
3.2.2. Repartiia normal .................................................................................................. 19
3.2.3. Repartiia lognormal............................................................................................. 19
3.2.4. Repartiia exponenial de parametru ................................................................ 20
3.2.5. Repartiia gamma ................................................................................................... 20
3.2.6. Repartiia beta ........................................................................................................ 20
3.2.7. Repartiia 2 ......................................................................................................... 21
3.2.8. Repartiia Student................................................................................................... 21
3.2.9. Repartiia Fisher-Snedecor..................................................................................... 22
3.2.10. Repartiii de tip Gumbel....................................................................................... 22
4. Caracteristici ale variabilei aleatoare ............................................................................ 24
4.1. Tendina central de grupare ......................................................................................... 24
4.1.1. Valoarea medie ...................................................................................................... 24
4.1.2. Valoarea median................................................................................................... 26
4.1.3. Modul ..................................................................................................................... 26
4.1.4. Momente i medii de ordin superior ...................................................................... 28
4.2. mprtierea distribuiei variabilei aleatoare. Dispersia................................................ 29
4.2.1. Intervalul de variaie .............................................................................................. 30
4.2.2. Abaterea. Abaterea absolut medie........................................................................ 31
4.2.3. Dispersia. Abaterea medie patratic ...................................................................... 31
4.2.4. Momente centrate i medii centrate ....................................................................... 32
4.2.5. Covariana. Coeficientul de corelaie ..................................................................... 32
4.2.6. Coeficientul de mprtiere (coeficientul de vatiaie) ............................................ 33
4.3. Caracteristici ale formei distribuiei.............................................................................. 33
4.3.1. Simetrie i asimetrie ............................................................................................... 33
4.3.2. Boltirea (Turtirea) curbelor de distribuie (Kurtosis)............................................. 35
4.4. Simularea numeric a unor variabile aleatoare ............................................................. 35
4.5. Legea slab a numerelor mari ....................................................................................... 37
5. Statistic descriptiv ..................................................................................................... 38
5.1. Vocabular ...................................................................................................................... 38
5.2. Reprezentarea datelor.................................................................................................... 39
5.2.1. Tabele ..................................................................................................................... 39
5.2.2. Reprezentarea grafic a repartiiilor de frecvene .................................................. 40
5.3. Depistarea datelor afectate de erori aberante i sistematice.......................................... 42
5.3.1. Identificarea valorilor afectate de erori aberante i eliminarea lor ........................ 42
Testul Chauvenet ............................................................................................................. 42
5.3.2. Depistarea erorilor sistematice dintr-un set de date ............................................... 45
2
Probabiliti i Statistic matematic (Draft)
Testul Young .................................................................................................................... 45
5.4. Prezentare sumar a modulului Data Analysis din Excel ............................................. 48
5.4.1. Simularea numeric a variabilei aleatoare Exp() ................................................. 48
5.4.2. Simularea numeric a unei variabile aleatoare discrete ......................................... 50
5.5. Ajustarea datelor de msurtoare .................................................................................. 51
5.5.1. Dreapta de regresie punerea problemei............................................................... 51
5.5.2. Funcia de regresie ................................................................................................. 52
5.5.3. Polinomul de interpolare al lui Lagrange............................................................... 53
5.5.4. Prezentare general a pachetului de programe CurveExpert ................................. 54
6. Elemente de teoria estimaiei ........................................................................................ 58
6.1. Estimatori ...................................................................................................................... 58
6.2. Metoda verosimilitii maxime ..................................................................................... 59
6.2.1. Estimatorul de verosimilitate maxim ................................................................... 59
6.2.2. Estimator de verosimilitate maxim pentru parametrul repartiiei Poisson ........... 60
6.2.3. Estimator de verosimilitate maxim pentru parametrul repartiiei exponeniale ... 61
6.2.4. Estimatori de verosimilitate maxim pentru parametrii repartiiei normale,
N , ........................................................................................................................... 61
6.3. Intervale de ncredere pentru medie i dispersie ........................................................... 62
6.3.1. Intervale de ncredere pentru medie ....................................................................... 64
6.3.2. Intervale de ncredere pentru frecven.................................................................. 69
6.3.3. Intervale de ncredere pentru dispersie .................................................................. 70
7. Elemente de decizii statistice ........................................................................................ 72
7.1. Ipoteze statistice ............................................................................................................ 72
7.2. Etapele verificrii ipotezelor statistice .......................................................................... 73
7.3. Teste statistice ............................................................................................................... 73
7.3.1. Testul variabilei reduse Z al ipotezei nule ............................................................. 73
7.3.2. Procedeul intervalelor de ncredere ....................................................................... 75
7.3.3. Aplicaii.................................................................................................................. 75
7.3.3.1. Compararea mediei cu o valoare......................................................................... 75
7.3.3.2. Compararea a dou medii empirice .................................................................... 77
7.3.3.3. Compararea unei frecvene relative cu o probabilitate ....................................... 79
7.3.3.4. Compararea a dou frecvene relative................................................................. 80
7.4. Concordana dintre o distribuie empiric i una teoretic ........................................... 81
7.4.1. Testul de concordan ...................................................................................... 82
2
3
Probabiliti i Statistic matematic (Draft)
Introducere
n lumea real incertitudinea este inevitabil. Sursele de incertitudine pot fi grupate n dou
categorii: cele datorate factorului natural aleator i cele datorate inacurateii prediciei i
estimrii realitii [1]. Probabilitile i statistica asigur instrumente corespunztoare
modelrii i analizei incertitudinii n inginerie n diferite domenii, cum ar fi:
- planificarea i proiectarea infrastructurii transporturilor,
- planificarea i proiectarea hidrosistemelor,
- planificarea i managementul proiectelor n consrucii,
- msurtori fotogrametrice, geodezice i topografice,
- controlul calitii,
- proiectarea sistemelor geotehnice.
Proprietile solurilor sunt eterogene i variabile, depozitele de pmnturi fiind caracterizate
de diferite straturi de materiale: argil, nisip, nmol, pietri sau combinaii ale acestora cu
densiti i coninut de umiditate diferite i alte proprieti ale solului care afecteaz rezistena
i compresibilitatea depozitului. La fel i formaiunile de roci sunt caracterizate de sisteme
neregulate de defecte geologice i fisuri care afectez capacitatea portant a rocii. Datorit
eterogenitii i neregularitii depozitelor de sol i roci capacitatea subsolului va varia serios
peste situl fundaiei. Avnd date puine la dispoziie este posibil ca estimrile capacitii de
ncrcare s fie prea optimiste sau prea pesimiste, ambele situaii fiind nedorite. Pentru a
obine mai multe informaii se impun mai multe investigaii i implicit creterea costurilor
care se poate s nu fie proporional cu reducerea riscului. Astfel, limita de siguran
optimal necesar pentru proiectare poate fi privit ca o problem care implic un echilibru
ntre cost i probabilitaea de defectare acceptat.
4
Probabiliti i Statistic matematic (Draft)
Partea nti
Calculul probabilitilor
1. Terminologie
Prin experien n teoria probabilitilor se nelege orice act care poate fi repetat n condiii
date. Nu se poate preciza rezultatul exact al unei experiene ! Vom considera n cele ce
urmeaz doar experiene care au un numr finit de rezultate.
Toate situaiile legate de experien i despre care putem spune cu certitudine c s-au produs
sau nu, dup efectuarea experienei poart numele de evenimente.
Evenimentul sigur este un eveniment care se realizeaz cu certitudine la fiecare efectuare a
experienei. l notm cu .
Evenimentul imposibil, notat cu , nu se produce la nici o efectuare a experienei.
ntotdeauna unui eveniment A i corespunde un eveniment contrar, B, a crui producere
nseamn prin definiie nerealizarea primului, B=CA.
Exemplu: evenimentul sigur i evenimentul imposibil sunt contrare.
Evenimentele A i B sunt compatibile dac se pot produce simultan, adic exist rezultate
care favorizeaz att pe A ct i pe B.
Evenimentele A i B se numesc incompatibile dac nu se pot produce simultan, adic nu
exist rezultate care favorizeaz att pe A ct i pe B.
Fiind date dou evenimente A i B, numim reuniunea lor A B , evenimentul a crui
producere const n producerea a cel puin unul dintre cele dou evenimente A i B.
Intersecia a dou evenimente A i B const n producerea simultan a evenimentelor A i B.
Spaiul de selecie al unei experiene este o mulime de elemente astfel nct orice eveniment
rezultat n urma unei experiene corespunde unui singur element al acestei mulimi.
Cmpul de evenimente este format din pri ale unei mulimi date .
Fie mulime dat i K o familie de pri (submulimi) ale lui . K se numete cmp
complet aditiv dac sunt verificate axiomele:
1. X K , CX K
2. X K , dac X K, I , I cel mult numrabil
I
5
Probabiliti i Statistic matematic (Draft)
i) X K P(X) 0 ,
ii) I mulime de indici cel mult numrabil, X K , pentru I i
X X , , I , P X P X ,
I I
iii) P 1 .
Tripletul , K, P se numete cmp de probabilitate complet aditiv.
Fie o experien i un eveniment A corespunztor acestei experiene. Dac se repet
experiena de n ori n condiii identice i evenimentul A se produce de ori, iar contrarul
sau de ( n ) ori, atunci numrul f n se numete frecvena relativ a evenimentului
n
A.
Probabilitatea ca frecven
Exemplul 1.
Un constructor vrea s achiziioneze echipamente de construcii, incluznd i buldozere
pentru un nou proiect. Din experiena proprie cu buldozere similare, el estimeaz c sunt
anse 50% ca fiecare buldozer s rmmn operaional dup 6 luni. Dac el ar cumpra 3
buldozere, care este probabilitatea ca numai un buldozer s fie operaional dup 6 luni n
acest proiect? [1]
Rezolvare
La sfritul celor 6 luni pot fi operaionale 0, 1, 2 sau 3 buldozere. Atunci 0, 1, 2, 3=
spaiul posibilitilor. Notm strile buldozerului cu O= operaional i N=neoperaional.
Dup 6 luni se pot nregistra situaiile: OOO, OON, ONO, NOO, ONN, NON, NNO, NNN.
Aadar, sunt posibile 8 situaii, deoarece ele sunt reciproc exclusive i sunt i egal probabile.
Numai n 3 situaii un singur buldozer va fi operaional dup 6 luni, deci numrul cazurilor
3
favorabile este 3. Atunci, probabilitatea cerut este p .
8
Exempul 2.
O inspecie pe o autastrad a descoperit c s dintre oricare N eantioane testate pot fi sub
standard. Dac m eantioane sunt alese aleator dintr-o mulime de N eantioane, care este
probabilitatea ca r dintre ele s fie sub standard? [1]
Rezolvare
a) Exist C Nm posibiliti de alegere a celor m eantioane dintre cele N. Numrul cazurilor
favorabile este Ckr C Nm sr , deoarece cazurile favorabile sunt acelea n care r teste sub
6
Probabiliti i Statistic matematic (Draft)
standard sunt gsite printre cele s, adic Csr i restul de (m-r) teste sunt corespunzatoare
dintre cele (N-s) teste, adic C Nm sr . Aadar, probabilitatea cerut este numrul cazurilor
Csr C Nm sr
favorabile supra numrul cazurilor posibile p
C Nk
Exemplul 3.
Se construiete un baraj cruia i se d o nlime suficient pentru a suporta nivelul creterilor
apelor nregistrat n ultimii 75 de ani. Presupund c nu exist variaii de climat de-a lungul
perioadei avute n vedere, care este probabilitatea c barajul s fie corespunztor de-a lungul
urmtorilor 25 de ani de la data construirii lui?
Rezolvare
este mulimea celor 75+25=100 de ani luai n considerare. Anul cu cea mai mare
cretere a apelor poate fi considerat ca unul dintr-o mulime de ani echiprobabili. Barajul este
corespunztor dac anul luat n considerare este unul din cei 75. Probabilitatea cerut este
75
0.75 sau cu o probabilitate de 75% barajul va fi corespunztor pe urmtoarea
100
perioad de 75 de ani.
Probabilitatea ca raport de arii
Fie A R n , n 1, 2, 3 mulimi cu msur finit. Dac faptul c un punct M s se
gseasc n este un eveniment sigur, atunci probabilitatea ca punctul M s se afle i n
7
Probabiliti i Statistic matematic (Draft)
Daca w este ochiul (patrat) al unei site de srm cu diametrul D, care este probabilitatea ca
o particul sferic de diametru d s loveasc srm dac particula ar cdea perpendicular pe
planul sitei?
Rezolvare
Cazurile favorabile depind de poziia centrului sferei fa de careiaj. Proabilitatea ca sfera s
ating careiajul poate fi msurat prin probabilitatea ca centrul sferei s ating un ptrat cu
d
laturile paralele cu careiajul, dar la distana de srm. Situaiile posibile sunt date de aria
2
ptratului mare w D 2
, iar situaiile favorabile de aria ptratului mare minus aria
ptratului mic, w d 2
, adic w D 2
w d . Aadar, probabilitatea ca particula s
2
wd
2
loveasc careiajul este p 1 , iar proabilitatea de a trece prin ochiul plasei este
w D
wd
2
de pT .
w D
Observaie. P 0 .
Proprieti
a) P A B P A PB P A B
b) P A B P A P A B
c) P AB P A PB 2P A B , unde AB A B B A
Probabilitate condiionat. Fie , K, P un cmp de probabilitate complet aditiv i
A, B K . Se numete probabilitatea evenimentului A condiionat de evenimentul B i
P A B
se noteaz PB (A) sau PA B raportul: PB ( A) , dac P ( B ) 0 .
P( B)
Proprietate. , K, PB este un cmp de probabilitate complet aditiv dac P ( B ) 0 .
Evenimentele A i B sunt independente dac P A B P( A) P( B) .
Exemplul 5. [1]
Un eantion de pietri de la o carier de nisip este examinat pentru a determina dac agregatul
furnizat de carier este corespunztor pentru beton. Specificaiile cer ca s fie respins cariera
dac cel puin o particul necorespunztoare este descoperit printre 5 particule alese la
ntmplare din eantion. Care este probabilitatea ca s fie considerat acceptabil cariera dac
un specimen de 100 particule din eantion conin 5 particule necorespunztoare?
Rezolvare
8
Probabiliti i Statistic matematic (Draft)
Fie Ai evenimentul ca o particul corespunztoare a fost gsit n extragerea i.
Probabilitatea de acceptare este probabilitatea comun a tuturor extraciilor P A1 A2 ...A5 .
95
Probabilitatea ca s nu gsim nici o particul necorespunztoare este P ( A1 ) , deoarece
100
sunt 100 de particule dintre care 5 sunt necorespunztoare, iar 95 acceptabile. Dup prima
extragere mai rmn 99 particule dintre care 94 nu sunt necorespunztoare; aadar,
P A2 A1
94
. Continund raionamentul
99
P A3 A1 A2 , P A4 A1 A2 A3 , PA5 A1 A2 A3 4
93 92 91
.
98 97 96
Se obine probabilitatea cerut
95 94 93 92 91
P(acceptare)
100 99 98 97 96
Acelai rezultat se obinea dac fceam raportul cazurilor favorabile C 955 mprit la cazurile
5
posibile C100 .
Exemplul 6. [1]
Se studiaz capacitatea portant a fundaiei unei cldiri. Din experiena anterioar se impune
ca fundaia s aib capacitatea portant 4000 pfs (1 pound = 0.4536kg x 47.88 Newton/m2)
cu probabilitaatea de 95%. Dac sunt necesare 16 tlpi de fundare, care este probabilitatea
ca toate cele 16 tlpi de fundare s aib cel puin 4000 pfs capacitatea portant?
Invers, care este probabilitatea ca cel puin o talp de fundare s aib capacitatea portant mai
mic de 4000 pfs ?
Rezolvare. Sunt posibile 216 65536 situaii. Presupunnd c fiecare talp fundare are
probabilitatea 0.95 de a avea capacitatea portant mai mare ca 4000 pfs. Atunci,
considernd capacitile portante ale tlpilor de fundare independente statistic, probabilitatea
ca toate cele 16 tlpi de fundare s aib capacitatea portant cel puin 4000 pfs va fi
0.9516 0.44 .
Evenimentul ca mcar o talp de fundare s aib capacitatea portant mai mic dect 4000
pfs este contrar primului i atunci probabilitatea cerut este p 1 0.9516 0.56 .
Exemplul 7. [1]
Fundaia unei cldiri nalte poate s cedeze din cauza capacitii portante neadecvate sau
tasare excesiv. Fie B i S modelele de cedare ale fundaiei i presupunem c
9
Probabiliti i Statistic matematic (Draft)
P( B ) 0.001, P( S ) 0.008 , iar P( B S ) 0.10 care reprezint probabilitatea condiionat
a cedrii capacitii portante tiind c exist tasare excesiv. Care este probabilitatea de
cedare a fundaiei ? Care este probabilitatea tsrii excesive fr cedarea capacitii portante a
cldirii?
Rezolvare
Probabilitatea de cedare a fundaiei este
PB S P( B ) P( S ) P( B S ) P( B ) P( S ) PB S P( S )
0.001 0.008 0.1 0.008 0.008
Probabilitatea de tasare excesiv a cldirii fr cedarea capacitii portante este
P( S B ) P B S P( S ) 1 P( B S )P( S ) 1 0.1 0.008 0.0072
PB S
P( B ) 0.001 1
P( S B ) P( S B ) .
P( S ) 0.008 8
A i
, iar
i 1
i 1
10
Probabiliti i Statistic matematic (Draft)
A1 evenimentul ca garsonier s fie de la un din cele 2 blocuri cu 2 garsoniere i 2
apartamente cu 4 camere.
A2 evenimentul ca garsonier s fie de la una din cele 3 blocuri cu 8 garsoniere i 2
apartamente cu 4 camere.
A3 evenimentul ca garsonier s fie de la blocul cu 2 garsoniere i 6 apartamente cu 4
camere.
Atunci:
2 1 3 1 1
P( A1 ) ; P ( A2 ) ; P ( A3 ) ;
6 3 6 2 6
P X A1
2
(s-a ales o garsonier de la unul din primele 2 blocuri
6
2 garsoniere
)
6 apartamente cu 4 camere
P X A2 ; P X A3 .
2 6
10 8
Atunci:
P( X ) P( A1 ) P( X A1 ) P( A2 ) P( X A2 ) P( A3 ) P( X A3 )
1 1 1 1 1 3 121
.
3 3 2 5 6 4 360
Formula lui Bayes. Fie A1 , ... , An , evenimente care realizeaz o desfacere a spaiului total
i care reprezint cauzele producerii unui eveniment necunoscut X. Presupunem c se
Exemplul 9.
n condiiile problemei precedente s se determine probabilitatea ca garsoniera s provin din
blocul cu 2 garsoniere i 6 apartamente cu 4 camere.
Rezolvare
Cu notaiile din problema precedent avem:
; P ( A2 ) ; P ( A3 ) ; P X A1 ; P X A2 ; P X A3 .
2 1 3 1 1 2 2 6
P( A1 )
6 3 6 2 6 6 10 8
11
Probabiliti i Statistic matematic (Draft)
Atunci formula lui Bayes d:
1 3
P A3 PX A3 6 4 45
PA3 X .
P X 121 121
360
12
Probabiliti i Statistic matematic (Draft)
2. Variabile aleatoare
O variabil a crei valoare este un numr determinat de evenimentul rezultat n urma unei
experiene este numit variabil aleatoare. Altfel spus, orice msur a unei mrimi ale crei
valori depind de hazard este o variabil aleatoare. Prin urmare, variabila aleatoare real este o
aplicaie X : R .
O variabil aleatoare poate s fie discret i atunci nu ia dect anumite valori, ca n exemplul
de mai jos, sau continu, putnd lua toate valorile posibile ntre nite limite date.
Funcia de repartiie. Se numete lege de probabilitate sau de repartiie sau de distribuie
a variabilei aleatoare X, funcia definita de x P X () x pentru x aparinnd
domeniului de definiie. Legea de probabilitate a unei variabile aleatoare se poate pune sub
forma unei formule matematice P X () x p( x) . n cazul discret o numim funcia de
frecven.
Dac X este o variabil aleatoare discret care poate s ia valorile x1 , x2 ,..., xn cu
probabilitile p1 , p2 ,..., pn , atunci mulimea ale crei elemente sunt perechile ordonate
x x2 xn
X : 1 ,
p1 p2 pn
Exemplul 1.
Un bloc de locuine dintr-un cartier rezidenial poate avea 0, 1, 2, 3 sau 4 etaje. Numrul de
etaje este o variabil aleatoare care poate lua valorile conform cu tabelul urmtor
Numr de etaje 0 1 2 3 4
1 3 1 1 1
Probabilitatea asociat
4 8 8 8 8
i al crei tablou de repartiie este:
0 1 2 3 4
X :1 3 1 1 1 .
4 8 8 8 8
Exemplul 2.
Pe 1, 2, 3, 4, 5 s se determine legea de probabilitate P, astfel nct
13
Probabiliti i Statistic matematic (Draft)
P1, 2, 3 P4, 5 ; P1, 2 P2, 3 ; P2 P5 ; P1, 3 P4, 5 .
Rezolvare
Notm pi P
i ; se obine sistemul
p1 p2 p3 p4 p5 1
p1 p2 p3 p4 p5
p1 p2 p2 p3
p2 p5
p1 p3 p4 p 5
1 1 1
a crui soluie este legea de probabilitate cerut: p1 , p2 0 , p3 , p4 , p5 0 .
4 4 2
Funcia de repartiie empiric
n cazul n care se cunosc valorile de msurtoare, X 1 , X 2 , ... , X n , asupra unei variabile
aleatoare, X, funcia de repartiie empiric a acestei variabile aleatoare se definete ca
numarul valorilor X i x
fiind dat de Fn x .
n
14
Probabiliti i Statistic matematic (Draft)
F(x)
1
7
8
3
4
5
8 reprezint
1
4
0 1 2 3 4 x
Se numete funcie de repartiie sau de distribuie sau cumulativ a unei variabile aleatoare X,
funcia definit prin F : R 0, 1 , F ( x) P X () x .
15
Probabiliti i Statistic matematic (Draft)
anse 50% ca fiecare buldozer s rmmn operaional dup 6 luni. Dac el ar cumpra 3
buldozere, care este probabilitatea ca numai un buldozer s fie operaional dup 6 luni n
acest proiect ?
Rezolvare
Fie X variabila aleatoare care ia ca valori numarul de buldozere care mai sunt operaionale
dup 6 luni. Tabloul de variaie al acestei variabile aleatoare discrete este:
0 x0
1
8 0 x 1
0 1 2 3 1
X : 1 3 3 1 , iar funcia de repartiie empiric este F ( x ) 1 x 2
2
8 8 8 8
7 2 x 3
8
1 x3
1 4 3
P X 1 P 1 X P X 2 1 F (1) F (2) 1 .
8 8 8
densitate de probabilitate.
Dac F admite o densitate de probabilitate, atunci
F ( x x) F ( x) P( x X x x)
( x) F ( x) lim lim
x0
x x0
x
Proprieti ale densitii de probabilitate:
1) ( x) 0 , x R
x2
2) pentru x1 , x2 P x1 X x ( x)dx
x1
3) ( x)dx 1 .
16
Probabiliti i Statistic matematic (Draft)
1
( x)dx 1 A e dx 1 A 1 A ( x) e x .
x
e x
0
x x
x
F ( x) ( y )dy e y dy e y 1 e x
0
pentru x>0. Atunci
0 pentru x 0
F ( x)
1 e pentru x 0
x
F(x) (x)
1
2
0 1 x 0 1 x
17
Probabiliti i Statistic matematic (Draft)
M X , DX n p q .
q
p
18
Probabiliti i Statistic matematic (Draft)
Media i disperia variabilei aleatoare de tip Poisson sunt M X , DX .
1
x a, b
( x) b a
0 in rest
ab
Pentru acesat variabila aleatoare media este M X i dispersia D X b a .
1 2
2 12
2
i funcia de repartiie
x t 2
1
F ( x)
2
e
2 2
dt .
x t2
1
Dac X ~ N (0,1) , funcia de repartiie ( x) e 2
dt este tabelat n cri de
2
x Y 2
unde Y M Y , Y2 DY .
Legatura cu normala este dat de relaiile:
Y2
Y
M[X ] e X , Var[ X ] M [ X ] e Y 1 D[ X ] .
2 2
2
19
Probabiliti i Statistic matematic (Draft)
3.2.4. Repartiia exponenial de parametru
funcia lui Euler de spea a dou. Media acestei variabile aleatoare este M X , iar
dispersia DX .
1
Daca Y , atunci Y ( 1 X ) X
20
Probabiliti i Statistic matematic (Draft)
(a) (b)
este repartizat beta de parametri (a, b), unde B(a, b) este funcia lui Euler de
( a b)
M X
a
spea nti. Pentru aceast variabil aleatoare media este , iar dispersia
ab
a b
D X .
a b a b 1
2
3.2.7. Repartiia 2
x 2
e 2
0 x
( x) 2 2
2
0 in rest
1
2
Media acestei variabile aleatoare este M t 0 , iar dispersia este Dt .
2
Proprietate. Variabila aleatoare Student cu grade de libertate se poate obine cu ajutorul
unei variabile aleatoare normale standard i al unei variabile aleatoare 2 , conform cu
21
Probabiliti i Statistic matematic (Draft)
3.2.9. Repartiia Fisher-Snedecor
1 1 2
1 2 1
2 2 x 2 1 1 1
, x 0 .
2
( x) 1 x
2
1 2 2
2 2
Aceast repartiie este important prin aplicaiile care le are testul F bazat pe aceast
repartiie.
Proprietate. Legtura variabilei aleatoare F 1 , 2 Fisher-Snedecor cu 1 , 2 grade de
2
2
F 1 , 2 . 1
1 2 2
Observaie: Repartiiile 2 , Student i Fisher-Snedecor sunt foarte utile pentru c pe baza lor
se construiesc testele statistice: 2 , t i F.
, x R , , u 0
( x u )
F ( x; , u) e e
- de tip Frechet
k
v
F ( x; v, k ) e x
, x 0 , v , k 0
Repartiia valorilor minime
- de tip Weibull
k
x
F ( x; v, k ) e v
, x 0 , v 0 , k 0 .
Cu schimbarile de variabile:
y ( x u ) repartiia Gumbel devine F ( y ) e e
y
22
Probabiliti i Statistic matematic (Draft)
x
y k ln repartiia Frechet devine F ( y ) e e , repartiia dublu exponenial
y
v
standard,
v
y k ln repartiia Weibull devine F ( y ) e e , repartiia dublu exponenial
y
x
standard, fapt ce permite tratarea unitar a repartiiilor valorilor extreme.
23
Probabiliti i Statistic matematic (Draft)
24
Probabiliti i Statistic matematic (Draft)
Exemplul 1. Variabila aleatoare geometric
Se numete prob Bernoulli sau experien Bernoulli o experien n care sunt posibile
numai 2 tipuri de rezultate numite succese (A) cu probabilitatea P(A)=p, i eecuri (B), cu
probabilitatea q P( B) 1 p .
ntr-un ir de probe Bernoulli, notm cu X variabila aleatoare care reprezint numrul de
eecuri nregistrate pn la apariia primului succes. X se numete variabil aleatoare
geometric. Aceast variabil poate caracteriza, de exemplu, numrul pieselor
corespunztoare gsite ca urmare a controlrii unei mulimi de piese pn la apariia primului
rebut, numrul nou-nscuilor biei la o maternitate pn la apariia unei feite etc.
Funcia de frecven pentru variabila aleatoare X este
f ( x) P X x p q x , x 0, 1, 2, ... ,
iar funcia sa de repartiie este
x 1
F x P X x p q i 1 q x
i 0
1 1 1
Dar qi
i 0
1 q p
i derivnd aceast relaie avem i q
i 0
i 1
1 q 2
. nmulind
. Aadar M X p 2 .
q q q q
aceast relaie cu q se obine i q
i 0
i
2
1 q p 2
p p
1
De aici rezult c mediana este soluia ecuaiei F ( x) .
2
12 2 x 1dx 12 M M e 1 3 , M e 2 2 ,
1 1 1
2
e Me
0
2
4.1.3. Modul
Modul sau valoarea cea mai probabil a variabilei aleatoare X este acea valoare pentru care
funcia de probabilitate, f(x), respectiv, densitatea de probabilitate (x) este maxim.
Problema revine la a gsi cel mai mic numr n pentru care inegalitatea de mai sus este
satisfacut. Ultimul termen al sumei de mai sus 6561Cn4 2 10n2 implic n 4 . Se
constat c pentru n=8 inegalitatea este satisfcut i numrul minim cutat este 8.
27
Probabiliti i Statistic matematic (Draft)
Generalizare. Cuantilele de ordin n
i
Noiunea de median se poate generaliza considernd ecuaia F ( x) , i 1, 2, ..., n 1 .
n
Rdcinile acestor ecuaii se numesc cuantile de ordin n. Pentru n = 2 se obine mediana,
pentru n = 4 sunt 3 ecuaii i deci 3 rdcini i ele se mai numesc i quartile.
Cuantilele de ordin 10 se numesc decile, cele de ordin 100 centile.
i 1
x x ( x)dx .
n
r r r r
M X i
f ( xi ) , respectiv M X
i 1
r r
x
i 1
i
r
f ( xi ) , respectiv r r
x ( x)dx
r
28
Probabiliti i Statistic matematic (Draft)
n
Conform definiiei avem: M 2 x 2Cnx p x q n x . Folosim identitatea
x 0
p t q
n
Cnx p x q n xt x
n
x 0
n p t q p xCnx p x q n xt x1 nn 1 p t q p 2 xx 1Cnx p x q n xt x2
n n
n1 n2
x 0 x 0
Pentru t = 1 avem:
nn 1 p 2 x 2Cnx p x q n x xCnx p x q n x
n n
x 0 x 0
sau
nn 1 p 2 M 2 M1 .
Dar M1 n p (a fost calculat anterior) i astfel
M 2 n(n 1) p2 n p n pn p p 1 n p(n p q) .
Deci:
M 2 n p(n p q) si 2 n p(n p q) .
Observaii
1. Dac i sunt valoarea minim, respectiv valoarea maxim ale argumentului
29
Probabiliti i Statistic matematic (Draft)
0.2
Y
Y
0.15
( x 3 2)
( x 3 4) 0.1
0.05
X
0
10 5 0 5 10 15
x
se observ c au acelai centru de grupare, dei distribuiile lor sunt puternic diferite,
variabila aleatoare X avnd valorile mai mprtiate dect variabila aleatoare Y.
Apar astfel necesare caracteristici numerice care s permit s se compare ntre ele
mprtierea, respectiv concentrarea distribuiilor pentru diferite variabile aleatoare.
Printre acestea se folosesc:
extinderea sau intervalul de variaie,
abaterea absolut medie,
dispersia,
abaterea medie patratic,
coeficientul de variaie,
coeficientul de oblicitate etc.
30
Probabiliti i Statistic matematic (Draft)
4.2.2. Abaterea. Abaterea absolut medie
Se numete abatere a variabilei aleatoare X o nou variabila aleatoare al crei argument
este dat de diferen dintre argumentul lui X i , adic:
x x
: i sau : i .
pi f ( xi ) ( x)
De obicei ca valoare pentru se ia M X (valoarea medie) sau M e X (mediana).
Proprietate
M M X M X 0 .
n
m M X .
Avem
DX xi m f ( xi ) sau DX x m ( x)dx .
n
2 2
i 1
X n X D X i d
M X i m i DX i d , X . Atunci DX D i
i
i 1
.
n i1 n n n
31
Probabiliti i Statistic matematic (Draft)
DX M X M X M X 2 2 X M X M X
2 2
M X 2 2M X M X M X M X 2 M X
2
2
Dar
M X 2 x 2 ( x)dx x 2 e x dx x 2 e x dx
0 0 0
x 2e x 2 x e x dx x e x dx
2
0 0 0
2 x x 2 x 2 2
xe e dx e dx 2 e x 2
0 0 0 0
Aadar
DX
2 1 1 1
X .
2
2
2
32
Probabiliti i Statistic matematic (Draft)
4.2.6. Coeficientul de mprtiere (coeficientul de variaie)
n cazul variabilelor aleatoare ce exprim mrimi diferite, dimensiunile nefiind aceleai
(lungimi, greuti, valori) influena naturii variabilelor studiate asupra msurii mprtierii se
nltur folosind coeficientul de mprtiere sau coeficientul de variaie (V sau CV):
D X X
V ,
M X M X
definit pentru cazurile cnd M X 0 .
x M X x M X x R .
n caz contrar se spune c distribuia este asimetric.
Repartitie simetrica
0.4
0.3
( x)
0.2
0.1
3 2 1 0 1 2 3
x
x R , M X , DX
1
( x) e 2
2
i este simetric.
Repartitie simetrica
0.2
0.15
( x 3 2)
0.1
0.05
2 0 2 4 6 8
x
Exemplul 11. Repartiia 2 (hi patrat cu grade de libertate), are densitatea de repartiie
x
1
( x)
1
x 2
e 2
x 0 , N * .
2 2
2
Pentru 4 , aceast repartiie are graficul din figura (repartiia este asimetric).
Repartitie asimetrica
0.2
0.15
( x 4)
0.1
0.05
0 2 4 6 8 10 12 14
x
34
Probabiliti i Statistic matematic (Draft)
Aceast variabil aleatoare este important prin aplicaiille pe care le are testul 2 n
i 1
caz discret
DX
3
2 .
x M X ( x)dx
3
caz continuu
3
D X
35
Probabiliti i Statistic matematic (Draft)
Avnd n vedere c numerele generate nu pot fi practic complet aleatoare fiind obinute cu un
algoritm, aceste numere mai sunt cunoscute i sub numele de cvasialeatoare sau
pseudoaleatoare. O clas de generatoare de numere aleatoare uniform repartizate pe o
submulime a numerelor naturale o constituie generatoarele mixte congrueniale liniare, care
au la baz relaia
X n1 a X n c mod M , n 0
unde: a multiplicatorul, c translaia i M factorul modulo, X0 smna sunt
numere naturale care trebuie s ndeplineasc anumite condiii pentru a respecta cerinele
unui bun generator de numere aleatoare (conform D. E. Knuth). Cu acest generator se pot
obine numere aleatoare uniforme ntre 0 i (M-1). Pentru a avea numere uniform
repartizate ntre 0 i 1 este suficient s se mpart numerele obinute cu acest generator
la numrul M.
De regul, generatorul liniar mixt congruenial se noteaz astfel X 0 , a, c, M . Exemplu
Demonstraie. PF 1 (U ) x PF F 1 (U ) F ( x) PU F ( x) F ( x) .
36
Probabiliti i Statistic matematic (Draft)
1
1 e X U e X 1 U X ln(1 U ) X ln(1 U ) .
4.4.2. Simularea numeric a variabilei aleatoare dublu exponenial folosind metoda
invers
n paragraful 3.2.10. au fost prezentate variabile aleatoare de tip Gumbel i cum acestea
pot fi reduse la variabila aleatoare dublu exponenial. Aadar, dac se poate simula cu
calculatorul variabila aleatoare dublu exponenial, atunci folosind transformrile din
3.2.10. se pot obine variabile aleatoare de tip Gumbel.
n n
Xi M X i
lim P i 1
i 1
1 , sau
n n n
n
X i
M X i m , i 1, n lim P i 1
m 1.
n n
Rezult c media aritmetic a unui numr suficient de mare de variabile aleatoare cu
dispersiile mrginite i pierde caracterul aleator. Aceast teorem st la baza teoriei seleciei.
37
Probabiliti i Statistic matematic (Draft)
Partea a dou
5. Statistic descriptiv
5.1. Vocabular
Noiunea fundamental n statistica matematic este populaia care desemneaz o mulime,
grup, colectivitate.
Exemple de populaii: populaia omerilor, a automobilelor Dacia, bacterii, precipitaii
atmosferice etc. Elementele populaiei se numesc indivizi. Trstura comun a tuturor
indivizilor unei populaii se numete caracteristic i poate fi cantitativ sau calitativ.
Aceiai indivizi au caracteristici de tip calitativ cum ar fi: sex, culoarea ochilor, localitatea
naterii, origine social, apartenen politic etc.
O caracteristic cantitativ poart numele de variabil, iar cea calitativ numele de atribut.
O variabil poate fi discret, lund un numr discret de valori sau continu i atunci este
posibil s ia orice valoare dintr-un interval.
Statistica matematic este o ramur a matematicilor aplicate care se ocupa cu studiul
proprietilor populaiilor.
Colectarea informaiei
Pentru a prelucra informaia, ea trebuie colectat. Pentru aceasta se face o anchet al crei
obiectiv trebuie bine stabilit nainte de demararea aciunii.
Datele sunt culese prin observaii directe sau indirecte (datele sunt culese din alte rapoarte).
Pentru culegerea datelor se ntocmesc chestionarele care trebuie s prevad toate situaiile
nct s nu fie ntrebri fr rspuns.
Moduri de colectare a informatiei
ancheta exhaustiv (recensmnt)
prin sondaj numai anumii indivizi selectai sunt chestionai. Ei formeaz o selecie
care trebuie s fie reprezentativ. Reprezentativitatea seleciei se asigur cnd
structura seleciei este identic cu structura populaiei din care s-a fcut selecia.
38
Probabiliti i Statistic matematic (Draft)
5.2. Reprezentarea datelor
5.2.1. Tabele
Tabel statistic este forma de prezentare a rezultatelor prelucrrii statistice prin care se
caracterizeaz populaia.
Tabelul este un ansamblu de judeci despre subiect (populaia i grupele ei) i despre
predicat (caracteristicile statistice).
Se disting
tabele simple - reprezint populaia negrupat,
tabele pe grupe - reprezint populaia desparit n grupe omogene dup o singur
caracteristic. Mrimea intervalului este dat de formula lui H. A. Sturges:
w x xmin
h max ,
1 3.322 lg n 1 3.322 lg n
unde w este aplitudinea.
tabele combinate - reprezint populaia desparit n grupe dup dou sau mai multe
caracteristici
tabele cu dubl intrare n care se reprezint frecvenele bidimensionale.
Exemplul 2.
39
Probabiliti i Statistic matematic (Draft)
Exemplul 3. Tablou cu dubl intrare.
Situaia colar la sfritul anului universitar
Medie
An studii
m<5 5m<7 7 m <9 9 m 10
I 4 5 10 6
II 5 4 11 5
III 7 3 9 6
IV 2 8 8 7
40
Probabiliti i Statistic matematic (Draft)
41
Probabiliti i Statistic matematic (Draft)
Testul Chauvenet
Fiind date valorile observate, x1 , ..., xn , se consider c valoarea xi este afectat de erori
x
xi x 2 , z 0,435 0,862a 2 ; a 2n 1 .
i
1 n
x i 1
n
, 2
n i 1 1 3,604a 3,213a 4n
42
Probabiliti i Statistic matematic (Draft)
Dac n urma aplicrii testului una dintre valori este afectat de erori aberante, valoarea
respectiv se elimin din eantion. Se recalculeaz x i pentru valorile rmase i se reia
procedeul.
43
Probabiliti i Statistic matematic (Draft)
Chauvenet ( X ) sw 1
I1
N length ( X )
w hile sw 1
X sort ( X )
nNI 1
N
X
i
iI
NI 1
N
Xi
2
i I
NI
2n 1
a
4n
0.435 0.862a
z
2
1 3.604a
3.213a
er1 X
I
er2 X
N
if ( er1 er2) ( er1 z)
II 1
sw 1
if ( er2 er1) ( er2 z)
NN1
sw 1
sw 0 if ( er1 z ) ( er2 z )
T
Y submatrix X 1 1 I N
return Y
44
Probabiliti i Statistic matematic (Draft)
X READPRN("j:\intervale\debite.prn" )
Depunerea datelor fara outliere intr-un fisier de tip text cu extensia prn
WRITEPRN"Date_outliers.prn"
( ) Y
spt L Ma Mi J V spt L Ma Mi J V
I 15 19 13 18 20 III 13 13 13 14 17
II 12 21 22 19 21 IV 19 21 13 23 17
S se verifice dac acest eantion are valori aberante i dac exist, s se elimine!
Soluie.
Se creaz un fiier de tip text cu datele dim tabel i se apeleaz programul MathCAD de mai
sus.
Testul Young
Pentru depistarea erorilor sistematice dintr-un set de date rezultate din msurtori se poate
folosi testul lui Young, dat de urmtoarea procedur.
46
Probabiliti i Statistic matematic (Draft)
Criteriul Young pentru depistarea erorilor sistematice
Datele de intrare se citesc dintr-un fisier de tip text avand extensia prn
Fisierul poate fi creat cu NotePad; atentie la extensie: se alege All files
Volumul de date trebuie sa fie n<=25
Young ( X ) n length ( X )
sw 1
if 0.95
2
VCI 0.491 0.081n 0.003n
0.341
8.919 n
VCS 3.317 1.057e
if 0.99
2.33
192.883 1.269n
VCI
2.33
411.427 n
1.388
33.57 n
VCS 3.484 0.882e
sw 2 otherwise
n1
i 1 i
2
1
2 X X
n 1
i 1
2
2 Stdev ( X )
2
M
2
sw 0 if VCI M VCS
return sw
X READPRN("I:\Statisica Curs\young.prn" )
sw Young(X 0.99) sw 1
47
Probabiliti i Statistic matematic (Draft)
5.4. Prezentare sumar a modulului Data Analysis din Excel
Componenta Excel a MicroSoft Office are modulul Data Analysis care conine proceduri
pentru simularea variabilelor aleatoare (uniforme, normale, discrete, Poisson), determinarea
caracteristicilor variabilelor aleatoare, histograma etc.
48
Probabiliti i Statistic matematic (Draft)
Exerciii. S se simuleze folosind metoda invers variabile aleatoare de tip: Gumbel, Frechet
i Weibull.
i 1 i 1
Se precizeaz numrul de eantioane, unul n acest exemplu, apoi volumul eantionului (3000
n acest exemplu), tipul repartiiei - Discrete, celulele cu valorile variabilei aleatoare discrete
i probabilitile corespunztoare. Dup precizarea celulelor unde s se depun numerele
generate, se selecteaz Descriptive Statistics i n caseta de dialog afiat se precizeaz
celulele cu datele generate, celulele unde s se afieze statistica i Summary Statistics.
50
Probabiliti i Statistic matematic (Draft)
S n
n 2 n n
xi yi axi b 0 xi yi
a 0 2 a x i b xi
i 1 i 1 i 1 i 1
S , adic n , de unde n n cu soluia
0 2 yi axi b 0 a xi b n yi
b i 1 i 1 i 1
n n n n
xi yi
i 1
xi
i 1
xi2
i 1
x y
i 1
i i
n n n
y
i 1
i n x
i 1
i y
i 1
i
a n n
b n n
xi2
i 1
x
i 1
i x x
i 1
2
i
i 1
i
n n
x
i 1
i n x
i 1
i n
i 1
52
Probabiliti i Statistic matematic (Draft)
Alte forme pentru funcia de regresie
1) f ( x) a x 2 b x c
b
2) f ( x) a
x
3) f ( x) a e x b
4) f ( x) a ln( x) b
a
5) f ( x)
1
b
x
1
6) f ( x) x
ae b
7) f ( x) a x b
b
8) f ( x) a c x
9) f ( x) a eb x .a.
Observaie. Dac f este un polinom de gradul n i se cunosc valori ale lui f ntr-o
mulime de (n+1) puncte, atunci polinomul de interpolare al lui Lagrange coincide cu f .
53
Probabiliti i Statistic matematic (Draft)
CurveExpert este un produs software care permite determinarea expresiei unei funcii de
regresie univariabil. Dup lansare apare fereatra principal care are o zon de date, prima
coloan reprezentnd valorile variabilei independente, iar cea de-a doua valorile
corespunztoare ale variabilei dependente.
Datele pot fi luate dintr-un fiier text, a crui extensie trebuie s fie dat (File, Open), iar la
crearea fiierului (de exemplu: NotePad), pentru separarea celor dou valori pe linie se
folosete Tab-ul. Dac fiierul conine mai multe coloane trebuie s specificm coloanele cu
coordonatele punctelor, cele dou coloane trebuie s fie succesive, iar variabila independent
trebuie s fie prima coloan.
Meniul Data permite reprezentarea grafic a punctelor prin comanda Plot, modificarea
valorilor punctelor prin multiplicare (Scale), translatare (Translate), eliminarea punctelor din
afara unui interval (Clip), recalcularea unor indicatori statistici, cum ar fi: media, abaterea
medie ptratic (Reexamine) sau afiarea unor informaii statistice asupra datelor
(Information).
Datele pot fi interpolate utiliznd meniul Interpolate prin interpolare polinomial (polinomul
lui Lagrange) sau funcii spline (liniare, patratice, cubice).
Cutarea funciei de regresie se poate face cu una din opiunile meniului ApplyFit. Dac se
dorete o form de funcie de regresie diferit de cele pe care le propune CurveExpert, prin
54
Probabiliti i Statistic matematic (Draft)
comanda User Model, se poate defini o funcie proprie de regresie cu maximum 19
coeficieni.
Meniul Tools permite alocarea de ponderi n cadrul regresiei (Weighting Scheme), calcularea
estimaiilor iniiale utilizate n algoritmii de determinare a funciilor de regresie neliniare
(AutoGuest On), tergerea listei funciilor de regresie pentru o nou refacere a calcullelor
(Clear CurveFits), vizualizarea rezultatelor iteraiilor ultimei funcii de regresie (View
History File), editarea fiierului de date (Edit Current File), baleierea tuturor funciilor de
regresie disponibile pentru acel set de date i sortarea lor n ordinea descresctoare a
adecvanei (CurveFinder) i configurarea programului (Options).
Selectarea unei funcii din list va afia graficul funciei, calitateta adecvanei dat de
coeficienii S i r, iar selectnd Info obinem coeficienii funciei de regresie.
Calitatea aproximrii (adecvana) se poate msura cu unul dintre coeficienii de mai jos:
n
y f ( xi )
2
i
- deviaia standard (eroare standard) (S) : S i 1
n nc
i 1
y
n i
St y yi
2
, iar y
i 1 .
i 1 n
55
Probabiliti i Statistic matematic (Draft)
Cu ct S este mai apropiat de zero, respectiv r de 1, cu att aproximarea dat de f este mai
bun.
Salvarea i exportarea sunt necesare pentru a pstra, respectiv pentru a exporta datele ntr-un
fiier text, coninnd informaii privitoare la expresia i coeficienii funciei de regresie.
Odat cu salvarea i exportarea se salveaz coeficientul de corelaie i ali coeficieni. Putem
s vedem forma funciei i putem stabili forma liniei graficului i culoarea acestuia. Le putem
salva.
57
Probabiliti i Statistic matematic (Draft)
6.1. Estimatori
Pentru culegerea de informaii despre o populaie statistic se pot folosi dou meode:
recensmntul (mai rar datorit costului, iar n unele situaii concrete este imposibil),
de exemplu controlul calitii epruvetelor de beton - nu pot fi toate experimentate
pentru a vedea rezistena acestora i
metoda sondajelor cnd se examineaz un eantion (selecie) din populaie i pentru
care trebuie avut grij s fie reprezentativ.
Cnd se efectueaz un sondaj nu se poate atinge cunoaterea perfect a parametrilor
populaiei totale. Se caut numai s se estimeze aceti parametri cu o precizie cunoscut: se
determin un interval de ncredere n care se gsete parametrul cu un risc de eroare cunoscut.
Teorema lui Glivenko stabilete legatura dintre funcia de repartiie teoretic F(x) i funcia
empiric de repartiie Fn(x)
P lim sup Fn ( x) F ( x) 0 1
n xR
sau cu ct volumul de selecie este mai mare cu att funcia empiric de repartiie
aproximeaz mai bine funcia teoretic de repartiie.
Principiul de baz al teoriei seleciei - variabila de selecie converge n lege Fn F
ctre variabila teoretic, iar caracteristicile variabilei de selecie converg n probabilitate ctre
caracteristicile analoage ale variabilei teoretice.
Din datele numerice de care se dispune se calculeaz valori aproximative ale caracteristicilor
legii de distribuie respective.
Fie parametrul sau caracteristica teoretic pe care trebuie s o determinm din datele
numerice avute la dispoziie n variabila de selecie X*.
Se numete estimator al lui o anumit funcie (statistic) *=*(X1,...,Xn) care depinde de
rezultatul seleciei, adic de variabilele X j , j 1, n .
O astfel de funcie se mai spune c definete o statistic sau estimatorul * este un estimator
exhaustiv al parametrului .
Observaie. * este o variabila aleatoare deoarece depinde de X1,...,Xn, n vreme ce este
o constant.
Trebuie ca * s convearg n probabilitate ctre , adic
58
Probabiliti i Statistic matematic (Draft)
lim P * 1 ,
n
* se numete estimator consistent.
Se numete coeficient de siguran, probabilitatea P * .
Estimator corect este estimatorul pentru care au loc relaiile
M [* ] , D[* ] 0 .
Estimator absolut corect este estimatorul pentru care se verific relaiile
M [* ] , D[* ] 0 .
Deplasarea lui * (bias) este definit ca fiind M [* ] . Dac deplasarea este 0 spunem
c estimatorul este nedeplasat.
Dac pentru acelai parametru dispunem de doi estimatori 1* i *2 spunem c
X X ,
n
Deoarece variabila de selecie presupune realizat evenimentul j rezult c
j 1
realizarea variabilei de selecie constituie un eveniment care are grad nalt de reprezentare a
variabilei teoretice, acesta costituind verosimilitatea de reflectare a variabilei teoretice X de
ctre variabila de selecie X* i se msoar prin probabilitatea
n
L X 1 ,..., X n P X X j
j 1
adic prin funcia
L X 1 ,..., X n ; X j ;
n
j 1
59
Probabiliti i Statistic matematic (Draft)
Impunnd condiia ca verosimilitatea s fie maxim se obine un nou criteriu de determinare a
unui estimator pentru .
Maximul se gsete printre punctele staionare, soluii ale ecuaiei (sistemului, n cazul n
care este un vector):
LX 1 ,..., X n ;
0
sau cum maximul lui L este obinut ca i maximul lui lnL avem
ln LX 1 ,..., X n ; n
ln X 1 ,..., X n ;
0 0.
j 1
Aceast ultim ecuaie se numete ecuaia de verosimilitate.
O soluie a ecuaiei de verosimilitate se numete estimator de maxim verosimilitate, iar
metoda de determinare se numete metoda verosimilitii maxime. A fost introdus de
Fisher n 1912.
Au loc urmtoarele rezultate :
Propoziia 1. Dac pentru un parametru exist un estimator eficient, atunci acesta este i
estimator de maxim verosimilitate.
Propoziia 2. n condiiile destul de generale n ceea ce privete X 1 ,..., X n ; estimatorul
, ln L X j ln ln X j !
n Xj n
LX 1 ,..., X n ; e
j 1 X ! j j 1
1 n X j
n
X j 0 *
j 1
j 1
n
,
60
Probabiliti i Statistic matematic (Draft)
adic, media de selecie n cazul repartiiei Poisson este i estimator de verosimilitate maxim
pentru parametrul repartiiei.
1
X
j 1
j
* n
adic, inversul mediei de selecie n repartiia Exp() este estimator de verosimilitate
maxim pentru parametrul repartiiei.
Fie
1 x
2
x; , , x R
1
e 2
2
densitatea de probabilitate a variabilei aleatoare repartizat normal de parametri i i
selecia X 1 ,..., X n X * .
Vom determina estimaiile parametrilor i prin metoda verosimilitii maxime pentru
aceast repartiie.
Funcia de verosimilitate este
61
Probabiliti i Statistic matematic (Draft)
X j
n 2
1
LX 1 ,..., X n ; ,
1 2 j 1
e
n 2 2
n
Logaritmm i avem
ln L X1 ,..., X n ; , n ln ln(2 ) 2 X j
n 1 n 2
2 2 j 1
Avnd doi parametri, avem un sistem de ecuaii de verosimilitate
1 2 n
2 X j 1 0
ln L
0
2 j 1
ln L
X j 2
n
0
n 1 2 j 1 0
2 3
sau
X
n
2
X 0 ,
n j
j 1
n
j 1
j
2
Aadar,
n
n n X j
X j
j 1 j 1
* j 1
n
media de selecie i
X X
n n
2 2
j j
j 1 j 1
n *
2 n
dispersia de selecie sunt estimatori de maxim verosimilitate.
62
Probabiliti i Statistic matematic (Draft)
1 se numete prag de ncredere i de obicei se exprim n procente
( 0.95 sau 0.05 ) .
Cum se interpreteaz inegalitatea de mai sus?
Dac dup un numr N mare de seturi de selecii (X1, X2, ..., Xn ), K dintre acestea dau
X X M X
2
i i
x n M X i 1
, 2 i 1
.
n n
Presupunem c oricare individ din populaie ar putea face parte din selecia de volum n, i
atunci X k , k 1, n , poate fi privit ca o variabil aleatoare avnd aceeai repartiie ca i X
i cu media i dispersia de selecie date de relaiile de mai sus.
n cele ce urmeaz sunt folosite rezultatele precizate de urmtoarea teorem.
Teorem [5]. Fie X o variabil aleatoare normal, X ~ N , , iar X1, X2, ..., Xn
variabile de selecie asociate cu X. Atunci:
X 1 ... X n
a) Variabila x n X ~ N , ,
n n
X X
2 2
b) Variabila 1 ... n ~ n
2
(hi patrat cu n grade de libertate)
2 2
X1 X X X
c) Variabila ... n ~ n21 (hi patrat cu (n-1) grade de
libertate) sau
(n 1) s 2
2
~ n21 , s
1 n
n 1 i 1
2
Xi X ;
X
d) Variabila (n 1)n ~ tn 1 (Student cu (n-1) grade de
X 1 X ... X
2
n X 2
libertate)
63
Probabiliti i Statistic matematic (Draft)
2
Media i dispersia mediei de selecie sunt M X i respectiv
n
M x n M X , D x n
2
.
n
Observaie. Din inegalitatea lui Cebsev
P xn M xn
D xn 1
1
2
obinem
P x n
s
M xn xn
s 1
1 2
n n
lund ca aproximant pentru D[X] valoarea
s2
1
n 1
2
X i xn .
Cu ct este mai mare cu att probabilitatea inegalitii
xn
s
n
M xn xn
s
n
este mai apropiat de 1.
Astfel, pentru parametrul necunoscut M[X], intervalul
s s
xn , xn
n n
este un interval de ncredere.
n concluzie: media de selecie x n pentru n suficient de mare este repartizat normal
N M X ,
s
, lund .
n n n
64
Probabiliti i Statistic matematic (Draft)
x t2
1
estimaiei, se poate folosi tabela funciei (x)
2 e
2
dt pentru a gsi proporia
Z 1 1 , avem P x n Z xn Z 1 . Aadar,
n
1
2 2 2 n 1
2
1 x n Z , xn Z am obinut un interval de ncredere cu prag de
n
1
2 n 2
S calculm un interval pe baz de selecie, interval care are de exemplu ansa de 95% de a
conine media populaiei, n ipoteza c se cunoate abaterea medie standard . Binenteles,
c nu se tie pentru o determinare particular oarecare c intervalul acoper media populaiei,
dar dac estimm n mod repetat M[X] atunci intervalele vor acoperi pe M[X] n 95% din
cazuri.
Fie Z cuantila de ordin a repartiiei normale standard adic PZ Z , unde
1 100 % se scrie
65
Probabiliti i Statistic matematic (Draft)
xn Z , xn Z .
1 n
2 n 2
Exemplul 1. [1]
Presupunem c specificatiile pentru rezistena armturii cer o valoare medie de 38 psi
(1 psi = 1 pound/inch2 ; 1 Newton/m2 = 1 N/m2 = 6895psi). Este esenial ca armturile
folosite pentru structura de beton armat s aib rezistena medie cerut. Dintre armturile
livrate, s-au verificat 25 i s-a constatat c rezistena medie a acestor bare este
37.5 psi . Se tie c 3.0 psi . S determinm un interval de ncredere de 95%
pentru media rezistenei armturilor.
Determinm valoarea critic inferioar Z Z 0.025 1 (0.975) 1.96 i valoarea critic
2
este
3.0 3.0
R 37.5 1.96 , 37.5 1.96 psi
25 25
sau
R 36.32 , 38.68 psi .
Interpretare: intervalul de mai sus, cu probabilitatea de 95%, acoper valoarea medie real
a rezistenei armturilor.
A.2. Cazul cnd nu se cunoate dispersia
Dac este necunoscut, atunci pentru intervalul de ncredere se folosete repartiia Student
cu (n 1) grade de libertate, unde se nlocuiete cu s, un estimator al lui :
s
1 n
X i xn
n-1 i 1
2
. Se calculeaz statistica Tn
xn
s
~ tn- 1 (repartizat Student cu
n
xn
(n-1) grade de libertate. Atunci P t t 1 ne conduce la urmtorul
2 ; n 1 s 1 ; n 1
2
n
interval pentru estimatorul mediei pe baza seleciei X 1 , X 2 , ... , X n , n 30 :
s s
x n t , x n t
; n 1 1 ; n 1
2 n 2 n
sau
66
Probabiliti i Statistic matematic (Draft)
s s
1 x n t , xn t ,
2
; n 1 n 1 ; n 1
2 n
T s
2
67
Probabiliti i Statistic matematic (Draft)
adic marginea inferioar pentru media teoretic obinut pe baza seleciei
X 1 , X 2 , ... , X n , este 1 x n Z1 .
n
Exemplul 2.[1] Se verific 100 de specimene de bar de oel A36 cu diametrul de 1 cm i
se constat c: rezistena medie este 2200 kgf i s 220 kgf . Pentru scopurile
specificate, fabricantul trebuie s dea limita inferioar a intervalului de ncredere a mediei
rezistenei cu pragul de 95%. Cum volumul eantionului este rezonabil de mare este natural
s presupunem c abaterea standard este chiar s. Atunci: din (1 )% 95% , rezult
220
0.05 i Z0.95 1 (0.95) 1.65 , iar 1 0.95 2200 1.65 2164 kgf .
100
Aadar, fabricantul de bare de oel A36 poate cu un prag de ncredere de 95% , poate fi
sigur c rezistena medie a barelor este cel puin 2164 kgf.
B.2. Cazul cnd nu se cunoate dispersia
xn
Procednd analog ca mai sus, dar considernd statistica Tn ~ tn- 1 se obine din
s
n
xn s
P t1 ; n 1 1 , marginea inferioar, 1 x n t1 ; n 1 , pentru media
s n
n
68
Probabiliti i Statistic matematic (Draft)
B. Interval unilateral pentru medie margine superioar
B.3. Cazul cnd se cunoate dispersia
Aa cum s-a determinat marginea inferioar pentru media teoretic, se poate determina i
xn
marginea superioar cu pragul de semnificaie ( 1 ), P Z1 1 ,
n
obinndu-se 1 x n Z1 .
n
69
Probabiliti i Statistic matematic (Draft)
1 n 1 n
M p M X i M X i (n p) p , adic
1
p este un estimator nedeplasat,
n i 1 n i 1 n
p1 p
1 n 1 n
Var p Var X i 2 VarX i 2 M X i2 M X i 2 n p p 2
1 n 2 1
,
n i 1 n i 1 n i 1 n n
deoarece M X i2 02 (1 p) 12 p p . Pentru n suficient de mare (mai mare dect 30) se
p (1 p )
presupune c se obine repartiia normal pentru P , P ~ N p, i se pot aplica
n
p p
formulele: P Z Z 1 . De aici rezult c:
2 p (1 p ) 1
2
n
p (1 p ) p (1 p )
p1 p Z , p Z , unde Z 1 1 , Z 1 1 .
n 1 n 2 1 2 2
2 2 2
(n 1) s 2
P 2 2 1
2 ; n 1 2
1 ; n 1
2
70
Probabiliti i Statistic matematic (Draft)
(n 1) s 2 (n 1) s 2 1 n 2 2 1 n
anume: 2
1 2 , , unde s
2
Xi nX , X Xi .
1 ; n 1 2
; n 1
n 1 i 1 n i 1
2 2
Fr dificultate se pot obine i intervalele unilaterale:
(n 1) s 2
a) Limita inferioar pentru dispersie 2 ,
12 ; n 1
(n 1) s 2
b) Limita superioar pentru dispersie 2 .
2 ; n 1
Atunci vom avea cazul 2 cu n 1 10 grade de libertate, 2 902 ,10 5.578 , iar
1 ,
2
s2
Astfel n 80% din cazuri 0.557 1.727 , sau rastunnd relaia i separnd pe 2 ,
2
avem
s2 s2
2
1.727 0.557
care este un interval de ncredere 80% pentru estimarea lui 2 .
71
Probabiliti i Statistic matematic (Draft)
Partea a treia
72
Probabiliti i Statistic matematic (Draft)
Testul de verificare a ipotezei nule se numete testul ipotezei nule i reprezint o regul de
descompunere a spaiului ndimensional al seleciilor Rn (n volumul seleciei) n dou
regiuni: Rn Rn1 Rn0 cu Rn1 Rn0 astfel nct dac valorile observate X1,..., X n Rn1
se accept ipoteza H0, iar dac X 1 ,..., X n Rn0 se respinge ipoteza H0.
Not: Testul ipotezei nule se aplic dac populaia din care s-a extras selecia urmrete legea
normal sau volumul seleciei este suficient de mare (n>30).
Reamintim c prin test de semnificaie se nelege acel test statistic ce verific ipoteza privind
valori estimate ale caracteristicilor unei variabile aleatoare.
73
Probabiliti i Statistic matematic (Draft)
Aplicaie. Fie X ~ F ( x, ) , parametrul (parametrii) repartiiei i 1* , *2 doi
H 0 : " M [ Z ] 0" .
t2 t2
t0
2 2
e e
P( Z t0 ) (t0 )
2
dt , sau P( Z t0 ) 1 (t0 )
t0 2
dt
1 % , altfel se respinge.
74
Probabiliti i Statistic matematic (Draft)
Se presupune c repartiia rezistenei barelor este repartiia normal. Se consider variabila
R 37.5 38
redus Z calculat 0.833 . Alegng 0.05 5% , din tabelele
3
n 25
repartiiei normale standard gsim Z 1 (0.05) 1 (0.95) 1.95 . Deoarece
R 37.5 38
T ~ t n1 , Tcalculat 0.714 . Pentru acest caz, numrul gradelor de
s 3.5
n 25
libertate este n 1 25 1 24 i atunci din tabela repartiiei Student gsim
t24;0.05 t 24;0.95 1.7109 . Tcalculat tn; se accept ipoteza nul!
7.3.3. Aplicaii
75
Probabiliti i Statistic matematic (Draft)
gsite urmtoarele greuti: 39.75 ; 40.25; 39.50; 39,50; 40.25; 40.50; 40.00; 39.75; 40.00;
40.00; 39.25; 39.25; 39.50; 40.00; 39.50 .
Poate fi considerat marfa primit corespunznd comenzii fcute cu un prag de 95%?
Soluie. Trebuie verificat ipoteza H 0 : m 40 . Dispersia D este necunoscut i va fi
estimat. Cum n=15<30, vom considera pentru variabila redus repartiia Student.
Avem
M [ X ] 40 , x n x15 39.80 , n 15 , n 1 14 ,
X
n 15
X 39.80
2
xn
2
i i
2.025
s i 1
i 1
0.1446 0.3803.
n 1 14 14
Calculm statistica tcalc pentru a putea s o comparm cu valoarea teoretic
M [ X ] x15 40 39.80
tcalc 2.0367 ,
x15 0.1446
15
s2
Deoarece tim c dispersia mediei de selecie verific relaia . Valoarea teoretic a2
n
lui t corespunztoare pragului de semnificaie 0.05 i 14 este 2.145 i atunci
intervalul de acceptare corespunztor l gsim ca fiind t , t t0.025 , t0.975 adic
2 1 2
(-2.145 , 2.145) . n figur reprezint suma ariilor haurate.
Valoarea calculat tcalc=2.0367 cade n acest interval, ceea ce nseamn c diferena dintre
media empiric i cea teoretic nu este semnificativ, adic marfa primit se accept c fiind
corespunztoare comenzii fcute.
Exemplul 2. [1] Presupunem c specificaiile pentru rezistena armturii pentru beton armat
cer ca valoarea medie s fie de 38 psi. Este esenial ca armturile folosite s aib rezistena
76
Probabiliti i Statistic matematic (Draft)
medie cerut. Dintre armturile livrate de ctre furnizor pentru constructor, s-au testat 25 de
bare i s-a constatat c media rezistenei armturilor testate este 37.5 psi.
a) Se presupune c se cunoate deviaia standard a rezistenei armturilor, 3 psi .
Constructorul este interesat doar de armturile cu rezistena medie mai mic dect 38 psi.
Soluie. Este indicat formularea ipotezei nule urmtoare:
H 0 : R 38 psi cu alternativa H1 : R < 38 psi
cnd se poate folosi test unilateral. Presupunnd c rezistena celor 25 de armturi este o
variabil aleatoare normal, R ~ N R , , atunci R ~ N R , , iar variabila
n
R R 37.5 38
redus Z ~ N 0, 1 . Atunci Z calc 0.833 . Pentru un nivel de
3
n 25
semnificaie de 5%, valoarea critic luat din tabela repartiiei normale standard
Z Z0.05 1 (0.05) 1 (0.95) 1.95 . Deoarece valoarea Z calc > Z 0.05 , adic se afl
n afara regiunii de respingere a ipotezei H0 , sau n zona de acceptare a ipotezei H0 , ceea
ce revine la a considera c armtura dat de furnizor respect specificaiile constructorului.
b) Se presupune c nu se cunoate deviaia standard a rezistenei armturilor.
Constructorul este interesat doar de armturile cu rezistena medie mai mic dect 38 psi.
Soluie. Este indicat formularea ipotezei nule urmtoare:
H 0 : R 38 psi cu alternativa H1 : R < 38 psi
R R
Din cele 25 de date se estimeaz s=3.5 psi i atunci variabila redus, T ~ t24 ,
s
n
R R 37.5 38
este repartizat Student cu (n-1)=24 grade de libertate. T 0.714 .
s 3.5
n 25
Pentru un nivel de semnificaie de 5%, valoarea critic luat din tabela repartiiei Student
T T0.05 t 1 (0.05) t 1 (0.95) 1.711. Deoarece valoarea Tcalc > T0.05 , adic se afl n
afara regiunii de respingere a ipotezei H0 , sau n zona de acceptare a ipotezei H0 , ceea ce
revine la a considera c armtura dat de furnizor respect specificaiile constructorului.
77
Probabiliti i Statistic matematic (Draft)
volum ni obinute prin sondaj n Pi , i 1, 2 , care determin variabilele de selecie X i* cu
n1 , n2 30 dar X1, X2 sunt repartizate normal, mediile de selecie m1* , m2* au repartiii
normale i atunci Z este repartizat nornal.
ii) Dispersiile Di D[ X i ] , i 1, 2 sunt necunoscute. n acest caz se folosesc estimatorii
~
absolut coreci: Di
1 ni
ni 1 j 1
X i j mi*
2
, i 1, 2 .
X X
n n
2 2
~ ~
j
m1* j
m2*
1 2
D1 D2 j 1 j 1
D m1 m2 D m1 D m2
* * * *
n1 n2 n1 n1 1 n2 n2 1
d 2 Dm1* m2* .
m1* m2*
Dac n1 , n2 30 , atunci Z nu mai are repartiia normal i fluctuaiile de
m m
* *
1 2
eantionare influenteaz substanial legea respectiv. Pentru a putea rezolva problema facem
ipoteza suplimentar c dispersiile necunoscute D1 , D2 sunt egale D1=D2=D i nu neaprat
cunoscute.
Se poate demonstra c dac variabila aleatoare teoretic are repartiia normal i sondajul este
d
non-exhaustiv, variabila redus Z are repartiia Student i deci se poate aplica testul t.
d
~
Lum pentru D media ponderat a estimatorilor lui D1 , D2, ponderile fiind date de
numrul gradelor de libertate 1 n1 1 , 2 n2 1 ,
X m1* X 2j m2*
n1 n2
j 2 2
~
~ D D
~
D 1 1 2 2 1
n 1D~1 n2 1D~2 j 1
1
j 1
1 2 n1 n2 2 n1 n2 2
adic
~ ~
D1 D2 ~ n1 n2
D[d ] D .
n1 n2 n
1 2
n
78
Probabiliti i Statistic matematic (Draft)
Variabila redus creia i se va aplica testul t este:
d d n1 n2 ~
t ~ , unde: ~ D , variabil aleatoare repartizat Student cu (n1+n2-2)
d n1 n2
grade de libertate.
Dac, n plus, cele dou selecii sunt de acelai volum, n1=n2=n , atunci
m1* m2* n
t , 2(n 1) .
~ 2
Exemplul 3. Pentru planificarea produciei unui anumit articol (de exemplu : ui metalice, ui
din lemn, tmplrie PVC etc.) s-a efectuat o anchet n rndul populaiei a dou regiuni, cu
scopul de a cunoate numrul eventualilor cumpratori ai articolului respectiv, obinndu-se
datele din tabelul urmtor:
Numr de persoane Eventualii beneficiari
Regiune Deviaia standard
chesionate (%)
R1 n1 =1200 m1* 72 ~1 10
R2 n2=250 m2* 70 ~2 9
Cum se va face planificarea calculndu-se o medie comun pentru cele dou regiuni sau
separat pentru fiecare regiune ?
Soluie. Volumele seleciilor fiind mari, se formeaz ipoteza nul H 0 m1 m2 .
d m1* m2* 2% ,
~ ~
D1 D2 102 92 d 2
D[d ] 0.41, d 0.41 0.64% , Z c 3.13 .
n1 n2 1200 250 d 0.64
0.99
Cu pragul de semnificaie 0.01, ( Z ) 0.495 , sau 2 ( Z ) 0.99 , iar din tabela
2
repartiiei normale standard avem Z 2.58 . Intervalul de acceptare a ipotezei H0 este
2
2.58 , 2.58 , iar valoarea statisticii este 3.13 n afara acestui interval, se respinge ipoteza
H0 , adic planificarea trebuie fcut pe regiuni.
79
Probabiliti i Statistic matematic (Draft)
Ipoteza nula: H 0 : p* p .
p(1 p)
Se poate demonstra c f n ~ N p,
pentru n , cu p cunoscut. Se
n
fn p
formeaz variabila redus Z calculat , se fixeaz se ia din tabela repartiiei
p (1 p )
n
normale standard cuantila Z i dac Z calculat Z a se accept ipoteza H0 , altfel se
respinge!
Exemplul 4. Se iau la ntmplare 100 de traverse de beton precomprimat de la o
ntreprindere de prefabricate i se constat c 12 au defecte. Se poate admite c proporia de
1
traverse defecte este de aa cum a fost stabilit prin contract cu un risc de 5% ?
6
1
Soluie. Frecvena observat este p* 0.12 . Se dorete a fi comparat cu p 0.17 .
6
Ipoteza H 0 : p* p i alternativa sa H 0 : p* p .
Admind c numrul de piese defecte este repartizat dup legea binomial Bi(100 ;p),
p(1 p) p* p
abaterea standard a frecvenei este s , Z calculat . Se face aproximarea cu
n s
legea normal i avem: PZ calculat Z a , 0.05 , Z 1 (0.975) 1.96 ,
1
2
p* p
Z 1 (0.025) 1.96 de unde reult c P Z :
2 s
p 1.96 s p* p 1.96 s , sau 0.0932 p* 0.2402 . Deoarece frecvena observat
aparine intervalului de ncredere se accept ipoteza H0, deci i contractul se deruleaz.
80
Probabiliti i Statistic matematic (Draft)
f1 f 2
Se consider variabila redus Z care pentru volume mari n1 , n2 30 are
f 1 f2
repartiia normal.
p1 (1 p1 ) p2 (1 p2 )
D[ f1 f 2 ] D[ f1 ] D[ f 2 ] .
n1 n2
Exemplul 5. Pentru prevenirea coroziunii unor conducte se pot face preventiv dou
tratamente distincte T1 i T2. Tratamentul T1 s-a aplicat la 200 conducte i 10% dintre ele
au fost corodate. Tratamentul T2 s-a aplicat la 800 conducte i 15% dintre ele au fost
corodate. Se poate accepta cu riscul de 5% c diferena tratamentelor are o influen asupra
faptului de a fi corodate conductele ?
Soluie. Se aproximeaz legea binomial cu legea normal, volumele eantioanelor fiind
mari. Diferena proporiilor va fi o variabil aleatoare normal. Se pune problema dac
proporia conductelor corodate este semnificativ diferit n cele dou eantioane.
Ipoteza H0 : p1* p2* d p1* p2* ~ N 0, d .
iar diferena calculat dcalculat 0.15 0.1 0.05 nu cade n acest interval de ncredere.
81
Probabiliti i Statistic matematic (Draft)
adic se cerceteaz dac irul numeric al frecvenelor absolute empirice N i .. reflect
legitatea ipotetic a variabilei aleatoare teoretice. Rspunsul respectiv este util n aprecierea
caracteristicilor variabilei empirice prin prisma legitii variabilei teoretice.
Rezolvarea acestei probleme impune urmtoarele etape:
i) Estimarea parametrilor, facut innd seama de eventualele semnificaii ce le pot avea n
legtur cu caracteristicile repartiiei teoretice.
ii) Se construiete dup estimarea parametrilor variabila pseudoteoretic:
x1 x2 xn
~ n
X : , N N
i ,
N N 2 N n
i 1
1
facndu-se astfel legtura ntre variabila empiric Xe i cea teoretic X.
Determinarea frecvenelor absolute calculate N i se face cu ajutorul funciei de
probabilitate:
N i
f ( xi ) N N f ( xi ) , i 1, n .
N
iii) Verificarea concordanei dintre distribuia empiric i cea teoretic, adic se stabilete
dac diferenele ( N i N i ) sunt datorate unei simple ntmplri, deci nu sunt semnificative
sau diferenele sunt semnificative i atunci exist o neconcordan ntre repartiia teoretic i
cea empiric.
Verificarea concordanei se face prin teste de concordan aa cum s-a precizat nainte.
Testul de concordan 2 (hi ptrat) este datorat lui Karl Pearson. Pearson a artat c n
cazul unui sondaj nonexhaustiv n populaia chestionat, cnd probabilitile pi nu sunt
apropiate de 0 sau 1 iar produsele N i N pi , unde pi f ( xi ) , dup estimarea
calc
2
n
Ni Ni2
i 1 N i
Not. Numrul gradelor de libertate este strns legat de cantitatea de informaie de care se
dispune n cercetarea care se efectueaz; ea se reflect n volumul n al datelor
82
Probabiliti i Statistic matematic (Draft)
n
experimentale; (n-1) informaii independente, deoarece N
i 1
i N, i se mai pierde
repartiii.
Exemplul 5. Se msoar diametrele a 500 de conducte din material plastic, luate la
ntamplare, i se obin rezultatele trecute Tabelul 1.
Tabelul 1
Diametrul
n <45 [45-47) [47-49) [49-51) [51-53) [53-55) [55-57) >57 Total
centimetri
Nr.
35 53 76 100 88 78 42 28 500
conducte
N ~xi i
Estimarea mediei se face cu media aritmetic a valorilor observate: x i 1
50.78 .
N
83
Probabiliti i Statistic matematic (Draft)
n
x N
2
2
i i x
Estimarea dispersiei: sn i 1
14,0236 i abaterea medie patratic se estimeaz
N
cu 3.74 .
Se formuleaz ipoteza H0: Diametrul conductelor este o variabil aleatoare N (50.78, 3.74)
xi x xi 50.78
Se consider variabila redus Zi , ale crei valori sunt trecute n
sn 3.74
Tabelul 3, mpreun cu probabilitile teoretice corespunztoare.
Tabelul 3
Interval
diametrelor Zi (Z i ) pi N i
conductelor
45 -1,54 0.061 0.061 30.679
(45-47] -1,01 0.156 0.095 47.517
(47-49] -0,48 0.317 0.161 80.443
(49-51] 0,06 0.523 0.206 103.073
(51-53] 0,59 0.723 0.2 99.963
(53-55] 1,13 0.87 0.147 73.378
(55-57] 1,66 0.952 0.082 40.767
(57-59] 2,20 0.986 0.048 24.18
unde: pi ( xi ) ( xi1 ) , (x) fiind funcia de repartiie a variabilei aleatoare normale
calc
2
Ni Ni2 gsim valoarea calc
2
3.942 5;0.05
2
11.070 i cu pragul de
Ni
84
Probabiliti i Statistic matematic (Draft)
Exemplu de aplicare a testului 2
Frecventele absolute
Numarul claselor
85
Probabiliti i Statistic matematic (Draft)
Probabilitatile teoretice
86
Probabiliti i Statistic matematic (Draft)
Calculam calculat
altfel se respinge
87
Probabiliti i Statistic matematic (Draft)
7.4.2.Testul lui Kolmogorov
Acest test are la baz urmtoarea teorem.
Teorema lui Kolmogorov. Fie X o variabil a crei funcie de repartiie F (x ) este
continu i X 1 , X 2 , ... , X n o selecie efectuat asupra sa. Fie Fn (x) funcia de repartiie
empiric (de selecie) asociat seleciei date, adic
numarul valorilor X i x
Fn ( x)
n
Atunci:
(1) e
k 2 2 k 2
lim P max Fn ( x) F ( x) K ( )
n
x n k
Funcia K ( ) se numete funcia lui Kolmogorov i exist tabele cu cuantilele ei.
- se calculeaz Fn X (i ) i F X (i ) i diferentele di Fn X (i ) F X (i ) i 1, n ,
- se determina d max di
1 i n
- dac d se accept ipoteza H0 , altfel se respinge.
n
Observatie: parametrii repartitiei teoretice trebuie sa fie cunoscuti si nu determinati din
datele de observatie! In general acestia se determina prin simulare.
Exemplul 6. Direcia de organizare a unei bnci comerciale vrea s analizeze, n vederea unei
organizri mai raionale a personalului de servire, activitatea desfasurat la o agenie. n acest
scop se fac sondaje privind timpul de servire a unui depunator oarecare. Datele sunt trecute n
Tabelul 4, care conine intervalele de timp de servire msurate n minute, centrele
intervalelor, frecvenele absolute i apoi adaugat coloana xN x .
Pe baza datelor culese (coninute n Tabelul 4) s se stabileasc natura timpului de servire a
unui depuntor.
88
Probabiliti i Statistic matematic (Draft)
Rezolvare. Pentru a stabili alura repartiiei teoretice, vom face histograma timpilor de servire
a unui depuntor.
Tabelul 4
de servire Centrul intervalului Frecvena absolut xN x
xi 1, xi x Nx
89
Probabiliti i Statistic matematic (Draft)
Presupunem ca timpul de servire a unui client este ts 2.5 min , parametrul repartiiei
1
0.4 depunatori servii pe minut.
2 .5
Funcia de repartiie teoretic este : Exp( 0.4 ) , adic F ( x ) 1 e x 1 e 0.4 x
Calculele necesare aplicrii testului Kolmogorov le trecem n Tabelul 5.
Tabelul 5
Funcia empiric
Interval de Frecvena de repartiie Funcia de
servire absolut Ny repartiie teoretic di Fn X (i ) F X (i )
xi 1, xi Nx Fn ( x) y x F ( x ) 1 e 0.4x
Nx
(1.5 - 2) 49 0.438 0.503415 0.065415
(2 2.5) 30 0.705 0.59343 0.11157
(2.5 3) 10 0.794 0.667129 0.126871
(3 3.5) 5 0.840 0.727468 0.112532
(3.5 4) 5 0.884 0.77687 0.10713
(4 4.5) 4 0.920 0.817316 0.102684
(4.5 5) 2 0.938 0.850431 0.087569
(5 5.5) 2 0.955 0.877544 0.077456
(5.5 6) 1 0.964 0.899741 0.064259
(6 6.5) 0 0.964 0.917915 0.046085
(6.5 7) 0 0.964 0.932794 0.031206
(7 7.5) 1 0.973 0.944977 0.028023
(7.5 8) 2 0.991 0.954951 0.036049
(8 8.5) 1 1 0.963117 0.036883
Total 112
Max=0.126871
observaii
Lund pragul de semnificaie 0.01, se gsete n tabela funciei
K ( ) , K 0.99 , 1.63 . n exemplul de mai sus n=14 i atunci
1.63 1.63
0.436 . Deoarece d = 0.126871< 0.436 se accept ipoteza H0, potrivit
n 14 3.74
creia timpul de servire al unui depuntor este o variabil aleatoare exponenial de
parametru 0.4 i n calculele privind optimizarea se poate folosi pentru timpul de
servire, legea Exp( 0.4 ) .
Urmtorul document MathCAD rezolva exemplul de mai sus.
90
Probabiliti i Statistic matematic (Draft)
Testul Kolmogorov
1.75 49
2.25 30
2.75 10
3.25 5
3.75 5
4.25 4
4.75 2
Tmij Fr_abs
5.25 2
5.75 1
6.25 0
6.75 0
7.25 1
7.75 2
8.25 1
Numar de intervale
Numar de observatii
n last( Tmij) n 14
N
Fr_abs N 112
=0.4 x
F ( x) 1 e
91
Probabiliti i Statistic matematic (Draft)
Ipoteza H0 : Timpii observati pot fi considerati repartizati Exp()
i 1 n Fr_absj
j1
di F Tmiji 0.25
N
D max( d) D=0.126871
10000
k 2 k
2 2
K ( ) ( 1) e
k 10000
0.99 1
root(K ( ) )
1.628
0.435
n
Deoarece 0.435 > D= 0.126871se accepta ipoteza H0
n
92
Probabiliti i Statistic matematic (Draft)
Partea a patra
8.1. Concepte
Este frecvent situaia n care trebuie comparate ntre ele mai mult dect dou caracteristici
ale unei populaii statistice.
Punerea problemei: Se dispune de eantioanele E1 , E2 , ..., El de volume ni , i 1, l ale
unei populaii, care determina variabilele de selecie X i* i pentru care pot fi determinate
~
mediile de selecie mi* i chiar dispersiile de selecie Di , i 1, l , astfel
ni
1 ~ 1 ni
X i, j , Di
2
mi* X i , j mi*
ni j 1 ni 1 j 1
organizate sub forma tabelului
Mediile Grade de
Volumul Valorile de selecie Dispersiile
Eantion de libertate
eantionului (experimentale) de selecie
selecie i ni 1
E1 n1
X 1* X 1,1, X 1, 2 ,..., X1, n1 m1*
~
D1 1 n1 1
X
E2 n2 ~ 2 n2 1
X 2* 2,1 , X 2, 2 ,..., X 2,n2 m2* D2
El nl
X l* X l ,1 , X l , 2 ,..., X l ,nl ml*
~
Dl l nl 1
Problema care se pune se poate referi la mediile de selecie mi* sau la dispersiile de selecie
~
Di , i 1, l .
93
Probabiliti i Statistic matematic (Draft)
La fel se pune problema cnd caracteristica studiat este determinat de dispersiile
~
Di , i 1, l , dar metodele sunt deosebite.
- dispersia intraclase (sau rezidual Dr): Fiecare eantion Ei, corespunztor unei
~
subpopulaii Pi , are ca estimatori absolut coreci pentru dispersia Di, Di , i 1, l ,
absolut coreci. Se ia ca estimator al lui D,
l n
1 ~
Dr
r
i 1
i Di , i ni 1 , i 1, l , r i N l .
i 1
m* . Exist pentru fiecare eantion (clas) o abatere mi* m* realizat cu frecvena ni.
~
selecie global m* i o dispersie global Dg
1 l ni
N 1 i 1 j 1
2
X i , j mi* .
Dr
- se determin Dr i Dc , r N l , c l 1 , Fcalculat , pentru Dr Dc sau
Dc
Dc
Fc pentru Dr Dc ;
Dr
corespunde o valoare Xi,j i aceste date s-au trecut ntr-un tabel de forma:
Bj 1 n
Ai
B1 B2 Bn X i, j
n j 1
A1 X1,1 X1,2 c X1,n m1*, 0
Al Xl,1 Xl,2 Xl, n ml*, 0
l
m *
i, 0
1 l i 1
X i, j
n i1
m0*,1 m0*, 2 m0*, n
n
m
j 1
*
0, j
Ultima coloana conine mediile pe linii, iar ultima linie mediile pe coloane.
95
Probabiliti i Statistic matematic (Draft)
l n l n
X i , j
i 1 j 1
m *
i, 0 m
j 1
*
0, j
Media global: m* i 1
l n l n
Metoda analizei dispersionale const n urmtorii pai:
- construirea unor estimatori ai dispersiei comune D a populaiei P ( P se consider
omogen relativ la factorii A i B; variabila aleatoare X se consider repartizat
normal).
- Se testeaz ipoteza H0: privind egalitatea mediilor.
Se pornete de la identitatea: X i , j m* m0*, i m* m*j , 0 m* X i , j m0*, i m*j , 0 m* i
notm i , j X i , j m0*, i m*j , 0 m* . Rezult X i , j m* m0*, i m m
* *
j, 0
m* i , j .
X
l n l n l n
m* n m0*, i m* l m*j , 0 m* i , j
2 2 2
i, j
i 1 j 1 i 1 j 1 i 1 j 1
Se noteaz :
l n
variaia global S g2 X i , j m* ,
2
-
i 1 j 1
l
Sic2 n m0*, i m* S A2 ,
2
i 1
n
S 2jc l m*j , 0 m* S B2 ,
2
j 1
l n
- variaia rezidual S i , j . 2
r
i 1 j 1
Cu aceste notaii ecuaia analizei dispersionale pentru doi factori se poate scrie:
S g2 S A2 S B2 Sr2 .
96
Probabiliti i Statistic matematic (Draft)
i) dispersia global: Dg
1 l n
i, j
N 1 i 1 j 1
X m* 2
S g2
S g2
n l 1 g
, g n l 1 , unde g
S r2 S2
l n
r , r n 1l 1 .
1
2
Dr X i , j mi*, 0 m0*, j m*
n 1l 1 i 1 j 1 n 1l 1 r
Remarc. Dispersiile DA i DB sunt estimatori absolut coreci n cazul omogenitii i nu
sunt absolut coreci n cazul eterogenitii: M DA D , M DB D .
Dr este un estimator absolut corect fie c este sau nu este ndeplinit omogenitatea
populaiei.
Pentru a testa absena sau prezena interveniei factorului A n valorile empirice Xi, j , se va
compara dispersia DA cu Dr folosind testul F:
DA S2 l 1
FA (n 1) A2 cu A .
Dr Sr r (l 1)(n 1)
DB S2 n 1
Analog pentru factorul B: FB (l 1) B2 cu B .
Dr Sr r ( l 1 )( n 1 )
97
Probabiliti i Statistic matematic (Draft)
Partea a IV-a
Chestiuni teoretice
1. Ce se nelege prin evenimente independente?
2. Ce se nelege prin evenimente contrare? Dai exemple!
3. Ce se nelege prin probabilitatea evenimentului A condiionat de evenimentul B?
Cum se calculeaz aceast probabilitate?
4. Ce se nelege prin variabil aleatoare?
5. Cum se defineste funcia de repartiie a unei variabile aleatoare?
6. Ce este densitatea de repartiie?
7. S se calculeze funcia de repartiie a variabilei aleatoare definit prin tabelul de
repartiie de mai jos:
0 1 2 3 4
X :1 2 1 5 3
8 8 8 16 16
8. Care sunt caracteristicile unei variabile aleatoare incluse n clasa tendina central de
grupare i ce semnificaie au?
9. Care sunt caracteristicile unei variabile aleatoare incluse n clasa forma graficului de
distribuie i ce semnificaie au?
10. Care sunt caracteristicile unei variabile aleatoare incluse n clasa mprtierea
distribuiei i ce semnificaie au?
11. Cum se masoar asimetria unei repartiii?
12. Cum se msoar boltirea unei repartiii? Cu cine se compar acest coeficient?
13. Ce repartiii discrete utilizate frecvent n inginerie cunoatei?
14. Ce repartiii continue utilizate frecvent n inginerie cunoatei?
15. Care este densitatea de repartiie pentru o variabil aletoare normal standard?
16. Ce se nelege prin variabila aleatoare redus?
17. Care este legatura dintre o variabil aleatoare lognormal i normal?
18. Care este legatura dintre o variabil aleatoare Student i normala standard?
19. Care este legatura dintre o variabil aleatoare Ficher-Snedecor F , i normala
1 2
standard?
20. Care este legatura dintre o variabil aleatoare 2 i normala standard?
98
Probabiliti i Statistic matematic (Draft)
21. Ce se nelege prin populaie statistic ? Ce moduri de colectare a informaiei asupra
unei populaii statistice cunoatei ?
22. Ce se nelege prin eantion reprezentativ asupra unei populaii statistice ?
23. Ce modaliti de reprezentare grafic a repartiiilor de frecven cunoatei ?
24. Ce este histograma? Dar poligonul frecvenelor?
25. Ce se nelege prin estimator al unui parametru statistic?
26. Cnd un estimator este absolut corect? Dar nedeplasat?
27. Cnd un estimator este consistent? Dar corect?
28. Avnd 1* i 2* , 2 estimatori pentru parametrul , cnd 1* este mai bun dect 2*?
29. Ce este funcia de verosimilitate ?
30. Ce se nelege prin estimator de verosimilitate maxim? Dar prin estimator eficient?
31. Care sunt estimatorii de verosimilitate maxim pentru parametrii repartiiei normale?
32. Ce estimator pentru medie cunoatei? Dar pentru dispersie?
33. Ce se nelege prin ipotez statistic?
34. Ce se nelege prin ipoteza nul?
35. Ce se nelege prin test statistic ?
36. Ce este domeniul critic sau regiunea critic a unui test statistic?
37. Ce este riscul de genul nti? Dar de genul al doilea?
38. Care sunt etapele verificrii ipotezelor statistice?
39. Ce se nelege prin test de concordan ? Ce test de concordan cunoatei?
40. Cum se testeaz concordana dintre repartiia teoretic i cea empiric?
41. n ce situaie se recomand utilizarea testului t ?
42. n ce situaie se recomand utilizarea testului 2 ?
43. Ce se nelege prin interval de ncredere pentru un parametru ?
44. Ce se nelege prin funcie de regresie?
45. n ce const Metoda celor mai mici ptrate?
46. Ce erori pot afecta datele rezultate din msurtori?
47. Cum de poate verifica dac un set de date de msurtori este afectat de erori aberante?
48. Cum de poate verifica dac un set de date de msurtori este afectat de erori
sistematice?
49. Ce soft-ware cunoatei pentru ajustarea datelor de msurtori?
50. Cum se cuantific adecvana funciei de regresie propus?
99
Probabiliti i Statistic matematic (Draft)
100
Probabiliti i Statistic matematic (Draft)
Bibliografie
1. Ang, A. H-S. i Tang, W. H.: Probability Concepts in Engineering, Emphasis on
Application to Civil and Environmental Engineering, John Wiley & Sons, Inc. 2007.
2. Armeanu, I. i Petrehu, V.: Probabiliti i statistic aplicate n biologie, Ed.
MatrixROM, Bucureti, 2006.
3. Ciuiu, D.: Teoria probabilitilor i statistic matematic, Ed. Conspress, Bucureti,
2008.
4. Costinescu, C., Popescu, S.-A., Mierlu-Mazilu,I.: Probabiliti i statistic
matematic, Ed. Conspress, Bucureti, 2005.
5. Petrehu, V. i Popescu , A.-S. Popescu: Probabiliti i Statistic (teorie, exemple,
probleme), Ed. UTCB, 1997.
101