Documente Academic
Documente Profesional
Documente Cultură
Curs
Curs
Statistic Aplicat
exemple:
n Agricultur, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a folosite
n Economie, pentru studiul rentabilitii unor noi produse introduse pe pia, pentru core-
larea cererii cu ofert, sau pentru a analiza cum se schimb standardele de via;
n Biologie, pentru clasicarea din punct de vedere tiinic a unor specii de plante sau
n tiinele educaiei, pentru a gsi cel mai ecient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naionale asupra diverselor caregorii de persoane ce lucreaz n
nvmnt;
n Meteorologie, pentru a prognoza vremea ntr-un anumit inut pentru o perioad de timp,
sociale;
etc.
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai nti
care este colectivitatea asupra creia se dorete studiul. Aceast colectivitate (sau populaie)
poate populaia unei ri, sau numai elevii dintr-o coal, sau totalitatea produselor agricole
cultivate ntr-un anumit inut, sau toate bunurile produse ntr-o uzin. Dac se dorete studiul
unei trsturi comune a tuturor membrilor colectivitii, este de multe ori aproape imposibil de
a observa aceast trstur la ecare membru n parte, de aceea este mult mai practic de a
strnge date doar despre o submulime a ntregii populaii i de a cuta metode eciente de a
extrapola aceste observaii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cu
descrierea acestei colecii de date, numit Statistic descriptiv. Aceast descriere a trsturilor
unei colectiviti poate fcut att numeric (media, dispersia, mediana, cuantile, tendine etc),
ct i grac (prin puncte, bare, histograme etc). De asemenea, datele culese pot procesate ntrun anumit fel, nct s putem trage concluzii foarte precise despre anumite trsturi ale ntregii
colectiviti. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale ntregii
colectiviti, studiind doar o parte din ea, se numete Statistic inferenial. n contul Statisticii
infereniale putem trece i urmtoarele: luarea de decizii asupra unor ipoteze statistice, descrierea
gradului de corelare ntre diverse tipuri de date, estimarea caracteristicilor numerice ale unor
trsturi comune ntregii colectiviti, descrierea legturii ntre diverse caracteristici etc.
Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract
a Statisticii. Din datele culese pe cale experimental, Statistica Matematic va cuta s extrag
Matlab
Matlab
Modelare Statistic
De obicei, punctul de plecare este o problem din viaa real, e.g., care partid are o susinere
mai bun din partea populaiei unei ri, dac un anumit medicament este relevant pentru boal
pentru care a fost creat, dac este vreo corelaie ntre numrul de ore de lumina pe zi i depresie.
Apoi, trebuie s decidem de ce tipuri date avem nevoie s colectm, pentru a putea da un rspuns
la ntrebarea ridicat i cum le putem colecta. Modurile de colectare a datele pot diverse: putem
face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este
nevoie de o metod bine stabilit de colectare a datelor i s construim un model statistic potrivit
pentru analiza acestora. n general, date culese de noi pot potrivite ntr-un model statistic prin
care
Data observat = f (x, ) + eroare de aproximare,
(1.1)
unde f este o funcie ce veric anumite proprieti i este caracteristic modelului, x este vectorul
ce conine variabilele msurate i e un parametru (sau un vector de parametri), care poate
determinat sau nedeterminat. Termenul de eroare apare deseori n pratic, deoarece unele date
culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, i eventual
revizuit, astfel nct s se potriveasc ntr-o msur ct mai precis datelor culese.
Denim o populaie (colectivitate) statistic ca ind o mulime de elemente ce posed o trasatur
comun. Aceasta poate nit sau innit, real sau imaginar. Elementele ce constituie o colectivitate statistic se vor numi uniti statistice sau indivizi. Volumul unei colectiviti statistice
este dat de numrul indivizilor ce o constituie. Caracteristica (variabila) unei populaii statistice
este o anumit proprietate urmrit la indivizii ei n procesul prelucrrii statistice. Caracteristicile
pot : cantitative (msurabile sau variabile) (e.g., 2, 3, 5, 7, 11, . . . ) i calitative (nemsurabile sau
atribute) (e.g., rou, verde, albastru etc). La rndul lor, variabilele cantitative pot discrete (numrul de sosiri ale unui tramvai n staie) sau continue (timpul de ateptare ntre dou sosiri ale
tramvaiului n staie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii
ind astfel caracteristici numerice ale colectivitii.
Suntem interesai n a msura una sau mai multe variabile relative la o populaie, ns aceasta s-ar
putea dovedi o munc extrem de costisitoare, att din punctul de vedere al timpului necesar, ct
i din punctul de vedere al depozitrii datelor culese, n cazul n care volumul colectivitii este
mare sau foarte mare (e.g., colectivitatea este populaia cu drept de vot a unei ri i caracteristica
urmrit este candidatul votat la alegerile prezideniale). De aceea, este foarte ntemeiat alegerea
unei selecii de date din ntreaga populaie i s urmrim ca pe baza datelor selectate s putem
trage o concluzie n ceea ce privete variabila colectivitii.
O selecie (sau eantion) este o colectivitate parial de elemente extrase (la ntmplare sau nu)
din colectivitatea general, n scopul cercetrii lor din punctul de vedere al unei caracteristici.
Dac extragerea se face la ntmplare, atunci spunem c am facut o selecie ntmpltoare. Numrul indivizilor din selecia aleas se va numi volumul seleciei. Dac se face o enumerare sau o
listare a ecrui element component al unei a populaii statistice, atunci spunem c am facut un
recensmnt. Selecia ar trebui s e reprezentativ pentru populaia din care face parte. Numim
o selecie repetat (sau cu repetiie) o selecie n urma creia individul ales a fost reintrodus din
nou n colectivitate. Altfel, avem o selecie nerepetat. Selecia nerepetat nu prezint interes
dac volumul colectivitii este nit, deoarece n acest caz probabilitatea ca un alt individ s e
ales ntr-o extragere nu este aceeai pentru toi indivizii colectivitii. Pe de alt parte, dac
volumul ntregii populaii statistice este mult mai mare dect cel al eantionului extras, atunci
putem presupune c selecia efectuat este repetat, chiar dac n mod practic ea este nerepetat.
Spre exemplu, dac dorim s facem o prognoz a cine va noul preedinte la alegerile din toamn,
eantionul ales (de altfel, unul foarte mic comparativ cu volumul populaiei cu drept de vot) se
face, n general, fr repetiie, dar l putem considera a o selecie repetat, n vederea aplicrii
testelor statistice.
Seleciile aleatoare se pot realiza prin diverse metode, n funcie de urmtorii factori: disponibilitatea informaiilor necesare, costul operaiunii, nivelul de precizie al informaiilor etc. Mai jos
prezentm cteva metode de selecie.
selecie simpl de un volum dat, prin care toi indivizii ce compun populaia au aceeai
selecie sistematic, ce presupune aranjarea populaiei studiate dup o anumit schem ordonat i selectnd apoi elementele la intervale regulate. (e.g., alegerea a ecrui al 10-lea
numr dintr-o carte de telefon, primul numr ind ales la ntmplare (simplu) dintre primele
10 din list).
selecie straticat, n care populaia este separat n categorii, iar alegerea se face la ntm-
plare din ecare categorie. Acest tip de selecie face ca ecare grup ce compune populaia s
poata reprezentat n selecie. Alegerea poate facut i n funcie de mrimea ecrui grup
ce compune colectivitatea total (e.g., aleg din ecare jude un anumit numr de persoane,
proporional cu numrul de persoane din ecare jude).
selecie ciorchine, care este un eantion straticat construit prin selectarea de indivizi din
selecia de tip experien, care ine cont de elementul temporal n selecie. (e.g., diveri timpi
de pe o encefalogram).
selecie de convenien: de exemplu, alegem dintre persoanele care trec prin faa universitii.
selecie de judecat: cine face selecia decide cine ramne sau nu n selecie.
selecie de cot: selecia ar trebui s e o copie a ntregii populaii, dar la o scar mult mai
mic. Aadar, putem selecta proporional cu numrul persoanelor din ecare ras, de ecare
gen, origine etnic etc) (e.g., persoanele din Parlament ar trebui s e o copie reprezentativ
a persoanelor ntregii ri, ntr-o scar mult mai mic).
De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmrete a se grupa datele, pentru o mai uoar gestionare. Imaginai-v c enumerm toate voturile
unei selecii ntmpltoare de 15000 de votani, abia ieii de la vot. Mai degrab, este util s
grupm datele dup numele candidailor, preciznd numrul de voturi ce l-a primit ecare.
Gruparea datelor
Datele prezentate sub form de distribuie (tabel) de frecvene se numesc date grupate. Datele
de selecie obinute pot date discrete sau date continue, dup cum caracteristicile studiate sunt
variabile aleatoare discrete sau, respectiv, continue.
(1) Dac datele de selecie sunt discrete (e.g., {x1 , x2 , . . . , xn }) i au valorile distincte
x01 , x02 , . . . , x0r , r n, atunci ele pot grupate ntr-un aa-numit tabel de frecvene (vezi exemplul
din Figura 1.1) sau ntr-un tablou de frecvene, dup cum urmeaz:
data :
x01
f1
x02
f2
...
...
x0r
fr
unde fi este frecvena apariiei valorii x0i , (i = 1, 2, . . . , r), i se va numi distribuia empiric de
selecie a lui X . Aceste frecvene pot absolute sau de relative. Un tabel de frecvene (sau o
distribuie de frecvene) conine toate categoriile ce sunt observate din datele colectate i numrul
de elemente ce aparine ecrei categorii n parte, adic frecvena absolut. O frecven relativ
se obine prin mprirea frecvenei absolute a unei categorii la suma tuturor frecvenelor din tabel.
frecvena
frecvena relativ
2.22%
4.44%
8.89%
15
16.67%
18
20.00%
17
18.89%
15
16.67%
7.78%
10
4.44%
Total
90
100%
Observaia 1.1 (o glum povestit de G. Plya,1 despre cum NU ar trebui interpretat frecvena
relativ)
Un individ suferind merge la medic. Medicul l examineaz ndelung i, balansnd dezamgit
capul, i spune pacientului:
"Of... drag domnule pacient, am dou veti: una foarte proast i una bun. Mai nti v aduc
la cunotin vestea proast: suferii de o boal groaznic. Statistic vorbind, din zece pacieni ce
contracteaz aceast boal, doar unul scap."
Pacientul, deja n culmea disperrii, este totui consolat de doctor cu vestea cea bun:
"Dar, i pe pace! Dumneavoastr ai venit la mine, i asta v face tare norocos", continu
optimist doctorul.
"Am avut deja nou pacieni ce au avut aceeai boal i toi au murit, aa c... vei supravieui!"
(2) Dac X este de tip continuu, atunci se obinuieste s se fac o grupare a datelor de selecie n
clase. De exemplu, ni se dau datele din Tabelul 1.2, reprezentnd timpi (n min.sec) de ateptare
pentru primii 100 de clieni care au ateptat la un ghieu pn au fost servii.
Putem grupa datele de tip continuu ntr-un tablou de distribuie de forma:
data :
[a0 , a1 )
f1
[a1 , a2 )
f2
...
...
[ar1 , ar )
fr
,
sau sub forma unui tabel de distribuie (vezi Tabelul 1.3). Aadar, putem grupa datele de tip
continuu de mai sus n tablou de distribuie:
1 Gyrgy
[0, 1)
14
[1, 2)
17
[2, 3)
21
[3, 4)
18
[4, 5)
16
[5, 6)
14
.
(1.2)
2.01
5.32
4.33
3.44
4.75
1.48
0.71
1.32
2.08
3.97
5.08
1.35
2.88
2.65
2.76
3.78
3.36
4.67
3.64
4.30
1.55
1.95
2.03
4.31
0.79
2.92
4.55
3.95
0.10
0.92
3.58
3.14
2.67
5.87
5.88
4.22
4.08
5.64
0.99
2.86
0.70
1.58
5.69
2.35
1.95
0.78
2.41
5.04
5.49
5.41
1.30
0.91
2.34
3.19
5.33
0.48
1.68
4.50
1.26
4.51
5.41
2.40
2.77
2.46
4.06
0.74
3.53
5.14
1.50
3.20
1.40
3.55
3.64
4.55
2.75
0.83
2.51
2.16
2.63
4.77
1.89
1.67
3.74
5.80
4.98
1.76
2.14
3.28
3.89
4.85
4.12
0.88
frecvena
valoare medie
[a0 , a1 )
[a1 , a2 )
f1
f2
.
.
.
.
.
.
x01
x02
[ar1 , ar )
fr
.
.
.
x0r
x01
f1
x02
f2
...
...
x0r
fr
unde
x0i =
ai1 + ai
este elementul de mijloc al clasei [ai1 , ai );
2
r
X
f i = n.
i=1
Aadar, dac ne este dat o niruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat n tabele sau tablouri de frecvene. Invers (avem tabelul sau tabloul de
repartiie i vrem s enumerm datele) nu este posibil, dect doar n cazul unei caracteristici de
tip discret. De exemplu, dac ni se d Tabelul 1.4, ce reprezint rata somajului ntr-o anumit
regiune a rii pe categorii de vrste, nu am putea ti cu exactitate vrsta exact a persoanelor
care au fost selecionate pentru studiu.
Observm c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clas, valoarea obinut prin media valorilor extreme ale clasei. n
cazul Tabelului 1.4, valorile de mijloc sunt scrise n coloana cu vrsta medie. Frecvena cumulat
a unei clase este suma frecvenelor tuturor claselor cu valori mai mici.
Vom numi o serie de timp (sau serie dinamic ori cronologic) un tablou de forma
data :
x1
t1
x2
t2
...
...
xn
tn
,
frecvena
frecvena relativ
frecvena cumulat
vrsta medie
[18, 25)
[25, 35)
[35, 45)
[45, 55)
[55, 65)
34
76
8.83%
8.83%
21.5
19.74%
28.57%
124
32.21%
30
60.78%
40
87
64
22.60%
83.38%
50
16.62%
100.00%
60
Total
385
100%
0.6
0.4
0.2
10
Matlab
O funcie
util pentru reprezentarea datelor discrete este funcia stem. Aceast funcie
reprezint datele sub forma unor linii verticale terminate cu un un cercule gol (n mod implicit)
la extremitatea opus axei. Are formatul general:
stem(X, Y, 'fill', 'type')
% deseneaza pe Y vs. X
Opiunea 'fill' poate lipsi; dac ea apare, atunci coloreaz cercurile din grac. Opiunea 'type'
se refer la tipul de linie folosit; poate linie continu (n mod implicit), punctat (:) sau de tip
linie-punct (.). Spre exemplu, linia de cod
x = -pi:pi/10:pi; stem(x, sin(x), 'fill', '--')
10
Reprezentarea stem-and-leaf
S presupunem c urmtoarele date sunt punctajele (din 100 de puncte) obinute de cei 20 de
elevi ai unei grupe la o testare semestrial:
50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96
Tabelul 2.1 reprezint aceste date sub forma stem-and-leaf (ramur-frunz). Se observ c acest
tabel arat att cum sunt repartizate datele, ct i forma repartiiei lor (a se privi gracul c
avnd pe OY drept axa absciselor i OX pe cea a ordonatelor). Aadar, 7|5 semnic un punctaj
de 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod de
vizualizare a datelor. n seciunile urmtoare vom prezenta i alte metode utile.
stem
10
9
8
7
6
5
4
3
2
1
0
leaf
2
1
3
1
0
1
4
6
5
5
2
3
4
9
6
7
2
5
8
8
779
488
9
11
Reprezentarea cu bare
Este util pentru reprezentarea variabilelor discrete cu un numr mic de valori diferite. Barele sunt
dreptunghiuri ce reprezint frecvenele i nu sunt unite ntre ele. Fiecare dreptunghi reprezint
o singur valoare. ntr-o reprezentare cu bare, categoriile sunt plasate, de regul, pe orizontal
iar frecvenele pe vertical. n Figura 2.31 sunt reprezentate datele din tabelul cu note. Se poate
schimba orientarea categoriilor i a claselor; n acest caz barele vor aprea pe orizontal (vezi
Figura 2.32 ). Pentru reprezentri grace vom folosi aplicaia
. n capitolul urmtor vom
Matlab
Matlab
Matlab
bar(X, Y, 'style');
barh(X, Y);
bar(X, w);
bar3(Y, w, 'style')
Mai sus,
%
%
%
%
%
'style' poate una dintre urmtoarele: 'detached' (bare separate), 'grouped' (bare grupate
'stacked' (bare suprapuse).
alturat), sau
Exemplu 2.1
(1)
Aici, vectorul
este
[2:10],
iar vectorul
12
Comanda
Matlab urmtoare realizeaz al doilea grac din Figura 2.3, corespunztor datelor din
Tabelul 2.1:
Histograme
Cuvntul "histogram" a fost introdus pentru prima oar de Karl Pearson
cuvintele greceti
histos (gr.,
ridicat n sus) i
gramma (gr.,
2 n
1895.
desen, nregistrare). O
histogram
este o
form pictorial a unui tabel de frecvene, foarte util pentru selecii mari de date de tip continuu. Se
aseamn cu reprezentarea prin bare, cu urmtoarele dou diferene: nu exist spaii ntre bare (dei, pot
aprea bare de nalime zero ce arat a spaiu liber) i ariile barelor sunt proporionale cu frecvenele
corespunztoare. Numrul de dreptunghiuri este egal cu numrul de clase, limea dreptunghiului este
2 Karl
13
5
13
23
17
10
2
densiti de frecven.
n cazul n care limile barelor nu sunt toate egale, atunci nlimile lor satisfac:
nlimea
Comenzile
=k
frecvena
limea clasei
k = factor
de proporionalitate.
hist(X, n);
hist(X, Y);
N = histc(X,E);
bar(E,N,'histc')
hist3(Y)
%
%
%
%
%
%
%
Datele din Tabelul 2.2 reprezint nlimile unui eantion de plante culese de un cercettor dintr-o anumit regiune a rii. Reprezentarea cu histograme asociat acestor date este cea din Figura 2.3. Codul
2.2
S presupunem c altcineva ar grupat datele din Tabelul 2.2 ntr-o alt manier, n care clasele nu
sunt echidistante (vezi Tabelul 2.4).
ntr-o singur clas, de lime mai mare dect celelalte, deoarece ultima clas din Tabelul 2.2 nu avea
14
Histograma ce reprezint datele din Tabelul 2.4 este cea din Figura 2.5.
Conform cu
regula proporionalitii ariilor cu frecvenele, se poate observa c primele patru bare au nlimi egale
cu frecvenele corespunztoare, pe cnd nlimea ultimei bare este jumtate din valoarea frecvenei
corespunztoare, deoarece limea acesteia este dublul limii celorlalte.
n general, pentru a construi o histogram, vom avea n vedere urmtoarele:
20.
frecvene).
x = randn(1000, 2);
hist3(x)
Observaia 2.2
[20, )),
(1)
Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 2.4 este
atunci se obinuiete ca limea ultimului interval s e luat drept dublul limii intervalu-
lui precedent.
(2) n multe situaii, capetele intervalelor claselor sunt nite aproximri, iar n locul acestora vom putea
utiliza alte valori. Spre exemplu, s considerm clasa
ce au nlimea cuprins ntre
i
20
15cm
20cm.
[15, 20).
15
sunt, de fapt, aproximrile acestor valori la cel mai apropiat ntreg. Aadar, este posibil ca aceast
14.5cm
(inclusiv) i
putea face referire la aceste valori ca ind valorile reale ale clasei, numite
20.5cm
(exclusiv).
frontierele clasei.
Am
n cazul n
care am determinat frontierele clasei, limea unei clase se denete ca ind diferena ntre frontierele ce-i
15
17
6 .
[15, 20),
14.5 - 20.5,
limea
i densitatea
5
13
23
17
12
frontierele
[18, 25)
[25, 35)
[35, 45)
[45, 55)
[55, 65)
17.5 25.5
24.5 35.5
34.5 45.5
44.5 55.5
54.5 65.5
34
76
124
87
64
4.25
6.91
11.27
7.91
5.82
pie charts),
ecare sector de disc reprezentnd cte o frecven relativ. Aceast variant este util n
pie(X).
en.,
pie3(x)
din
16
Nota 5
Nota 6
Nota 7
Nota 8
Nota 9
Nota 10
16%
11%
22%
16%
26%
Figura 2.6: Reprezentarea pe disc a frecvenelor relative ale notelor din tabelul cu note
17
experien aleatoare
(sau
experiment aleator)
experimentul determinist,
semnicnd
un experiment ale crui rezultate sunt complet determinate de condiiile n care acesta se desfoar. Rezultatul unui experiment aleator depinde de anumite circumstante ntmpltoare ce pot aparea. Exemple
de experiene aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de via a unui individ,
observarea vremii de a doua zi, observarea numrului de apeluri telefonice recepionate de o centrala
prob.
telefonic ntr-un timp dat. Aplicarea experienei asupra unei colectiviti date se numete
zultatul potenial al unei experiene aleatoare se numete
duble
(6, 6)
eveniment aleator.
Re-
la aruncarea a dou zaruri, extragerea unei bile albe dintr-o urn. Se numete
caz favorabil
pentru evenimentul aleator un caz n care respectivul eveniment se realizeaz. Un eveniment aleator poate
avea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz favorabil se numete
elementar.
Fie
al lui
eveniment
o mulime nevid, pe care o vom numi mulimea tuturor evenimentelor elementare. Un element
l vom nota cu
Vom numi
A, B, C, . . . .
Ac vom nota
Ac = \ A.
Prin
nu se realizeaz. Avem:
Pentru a putea cuantica ansele de realizare a unui eveniment aleator, s-a introdus noiunea de
litate.
A,
probabi-
n literatura de specialitate, probabilitatea este denit n mai multe moduri: cu deniia clasic
(apare pentru prima oar n lucrrile lui P. S. Laplace ), folosind o abordare statistic (cu frecvene
relative) sau utiliznd deniia axiomatic (Kolmogorov).
Probabilitatea clasic
este denit doar pentru cazul n care experiena aleatoare are un numr nit de
cazuri posibile i echiprobabile (toate au aceeai ans de a se realiza). n acest caz, probabilitatea de
realizare a unui eveniment este raportul dintre numrul cazurilor favorabile realizrii evenimentului i
numrul cazurilor egal posibile ale experimentului aleator.
Exemplu 3.1
Se cere probabilitatea obinerii unei duble la o singur aruncare a unei perechi de zaruri
Sunt ns foarte multe cazuri n care deniia clasic nu mai poate utilizat. Spre exemplu, n cazul
n care se cere probabilitatea ca, alegnd la ntmplare un punct din ptratul
acesta s se
situeze deasupra primei bisectoare. n acest caz, att numrul cazurilor posibile, ct i numrul cazurilor
favorabile este innit, fcnd deniia clasic a probabilitii inutilizabil.
Probabilitatea statistic exprim probabilitatea cu ajutorul frecvenelor de realizare a unui eveniment ntrun numr mare de experimente aleatoare realizate n aceleai condiii.
3 Pierre-Simon,
18
S considerm o experien aleatoare (e.g., aruncarea unui zar) al crei rezultat posibil este evenimentul
aleator
puncte).
probe independente).
n cele
P (A).
S notm cu
N (A)
N
se va numi
(a)
0 fN (A) 1;
(b)
fN () = 1;
(c)
fN (Ac ) = 1 fN (A), A;
[
fN (A B) = fN (A) + fN (B),
(d)
ori n
dac
frecven relativ.
de realizare
Notm cu
fN (A)
B = .
Aadar, n cazul deniiei statistice a probabilitii, aceasta este limit irului frecvenelor
relative de producere a respectivului eveniment cnd numrul de probe tinde la innit (vezi Teorema 7.4).
n cele ce urmeaz, vom deni noiunea de probabilitate din punct de vedere axiomatic. Aceast axiomatic a fost introduse de matematicianul rus A. N. Kolmogorov
Deniia 3.2
Numim
F;
c
(b) dac A F , atunci A F;
(Ac = \ A)
S
(c) dac A, B F , atunci A
BF
astfel nct:
(a)
Propoziia 3.3
(nchidere la complementariere)
(nchidere la reuniune nit).
(c) implic
(c') dac
(Ai )i=1, n F,
atunci
n
[
Ai F.
(3.1)
i=1
Deniia 3.4
Numim
algebr
sau
cmp
(sau
corp borelian)
o colecie
astfel nct (a), (b) din deniia anterioar sunt satisfcute i, n plus, avem
(c') dac
(An )nN F,
atunci
An F;
(nchidere
la reuniune numrabil)
(3.2)
n=1
Exemplu 3.5
4 Andrei
se numete
spaiu
19
Deniia 3.6
algebr
Fie
ce conine
F.
O notm prin
(F)
Numim
algebr generat de F
i este, de fapt,
(F) =
A.
(3.3)
AF
Dac
E = Rd , atunci
A Bd se numete mulime borelian.
Dac
Deniia 3.7
O funcie
P : (, F) R,
AF
generat de familia
din
Rd .
O mulime
numrul real
P (A),
cu
proprietile:
(a)
P (A) 0, A F;
(b)
P () = 1;
[
\
P (A B) = P (A) + P (B), A, B F, A B = ,
(c)
se numete
probabilitate.
Observaia 3.8
(c)0
dac
se numete
(An )nN F
(, F)
nzestrat cu
avem:
Aj = , i 6= j )
P(
An ) F
, atunci
nN
P(
An ) =
nN
P (An ).
( aditivitate)
Observaia 3.9
(1) Fie
(3.4)
nN
o mulime cu
elemente,
P (A) =
F = P()
card
card
iar
A .
(, F, P )
se va numi
cmp
Atunci
(3.5)
Spunem c o proprietate
pentru care
5 Flix
P (A) = 0.
P -nul.
20
Cmp de probabilitate
Principalul concept al teoriei probabilitilor este
(, F, P ),
n cele ce
cu urmtoarele
proprieti:
(i)
este o mulime abstract (mulimea tuturor evenimentelor elementare ale unui experiment
stochastic);
(ii)
nN
(iii)
nN
nN
Terminologie:
(ii) O mulime
Dat ind un ir
(An )nN
denim
lim inf An =
n
n general,
\
[
lim sup An =
n
n=1 mn
Am
[
\
(An )nN
Observaia 3.10
toate
An
lim inf An
n
(3.7)
(3.6)
n=1 mn
Am .
lim sup An
A1 , A2 , . . . .
[a, b]. n plus, vom presupune c acest procedeu ne asigur c nu exist poriuni privilegiate ale
intervalului [a, b], i.e., oricare ar dou subintervale de aceeai lungime, este la fel de probabil ca punctul
interval
s cad n oricare dintre aceste intervale. Dac am folosi de mai multe ori procedeul pentru a alege un
numr mare de puncte, acestea vor repartizate aproximativ uniform n
[a, b],
n vecintatea crora punctul ales s cad mai des, ori de cte ori este ales. De aici reiese c probabilitatea
21
[a, b].
Se poate observa analogia cu experiena alegerii dintr-un numr de cazuri egal posibile.
Dac
[a, b]
[c, d]
P (A) =
n particular, dac
x (c, d),
[c, d] [a, b]
este
d])
dc
=
.
msura ([a, b])
ba
msura ([c,
cu un punct dinainte stabilit este zero i, astfel, ntrezrim posibilitatea teoretic ca un eveniment s aib
probabilitatea nul, far ca el s e evenimentul imposibil
D, astfel ca s nu existe
puncte sau poriuni privilegiate n acest domeniu, atunci probabilitatea ca punctul s cad n subdomeniul
D0
.
D0 D este aria
aria D
n trei dimensiuni, o probabilitate similar este raportul a dou volume: volumul mulimii cazurilor favorabile i volumul mulimii cazurilor egal posibile.
Probabiliti condiionate
Fie spaiul probabilistic (, F, P ) i A, B F , cu P (B) > 0. Denim probabilitatea evenimentului A
condiionat de realizarea evenimentului B , notat P (A|B) sau PB (A), prin:
T
P (A B)
PB (A) =
.
P (B)
(3.8)
Observaia 3.11 PB (A) astfel denit va o probabilitate pe F , iar tripletul (, F, PB ) este un cmp
de probabilitate.
Propoziia 3.12
P (Bi ) > 0, i I .
(a)
(formula probabilitilor totale) Fie (Bi )iI , (I N) o partiie a lui , astfel nct
Atunci
P (A) =
(3.9)
iI
(b)
(formula lui
P (A) > 0,
avem:
(3.10)
jI
(c) Dac
T
T T
B1 , B2 , . . . , Bn F , astfel nct P (B1 B2 Bn ) > 0, atunci:
\
\
\
P (B1 B2 Bn ) = P (B1 ) PB1 (B2 ) . . . PB1 T T Bn1 (Bn ).
6 Thomas
(3.11)
22
Variabile aleatoare
Din punct de vedere euristic, o
variabil aleatoare
zi cu zi ntlnim numeroase astfel de funcii, e.g., numerele ce apar la extragerea loto, numrul clienilor
deservii la un anumit ghieu ntr-o anumit perioad, timpul de ateptare a unei persoane ntr-o staie de
autobuz pn la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfritul alfabetului
X, Y, Z
Fie
sau
, ,
i altele.
O funcie
pentru orice
(mai spunem c
dac
B E, X 1 (B) F
(3.12)
Fmsurabil).
este o funcie
n particular, dac:
Deoarece mulimile
atunci
atunci
este o
este
atunci
{(, x], x R}
genereaz
matrice aleatoare.
B(R),
pentru ca
X : (, F, P ) R
s e o v.a. real
este sucient ca
x R, { | X() x} F.
Vom utiliza notaiile
not
{X x} = { | X() x}
(3.13)
i, n general,
not
{X B} = { | X() B}
X : (, F, P ) Rd
Dac
F(X) = {X 1 (B), B Bd }
algebr, denumit algebra generat de v.a. X .
F astfel nct X este msurabil.
este o
a lui
Dac
(Xn )nN
Astfel,
Xk () X(),
atunci
familia
{Xi , i N},
Variabilele aleatoare pot lua o mulime cel mult numrabil de valori (i le numim
poate lua o mulime continu de valori (un interval nit sau innit din
continuu).
R),
i le
Exemple de v.a. discrete: numrul feei aprute la aruncarea unui zar, numrul de apariii
ale unui tramvai ntr-o staie ntr-un anumit interval, numrul de insuccese aprute pn la primul succes
etc. Din clasa v.a. de tip continuu amintim: timpul de ateptare la un ghieu pn la servire, preul unui
activ nanciar ntr-o perioad bine determinat.
O v.a. discret
X() =
X
iJ
xi Ai (), , J N.
(3.14)
23
n
[
A,
Ai =
iar
Ak = X 1 ({xk }).
Ai
Observm cu uurin c
Aj = , i 6= j.
i=1
tablou de repartiie:
X:
unde
pi = P (X = xi ), i J N,
n
X
pi = 1.
xi
pi
,
(3.15)
i=1
numrul de puncte ce apare la aruncarea unui zar ideal este:
O v.a.
real se numete
1
2
3
4
5
6
1/6 1/6 1/6 1/6 1/6 1/6
de tip continuu
dac exist
,
f : Rd R
condiiile:
f (x) 0, a.s.
Z
f (x) dx = 1
R
Z
PX (B) =
f (x) dx,
(a)
(b)
(c)
B F.
B
Funcia
se numete
n urmtoarele dou seciuni, vom deni cele mai importante caracteristici funcionale i numerice ale
unei variabile aleatoare
Repartiia
Repartiia
(sau
legea,
sau
distribuia)
lui
Bd , PX : Bd [0, 1],
dat
prin
PX (B) = P (X B), B Bd .
(3.16)
Repartiia unei v.a. de tip discret (de forma 3.14) este astfel:
PX (B) =
(3.17)
jJ
unde
(
1,
a (B) =
0,
X
dac
aB
n rest
Z
PX (B) =
f (x) dx,
B
B Bd ,
(3.18)
24
f (x)
X.
funcie de repartiie
o funcie
F : R [0, 1],
dat prin
F (x) = P (X x).
Astfel,
X = (X1 , X2 , . . . , Xd ) : (, F, P ) Rd
d
denete ca ind F : R [0, 1], dat prin
Dac
(, x].
F ((x1 , x2 , . . . , xd )) = P (X1 x1 ; X2 x2 ; . . . , Xd xd ).
Proprieti ale funciei de repartiie:
F (y), x, y R, x y );
y&x
lim F (x) = 0
lim F (x) = 1.
n cazul unei variabile aleatoare discrete, cu tabloul de repartiie dat de (3.15), funcia sa de repartiia
ntr-un punct
este:
F (x) =
pi .
(3.19)
{i; xi x}
Dac
Zx
F (x) =
f (t) dt,
x R.
(3.20)
Observaia 3.13
funcia
Funcia caracteristic
Numim
ei t xk pk ,
o funcie
dac
X=
kJ
Z
X (t) =
ei t x f (x) dx,
R
Aici,
(i2 = 1).
X : R C,
dat prin:
xk Ak , (X =
discret)
kJ
dac
X=
25
|X (t)| = 1, t R;
a X (t) = X (a t), t R, a R;
X (t) = X (t), t R;
X : R C
ti , tj R, zi , zj C
n
X
avem
X (ti tj )zi zj 0.
i, j=1
X() =
xi Ai (), , Ai F, J N.
Numim
funcie de
iJ
unde
o funcie
f : R R,
denit prin
pi = P (Ai ), i J.
similara densitii de repartiie pentru o variabil aleatoare continu. ntr-adevar, proprietile pe care le
satisface funcia de probabilitate sunt:
f (xi ) 0, i J,
n
X
f (xi ) = 1.
i=1
Media
Deniia 3.14
Dac
X() =
xi Ai (), , J N,
atunci
media
iJ
acestei v.a. se denete prin:
E(X) =
xi P (Ai ).
(3.21)
iJ
Deniia 3.15 Dac X este o v.a. de tip continuu, cu densitatea de repartiie f : R R, atunci media
(teoretic) acestei v.a., dac exist (!) (nu toate v.a. de tip continuu admit medie - vezi repartiia Cauchy),
se denete astfel:
Z
E(X) =
xf (x)dx,
(dac
(3.22)
Observaia 3.16 Deniia mediei poate dat ntr-un cadru mult mai general, folosind integrala Lebesque. Aceast integral este generalizarea integralei Riemann. Sumarizm mai jos, gradual i fr
demonstraiile aferente, construcia mediei unei v.a. reale.
26
Pasul 1:
O v.a.
cu
X() =
n
X
xi Ai ()
v.a. simpl.
se numete
denim
i=1
media (notat cu
E(X))
astfel:
not
X() dP () =
E(X) =
Pasul 2:
Dac
X :R
X 0,
n
X
xi P (Ai ).
i=1
atunci exist un ir
Xn : R, (n N)
nct
0 X1 () Xn () X(),
i
lim Xn () = X().
n
Denim
Pasul 3:
Fie
X:R
o v.a.. Atunci
X=
media lui X ,
este o
Dac
v.a. integrabil.
X = X1 + iX2 : C,
unde
X + () = max{X(), 0},
n acest caz denim
X ,
X+
E(X + )
E(X )
prin
X = (X1 , X2 , . . . , Xd )T : Rd ,
prin
Propoziia 3.17
Fie
X : Rd
Atunci
i o funcie msurabil
g : Rd R.
Z
E(g(X)) =
n particular, dac
g:RR
Z
E(X) =
Z
X() dP () =
xf (x) dx,
R
i astfel redescoperim deniia mediei unei v.a. de tip continuu din Deniia 3.15.
Relaia anterioar se mai numete i
pe mulimea
formula de transport
R.
27
Deniia 3.18
denim
Dac
dispersia lui X
X() =
iJ
ca ind:
D2 (X) =
X
(xi m)2 pi ,
unde
pi = P (Ai ), i J.
(3.23)
iJ
Deniia 3.19
E(X) = m R).
Fie
X : R
o v.a.
D (X) = E[(X m) ] =
X)
cantitatea
Observaia 3.20
D2 (X)
sau
2.
Numim
(3.24)
28
Matlab sunt rezultatul compilrii unui program deja existent n Matlab, aadar
pseudo-aleatoare.
Funcia
rand
[0, 1].
De exemplu, comanda
X =
B(1, 0.5).
De asemenea, numrul
Y =
urmeaz repartiia
rand(m, n)
B(10, 0.5)
(simularea a
10
a + (b a) rand
Comanda
Folosind comanda
mn
componente repartizate
U(0, 1).
[a, b].
zentnd starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimba
starea curent a generatorului sau iniializarea lui, putem folosi comanda
rand(method, s)
unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state',
'seed' sau 'twister'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului. De exemplu,
rand('state', 125)
xeaz generatorul la starea
125.
29
Observaia 4.1
(a, b),
(a, b)
nelegem
Matlab:
[2, 3],
produse de comanda
hist(5*rand(1e4,1)-2,100)
Funcia
randn
randn(m, n)
mn
N (0, 1).
componente repartizate
N (0, 1).
Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generatorului, folosim comanda:
randn(method, s)
method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state'
'seed'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului.
unde unde
sau
Comanda
De exemplu, codul
x = 0:0.05:10;
y = 5 + 1.1*randn(1e5,1);
hist(y,x)
30
200
150
100
50
10
Matlab
legernd(<param>, m, n)
random('lege',
<param>, m, n).
lege.
n loc de
100 10
100, 10);
componente repartizate
N (5, 0.2).
200 50
componente repartizate
P(0.01).
Utiliznd comanda
randtool
putem reprezenta interactiv selecii aleatoare pentru diverse repartiii.
grac ce reprezint prin histograme seleciile dorite, pentru parametrii dorii (vezi Figura 4.3). Datele
generate de
Matlab pot exportate n ierul Workspace cu numele dorit. De exemplu, folosind datele
=2
= 0.5
10000
31
Comanda
X = (rand < 0.5);
simuleaz aruncarea unei monede ideale. Vom mai spunem c numrul
numr aleator repartizat
B(1, 0.5)
Numrul
Y =
urmeaz repartiia
B(30, 0.5)
sum (rand(30,1)<0.5)
(simularea a
30
round(rand(30,1))
Pentru a numra cte fee de un anumit tip au aprut, folosim
sum(round(rand(30,1)))
Exemplu 4.2
p (0, 1).
S se determine
32
stema
function moneda(N,p);
x = rand(1, N);
V = (x < p);
Sn = cumsum(V);
A = 1:N;
Fn = Sn./A;
semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:');
axis([0 N 0 1]);
title('moneda')
xlabel('aruncari');ylabel('probabilitatea')
%
%
%
%
%
%
%
%
%
%
functia moneda.m
aruncam moneda
valoarea de adevar a lui (x<p)
suma cumulata
vectorul nr de aruncari
frecventa relativa a stemei
reprezinta grafic Fn
axele
numele figurii
numele axelor
moneda
zar
1
5/6
probabilitatea
probabilitatea
3/4
0.5
0.5
1/4
1/6
0
10
10
10
aruncari
10
10
10
10
10
aruncari
10
10
Figura 4.4: Simularea aruncrii unei monede corecte (a) i a unui zar corect (b)
O rulare a funciei, e.g.,
moneda(1e5,0.5),
Simularea n
0.5, 0.2
i, respectiv,
0.3.
X:
Pentru a modela aceast variabil aleatoare n
din intervalul
[0, 1].
0.5.
rezultate posibile,
a, b
c,
cu probabilitile de
un numr
al funciei s e diferit de
de tip discret
Dac
a
b
c
0.5 0.2 0.3
,
x < 0.5,
33
atunci rezultatul
este
c.
repet de multe ori, atunci rezultatele pot folosite n estimarea probabilitilor de realizare a variabilei
aleatoare. Cu ct vom face mai multe experimente, cu att vom aproxima mai bine valorile teoretice ale
probabilitilor, deci putem spune c am aproximat variabila aleatoare
n
Matlab, scriem:
X.
syms a b c
% declaram a, b si c ca variabile simbolice
r = rand;
X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)
Folosind aceast metod, putem simula aruncarea unui zar ideal. Avem
apariia unei fee cu
1, 2, 3, 4, 5
sau
puncte.
[0, 1]
1
1 2
2 3
3 4
4 5
5
(0, ), ( , ), ( , ), ( , ), ( , ), ( , 1) .
6
6 6
6 6
6 6
6 6
6
corespunztoare, respectiv, celor ase fee, s zicem n ordinea cresctoare a punctelor de pe ele. Vom
vedea mai trziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete nchise, deschise
sau mixte nu are efect practic asupra calculului probabilitii dorite. Acum, dac dorim s simulm n
Matlab apariia feei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numr "la
ntmplare" din intervalul
Matlab
[0, 1]
( 62 , 36 ).
Aadar, comanda
Exemplu 4.3
Dorim s simuleze n
babilitatea ca la aruncarea zarului s obinem faa cu trei puncte i s deseneze o gura care s justice
grac convergena irului frecvenelor relative la aceast probabilitate (vezi Figura 4.4(b)).
function dice(N);
% functia dice.m
u = rand(1, n);
% probabilitatea aparitiei fetei
Z1 = (u < 3/6 & u > 2/6);
% aparitia fetei
freq = cumsum(Z1)./(1:n);
% frecventa relativa
subplot(1,2,2);
% activeaza fereastra din stanga
semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:');
axis([0 n 0 1]);
% axele
title('zar')
% numele figurii
xlabel('aruncari');ylabel('probabilitatea')
dice.m simuleaz aruncarea unui zar
dice(1e5) produce gracul din Figura 4.4(b).
Fiierul
corect de un numr
de ori.
34
Se poate
aplica att problemelor cu deterministe, ct i celor probabilistice i este folositoare n obinerea de soluii
numerice pentru probleme care sunt prea dicile n a rezolvate analitic. Este o metod folosit de secole,
dar a cptat statutul de metod numeric din anii
1940.
1946,
S. Ulam
tician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatul
Monaco, unde se practic foarte mult jocurile de noroc, n special datorit jocului de rulet (ruleta = un
generator simplu de numere aleatoare). De asemenea, Nicholas Metropolis
metodei.
Are la baz generarea de numere aleatoare convenabile i observarea faptului c o parte dintre acestea
veric o proprietate sau anumite proprieti. n general, orice metod care are la baz generarea de numere aleatoare n vederea determinrii rezultatului unui calcul este numit o metod Monte Carlo. Orice
eveniment zic care poate vzut ca un proces stochastic este un candidat n a modelat prin metoda MC.
Z
I=
f (x) dx.
(4.1)
a
n general, pentru a evalua numeric integral, metoda Monte Carlo nu este prima alegere, nsa este foarte
util n cazul n care integral este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient
dect alte metode de aproximare cnd dimensiunea spaiului e mare.
Dac dorim aplicarea metodei MC, atunci avem de ales una din urmtoarele variante:
Varianta 1
f 0.
Dac
atunci putem utiliza o translaie, astfel nct s avem de integrat o funcie nenegativ) ncadrm gracul
funciei
ntr-un dreptunghi
d > sup f .
A,
c un punct
[a, b]
ales la ntmplare n interiorul dreptunghiului
rand
f (x).
Facem urmtoarea
un punct din interiorul dreptunghiului i testm dac acest punct se a sub gracul lui
experiena de un numr
f (x).
Matlab)
Repetm
Pentru un numr mare de experiene, probabilitatea ca un punct generat aleator n interiorul dreptunghiului s se ae sub gracul funciei va aproximat de frecvena relativ a realizrii evenimentului,
adic
P '
f (N )
.
N
P =
7 Stanislaw
8 Nicholas
I
aria dreptunghi
Marcin Ulam (1909 1984), matematician de origine polonez, nscut n Lvov, Ucraina
Constantine Metropolis (1915 1999), zician grec
35
I ' aria
f (N )
.
N
dreptunghi
(4.2)
bun.
Exemplu 4.4
Z5
ex dx.
I=
2
Soluie:
Generm
106
[2, 5] [0, 1]
Urmtoarea funcie
grala dorit:
function I = integrala(N)
x = 7*rand(N,1)-2; y = rand(N,1);
f = find(y < exp(-x.^2));
I = 7* length(f)/N;
O rulare a funciei,
Varianta 2
integrala(1e6),
%
%
%
%
functia integrala.m
genereaza N numere aleatoare in [2, 5] [0, 1]
2
numar punctele aflate sub graficul functiei ex
formula (4.2)
ne furnizeaz rezultatul
I = 1.7675.
Z
I = (b a)
f (x)h(x) dx,
(4.3)
a
unde
h(x) =
Funcia
h(x)
1
ba
0
x [a, b],
dac
altfel.
X U[a, b],
rescrie
I = (b a)E(f (X)).
Folosind legea slab a numerelor mari, putem aproxima
(4.4)
prin:
baX
f (Xk ),
I'
N
k=1
unde
Xk
U[a, b].
Z
f (x) dx,
V
unde
V Rn .
(4.5)
36
Exemplu 4.5
Soluie:
Codul
x = 7*rand(1e6,1)-2;
g = exp(-x.^2);
I = 7*mean(g)
estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2)))
% I 1.7671
Exemplu 4.6
Evalund integrala
Z1
I=
ex dx
0
printr-o metod Monte Carlo s se estimeze valoarea numrului transcendent
Soluie:
estimate = mean(exp(rand(10^6,1))) + 1
e. (e = I + 1).
% e 2.7183
darts
n ce const jocul? S presupunem c suntem la nivelul nceptor. Avem de aruncat o sgeat ascuit,
ce poate penetra cu uurin lemnul, spre o tabl ptrat din lemn, n interiorul cruia se a desenat
un cerc circumscris ptratului. Dac sgeata se nnge n interiorul discului atunci ai ctigat un punct,
dac nu - nu ctigai nimic. Repetm jocul de un numr
puncte acumulate, s zicem c acest numr este
N .
S presupunem c suntei un juctor slab de darts (asta implic faptul c orice punct de pe tabl are
aceeai ans de a intit), dar nu aa de slab nct s nu nimerii tabla. Cu alte cuvinte, presupunem
c de ecare dat cnd aruncai sgeata, ea se nnge n tabl.
Se cere s se aproximeze valoarea lui
Matlab
Soluie:
S notm cu
numrul de aruncri
de limit irului
Pe de alt parte,
P (A) =
aria disc
aria perete
= 4 .
'4
Funcia
lui
N
N
(pentru N 1).
prin
(4.6)
Matlab care aproximeaz pe este prezentat mai jos. Metoda care a stat la baza aproximrii
este o
37
function Pi = darts(N)
% numar de aruncari
theta = linspace(0,2*pi,N);
% genereaza vectorul theta
x = rand(N,1); y = rand(N,1);
% (x,y) - intepaturi
X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta);
% cerc in polar
plot(x,y,'b+',X,Y,'r-');
% deseneaza cercul si punctele
S = sum((x-.5).^2 + (y-.5).^2 <= 1/4);
% numarul de succese
Prob = S/N;
% frecventa relativa
approxpi = 4*Prob;
% aproximarea lui pi
axis([0 1 0 1]);
% deseneaza axele
title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);
O simpl rulare a funciei,
darts(2000),
38
Momente
X
Pentru o v.a.
de tip discret,
X() =
xi Ai (), , J N,
iJ
cu
pi = P (Ai ), i J , denim
X
k (X) = E(X k ) =
xki pi
E(X) = m
momentele:
(momente iniiale de ordin
k);
k);
iJ
k
k (X) = E(|X| ) =
|xi |k pi
iJ
X
(xi m)k pi
k);
iJ
k
k (X) = E(|X m| ) =
|xi m|k pi
k);
iJ
Pentru o v.a.
k (X) = E(X k ) =
xk f (x) dx =
m = E(X) < ,
denim momentele:
X k dP
(momente iniiale de ordin k);
R
Z
Z
k (X) = E(|X|k ) =
|x|k f (x) dx =
|X|k dP
(momente absolute de ordin k);
R
Z
Z
k (X) = E((X m)k ) = (x m)k f (x) dx = (X m)k dP
(momente iniiale centrate);
R
Z
Z
k
k
k (X) = E(|X m| ) =
|x m| f (x) dx =
|X m|k dP
(momente absolute centrate);
Cuantile
Fie o v.a.
cu funcia de repartiie
Deniia 5.1
Pentru
(0, 1),
F (x).
denim
cuantila de ordin
valoarea
F (x ) = P (X x ) = .
Observaia 5.2
(1)
astfel nct:
(5.1)
39
(2)
n cazul n care
este o variabil aleatoare discret, atunci (5.1) nu poate asigurat pentru orice
F (x) = ,
pentru care
O repartiie poate s nu aib niciun mod, sau poate avea mai multe module.
r (X + Y ) cr (r (X) + r (Y )),
(b)
(r (X))1/r (s (Y ))1/s , 0 r s;
(c)
(d)
(e) Fie
g:RR
(f ) Dac
unde
a > 0, p N ,
cr = 1
r (0, 1]
cr = 2r1
pentru
(Lyapunov 9 )
(H lder10 );
(M inkowski11 )
g(E(X)) E(g(X)).
(Jensen12 )
atunci avem:
P ({|X| a})
9 Aleksandr
pentru
p (X)
;
ap
(M arkov 13 )
r > 1.
40
p=2
P ({|X m| a})
2
.
a2
a = k ,
k N,
unde
(X m), (m = E(X)),
obinem:
(Cebev14 )
(5.2)
atunci obinem:
P ({|X m| k})
1
,
k2
(5.3)
sau, echivalent:
k = 3,
obinem
1
.
k2
(5.4)
regula celor 3 :
1
0.1.
9
P ({|X m| 3})
sau
8
,
9
(5.5)
se a n intervalul
[m 3, m + 3].
Deniia 5.3
X,
de medie
Variabila aleatoare
i dispersie
X =
X m
2.
se numete
(sau nor-
mat).
E(X) = 0,
D2 (X) = 1.
<sau
X, Y v.a. cu
X + Y , obinem:
Fie
mediile, respectiv,
mX , m Y
i dispersiile
2 ,
X
sunt invers
respectiv,
<sau
Y2 .
14 Pafnuty
D2 (X + Y ) = E[(X + Y (mX + mY )2 )]
= D2 (X) + D2 (Y ) + 2E[(X mX )(Y mY )].
negativ> corelate).
41
Deniia 5.4
cov(X,
Denim
corelaia
(sau
covariana) v.a. X
Y,
Proprietatea 5.5
(a)
Y ),
atunci
Fie v.a.
cantitatea
Y,
Deniia 5.6
X
cov(X,
Y ).
(5.6)
standardizate,
dizate
Y ),
D2 (X + Y ) = D2 (X) + D2 (Y ) + 2
lui
Y.
X mX
X=
X
Se numete
Y mY
Y =
Y
Y2
Notm astfel:
(X, Y ) =
Observaia 5.7
zrile celeilalte
2
X
(a)
Dac
cov(X,
Y)=
cov(X,
Y)
X Y
(5.7)
(X, Y ) = 0.
(b)
(c)
Independena
Conceptul de independen a v.a.
dintre conceptele principale care deosebesc Teoria probabilitilor de Teoria msurii, neavnd echivalent
n teoria din urm.
Deniia 5.8
Fie
(, F, P )
un cmp de probabilitate,
A, B F
Dac anumite informaii despre evenimentul B au inuenat n vreun fel realizarea evenimentului
A, atunci vom spune c A i B sunt evenimente dependente. De exemplu, evenimentele A = mine plou
i B = mine mergem la plaj sunt dependente.
(2)
S presupunem c evenimentul B satisface relaia P (B) > 0. Vom spune c evenimentele A i
B sunt independente dac probabilitatea lui A este independent de realizarea evenimentului B , adic
(1)
probabilitatea condiionat
P (A| B) = P (A),
(5.8)
42
T
P (A B)
= P (A).
P (B)
P (A
B) = P (A) P (B).
(5.9)
P (B),
este preferabil s
Deniia 5.9
submulime
A, B F
se numesc
(i) Evenimentele
{i1 , i2 , . . . , ik }
a mulimii
A1 , A2 , . . . , An
Ai
Aj ,
sunt
P (Ai
(iii) n general, evenimentele
pentru orice
(5.11)
dac
(5.12)
jJ
J I, Jnit.
Observaia 5.10
evenimentul ca "doar la o
moned din cele dou a aprut faa cu stema". Se observ cu uurin c evenimentele
A, B
sunt
P (A
1
C) = P (A) P (C) = ;
4
P (B
1
C) = P (B) P (C) = ;
4
P (A
1
B) = P (A) P (B) = .
4
Totodat, mai observm c oricare dou dintre ele determina n mod unic pe al treilea. Aadar, independena a dou cte dou nu implic independena celor trei evenimente n ansamblu, fapt observat i din
relaia
0 = P (A
1
C) 6= P (A) P (B) P (C) = .
8
Deniia 5.11 Dac {Mi , i I N}, cu Mi F , este o familie de corpuri, atunci spunem c
acestea sunt independente (stochastic) dac pentru orice submulime nit J I i pentru orice alegere
de evenimente
Aj Mj ,
P(
\
jJ
Aj ) =
Y
jJ
P (Aj ).
(5.13)
43
Deniia 5.12
(1)
Spunem c v.a.
dac
corpurile
(2)
Spunem c v.a.
generate de
(Xi )iI
dou variabile aleatoare din aceast familie, acestea sunt independente n sensul deniiei de la (1).
Observaia 5.13
Exemplu 5.14
X2 ,
(5.14)
X1 , respectiv,
v.a. ce reprezint numrul de puncte aprute la ecare aruncare. Evident, valorile acestor v.a. sunt
din mulimea
{1, 2, 3, 4, 5, 6}.
Aadar,
Xi : {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:
\
1
P {X1 = i} {X2 = j}
= P ({X1 = i, X2 = j}) =
36
= P ({X1 = i}) P ({X2 = j}),
X1
X2
i, j {1, 2, 3, 4, 5, 6},
Teorema 5.15
{X1 , X2 , . . . , Xn },
Xi : (, F) R, i = 1, n.
(i)
(ii)
X1 , X2 , . . . , Xn
(iii)
(iv)
(5.15)
Dou dintre dintre cele mai importante proprieti ale v.a. independente sunt urmtoarele:
Teorema 5.16
Dac
X1 , X2 , . . . , Xn
E(|Xk |) < , k = 1, 2, . . . , n,
atunci
E(|X1 X2 . . . Xn |) <
i:
Teorema 5.17
Dac
X1 , X2 , . . . , Xn
(5.16)
D2 (Xk ) < , k = 1, 2, . . . , n,
atunci
D2 (X1 + X2 + . . . + Xn ) <
i:
(5.17)
44
(, F, P )
un cmp de probabilitate i
Xn , X : R
i dispersia
2 nite.
Deniia 5.18
(1)
Spunem c:
a.s.
Xn X )
(notat
dac
P ( lim Xn = X) = 1,
n
echivalent cu relaia
0 F, P (0 ) = 1,
(2)
Xn converge n probabilitate la X
lim Xn () = X(), 0 .
astfel nct
(notat
prob
Xn X ),
dac
(3)
Lr
echivalent cu
Z
lim
(4)
Xn converge n repartiie
la
n R
rep
(notat
X, sau Xn X )
n
(5)
n
(6)
dac
continu i mrginit.
dac
FX .
dac
Lr
Xn X
implic
(c)
(d)
a.s.
Xn X
implic
prob
Xn X
prob
Xn X
prob
Xn X.
implic
Xn X.
45
f (x))
se introduc n
pdf('LEGE', x, <param>)
Funcia de repartiie
cdf,
F (x)
sau
LEGEpdf(x, <param>).
astfel:
cdf('LEGE', x, <param>)
sau
LEGEcdf(x, <param>).
icdf('LEGE', y, <param>)
n comenzile de mai sus,
sau
F 1 (y),
se introduce cu comanda
icdf,
astfel:
LEGEinv(y, <param>).
LEGE poate oricare dintre legile de repartiie din Tabelul 6.1, x este un scalar sau
f (x) sau F (x), y este un scalar sau vector pentru care se calculeaz F 1 (y),
<param>
Observaia 6.1
tiiei. Pentru un
Fie X
x R,
o variabil aleatoare i
F (x, )
funcia sa de repartiie,
relaia matematic
P (X x) = F (x)
o putem scrie astfel n
Matlab:
cdf('numele repartiiei lui X',x,).
X N (5, 2),
atunci
(6.1)
(
P (X [x])
, x nu e ntreg
P (X < x) =
P (X m 1) , x = m Z,
46
[x]
x.
De exemplu, dac
X B(10, 0.3),
atunci
P (X < 5) = P (X 4)
= cdf('bino', 4, 10, 0.3) = 0.8497.
bino:
nbin:
poiss:
unid:
geo:
hyge:
repartiia binomial
norm:
unif:
exp:
gam:
beta:
logn:
chi2:
t:
f:
wbl:
B(n, p)
BN (n, p)
P()
U(n)
Geo(p)
hipergeometric H(n, a, b)
repartiia geometric
repartiia
repartiia normal
100
N (, )
U(a, b)
exp()
Gamma (a, )
Beta (m, n)
lognormal logN (, )
2 (n)
student t(n)
Fisher F(m, n)
Weibull W bl(k, )
Matlab.
de ori, iar
Matlab
X
(a)
(b)
P (45 X 55).
Soluie:
(a)
B(100, 0.5),
Avem de calculat
52
de steme?
P = P (X = 52).
ns
52
P = C100
(0.5)52 (0.5)48 = 0.0735.
(b) Notm cu
FX
X.
Atunci,
Codul
P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48
P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5)
.
% solutia exacta
% solutia exacta
47
Exerciiu 6.2
Cineva a nregistrat zilnic timpul ntre dou sosiri succesive ale tramvaiului ntr-o anumit
20 de minute.
Dac o persoan a ajuns n staie exact cnd tramvaiul pleca, aai care sunt ansele ca ea s atepte cel
puin
15
Soluie:
Notm cu
T exp(),
unde
= 20.
P (T 15),
FT
care
este:
ceea ce implic
47.24%
Exerciiu 6.3
anse.
20%
sunt femei.
La o tombola organizat pentru spectatori, un computer alege la ntmplare numerele a
7 bilete de intrare
i se premiaz posesorii.
(i)
(ii)
(iii)
n ir, pe un acelai rnd ales la ntmplare, argumentai dac probabilitile gsite la (i) si (ii) rmn
aceleai.
Soluie:
Fie
spectatori. Atunci
(i)
n
Matlab,
(ii)
n
P1 = 1-binocdf(2,7,0.2).
P (X = 0) =
Matlab,
C70 p0 (1
p)7
= 0.2097.
P2 = binopdf(0,7,0.2).
Exerciiu 6.2 (a) n magazinul de la colul strzii intr n medie 20 de clieni pe or.
tiind c numrul
clienilor pe or este o variabil aleatoare repartizat Poisson, s se determine care este probabilitatea ca
15 clieni?
(b) Care este probabilitatea ca, ntr-o anumit zi de lucru (de 10 ore), n magazin s intre cel puin 200 de
clieni? Calculai aceast probabilitate n dou moduri: folosind funcia de repartiie Poisson i folosind
aproximarea cu repartiia normal.
Soluie:
(b)
P2 = P (
k=1
10
X
k=1
k=1
48
Exerciiu 6.4
(i)
probabil: s ctigi
(ii)
n faa unui oponent de acelai calibru la tenis de mas, care eveniment este mai
partide din
4,
sau s ctigi
partide din
8?
Justicai rspunsul.
Se menine rezultatul anterior dac, n loc de tenis de mas, cei doi s-ar ntrece la ah? Presupunem
49
(, F, P )
un cmp de probabilitate i
X : (, F, P ) R
ale unui anumit experiment aleator. Putem modela repetiia acestui experiment prin introducerea unui
ir de v.a.,
(Xn )nN : (, F, P ) R. Ne-am dori ca acest ir s dein aceeai informaie (din punct de
X . n acest scop, introducem noiunea de variabile aleatoare identic repartizate.
vedere probabilistic) ca i
Deniia 7.1
Variabilele aleatoare
X1 , X2 , . . . , Xn , . . .
se numesc
identic repartizate
x R.
(7.1)
Dac, n plus, presupunem c v.a. din irul de mai sus sunt independente stochastic, atunci putem privi
acest ir de v.a. ca un model pentru repetri independente ale experimentului n aceleasi condiii. Dei
avem de-a face cu un ir de funcii ce iau valori ntmpltoare, suma unui numr sucient de mare de
variabile aleatoare i pierde caracterul aleator.
Teoremele limit clasice descriu comportarea asimptotic a sumei
Sn =
n
X
Xk ,
potrivit normalizat.
k=1
Spunem c irul
(Xn )n
urmeaz
Sn E(Sn ) prob
Sn E(Sn ) a.s.
0, (respectiv,
0),
n
n
(n )
n Teoria Probabilitilor exist mai multe rezultate care stabilesc condiiile n care una sau cealalt dintre
legile anterioare au loc. Prezentm n continuare doar cele mai importante dintre ele, i anume: teoremele
lui Cebev i Hincin, pentru legea slab, i teorema lui Kolmogorov pentru legea tare.
(Xn )nN
(i)
(ii)
atunci
Xn admit momente
1
lim 2 D2 (Sn ) = 0,
n n
toate
absolute de ordin
Sn E(Sn ) prob
0,
n
cnd
(i.e.,
2 (Xn ) < );
n .
Sn
a > 0 xat, conform inegalitii lui Cebev aplicate variabilei aleatoare
,
n
Sn
Sn
1
Sn
1 1
P (
E
a 2 D2
= 2 2 D2 (Sn ) 0, cnd n .
n
n
a
n
a n
2
Demonstraie.
avem:
satisfac condiiile:
Pentru orice
50
Observaia 7.3
m, n N,
n plus, dac
Xn
E(Xn ) =
Sn prob
m.
n
Astfel, teorema ne spune c, dei variabilele aleatoare independente pot lua valori deprtate de mediile lor,
media aritmetic a unui numr sucient de mare de astfel de variabile aleatoare ia valori n vecintatea
lui
m,
pentru orice
> 0,
avem:
este
din cele
1,
Demonstraie.
(7.2)
i se obin
p.
Asta nseamn c,
(
1,
Xi =
0,
Observm c
Se fac
experiene atunci,
N
lim P
p < = 1.
n
N
P (A) = p.
Xi B(1, p).
n
X
o variabil aleatoare
dac n experiena
dac experiena
evenimentul
evenimentul
Xi ,
astfel nct
s-a realizat;
nu s-a realizat.
D2 (N ) = N p(1 p).
i=1
Aplicnd inegalitatea lui Cebev variabilei aleatoare
N
,
N
obinem:
D2 NN
N
N
P
E
,
< 1
N
N
2
echivalent cu
p(1 p)
N
P
p < 1
,
N
N 2
2
Teorema 7.5
Dac
(Hincin
Xn , n 1,
15 )
(Xn )n
1,
1X
prob
Xk m, (n ),
n
k=1
unde
m = E(Xn ), n N .
15 Aleksandr
(7.3)
51
Teorema 7.6
(Kolmogorov)
adic:
1X
a.s
Xk m, (n ).
n
(7.4)
k=1
Observaia 7.7
Concluzia legii slabe a numerelor mari se mai poate scrie i sub forma:
P
Teorema 7.8
Dac v.a.
(TLC)
(Xn )nN
Observaia 7.9
X1 + X2 + + Xn
lim
= m = 1.
n
n
n
X
m = E(X1 )
nite, atunci:
!
Xk nm
Y N (0, 1),
pentru
n .
k=1
independente stochastic i
Sn =
este o v.a. de repartiie
2 = D2 (X1 )
Sn nm
(7.5)
N (0, 1).
n
X=
1X
Xk
n
k=1
N (m, ).
n
(b) Notm cu
not
Zn =
n
X
!
Xk nm .
k=1
(7.6)
n
unde
(x)
Z b
Sn nm
1
2
lim P a
b =
ex /2 dx = (b) (a).
n
n
2 a
(b) Dac
m = 0, 2 = 1,
(7.7)
1 X
Xk Y N (0, 1),
n
pentru
n .
k=1
timp ct variaia lor e nit), cu o v.a. normal. Un exemplu ar aproximarea repartiiei normale cu
repartiia binomial cnd numrul de ncercri e foarte mare (vezi teorema lui
jos).
de Moivre-Laplace de mai
52
aplicabil?
{Xk }k
sumei standardizate cu o variabil normal este, de fapt, o egalitate, ind adevarat pentru orice
Dac
{Xk }k
n N .
mai mic de
30.
(d) Legea tare a numerelor mari e foarte util n metode de simulare tip Monte Carlo.
Teorema 7.10
16 - Laplace)
(de Moivre
Demonstraie.
i e
Sn =
(7.8)
E(Sn ) = np
D2 (Sn ) = npq.
Observaia 7.11
(1)
np
i dispersia
n practic,
Pentru
np 5
npq .
n(1 p) 5;
ndeplinind condiiile de mai sus, i folosind (7.6), putem aproxima funcia de repartiie a
P (X k)
unde
k np
npq
,
(7.9)
1
(x) =
2
y2
2
dy,
x R.
De asemenea, putem aproxima i funcia de probabilitate a repartiiei binomiale folosind densitatea repartiiei normale standard:
1
P (X = k)
npq
unde
(x) =
k np
npq
,
(7.10)
d
dx (x) este densitatea de repartiie a repartiiei normale standard.
P (X k)
16 Abraham
k + 12 np
npq
!
.
(7.11)
53
1
2 din (7.11) este folosit ca o valoare de ajustare cnd se face aproximarea unei variabile aleatoare
1
1
<X <k+ )
2
2
!
1
k + 12 np
k 2 np
X np
<
<
npq
npq
npq
!
!
k + 12 np
k 12 np
npq
npq
P (X = k) = P (k
= P
(2)
i dispersia
2)
cu una
P (X k)
k+
1
2
!
(7.12)
1
k
P (X = k)
,
!
!
k + 21
k 12
P (X = k)
sau
(7.13)
(7.14)
Presupunem c
Notm cu
Fie
g(x)
g(X).
fX (x).
{Y y} = {g(X) y} = { , X() DY }
not
( = {X DY }).
Atunci,
FY (y) = P (X DY ),
Z
=
fX (x) dx.
(7.15)
DY
Dac
g(x)
densitatea de repartiie a
not
x = h(y) = g 1 (y),
lui Y este dat de:
este bijectiv i
dh(y)
.
fY (y) = fX (h(y))
dy
(7.16)
54
Exemplu 7.12
Considerm funcia
g(x) = ax + b, a 6= 0.
fX (x)
Dac
Y = g(X)
X,
atunci densitatea de
este
1
fY (y) =
fX
|a|
yb
a
.
g(X) astfel:
Y i cu fY (y) densitatea sa de repartiie. Atunci:
yb
yb
X
, a > 0;
, a > 0;
FX
a
a
=
yb
yb
X
, a < 0;
, a < 0;
1 FX
a
a
FY (y)
FY (y) = P (aX+b y) =
FX
Dac
fY (y) =
dFY (y)
1
=
fX
dy
|a|
yb
a
.
Fie
aleatoare repartizat
Demonstraie.
a lui
X.
U(0, 1).
Notez cu
FY
Y.
Aratm ca
FY
Avem succesiv:
FY (x) = P (Y x) = P (F 1 (U ) x)
= P (U F (x)) = F (x),
x [0, 1].
2
Propoziia 7.14
{U1 , U2 , . . . , Un } sunt
1 (U ), F 1 (U ), . . . ,
variabile aleatoare independentic stochastic i identic repartizate U(0, 1), atunci {F
1
2
1
F (Un )} formeaz o selecie ntmpltoare de numere ce urmeaz repartiia lui X .
Fie
55
100
de ori, iar
(b) S se calculeze
P (45 X 55).
Soluie:
(a)
B(100, 0.5),
Avem de calculat
52
de steme?
P = P (X = 52).
ns
52
P = C100
(0.5)52 (0.5)48 = 0.0735.
Dac aproximm rezultatul folosind formula (7.12), obinem:
1
P =
52 50
0.0737.
P =
(b) Notm cu
FX
52 + 12 50
25
52 12 50
25
!
0.0736.
X.
Atunci,
P (45 X 55)
Codul
55 + 12 50
25
45 12 50
25
!
= 0.7287.
P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48
% solutia exacta
P1 = 1/5*normpdf(2/5)
% solutia aproximativa 1
P1 = normcdf(2.5/5) - normcdf(1.5/5)
% solutia aproximativa 2
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) % solutia exacta
P2 = normcdf(5.5/5) - normcdf(-5.5/5)
% solutia aproximativa
56
Exerciiu 8.1
este punctul
0.5,
0.5,
100 de
independent de paii anteriori. Folosind Teorema limit central, estimai probabilitatea ca, dup
pai, acesta nu a ajuns la mai mult de doi pai de punctul de plecare.
Soluie:
S atribuim
i=1
E(Sn ) =
n
X
E(Xi ) = 0
i=1
D2 (Sn ) =
n
X
D2 (Xi ) = n,
i=1
{Xi }i=1, n sunt independente. Pentru n 30, Teorema limit central spune c Sn N (0,
n = 100, S100 N (0, 10). Probabilitatea cerut este (utilizm i relaia (7.12)):
!
!
2 + 12 0
2 + 21 0
= 0.1583.
P (|S100 | 2) = P (2 S100 2)
10
10
deoarece
Pentru
N = input('N = ');
X = 2*(rand(N,1)<0.5)-1;
S = cumsum(X);
plot(1:N, S, '-')
Z=length(find(S == 0))
n).
numar de pasi
simuleaza pasii la fiecare moment
simuleaza unde a ajuns dupa fiecare pas
reprezinta miscarea
numarul de reintoarceri la bar
57
Exerciiu 8.2
efectuate pentru ca
Determinai
n
P 0.5 0.1 0.98.
n
(ii)
Soluie:
(i)
n B(n, 0.5),
E(
n
) = 0.5,
n
X=
n
n ,
de unde
D2 (
n
2 i
E(n ) =
D2 (n ) =
n
4 . Aadar,
n
1
)=
.
n
4n
a = 0.1.
Gsim c:
D2 nn
25
n
=1 .
P 0.5 0.1 1
n
0.01
n
Impunem condiia
1
de unde obinem c
(ii)
Cutm
n 1250
25
0.98,
n
astfel nct
n
P 0.1
0.5 0.1 = 0.98.
n
(8.1)
n E(n )
n 0.5n
=
N (0, 1).
D(n )
0.5 n
Folosind aceasta, rescriem egalitatea (8.1) astfel:
n
0.5 0.1
0.98 = P 0.1
n
n
n 0.5n
n
= P 0.1
0.1
0.5
0.5
0.5 n
n
n
=
5
5
n
n
n
=
1
= 2
1
5
5
5
de unde
n
5
= 0.99
n
5
n 135.2974.
(cuantila de ordin
n
0.99
n = (5*norminv(0.99,0,1))^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca
n 136
Observm c aceast valoare este mult mai mic dect cea gsit anterior. Metoda a doua (TLC) ne d
un rezultat mai bun dect cel obinut cu ajutorul inegalitii lui Cebev. Aici, mai bun se traduce prin
faptul c, folosind numr mai mic de simulri ale experimentului, obinem acelai rezultat.
58
Exerciiu 8.3
25%
companiei. Determinai care ar trebui s e volumul minim de selecie pentru ca, cu o probabilitate de cel
puin
0.97, procentul de alegtori ce intenioneaz s-l voteze pe respectivul candidat se ncadreaz ntre
20% i 30%. Determinai volumul minim folosind cele dou metode menionate n Exerciiul 8.2.
valorile
Soluie:
n numrul de
n N pentru care
S notm cu
echivalent cu
(i)
Observm c variabila
votani (din
n
P 0.2
0.3 0.97,
n
n
P 0.25 0.05 0.97.
n
aleatoare n B(n, 0.25), de unde E(n ) =
n
4 i
D2 (n ) =
3n
16 . Aadar,
n
n
3
) = 0.25, D2 ( ) =
.
n
n
16n
Impunem condiia
1
de unde obinem c
(ii)
Cutm
n 2500
astfel nct
75
0.97,
n
n
P 0.05
0.25 0.05 = 0.97.
n
n
(8.2)
n E(n )
n 0.25n
=4
N (0, 1).
D(n )
3n
|
{z
}
n
0.97 = P 0.05
0.25 0.05
nr
r
n
n 0.25n
n
0.05 4
= P 0.05 4
4
3
3
3n
r
r
n
n
= 0.2
0.2
3
3
r
r
r
n
n
n
1 0.2
= 2 0.2
1
= 0.2
3
3
3
pn
pn
de unde 0.2
3 = 0.985 i 0.2
3 = z0.985 2.17 (cuantila de ordin 0.985 pentru
standard). Din ultima egalitate gsim c n 353.1969. n
, calculm astfel:
Matlab
repartiia normal
n = 3*(norminv(0.985,0,1)/0.2)^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca
n 354
Observm, din nou, c aceast valoare este mult mai mic dect cea gsit anterior.
D(n )
59
F.
i o caracteristic a ei,
X,
Dup cum am vzut anterior, datele statistice pot prezentate ntr-o form grupat (descrise prin tabele
de frecvene) sau pot negrupate, exact aa cum au fost culese n urma observrilor.
Pentru analiza
acestora, pot utilizate diverse tehnici de organizare i reprezentare grac a datelor statistice ns, de
cele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat. Suntem interesai n a
atribui acestor date anumite valori numerice reprezentative. Pot denite mai multe tipuri de astfel de
valori numerice, e.g., msuri ale tendinei centrale (media, modul, mediana), msuri ale dispersiei (dispersia, deviaia standard), msuri de poziie (cuantile, distana intercuantilic) etc. n acest capitol, vom
introduce diverse msuri descriptive numerice, att pentru datele grupate, ct i pentru cele negrupate.
ce
{x1 , x2 , . . . , xn },
denim:
x
=
1X
xi ,
n
i=1
ca ind
media empiric.
Dac
{x1 , x2 , . . . , xN }
observaii (
N
1 X
xi
=
N
i=1
se numete
Pentru ecare
.
di = xi x se
ca un estimator pentru
i,
cantitatea
numete
{x1 , x2 , . . . , xN },
deviaia fa de medie.
n
X
(xi x) = 0.
i=1
se denesc astfel:
k =
1X k
xi
n
i=1
(pentru selecie).
a ntregii
60
p 6= 0,
denim
n
X
1
x
p =
n
!1
xpi
(pentru selecie),
(9.1)
i=1
x
(g) =
x1 x2 . . . xn ,
x
(h) x
(g) x
x
(q) .
Pentru ntreaga colectivitate, momentele de ordin
mk =
sunt
N
1 X k
xi ,
N
(k N ).
i=1
Pentru ecare
se denesc astfel:
1X
k =
(xi x)k ,
n
pentru selecie,
i=1
N
1 X
k =
(xi )k ,
N
pentru populaie.
i=1
{x1 , x2 , . . . , xn },
denim
dispersia empiric:
n
!
n
1 X 2
2
=
[
xi n(
x) ] .
n1
1 X
(xi x
)2
s =
n1
2
i=1
i=1
N , dispersia populaiei
2 =
Pentru o selecie
N
1 X
(xi )2 .
N
i=1
Observaia 9.1
Cantitatea
1X
(xi x
)2
n
Vom
i=1
2
vedea mai trziu c alegerea lui s este mai potrivit ntr-un anume sens. De altfel, ambele valori pot
2
folosite ca estimatori ai dispersiei populaiei, .
61
v
u
u
s=t
{x1 , x2 , . . . , xn },
denim
1 X
(xi x
)2 .
n1
i=1
i=1
amplitudinea (en.,
xmax xmin .
(6) Scorul Z
Este numrul deviaiilor standard pe care o anumit observaie,
o selecie
{x1 , x2 , . . . , xn }, scorul Z
Pentru
z=
xx
.
s
z=
x
.
este:
(de selecie):
covsel
1 X
=
(xi x
)(yi y).
n1
(9.2)
i=1
covpop =
N
1 X
(xi x )(yi y ).
N
(9.3)
i=1
covsel
,
sx sy
covpop
,
x y
Fn : R [0, 1],
denit prin
Fn (x) =
card{i;
xi x}
.
n
(9.4)
62
Propoziia de mai jos arat c funcia de repartiie empiric aproximeaz funcia de repartiie teoretic
(vezi Figura 9.1).
Propoziia 9.2
cu
F (x)
Fie
funcia de repartiie
prob
Fn (x) F (x),
Demonstraie.
Notez cu
evenimentul
cnd
n ,
{X x} i cu p = P (A).
A este
x R.
Se fac
n
=
n
card{i;
xi x}
= Fn (x).
n
Astfel, concluzia propoziiei este o consecin imediat a teoremei lui Bernoulli, Teorema 7.4.
Figura 9.1: Funcia de repartiie empiric i funcia de repartiie teoretic pentru distribuia
normal.
(10) Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se denete prin
1 =
O repartiie este simetric dac
i negativ (sau la stnga) dac
n1/2
1 =
n
X
( (xi x)2 )3/2
i=1
3/2
n
X
(xi x)3
i=1
(pentru selecie)
3 X
1 = 3 =
(xi )3
i=1
(pentru populaie).
63
(11) Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se denete prin
4
3.
22
K=
Avem astfel:
n
X
n
(xi x)4
K=
i=1
n
X
( (xi x)2 )2
(pentru selecie)
i=1
i
K=
N
4
1 X
3
=
(xi )4 3
4
n 4
(pentru populaie),
i=1
K = 0, leptocurtic
pentru
K>0
sau
platocurtic
pentru
Termenul
(3)
apare pentru
n vecintatea modului, curba densitii de repartiie are o boltire (ascuire) mai mare dect clopotul lui
Gauss. Pentru
K < 0, n acea vecintate curba densitii de repartiie este mai plat dect curba lui Gauss.
(12) Cuantile
Cuantilele (de ordin n)
Dac
n = 2,
x0.5
Dac
n = 4,
sunt valori ale unei variabile aleatoare care separ repartiia ordonat n
egale.
(
x(n+1)/2
=
(xn/2 + xn/2+1 )/2
cuantilele se numesc
cuartile
, dac
, dac
(sunt n numr de
n=
n=
3).
prin
x0.5
sau
pri
Me.
impar;
par;
Prima cuartil, notat
x0.25
sau
Q1 ,
cuartila inferioar, a doua cuartil este mediana, iar ultima cuartil, notat x0.75 sau Q3 , se
cuartila superioar. Diferena Q3 Q1 se numete distana intercuartilic.
Dac n = 10 se numesc decile (sunt n numr de 9), dac n = 100 se numesc percentile (sunt n numr de
99), dac n = 1000 se numesc permile (sunt n numr de 999). Sunt msuri de poziie, ce msoar locaia
se numete
numete
(13) Modul
Modul
(sau
valoarea modal)
cazuri, dac datele sunt deja grupate, putem doar estima modul sau, alternativ, s precizm clasa care
l conine, numit
clasa modal.
[35, 45).
trimodal etc.
6,
Un set de date poate avea mai multe module. Dac apar dou
bimodal,
1 3
5 6
3 2
1 4
4 6
2 5
nu admite valoare modal. Nu exist un simbol care s noteze distinctiv modul unui set de date.
64
X.
. . . , fn },
cu
n
X
fi = n,
{x1 , x2 , . . . , xn }
{f1 , f2 ,
denim:
i=1
n
x
f =
1X
xi fi ,
n
i=1
!
n
n
X
X
1
1
2
2
2
2
fi (xi x
f ) =
xi fi n x
f , dispersia
s =
n1
n1
i=1
i=1
empiric,
clas median),
Me = l +
l
unde:
fM e
n
2
FM e
c,
fM e
FM e
Pentru a aa modul unui set de date grupate, determinm mai nti clasa ce conine aceast valoare (clas
modal), iar modul va calculat dup formula:
M od = l +
unde
d1
d2
d1
c,
d1 + d2
sunt frecvena clasei modale minus frecvena clasei anterioare i, respectiv, frecvena clasei
modale.
Observaia 9.3
S considerm urmtoarea problem. La brutria din col a fost adus o main nou de
fabricat pine. Aceast main de pine ar trebui s fabrice pini care s aiba n medie
m = 400 de grame.
Pentru a testa dac maina respectiv ndeplinete norma de gramaj, am pus deoparte (la ntmplare)
pini produse ntr-o zi lucratoare, n scopul de a le cntri. Spunem astfel c am facut o selecie de
volum
n din mulimea pinilor produse n acea zi. Dorim s decidem dac, ntr-adevr, maina este setat
n pini, obinem datele (empirice): {x1 , x2 , . . . , xn } (n
x=
1X
xi .
n
i=1
produse de aceast main. Pentru a putea obine aceast aproximare, am avea nevoie de un criteriu care
65
x m.
s ne spun c
de pini ales, adic, dac am ales alte pini i calculat media maselor lor, am obinut din nou o
valoarea foarte apropiat de
m.
mai abstract pentru modelarea datelor statistice. Acest cadru l vom construi n capitolele ce urmeaz.
mean(x)
geomean(x)
harmmean(x)
quantile(x,alpha)
iqr(x)
median(x)
std(x), var(x)
range(x)
mode(x)
zscore(x)
moment(x,k)
sort(x)
max(x), min(x)
skewness(x)
kurtosis(x)
prctile(x,p)
cdfplot(x)
cov(x,y)
corrcoef(x,y)
LEGEstat(<param>)
66
n Figura 10.1 am reprezentat grac (cu bare) funciile de probabilitate pentru repartiiile
binomial i Poisson, atunci cnd numrul de extrageri n schema binomial este un numr mare. Observm c pentru un numr
lim Cnk pk q nk =
n
p0
e k
.
k!
(10.1)
=np
0.12
0.1
0.08
0.06
0.04
0.02
10
15
20
25
30
albastru)
i Poisson (
rou)
repartiia normal.
n = input('n='); p = input('p=');
lambda = n*p;
a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda));
% a si b sunt valorile din problema celor 3
x=a:b;
fB=binopdf(x,n,p); fP=poisspdf(x,lambda);
bar(x',[fB',fP'])
67
e x ,
x>
0, iar F 1 este:
X exp().
F : R [0, 1],
F (x) =
(
ln(1 u) , u (0, 1);
F 1 (u) =
0
, altfel.
{u1 , u2 , . . . , un } sunt numere aleatoare uniform repartizate n [0, 1], avem
1
F (u2 ), . . . , F 1 (un )} formeaz o selecie ntmpltoare de numere repartizate exp().
Atunci, dac
{F 1 (u1 ),
Matlab predenit
Matlab care genereaz gura este
una generat prin metoda funciei de repartiie inverse, cealalt generat de funcia
exprnd.
Funcia
function expsel(lambda)
% functia expsel.m
% generez 150 de numere cu metoda Hincin-Smirnov si le ordonez descrescator
Y = sort(-lambda*log(1-rand(150,1)), 'descend');
plot(Y, 'bo'); hold on
% desenez selectia si retin figura
% generez 150 de numere cu exprnd si le ordonez descrescator
Z = sort(exprnd(lambda, 150,1), 'descend');
plot(Z, 'r*')
% desenez Z cu rosu
legend('metoda functiei inverse','generare cu exprnd')
Exerciiu 10.1
i simulai n
Considerm v.a.
X U 2 ,
Y = tan X
68
x.
De exemplu, funcia
floor(x)
este
Astfel, comenzile
floor(11*rand(20,1));
ceil(11*rand(20,1));
20 de numere ntregi ntre 0 i 10, distribuite uniform discret. Diferena dintre cele
floor(x) face rotunjirea la numrul ntreg aat la stnga lui x, pe cnd ceil(x) face
rotunjirea la numrul ntreg aat la dreapta lui x.
Funciile round(x) i fix(x) rotunjesc numrul real x la cel mai apropiat numr ntreg, n direcia lui
, respectiv, n direcia lui zero.
genereaz ecare cte
dou funcii este ca
randsample(populatie, k)
randsample(n, k)
randsample(populatie, k, replace)
Prima comand genereaz o selecie uniform (discret) nerepetat de
vectorul
populatie.
randsample([50:2:100], 10, 0)
genereaz o selecie nerepetat de
66
Vectorul
72
10
50
68
88
50
74
100:
82
80
94
76
dat de
X = randperm(n)
este o permutare aleatoare a elementelor mulimii
Exerciiu 10.2
{1, 2, . . . , n}.
20
69
Soluie:
este
inferioar este
este
525
Mediana este valoarea cea mai reprezentativ n acest caz, deoarece cele mai mari trei preuri, anume
mresc media i o fac mai puin reprezentativ pentru celelalte date. n cazul n care
setul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. n
Matlab,
X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ...
111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70
a = range(X); m = mean(X); Me = median(X); Mo = mode(X);
Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;
Exerciiu 10.3
Considerm datele din Tabelul 2.2. Determinai amplitudinea, media, mediana, modul,
Soluie:
x
=
Amplitudinea este
a = 30.
Media este
P
(x f )
1
= (2.5 5 + 7.5 13 + 12.5 23 + 17.5 17 + 22.5 10 + 27.5 2) = 13.9286.
n
70
Dispersia este:
1 X 2
( (x f ) n x
2 )
n1
1
=
(2.52 5 + 7.52 13 + 12.52 23 + 17.52 17 + 22.52 10 + 27.52 2 70 13.92862 )
69
= 37.06.
s2 =
[10, 15).
5)
[5, 10))
se a deja
5 + 13 = 18
date mai mici dect mediana, pentru a aa nlimea median a plantelor (i.e., acea valoare care este
mai mare dect nlimea a
35
s determinm acea valoare din clasa median ce este mai mare dect alte
17
35
de plante), va trebui
70
17
23 dintre valorile clasei mediane. n concluzie, valoarea
median este
M e = 10 +
Clasa modal este
[10, 15),
17
5 = 13.6957.
23
12.5.
Calculm acum prima cuartil. mprim setul de date n patru. Prima cuartil este acea valoare dintre
cele
70
18
valori, adic
Q1 = 10.
Implementarea n
Matlab:
Exerciiu 10.4
1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2,
4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2
(a) Construii un tabel de frecvene care s conin numrul de accidente, frecvenele absolute i relative.
(b) Gsii media empiric, mediana i deviaia standard empiric.
(c) Reprezentai prin bare rezultatele din tabelul de frecvene.
(d) Gsii i reprezentai grac (cdfplot) funcia de repartiie empiric a numrului de accidente.
(e) Aproximai probabilitatea ca ntr-o sptmn aleas la ntmplare s avut cel puin dou accidente.
Soluie:
0
7
0.1346
1
9
0.1731
2
14
0.2692
3
12
0.2308
4
10
0.1923
x=
52
X
xi = 2.1731,
i=1
(c)
v
u
52
u1 X
t
s=
(xi x
)2 = 1.3094,
51
M e = 2.
i=1
Fn (x)
10.3.
(d) Funcia de repartiie empiric este:
Fn (x) = P (X x) =
0,
7,
52
16 ,
52
30
52 ,
42
52 ,
1,
x < 0;
dac x [0,
dac x [1,
dac x [2,
dac x [3,
dac x 4.
dac
1);
2);
3);
4);
71
(e)
este:
P (X 2) = 1 P (X < 2) = 1 P (X 1) = 1 Fn (1) = 1
Codul
16
= 0.6923.
52
Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];
m = mean(Y); s = std(Y); Me = median(Y);
subplot(1,2,1); bar(0:4,[7,9,14,12,10])
% graficul cu bare
subplot(1,2,2); cdfplot(Y)
% graficul functiei de repartitie empirice
Exerciiu 10.5
Testm media notelor obinute de studenii din ultimul an al unei universiti. S pre-
s,
8.45.
x = 7.24
i deviaia standard
s = 0.7.
Media ta
Care i este poziia mediei tale, raportat la mediile colegilor ti? (i.e., cte deviaii standard,
Soluie:
Calculm scorul
z=
Z.
Avem:
xx
8.50 7.24
=
= 1.8
0.7
72
Deniia 11.1
Numim
colectivitate statistic
(sau
populaie)
o mulime nevid
indivizi
(sau
atunci numrul
(sau
uniti statistice).
Vom nota cu
o unitate statistic.
volumul populaiei).
X.
Studiem populaia
volumul colectivitii
Problema esenial
X.
Pentru a gsi aceast lege (repartiie), avem nevoie mai nti de un numr reprezentativ de observaii
asupra colectivitii
variabila
Pe baza acestor observaii, vom determina prin inferen o lege care s reprezinte
X.
Deniia 11.2
selecie
(sau
este mult mai mare dect volumul seleciei. n aceste cazuri, selecia nerepetat poate considerat ca
ind selecie repetat. Seleciile pe care le vom considera n continuare sunt numai selecii repetate din
colectivitatea statistic.
Dorim acum s introducem un cadru matematic abstract pentru aceste selecii repetate (pentru o abordare
mai detaliat, se poate consulta [11]).
Considerm spaiul msurabil
(, F),
unde
n ori".
n.
(, F).
Caracteristica
multiplicat de
Construim astfel:
(n) = ,
produs cartezian de
(n)
F (n) = F F F,
va
(n) = (1 , 2 , . . . , n ),
numit
n.
Cuplul
((n) , F (n) )
se numete
Xi : (n) R,
Xi ( (n) ) = X(i ),
i = 1, n.
73
{X(i )}i=1, n
(se
Y : (n) R,
(n)
FX
FXi = FX , i = 1, n).
Vom numi
Pentru un
veric usor c
volum n.
((n) , F (n) ),
Y ( (n) )
se numesc
Vom nota cu
Ln = Y ((n) ) Rn ,
i-l vom numi
Elementele lui
Ln
x = (x1 , x2 , . . . , xn ),
(xi = Xi ( (n) ),
pentru
(n)
Deniia 11.3
Vom numi
i = 1, 2, . . . , n).
xat,
unde
este o funcie
g : Rn R
msurabil (i.e.,
B B(R),
Ca o observaie, numele de "statistic" este folosit n literatura de specialitate att pentru variabila aleatoare de mai sus, ct i pentru valoarea ei, nelesul exact desprinzndu-se din context. Repartiia unei
statistici se mai numete i
Notaii:
Sn (X),
S(X, (n) ),
S(X, n),
S(X1 , X2 , . . . , Xn ).
Valoarea numeric
Sn (x) = g(x1 , x2 , . . . , xn )
se numete
Observaia 11.4
xat.
Sn (X),
(n) .
Teoria pro-
ct i a repartiiei
Sn (X). Repartiia exact este acea repartiie ce poate determinat pentru orice volum
< 30), atunci repartiia exact ar
a priori,
Sn (X)
cnd
n ,
Repartiia asimptotic
n 30.
De cele mai multe ori, o funcie de selecie (statistic) este utilizat n urmtoarele cazuri:
74
Exemple de statistici
Fie
(, F)
o colectivitate statistic i
cunoscute, vom cuta s le determinm prin inferen, adic prin extragerea unor selecii de date din
colectivitate, calculnd caracteristicile respective pentru seleciile considerate i apoi extrapolnd (n anumite condiii i dup anumite criterii) la ntreaga colectivitate.
S considerm
(n)
Xi , i = 1, n,
variabilele
Media de selecie
Deniia 11.5
(mean)
Numim
X( (n) ) =
1X
Xi ( (n) ),
n
(n) (n) .
(11.1)
i=1
Pentru un
(n)
xat, s notm cu
toare de selecie
alea-
1X
x=
xi
n
(media
empiric).
i=1
Propoziia 11.6
E(X) = E(X),
D2 (X) =
D2 (X)
;
n
(11.2)
1X
a.s.
Xi E(X),
n
cnd
n .
(conform LTNM)
(11.3)
i=1
Observaia 11.7
(1)
X=
1X
Xi .
n
(11.4)
i=1
(n)
n formule, care
se va subnelege.
(2)
Propoziia 11.22 precizeaz care este repartiia mediei de selecie pentru variabile aleatoare de selecie
dintr-o colectivitate normal, iar Propoziia 11.24 precizeaz care este repartiia asimptotic a mediei de
selecie pentru variabile de selecie ntr-o colectivitate oarecare.
75
Momente de selecie
Deniia 11.8
Numim
1X k
k (X) =
Xi .
n
i=1
pentru un
(n)
xat este:
1X k
xi
n
k (x) =
(moment
k).
i=1
k = 1,
n cazul particular
avem:
1 (X) = X.
Propoziia 11.9
Pentru oricare
E(k (X))
D2 (k (X))
xat,
k N ,
avem:
E(X k ) = k (X),
D2 (X k )
,
n
(momente
X)
1 X k a.s.
Xi k (X),
n
cnd
n .
i=1
Deniia 11.10
Numim
k (X) =
1X
[Xi X]k .
n
i=1
pentru un
(n)
xat este:
k (x) =
1X
[xi x]k
n
(moment
k).
i=1
Propoziia 11.11
Pentru oricare
E(k (X))
1
n
n
X
i=1
(Xi X)k
=
a.s.
xat,
k N ,
avem:
E([X ]k ) = k (X),
k (X),
cnd
n .
(momente
X)
76
Dispersie de selecie
Deniia 11.12
(var)
Numim
1X
[Xi X]2 .
n
d2 (X) = 2 (X) =
i=1
d2 (X),
(n)
xat este:
d2 (x) =
1X
[xi x]2
n
(dispersia
empiric).
(11.5)
i=1
d2 (X)
se utilizeaz statistica
d2 (X),
denit prin:
d2 (X)
1 X
[Xi X]2 .
=
n1
(11.6)
i=1
xat este:
s =
d2 (x)
1 X
=
[xi x]2
n1
(dispersia
empiric modicat).
i=1
Propoziia 11.13
d2 (X)
E(d2 (X)) =
n1 2
D (X),
n
d2 (X) D2 (X),
Observaia 11.14
d2 (X)
(ii)
cnd
(11.7)
n .
(11.8)
(i) Dup cum vom vedea n capitolul urmtor, primele dou relaii arat c statistica
selecie
d2 (X)
devine:
d2 (X) =
1X
[Xi ]2 .
n
(11.9)
i=1
(cdfplot)
Fn (x, (n) ) =
n(x)
,
n
Numim
funcie
77
x.
Fn (x) =
1X
(, x] (Xi ),
n
x R,
i=1
unde
A.
Fn (x) =
card
B(n, F (x)).
{i, xi x}
,
n
Propoziia 11.16
x R;
Fn (x)
de
F (x).
Mai jos,
Propoziia 11.17
a.s.
Fn (x) F (x), x
n
Demonstraie.
R.
2
Propoziia 11.18
Pentru
Demonstraie.
xat n
n N sucient de mare,
xat n
R.
o caracteristic,
cu probabilitatea
1.
Statistici de ordine
Deniia 11.20
{X1 , X2 , . . . , Xn }
78
1, 2, . . . , n.
Statistica X(1)
se numete
Statistica
X(n)
se numete
x1 = 8,
x2 = 7,
x3 = 9,
x4 = 5,
x5 = 3,
atunci
x(1) = 3,
Dac
n = 2m + 1,
caz. Dac
atunci
n = 2m,
x(2) = 5,
X(m) = X( n+1 ) = X ,
2
x(3) = 7,
x(5) = 9.
x(4) = 8,
X(m)
X(m+1) .
Deoarece
X = 21 (X(m) + X(m+1) ),
par.
Statisticile
X(n) X
X(1) X
se numesc
Dei variabilele aleatoare de selecie sunt independente, totui statisticile de ordine sunt dependente.
S presupunem c
F (x)
f (x)
Propoziia 11.21
Pentru un
k 1, n
FX(k) (x) =
n
X
X(k)
pentru orice
este:
x R.
j=k
Demonstraie.
Avem succesiv:
puin
nu depesc pe
x})
j=k
n
X
pentru orice
x R.
j=k
2
n particular, pentru
k = 1,
pentru orice
x R.
79
pentru orice
x R.
o colectivitate statistic i
de repartiie pentru colectivitate. Mai jos, prezentm cteva rezultate utile referitoare la selecia dintr-o
colectivitate gaussian.
Xi N (, ), i = 1, 2, . . . , n,
atunci statistica
XN
Demonstraie.
,
n
satisface:
(n N )
caracteristic este:
(t) = ei t 2
N (, )
funcia
(11.10)
aX (t) = X (at),
obinem c funcia caracteristic a lui
X (t) =
este:
n
Y
t
n
2 t2
2 n2
it
= e
1
2
2
t2
k=1
adic
N (,
).
n
Propoziia 11.23
Dac
Xi N (, ), i = 1, 2, . . . , n
Z=
X
N (0, 1).
X N ,
.
(n > 30)
n
80
Demonstraie.
Observaia 11.25
Dac
gaussian.
Propoziia 11.26
i = 1, n,
Dac
atunci variabila
stochastic i
ai R,
i=1
n
X
N
ai i ,
u n
uX
t
a2i i2 .
i=1
Demonstraie.
i=1
Propoziia 11.27
Fie
i N (i , i ) variabile
i considerm cte
[Exerciiu!]
ai R, i = 1, n.
ni , i notm cu i media
Y = a1 1 + a2 2 + . . . + an n satisface
Atunci statistica
proprietatea:
n
X
Y N
ai i ,
i=1
Demonstraie.
toare,
i ,
Deoarece
i N (i , i ),
u n
uX i2
t
.
a2i
ni
i=1
satisface:
i N
i
i ,
ni
.
{1 , 2 , . . . , n },
obinem con-
cluzia dorit.
N (2 , 2 ),
o colectivitate
respectiv,
n1
N (1 , 1 )
i o selecie de volum
n2
Notm cu
dintr-
i,
1 2 N 1 2 ,
Demonstraie.
12
n1
22
n2
Aplicm rezultatul Propoziiei 11.27 pentru cazul particular n care avem doar dou vari-
abile aleatoare,
2 ,
iar
a1 = 1, a2 = 1.
81
Observaia 11.29
(1)
Z=
(2)
(1 2 ) (1 2 )
q 2
N (0, 1).
22
1
+
n1
n2
pieselor produse de dou strunguri ntr-o zi de lucru, iar caracteristica comun s e masa lor). S mai
presupunem c deviaiile standard ale caracteristicilor considerate sunt cunoscute (i.e., deviaiile sunt date
deja n cartea tehnic a celor dou strunguri). Pentru ecare dintre cele dou colectiviti, considerm
cte o selecie repetat, de volume
strungul nti i
n2
n1 ,
respectiv,
n2
de
de
selecie corespunztoare. Propoziia anterioar precizeaz care este repartiia diferenei standardizate ale
celor dou medii de selecie. Aceasta ne va deosebit de util, spre exemplu, n vericarea ipotezei c
masele medii ale pieselor produse de cele dou strunguri coincid.
82
(12.1)
(12.2)
m=n
n.
Pentru aceasta, va
random('norm',100,6, 50,50)
genereaz o matrice ptratic, de dimensiune
50.
50
50
50,
50 de
50, ce
50
de
variabile
urmeaz
N (100, 6).
Exerciii rezolvate
Exerciiu 12.1
o caracteristic
X N (100, 0.65).
1000
dintre acestea.
Calculai
X.
98
102
de grame. Calculai
Soluie:
urmeaz repartiia
11.22). Aadar,
X = 100,
Probabilitatea
X 0.02.
este
[
P2 = P {X < 98}
{X > 102}
= P (X < 98) + P (X > 102)
= FX (98) + 1 FX (102),
de unde, procentul de rebuturi este
r = P2 100% 0.2091%,
83
rebuturi la
1000
de batoane.
Exerciiu 12.2
(
2 x, x (0, 1);
f (x) =
0,
x 6(0, 1).
s-a efectuat o selecie repetat de volum
unde
Soluie:
n = 100.
P (X < 0.65),
f (x)
Se observ cu uurin c
msurabil, nenegativ i
f (x) dx =
2 x dx = 1.
0
E(X)
Z
E(X) =
Z
x f (x) dx =
0
D2 (X).
2
2 x2 dx = ,
3
x2 f (x) dx
R
Aadar, repartiia mediei de selecie
Avem:
1
4
= .
9
18
este
XN
2
1
,
3
18 100
.
Exerciiu 12.3
nem o sum de
Soluie:
X
20%
200
dintre cazuri?
p = 1/6. Fie
200 de aruncri.
84
ca o sum de
20%
cel puin
P = P (X 40) = 1 P (X 39) = 1
39
X
k
C200
pk (1 p)200k = 0.1223.
k=0
n
Matlab,
1 - binocdf(39,200,1/6)
Exerciiu 12.4
; Distana
1.2 m.
P (X 20) = 0.95, s se gseasc valoarea ateptat a distanei (adic, E(X)).
E(X) = 18. Fie {Xk }k=1, 50 o selecie aleatoare ce urmeaz repartiia lui X .
Calculai P (X 18).
X 18
2
Stabilii repartiia variabilei aleatoare Z =
i calculai probabilitatea P (Z 20).
1.2
(a) tiind c
(b) S presupunem c
(c)
(a)
X N (, 1.2).
=
,
1.2
1.2
1.2
Din
20
= 1 (0.95) = 1.6449. Aadar, EX = = 18.0262 18.
1.2
1.2
Folosim faptul c X N 18,
. Obinem c:
5 2
de unde
(b)
Z N (0, 1)
(= 1
chi2cdf(20,1)).
85
{X1 , X2 , . . . , Xn }
i o caracteristic a sa,
X,
n.
1X
Xi
n
X=
i=1
XN
pentru orice
n N .
Totui, dac
,
n
nu este o v.a.
,
(13.1)
normal repartizat i
n 30,
atunci repartiia
asimptotic a mediei de selecie este una gaussian, i.e. relaia (13.1) este satisfcut pentru
Cnd selecia se face fr revenire dintr-o populaie de volum mai mic dect
30
n 30.
nu este neaprat
E(X) =
X.
D (X) =
n
Aici
N n
,
N 1
, N > n.
Mai jos, prezentm i alte cteva rezultate utile referitoare la selecia dintr-o colectivitate gaussian.
Propoziia 13.1
H =
n
X
Xi
Xk2 2 (n).
i=1
Demonstraie.
G(y)
f (x)
X 2,
X2
X N (0, 1).
pentru X , dat de
relaia (30.2) cu
P ( y X y) , y > 0,
i cu
de unde
g(y) = G (y) =
Pentru aceasta,
unde
(
0
+ f ( y)] ,
(
0
,
,
2 y [f ( y)
1 f ( y)
y
y 0;
y > 0.
y 0;
y > 0,
= 0.
Notm cu
86
X2
va :
i t X2
X 2 (t) = E e
1
=
2
y 2 eity
2 y
2
dy
= (1 2it) 2 .
Deoarece variabilele aleatoare
{Xi }i
H 2 (t) = E(eit
Pn
i=1
Xi2
)=
n
Y
2
E eitXi
i=1
n
Y
X 2 (t) = (1 2it) 2 .
i
i=1
Aceasta este funcia caracteristic pentru o v.a.
Observaia 13.2
X 2 2 (1).
2 (n).
X N (0, 1),
atunci v.a.
Propoziia 13.3 (repartiia dispersiei de selecie cnd media colectivitii este cunoscut)
{X1 , X2 , . . . , Xn } variabile
i = 1, 2, . . . , n. Atunci variabila
Fie
Xi N (, ),
pentru
aleatoare
H2 =
n
1 X
(Xi )2 2 (n).
2
i=1
Demonstraie.
Pentru ecare
i = 1, 2, . . . , n,
Yi =
Xi
.
Lema 13.4
X +Y
X i Y sunt variabile
+ m), atunci Y 2 (m).
Dac
2 (n
Demonstraie.
X 2 (n)
Lema 13.5
volum
n
(X )
n
n1 2
1 X
d
(X)
=
(Xi X)2
2
2
i=1
87
Demonstraie.
Demonstraia este tehnic i nu am inclus-o n acest material. Aceast lem este demon-
Propoziia 13.6
Fie
X N (, )
{X1 , X2 , . . . , Xn }
n.
vari-
Atunci statistica
n
1 X
= 2
(Xi X)2 2 (n 1).
i=1
Demonstraie.
Putem scrie:
n
1 X
(Xi )2
2
i=1
n
n
1 X
(Xi X)2 + 2 (X )2
2
(13.2)
n1 2
2
d (X) + Z ,
2
(13.3)
i=1
sau,
n
X
Zi2
i=1
unde:
Zi =
Xi
N (0, 1)
Z=
N (0, 1).
Utiliznd Propoziia 13.3, observm c membrul stang al egalitii (13.2) este o variabil aleatoare reparti-
2 (n). Folosind Observaia 13.2, concluzionm c al doilea termen din membrul drept este repartizat
2
2 (1). Utiliznd lema anterioar i folosind rezultatul Exerciiului ??, deducem c variabilele aleatoare Z
n1 2
i
d (X) sunt independente stochastic. Facem apel la Lema 13.4, i ajungem la concluzia propoziiei.
2
2
zat
Observaia 13.7
n1 2
d (X) 2 (n 1),
2
unde
d2 (X)
Lema 13.8
(13.4)
Dac
atunci statistica
X
T =q
Y
n
Demonstraie.
Fie
f (x)
g(y)
X N (0, 1) i Y 2 (n),
t (n).
X,
x2
1
f (x) = e 2 , x R,
2
n 1 y
y 2n e 2 , y > 0;
2 2 ( n
g(y) =
2)
0
, y 0.
respectiv,
Y.
Avem:
88
(X, Y )
este:
x2 +y
y 2 1 e 2
h(x, y) = f (x)g(y) = n+1
,
2 2 n2
(x, y) R (0, ).
t = q
y
n
v = y,
n vectorul
(T, Y ).
v 2 1 e 2 (1+ n )
k(t, v) = n+1
2 2 n2
Densitatea de repartiie marginal pentru
v
,
n
(t, v) R (0, ).
este:
k1 (t) =
k(t, v) dv
0
n+1
2
n+1
t2
2
1+
,
n
n
n 2
Propoziia 13.9
Dac
t=
(Aici,
t(n 1)
Demonstraie.
t R,
t(n).
n,
ce
X
t(n 1).
d (X)
n1
(n 1)
d (X) =
d2 (X) ).
X=
N (0, 1)
Y =
n1 2
d (X) 2 (n 1).
2
2
Observaia 13.10
Propoziia 13.11
repartizate
N (0, 1),
a priori.
{X0 , X1 , . . . , Xn }
T =q
X0
X12 +X22 + ... +Xn2
n
t (n).
89
Demonstraie.
Propoziia 13.12 (repartiia diferenei mediilor de selecie cnd dispersiile sunt necunoscute, egale)
Considerm o selecie de volum
n1
N (1 , 1 )
n2 dintr-o
cu 1 , 2 i
i o selecie de volum
colectivitate
alese.
Atunci statistica
(1 2 ) (1 2 )
T =q
(n1 1)d21 + (n2 1)d22
Demonstraie.
n1 + n2 2
1
1
n1 + n2
t (n1 + n2 2).
U=
Se veric cu uurin c
U N (0, 1).
(1 2 ) (1 2 )
q
.
n11 + n12
V =
(n1 1) d21
2
Propoziia 13.13
Dac
2 (n1 1)
(n2 1) d22
2
aleatoare
F =
Demonstraie.
Fie
f (x)
g(y)
n X
F(m, n).
m Y
m 1 x
x 2m e 2
2 2 ( m
f (x) =
2 )
0
n 1 y
y 2n e 2
2 2 ( n
g(y) =
2)
i, respectiv,
Y.
Avem:
, x > 0;
, x 0.
, y > 0;
, y 0.
Din independena celor dou variabile aleatoare, gsim c densitatea de repartiie a vectorului
este:
x 2 1 y 2 1 e
h(x, y) = f (x)g(y) = m+n
2 2 m
2
x+y
2
n
2
,
t = n x
m y
:
v = y,
(X, Y )
90
(F, Y ).
m
n
k(u, v) =
m
2
u 2 1 v
m+n
2
m+n
1
2
e 2 (1+ n
n
m
2 2
u)
este:
k(u, v) dv
k1 (u) =
0
m
m 2
m+n
n
2
n
m
2 2
m
m m+n
2
u 2 1 1 + u
,
n
Propoziia 13.14
N (0, 1),
Dac
{X1 , X2 , . . . , Xm+n }
u > 0,
F(m, n).
F =
Demonstraie.
2
n
X12 + X22 + . . . + Xm
2
2
2
m Xm+1
+ Xm+2
+ . . . + Xm+n
F(m, n).
X1 N (1 , 1 )
X2 N (2 , 2 )
Rescriem
2 . Din ecare
d21 = d21 (X1 ) i
i considerm
n forma echivalent:
unde
21 =
i
n2 ,
22 d21
F(n1 1, n2 1).
12 d22
F =
{X1 i }i=1, n1
respectiv,
F =
Demonstraie.
n1 ,
{X2 i }i=1, n2
n2 1 21
,
n1 1 22
n1
1 X
(X1 i X1 )2 ,
12 i=1
22 =
n2
1 X
(X2 j X2 )2 ,
22 j=1
X1 ,
respectiv,
X2 .
Statisticile
X1
X2
n1 ,
respectiv,
n2 ,
ce urmeaz
ztoare.
Folosind concluzia Propoziiei 13.6, avem c
21 2 (n1 1),
22 2 (n2 1).
91
F1 =
unde
d21
d22
sunt cunoscute
a priori.
22 d21
F(n1 , n2 ),
12 d22
21
Demonstraie.
i 13.14.
n1
1 X
= 2
(X1 i 1 )2 2 (n1 ),
1 i=1
22
n2
1 X
= 2
(X2 j 2 )2 2 (n2 ).
2 j=1
Demonstraia este similar cu cea de mai nainte. Se folosesc rezultatele Propoziiilor 13.3
92
cu deviaia standard de
200
1400
ore,
B au timpul mediu de funcionare de 1200 ore, cu deviaia standard de 100 ore. Se face
o selecie de 125 becuri din ecare tip i se testeaz becurile alese. Pentru seleciile date, care este
probabilitatea ca becurile produse de A au un timp mediu de via mai mare cu
(a) 160 de ore;
(b) 250 de ore;
mai mare dect timpul mediu de funcionare ale becurilor produse de B ?
(c)
Care este probabilitatea ca timpul mediu de funcionare al becurilor selectate din tipul A s e
cuprins ntre 1375 de ore i 1425 de ore?
(d) Presupunem c timpul mediu de funcionare ale becurilor produse de A este o v.a. normal. Alegem
la ntmplare un bec de tipul A. Care este probabilitatea ca timpul s mediu de funcionare s e cuprins
ntre 1375 de ore i 1425 de ore?
manufacturier
Notm cu
T1
T2
T1 = 1400, T1 = 200
Pentru o selecie de volum
n = 125
T2 = 1200, T2 = 100.
este mult mai mic dect numrul becurilor produse de ecare manufacturir), avem c:
200
T1 N (1400, )
5 5
100
T2 N (1200, ).
5 5
T1 T2 N (200, 20).
(a)
93
Exerciiu 14.2
t = 0,
6km n faa celui de-al doilea. Presupunem c viteza primului avion (msurat
510 i deviaia standard 10, iar viteza celui de-al doilea
avion este normal repartizat, cu media 500 i deviaia standard 10.
(a) Care este probabilitatea ca, dup 4 ore de zbor, al doilea avion s nu l ajuns pe primul?
(b) Determinai probabilitatea ca, dup 4 ore de zbor, distana dintre cele dou avioane s e de cel
mult 5km.
primul avion are un avans de
n
km/h)
Notm cu
v1
v2
v1 N (510, 10)
Dup
v2 N (500, 10).
satisface:
v1 N (510, 5)
v2 N (500, 5).
v1 v2 N (10, 5 2).
(a)
4 ore de zbor, al doilea avion s nu l ajuns pe primul este {4v1 4v2 +6 > 0}.
3
3
3
P ({4v1 4v2 + 6 > 0}) = P ({v1 v2 > }) = 1 P ({v1 v2 }) = 1 Fv1 v2 ( )
2
2
2
= 1 - normcdf(-3/2,10,5*sqrt(2)) = 0.9994.
(b)
5km
este
11
1
P ({|4v1 4v2 | + 6 5}) = P v1 v2
4
4
1
11
= Fv1 v2
Fv1 v2
4
4
= normcdf(-1/4,10,5*sqrt(2)) - normcdf(-11/4,10,5*sqrt(2))
= 0.0017.
Exerciiu 14.3
Timpul de deservire la un anumit ghieu dintr-o banc este o variabil aleatoare repar-
10
minute.
persoane ce ateapt s
e servite (prima persoan la rnd abia a fost chemat) i c timpii de servire sunt independeni, s se
calculeze probabilitatea de a atepta mai puin de
50
de minute.
94
Exerciiu 14.4
ca din
20
Notm cu
Se arunc de mai multe ori un zar ideal, n mod independent. Care este probabilitatea
de aruncri s obinem cte un numr par n cel puin jumtate din cazuri?
Sn
aruncri.
P (S2 6).
(b)
Calculai probabilitatea
(c)
Exerciiu 14.5
proprieti:
n1 2
D (X), n N .
n
95
a unei
X U(0, 1);
X P()
sau
X N (, );
(densitatea de repartiie) este deja cunoscut, dar cel puin unul dintre parametrii si este necunoscut
priori, se pune problema s estimm valoarea parametrilor de care aceasta depinde. Vom spune astfel c
avem o problem de estimare parametric. n acest capitol, ne vom ocupa de estimarea parametrilor unei
repartiii date.
f,
{X1 , X2 , . . . , Xn }
Presupunem totodat c
Deniia 15.1
(1)
n, ce urmeaz
= D2 (X).
Se numete
funcie de estimaie
= E(X)
2
i
(punctual) sau
estimator
repartiia lui
al lui
X.
o funcie de
selecie (statistic)
1 , X2 , . . . , Xn ),
= (X
cu ajutorul creia dorim s l aproximm pe
este
un
dac
= .
E()
Altfel, spunem c
este
un
Astfel,
)
b(,
prin
96
Exemplu 15.2
d2 (X)
1 X
=
[Xi X]2
n1
i=1
2 = D2 (X),
1X
d (X) =
[Xi X]2
n
2
i=1
2 = D2 (X),
b(s2 , 2 ) =
(3)
Dac
{x1 , x2 , . . . , xn }
deplasarea ind
2
.
n
[Exerciiu!]
1 , x2 , . . . , xn )
(x
se numete
estimaie
a lui
Aadar, o estimaie pentru un parametru necunoscut este valoarea estimatorului pentru selecia observat.
Prin abuz de notaie, vom nota att estimatorul ct i estimaia cu
(4) Numim
eroare n medie ptratic a unui estimator pentru (en., mean squared error) cantitatea
) = E
MSE(,
Observaia 15.3
E
h
i2
Putem scrie:
h
h
i2
i2
+ E()
= E E()
+ 2E
= D ()
2
h
[E()
E()]
i
+E
h
E()
i2
+ 0 + (b(,
))2 .
= D2 ()
Aadar,
MSE
(5) Fie
.
D2 ()
Atunci, valoarea
MSE(1 , )
MSE(2 , )
eciena relativ (en., relative eciency) a lui 1 n raport cu 2 . Vom spune c un estimator
1 este mai ecient dect 2 dac MSE(1 , ) MSE(2 , ) pentru toate valorile posibile ale lui i
MSE(1 , ) < MSE(2 , ) pentru mcar un .
se numete
notat cu
pentru , ,
,
avem
D2 ( ).
D2 ()
97
pentru
este un
estimator consistent
prob
1 , X2 , . . . , Xn )
(X
,
n acest caz, valoarea numeric a estimatorului,
dac
n .
cnd
.
(8) Estimatorul
pentru
este un
= ;
E()
= 0.
lim D2 ()
(i)
(ii)
dac
1 , x2 , . . . , xn ),
(x
se numete
(9) Estimatorul
pentru
este un
(i)
= 0.
lim D2 ()
(ii)
1 , x2 , . . . , xn ),
(x
se numete
Propoziia 15.4
2
Statistica d (X) este un estimator absolut corect pentru
2
d (X) este un estimator corect, dar nu absolut corect, pentru D2 (X).
Demonstraie.
2 = D2 (X),
iar statistica
[Exerciiu!]
Se arat c:
E(d2 (X))
=E
1 X
[Xi X]2
n1
!
= D2 (X),
i=1
D2 (d2 (X)) =
4
n3 2
0,
n
n(n 1) 2
cnd
n .
E(d2 (X)) = E
1X
[Xi X]2
n
!
=
i=1
D2 (d2 (X)) 0,
n1 2
n
D (X) D2 (X),
n
cnd
n .
2
Propoziia 15.5
Demonstraie.
Dac
este
D2 ()
P ({| | }) 1
, > 0.
2
innd cont c
=0
lim D2 ()
(15.1)
98
Observaia 15.6
Fie
un
estimator pentru
2
matorul pentru .
De exemplu, s presupunem c
X N (0, 1)
i avem urmtoarele
20
X:
0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570; -0.1802; -0.0357; 1.9344; 1.3056
0.0831; -0.3277; -0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312; 2.0718; -0.5944
0.6286; -0.5350; 2.2090; -0.6057; 1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030
X , i.e., pentru X = 0, este X .
2
2
(pentru selecia dat, X = 0.0521). Variabila aleatoare X urmeaz repartiia (1) i are media X 2 = 1
2
2
(vezi repartiia ). Un estimator absolut corect pentru X 2 este X . Pe de alt parte, pentru selecia
2
2
Un estimator absolut corect pentru media teoretic a lui
dat avem c
X 1.4
Aadar, n general X 2
Observaia 15.7
iar
6= X
X
2
= 0.027.
Pentru un anumit parametru pot exista mai muli estimatori absolut coreci.
din repartiia
P oisson P()
X
Se pune problema:
De
d2 (X).
Cebev n forma (15.1), atunci ar resc ca "cel mai bun estimator" s e cel de dispersie minim.
(10) Se numete
funcie de verosimilitate
L(X1 , X2 , . . . , Xn ; ) =
n
Y
f (Xk , ).
k=1
Pentru
aleator
(11)
Xk = xk , k = 1, n, funcia L(x1 , x2 , . . . , xn ; )
V = (X1 , X2 , . . . , Xn ).
volum
n (informaie Fisher)
expresia:
In () = E
ln L(X1 , X2 , . . . , Xn ; )
2 !
.
(15.2)
f (x, ), cu (a, b) i
1 , X2 , . . . , Xn ), un estimator absolut corect pentru . Atunci,
= (X
f
. Considerm
D2 ()
17 Calyampudi
18 Harald
1
.
In ()
(15.3)
99
pentru
In1 ()
.
D2 ()
se numete
(15.4)
estimator ecient
dac
= 1,
e()
adic
= I 1 ().
D2 ()
n
Propoziia 15.9
X
E(X).
Media de selecie
[Exerciiu!]
g : Rn R+
.
(x)
iar funcia
Funciile
(15.5)
h : R R R+
este msurabil i
practic, un estimator este sucient pentru parametrul pe care l estimeaz dac acest estimator conine
toat informaia relevant despre
Propoziia 15.10
Media de selecie
Observaia 15.11
[Exerciiu!]
[Exerciiu!]
E(X).
metoda momentelor;
2 ;
f (x; )
(unde
selecie de date,
x1 , x2 , . . . , xn .
Fie
{X1 , X2 , . . . , Xn }
= (1 , 2 , . . . , p ) sunt
X , adic am ales o
n.
100
Deniia 15.12
o statistic
(1) Numim
1 , X2 , . . . , Xn )
= (X
L(X1 , X2 , . . . , Xn ; ) =
n
Y
f (Xk , ).
k=1
(2)
maxim pentru .
Observaia 15.13
Nu este necesar ca
estimaie de verosimilitate
Dac
L(X1 , X2 , . . . , Xn ; )
= 0,
k
k = 1, 2, . . . , p,
(15.6)
ln L(X1 , X2 , . . . , Xn ; ) X ln f (Xi ; )
=
= 0,
k
k
k = 1, 2, . . . , p.
(15.7)
i=1
Exemplu 15.14
Soluie:
X N (, )
X N (, ).
este
(x)2
1
f (x, , ) = e 22 , x R.
2
n, pe care o vom
= (, ) i funcia
sunt
nota
(Xk )k=1, n .
L(X1 , X2 , . . . , Xn ; , ) =
f (Xk , , )
k=1
n
X
(Xk )2
1
k=1
n e
n (2) 2
=
Astfel,
ln L(X1 , X2 , . . . , Xn ; , ) = ln
1
n
n
(2) 2
n
1 X
2
(Xk )2 .
2
k=1
L
1 X
=
(Xk ) = 0;
2
k=1
n
L
n
1 X
+
(Xk )2 = 0.
3
k=1
2 2
101
=t
(Xk X)2 = d(X).
n
1X
Xk = X,
n
k=1
(15.8)
k=1
Vericm acum dac valorile gsite sunt valori de maxim. Pentru aceasta, matricea hessian calculat
pentru valorile obinute trebuie s e negativ denit. Mai nti, calculm matricea hessian. Aceasta
este:
2L
H(, ) =
=
n
2
n
2 X
3
(Xk )
k=1
Acum calculm
n
2 X
3
(Xk )
k=1
!
n
3 X
1
(Xk )2
n 2
n
2
k=1
H(
,
).
H(
,
) =
2L
|=, = =
2
0
0
2n ,
2
care este o matrice negativ denit, deoarece valorile sale proprii, adic rdcinile polinomului caracteristic
det(H(
,
) I2 ) = 0,
sunt
1 =
Deci, estimatorii
n
<0
2n
< 0.
=X
Observaia 15.15
2 =
= d(X).
d(X)
De aceea, e
(adic,
x1 , x2 , . . . , xn .
Fie
estimarea parametrilor necunoscui din condiiile ca momentele iniiale de selecie s e egale cu momentele
iniiale teoretice respective, ale lui
X.
102
Deniia 15.16
1 (X1 , X2 , . . . , Xn ) = 1 (X),
soluia
(15.9)
2 (X1 , X2 , . . . , Xn ) = 2 (X),
.
.
.
p (X1 , X2 , . . . , Xn ) = p (X),
unde
k (X1 , X2 , . . . , Xn )
pentru
X,
k (X1 , X2 , . . . , Xn ) =
1X k
Xi ,
n
i=1
k (X)
(care depind de
k = E(X k ),
O
),
adic:
k = 1, 2, . . . , p.
sunt
k = k (x1 , x2 , . . . , xn ), k = 1, p).
Observaia 15.17
Exemplu 15.18
Fie
X U(a, b)
a<b
Soluie:
Dac
X U(a, b),
atunci
E(X) =
a+b
,
2
D2 (X) =
de unde
(b a)2
,
12
a2 + ab + b2
.
3
1 (X1 , X2 , . . . , Xn ) = E(X)
2
2 (X1 , X2 , . . . , Xn ) = E(X ),
unde
1 =
1X
Xi ,
n
2 =
i=1
1X 2
Xi .
n
i=1
(
a, b)
a urmtorului sistem:
a + b = 2 1
a b = 4 21 3 2 .
(15.10)
103
a
= 1
Fcnd calculele i innd cont c
q
3 2 21 ;
1 = X ,
q
3 2 21 .
b = 1 +
a
=X
unde
n
1X
X=
Xi
n
b = X +
3 S;
i=1
i, respectiv,
b:
3 S,
v
u n
u1 X
S=t
(Xi X)2 .
n
i=1
a i b sunt:
v
u n
n
u3 X
1X
xi t
(xi x)2 ,
a
=
n
n
i=1
v
u n
n
X
u3 X
b = 1
xi + t
(xi x)2
n
n
i=1
i=1
i=1
Yi , i = 1, n
Yi =
p
X
xij j + i ,
Yi
Fie
= (1 , 2 , . . . , p )
i = 1, 2, . . . , n,
(15.11)
j=1
sau, scris sub form matriceal:
X = (xij ) Rnp .
Y = X + ,
Variabilele aleatoare
E(i ) = 0
D2 (i ) = 2 ,
cov (i , j ) = 0,
i = 1, 2, . . . , n;
i 6= j.
(15.12)
min
Astfel, un estimator
n
X
i=1
Yi
i=1
2
p
n
X
X
Yi
xij j = 0,
j
i=1
echivalent,
2i = min
n
X
p
n X
X
i=1 j=1
p
X
2
xij j .
j=1
mai mici ptrate este soluia sistemului:
j = 1, 2, . . . , p,
j=1
xik xij j =
n
X
i=1
xik Yi ,
k = 1, 2, . . . , p.
104
X0 X = X0 Y,
de unde gsim c estimatorul
este
b = (X0 X)1 X0 Y.
Exemplu 15.19
Fie
= E(X), i e X1 , X2 , . . . , Xn variabilele
n.
teoretic ,
Statistica
min
Soluie:
Deoarece
n
X
(Xi )2 .
(15.13)
i=1
Xi = + i ,
cu
i = 1, 2, . . . , n,
(15.14)
X
(Xi )2 = 0,
i=1
adic
b=
1X
Xi .
n
i=1
X , X(),
X() =
k
[
Oi ,
n clase, astfel:
Oi
Oj = , i 6= j.
i=1
Construim evenimentele
i = 1, 2, . . . , k.
Se observ cu uurin c
(n) =
k
[
Ai ,
Ai
Aj = , i 6= j.
i=1
Notm cu
pi () = P (n) (Ai ),
i = 1, 2, . . . , k,
105
k
X
Oi .
Atunci,
pi () = 1.
i=1
Mai facem urmtoarele notaii:
Observaia 15.20
metri
N = (N1 , N2 , . . . , Nk )
n;
pi (), i = 1, k .
Deniia 15.21
Vectorul aleator
volum
Statistica
se numete
min
Propoziia 15.22
)
( k
X [Ni n pi ()]2
i=1
n pi ()
k
X
[Ni n pi ()]2
i=1
n pi ()
2 (k p 1).
pentru
dac
106
f : R [0, 1],
(
x x
2e
f (x, ) =
0
(a)
Fixm
, x > 0;
, x 0.
= 30.
(b)
(c)
Exerciiu 16.2
zarul 1:
zarul 2:
zarul 3:
5
2
1
7
3
6
8
4
11
9
15
12
10
16
13
18
17
14
Pentru ecare zar, toate feele au aceeai ans de apariie. Fiecare juctor alege un zar i l pstreaz
pentru restul competiiei. Un joc const n aruncarea zarului ales, iar cel care obine un numr mai mare
de puncte va ctiga jocul.
independente.
(a)
Pcal, politicos ind, l invit pe Tndal s e primul care i alege zarul. Artai c, orice zar ar
alege Tndal, Pcal are posibilitatea de a alege un zar mai bun dintre cele rmase.
(b)
La ecare joc, cel care obine un numr mai mare de puncte primete de la cellalt juctor
60
60
1 RON.
de jocuri (aruncri).
(d)
Determinai numrul minim de jocuri ce trebuie efectuate, dup care Pcal va aproape sigur (cu
0.99)
10 RON.
(c)
Estimaii prin
10 RON.
Matlab
mle.
pCI
este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaz a estimat punctual;
este variabila de memorie pentru intervalul (intervalele) de ncredere ce va estimat;
107
distribution
lege
6.1;
nume_i/val_i
alpha
Matlab
ntrials
= 0.005;
(utilizat doar pentru repartiia binomial, reprezint numrul de repetiii ale ex-
perimentului.
Dac urmrim s estimm parametrii unei caracteristici gaussiene, atunci putem folosi comanda simplicat:
X=[7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35;10*rand(87,1)+45;10*rand(64,1)+55]
[p, pCI] = mle(X)
i obinem estimrile:
p =
41.9716
12.0228
pCI =
40.7653
43.1779
11.2439
12.9547
% intervale de incredere
LEGEfit(X,alpha)
unde, n locul cuvntului
i
alpha
LEGE
Exerciiu 16.3
parametrului
X reprezint
normfit, binofit, poissfit, expfit etc).
P().
observaiile
108
Soluie:
Deoarece
X P(),
urmeaz c
i=1
i=1
D2 (X) =
1 2
D
n2
n
X
!
=
Xi
i=1
n
X
1
n2
i=1
!
D2 (Xi )
i=1
n
1 X
(
) = 0,
2
n
n
cnd
n .
i=1
Aadar, conform deniiei, media de selecie este un estimator absolut corect pentru parametrul
de probabilitate este
f (x, ) = e
de unde
Funcia
x
, x N,
x!
ln f (x, )
x
= 1 + .
!
ln f (X, ) 2
In () = n E
X
X2
1 2
n
= n E 1 2 + 2 = n 1 2 + 2 ( + ) = .
Se observ c
D2 (X) In () = 1,
Exerciiu 16.4
Fie
deci estimatorul
Xi B(1, p), i = 1, n
= nX =
n
X
pentru
este ecient.
Xi ,
numrul de succese n
incercri.
i=1
S se arate c
Soluie:
este
p.
L(x1 , x2 , . . . , xn ; p) =
n
Y
pxi (1 p)1xi
i=1
n
X
n
(1 p)
= g(x) h((x),
p),
xi
= p i=1
unde
g(x) 1
Exerciiu 16.5
n
X
xi
i=1
h((x),
p) = p(x) (1 p)n(x) .
S presupunem c aruncm o moned despre care nu tim dac este sau nu corect
0.5).
Fie
variabila aleatoare ce
reprezint numrul de apariii ale feei cu stema la aruncarea repetat a unei monede. Notm cu
babilitatea evenimentului ca la o singur aruncare a monedei apare stema. Realizm
acelei monede i obinem valorile (1 nseamn c faa cu stema a aprut iar
80
pro-
de aruncri ale
dac nu a aprut):
109
0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0
1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0
p
Matlab.
Soluie:
este Bernoulli,
E(X) = p,
B(1, p).
E(X) = E(X)
X,
Matlab astfel:
x=
n
X
folosind funciile
mle
binofit
Astfel,
p,
(Xk )k=1 n .
deoarece
D2 (X) =
p(1 p)
0.
n
n2
xk = 0.5125.
k=1
[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)
cu rezultatul:
p =
0.5125
pCI =
0.3981
0.6259
binofit,
[p,pCI] = binofit(sum(Y),length(Y),0.05)
cu rezultatul:
p =
0.5125
Exerciiu 16.6
pCI =
0.3981
0.6259
X = 2*rand(1e6,1) - 1;
Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a.
atunci estimm parametrii si astfel:
normale
N (, ),
110
mu = 0.0006425
sigma =0.5771
Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a.
U(a, b),
[a, b] = unifit(X)
a = -1.0000
b = 1.0000
uniforme continuu
111
efectum
f (x, ),
cu
parametru
x1 , x2 , . . . , xn .
1 , x2 , . . . , xn ). ns, o
(x
1 , x2 , . . . , xn ) fa de valoarea
estimaie punctual nu ne precizeaz ct de aproape se gsete estimaia (x
real a parametrului . De exemplu, dac dorim s estimm masa medie a unor produse alimentare
Dup cum am vzut anterior, putem gsi o estimaie punctual a parametrului,
fabricate de o anumit main, atunci putem gsi un estimator punctual (e.g., media de selecie) care s
ne indice c aceasta este de
masa medie este
500
500g10g.
Putem obine astfel de informaii dac vom construi un interval n care, cu o probabilitate destul de mare,
s gsim valoarea real a lui
n, X1 , X2 , . . . , Xn ,
X.
Dorim s
etc) valoarea
Deniia 17.1 Fie (0, 1), foarte apropiat de 0 (de exemplu, = 0.01, 0.02, 0.05 etc). Numim
interval de ncredere (en., condence interval) pentru parametrul cu probabilitatea de ncredere 1 ,
un interval aleator
(, ),
astfel nct
P ( < < ) = 1 ,
unde
(X1 , X2 , . . . , Xn )
(n)
Pentru o observaie
(X1 , X2 , . . . , Xn )
(17.1)
sunt statistici.
x1 , x2 , . . . , xn ,
intervalul
(x1 , x2 , . . . , xn ), (x1 , x2 , . . . , xn )
se numete
pentru
de "interval de ncredere" att pentru intervalul propriu-zis, ct i pentru valoarea acestuia, nelesul
desprinzndu-se din context.
Valoarea
se numete
Observaia 17.2
Pentru a determina un interval de ncredere, metoda de lucru este dup cum urmeaz:
),
S(X1 , X2 , . . . , Xn ; ), convenabil aleas, care s urmeze o lege cunosg(s) aceast repartiie. Se determin apoi valorile s1 i s2 (care
S notm cu
astfel nct
Zs2
g(s) ds = 1 .
(17.2)
112
depinde de
(, )
ce satisface (17.1).
Cu ct
sau
99.99%
(1 ) 100%)
99%
Dei ansele
par a foarte apropiate i ar da rezultate asemntoare, sunt cazuri n care ecare sutime
99%
de a se
realiza, n orice zi a anului, independent de celelalte zile. Atunci, ansa ca acest eveniment s se realizeze
0.99365 2.55%.
96.42%, ceea ce
99.99%,
suplimentare (e.g., xarea unui capt), atunci putem obine intervale innite la un capt i nite la
cellalt capt.
n continuare, vom cuta intervale de ncredere pentru parametrii unor caracteristici normale.
Z=
X
N (0, 1)
(conform Propoziiei
(z1 , z2 )
11.23).
astfel nct
: R [0, 1]
este
(z1 , z2 )
y2
2
dy.
(17.5)
X
< z2 ) = 1 ,
P X z2 < < X z1
= 1 ,
n
n
(1 )
X z1
.
n
cu nivelul de semnicaie
(, ) = X z2 ,
n
Mai ramne de stabilit cum determinm valorile
Distingem trei cazuri:
P (z1 <
echivalent cu
(17.4)
De ndat ce intervalul
(17.3)
z1
z2 .
este
113
(1)
xat.
(z2 ) (z2 ) = 1 .
Tinnd cont c
(z) = 1 (z),
(z2 ) = 1
de unde gsim pe
z2
,
2
2 , i anume
z1 2 .
Aadar,
z1 = z1 2 ,
z2 = z1 2 ,
(, ) = X z1 2 , X + z1 2
.
n
n
(2)
este:
(17.6)
Dac pentru media teoretic nu se precizeaz o limit superioar, atunci n (17.4) aleg intervalul
aleator
(z1 , z2 )
de forma
(, z2 ).
de unde
z2 = z1 .
(, ) =
(3)
X z1
,
n
.
Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci n (17.4) aleg intervalul
aleator
(z1 , z2 )
de forma
(z1 , ).
de unde
z1 = z = z1 .
(, ) =
Observaia 17.3
n cazul
(1)
X + z1
n
.
lungime este
l = (z2 z1 ).
n
min (z2 z1 )
n
Zz2
g(z) dz = 1 ,
z1
114
N (0, 1).
L(z1 , z2 ; ) = (z2 z1 ) +
n
Dorim s am
z1
z2
ce realizeaz
=0
z1
L
= 0,
z2
= 0,
de unde
z2
g(z) dz.
(17.7)
z1
sunt soluiile sistemului:
g(z1 ) = 0
n
+ g(z2 ) = 0.
n
Deoarece funcia
Observaia 17.4
aceasta nseamn
(1)
z1 = z2
(ce nu convine) i
z1 = z2 .
n cazul n care volumul seleciei este mare (de cele mai multe ori n practic,
n 30)
poate aplica i pentru selecii dintr-o colectivitate ce nu este neaprat normal. Aceasta este o consecin
faptului c, pentru
caracteristicii
mare, statistica
urmeaz repartiia
N (0, 1)
(2) Intervalele de ncredere determinate mai sus sunt valide pentru selecia (repetat sau nerepetat) dintro populaie innit, sau pentru selecii repetate dintr-o populaie nit. n cazul seleciilor nerepetate
N al populaiei.
n 0.05N , atunci
din colectiviti nite, n estimarea intervalelor de ncredere vom ine cont i de volumul
Spre exemplu, dac selecia de volum
(, ) =
X z1 2
N n
,
N 1
X + z1 2
N n
N 1
!
.
(17.8)
este statistica
v
u
u
d (X) = t
X N (, )),
mai puin
d (X),
dat prin
1 X
(Xi X)2 .
n1
i=1
T =
X
t(n 1),
d (X)
(conform Propoziiei
13.9).
(17.9)
n mod analog cu cazul precedent, gsim intervalul de ncredere n funcie de cele trei cazuri amintite mai
sus:
115
(1)
cnd
(, ) =
(2)
d (X)
X t1 2 ; n1 ,
n
d (X)
X + t1 2 ; n1
n
.
(17.10)
Dac pentru media teoretic nu se precizeaz o limit superioar, atunci intervalul de ncredere
este:
(3)
d (X)
(, ) = X t1; n1 ,
n
.
Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci intervalul de ncredere este:
(, ) =
Aici, prin
t; n1
Observaia 17.5
X t; n1
pentru repartiia
d (X)
cu
.
(n 1)
grade de libertate.
Formulele din aceast seciune sunt practice atunci cnd selecia se face dintr-o colecti-
n mic.
Cnd
nu neaprat pentru una gaussian. Aadar, pentru o selecie de volum mare dintr-o colectivitate oarecare,
un interval de ncredere pentru media populaiei, cnd dispersia nu este cunoscut, este:
d (X)
(, ) = X z1 2 ,
n
X +z
1
2
d (X)
.
(17.11)
nu i dispersia
1X
d (X) =
[Xi ]2 .
n
2
i=1
n
n 2
1 X
d
(X)
=
(Xi )2 2 (n),
2
2
i=1
n
P 21 < 2 d2 (X) < 22 = Gn (22 ) Gn (21 ) = 1 ,
unde aici
Gn (x)
cu
grade de libertate.
n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie (analog ca anterior), gsim
c intervalul de ncredere pentru
2,
116
(1)
n d2 (X)
2 ; n
n d2 (X)
,
21 ; n
( 2 , 2 ) =
(2)
(17.12)
( ,
(3)
2)
n d2 (X)
,
2; n
+ ;
(17.13)
2)
( ,
unde prin
2; n
n d2 (X)
21; n
pentru repartiia
cu
(17.14)
grade de libertate.
Fie
d2 (X) =
1 X
[Xi X]2 .
n1
i=1
n
n1 2
1 X
d (X) = 2
(Xi X)2 2 (n 1),
2
i=1
P
unde
Gn1 (x)
n1 2
2
2
2
21 <
d
(X)
<
2 = Gn1 (2 ) Gn1 (1 ) = 1 ,
2
cu
(n 1)
grade de libertate.
n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie, gsim c intervalul de
ncredere pentru
(1)
este:
( 2 , 2 ) =
(n 1)d2 (X)
,
21 ; n1
2
unde prin
2; n1
(n 1)d2 (X)
2 ; n1
!
,
(17.15)
pentru repartiia
cu
(n 1)
grade de libertate.
117
(2)
( ,
(3)
2)
(n 1)d2 (X)
,
2; n1
!
+ ;
(17.16)
( , 2 ) =
Observaia 17.6
(n 1)d2 (X)
21; n1
!
.
(17.17)
ce satisface o anumit proprietate (sau are o anumit caracteristic) (e.g., proporia de studeni integraliti
dintr-o anumit facultate). Pe de alt parte, prin
selecie ce satisfac o anumit proprietate (e.g., proporia de studeni integraliti dintr-o selecie aleatoare
de
40
p),
iar proporia de selecie este o statistic (pe care o notm aici prin
Fie
de studeni ai unei faculti). Proporia unei populaii este un parametru (pe care l vom nota cu
p.
variabilei aleatoare
X=
n
X
Xi ,
unde
E(X) = np,
este
Xi
(e.g., numrul de
pb = p =
Printr-un "volum mare" vom nelege un
p = 0.5).
ind
p).
X
.
n
ce satisface:
B(1, p).
Pentru un volum
mare, variabila
i=1
aleatoare
{Xi }i ):
X
p
X np
pb p
p
= rn
=r
N (0, 1).
n p (1 p)
p (1 p)
p (1 p)
n
n
p, de
!
pb (1 pb)
.
n
r
pb z1 2
Deoarece
nu este
pb (1 pb)
,
n
r
pb + z1 2
se numete
forma:
(17.18)
Valoarea
pb (1 pb)
n
(17.19)
prin intervalul
118
Observaia 17.7
n N,
de regul
Acest interval de ncredere este valabil pentru selecie dintr-o populaie innit (sau
n < 0.05N )
astfel nt
n 0.05N ),
Dac selecia
atunci intervalul de
ncredere este:
r
pb z1 2
pb (1 pb)
n
N n
,
N 1
r
pb + z1 2
pb (1 pb)
n
N n
N 1
!
.
(17.20)
119
Matlab
= 250g.
250g
de nghe-
at. Presupunem c masa coninutului din cup este o variabil aleatoare repartizat normal, cu masa
. . . , x30
257 249
248 256
251 251
247 250
252
247
251 251
251 247
251 253
251 247
Se tie c un estimator absolut corect pentru masa medie este media de selecie,
Se cere s se gseasc un interval de ncredere pentru
Soluie:
cu nivelul de conden
(, ) =
Urmtorul cod
x z1 2 ,
n
x + z1 2
n
este:
cnd
este cunoscut:
(, ) = (248.659, 251.478).
Observaia 18.2
ncredere. A se compara rezultatul din acest exerciiu cu cel din Exemplul 18.3 (estimare a intervalului de
ncredere cnd
Exemplu 18.3
Matlab predenite).
S se gseasc un interval de ncredere pentru masa medie din Exerciiul 18.1, n cazul
120
(, ) =
Urmtorul cod
xt
1
; n1
2
d (X)
,
n
x+t
1
; n1
2
este:
d (X)
.
cnd
este cunoscut:
(, ) = (248.572, 251.561).
Observaia 18.4
A se compara rezultatul din acest exemplu cu cel din Exemplul 18.1 (estimare a in-
Matlab
predenite).
Exemplu 18.5 Suntem, din nou, n cadrul Exerciiului 18.1, cu meniunea c dispersia nu este cunoscut
a priori (vezi Exerciiu 18.3). Dorim s obinem o estimaie printr-un interval de ncredere pentru cnd
normfit
121
, (mCI),
m =
250.0667
Observaia 18.6
2.9704
S presupunem c facem
= 0.01)
s =
30
mCI =
248.572
251.561
sCI =
2.2111
4.4159
50
de intervale.
Dup cum se observ din gur, se poate ntmpla ca un interval de ncredere generat s nu conin
valoarea pe care acesta ar trebui s o estimeze. Aceasta nu contrazice teoria, deoarece probabilitatea cu
care valoarea estimat este acoperit de intervalul de ncredere este
P < < = 1 = 0.99,
deci exist anse de a grei n estimare, n cazul de fa de
1%.
Exemplu 18.7
nscrii, doar
conden de
Soluie:
100 de studeni
Deoarece nu ni se d vreo
122
r
0.67 z0.975
Exemplu 18.8
0.67 (1 0.67)
,
100
Dintr-o selecie de
0.67 + z0.975
200
0.67 (1 0.67)
100
1276
= (59.27%, 74.73%).
de elevi,
65%
puin un telefon mobil. S se gseasc un interval de ncredere pentru procentul de copii din respectiva
coal ce dein cel puin un telefon mobil, la nivelul de semnicaie
Soluie:
interval
= 0.05.
= (58.93%, 71.07%).
Observaia 18.9
p
un
Dac se dorete estimarea volumului seleciei pentru care se obine estimarea proporiei
p,
E,
"
n = p(1 p)
[ ] este partea ntreag. Dac p
pentru p = 0.5 i estimm pe n prin
unde
z1 2
2 #
(18.1)
p(1 p)
este maxim
"
#
1 z1 2 2
n=
.
4
E
Exemplu 18.10
35%
40%
mare ar trebui s e volumul unei selecii dintre elevii de liceu pentru a estima procentul real de elevi ce
fumeaz, cu o eroare de estimare maxim de
Soluie:
Cuantila este
z0.95 = 1.28.
0.5%.
p = 0.4
40%,
= 0.1.
50%).
n este:
#
"
n = 0.4(1 0.4)
Exemplu 18.11
1.64
0.005
99.89;
99.7;
98.19;
100.3;
= 25820.
35
100g
123
= 0.05)
pectiva fabric.
Soluie:
d2 (x).
Avem:
35
d2 (x) =
1 X
[Xi 100]2 = 0.3.
35
i=1
20.025; 35 = 20.5694.
icdf('chi2',0.025, 35)
( 2 , 2 ) = (0.20, 0.51).
Pentru variaia standard, intervalul de ncredere este:
Exemplu 18.12
Soluie:
1.6mg.
Mai nti,
s = d (x) = 1.6.
20.975; 24 = 39.3641;
Matlab, gsim:
20.025; 24 = 12.4012.
( 2 , 2 ) = (1.56, 4.95).
Pentru variaia standard, intervalul de ncredere este:
Tabelul 18.1 sumarizeaz intervalele de ncredere prezentate pn acum. n ecare caz, nivelul de semnicaie este
124
Param.
Ali param.
2
cunoscut
X z1 2 n , X + z1 2 n
X z1 n , +
, X + z1 n
2
necunoscut
cunoscut
necunoscut
p
12
/22
1 2
1 2
1 2
mare
1 , 2
necunoscui
12 , 22
cunoscui
12 6= 22
necunoscui
12 = 22
necunoscui
p1 p2
n1 , n 2
mari
d (X)
X t1 2 ; n1 d(X)
X
+
t
,
1
;
n1
n
n
2
X t1; n1 n , ;
, X t; n1 d(X)
n
2
2
n d (X)
, nd2 (X)
21 ; n
;n
2
22
n d (X)
,
+
2; n
n d2 (X)
, 2
1; n
(n1) d2 (X)
(n1) d2 (X)
,
21 ; n1
2 ; n1
2
2
(n1) d2 (X)
, +
2
; n1
(n1) d2 (X)
,
21; n1
q
q
pb (1b
p)
pb (1b
p)
, pb + z1 2
pb z1 2
n
n
2
2
d1
d1
fn 1, n2 1; 2 , 2 fn1 1, n2 1; 1 2
d22 1
d2
s
s
2
2
2
2
X1 X2 z1 1 + 2 , X1 X2 + z1 1 + 2
2s n
2
s
n2
n1 n2
1
2
2
2
2
d
d
d
d
1
1
X1 X2 t1 ; N
+ 2 , X1 X2 + t1 2 ; N
+ 2
2
n
n
n
n2
1
2
1
pb1 pb2 z1 2
+
, pb1 pb2 + z1 2
+
n1
n2
n1
n2
d(X1 , X2 )
am notat:
q
d(X1 , X2 ) = (n1 1)d21 + (n2 1)d22
n1 + n2 2
1
1
n1 + n2
! 1
125
X1
X2
N (1 , 1 ),
respectiv,
N (1 , 1 ),
pentru care nu
n1 ,
notat prin
(X1k )k=1, n1 , ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie repetat de volum
n2 , notat prin (X2k )k=1, n2 , ce urmeaz repartiia lui X2 . Fixm nivelul de semnicaie . S notm
dispersiile de selecie pentru ecare caracteristic prin
d21
1
1 X
=
(X1k X1 )2
n1 1
d22
i=1
2
1 X
=
(X2k X2 )2 .
n2 1
i=1
Pentru a gsi un interval de ncredere pentru diferena mediilor, precizm mai nti statisticile care stau
la baza construirii intervalului. Putem avea urmtoarele trei cazuri:
(1) dispersiile
Z=
12
22
sunt cunoscute
a priori.
Alegem statistica
(X1 X2 ) (1 2 )
s
N (0, 1).
12 22
+
n1 n2
(conform Propoziiei
11.27).
(19.1)
X1 X2 z1
2
(2) dispersiile
12 = 22 = 2
n1
22
n2
s
X1 X2 + z1 2
12
n1
22
n2
T =q
12
(X1 X2 ) (1 2 )
(n1 1)d21 + (n2 1)d22
1 2
n1 + n2 2
1
1
n1 + n2
t (n1 + n2 2),
(19.2)
este:
q
X1 X2 t1 ; n +n 2 (n1 1)d21 + (n2 1)d22
1
2
2
q
n1 + n2 2
1
1
n1 + n2
n1 + n2 2
1
1
n1 + n2
! 1
2
! 1
2
126
12 6= 22 ,
1 2 ,
T =
alegem statistica
(X1 X2 ) (1 2 )
s
t(N ),
d21 d22
+
n1
n2
(19.3)
unde
2
s21
s22
+
n1 n2
N = 2
2
2 2
s21
1
s2
1
+
n1
n1 1
n2
n2 1
X1 X2 t1 ; N
2
Observaia 19.1
s21 = d2 (x1 ), s22 = d2 (x2 ) .
1 2
d21 d22
+
,
n1
n2
la nivelul de semnicaie
X1 X2 + t1 2 ; N
(19.4)
este:
d21 d22
+
.
n1
n2
X1
X2
N (1 , 1 ),
respectiv,
N (2 , 2 ),
pentru care nu
n1
se cunosc mediile i dispersiile teoretice. Alegem din prima populaie o selecie repetat de volum
urmeaz repartiia lui
repartiia lui
X2 .
X1 ,
n2
ce
ce urmeaz
dispersiilor,
12 /
22
considerm statistica
F =
22 d21
F(n1 1, n2 1),
12 d22
(f1 , f2 )
(19.5)
astfel nct
Fn, m
f1 = f 2 , n1 1, n2 1
unde
fn, m;
Alegem:
f2 = f1 2 , n1 1, n2 1 ,
pentru repartiia
F isher
cu
(n, m)
grade de libertate.
2
2
Intervalul de ncredere pentru raportul dispersiilor, 1 /2 este:
d21
f , n 1, n2 1 ,
d22 2 1
d21
f
1 2 , n1 1, n2 1 .
d22
(19.6)
127
s
s
pb1 pb2 z1 pb1 (1 pb1 ) + pb2 (1 pb2 ) , pb1 pb2 + z1 pb1 (1 pb1 ) + pb2 (1 pb2 ) . (19.7)
2
2
n1
n2
n1
n2
Fie
X1
Punerea problemei
Testarea ipotezelor statistice este o metod prin care se iau decizii statistice, utiliznd datele experimentale
culese. Testele prezentate mai jos au la baz noiuni din teoria probabilitilor. Aceste teste ne permit
ca, plecnd de la un anumit sau anumite seturi de date culese experimental, s se putem valida anumite
estimri de parametri ai unei repartiii sau chiar putem prezice forma legii de repartiie a caracteristicii
considerate.
Presupunem c
este dat de
f (x, )
),
sale.
S presupunem c
Deniia 19.2
(xk )k=1, n
(1) Numim
ipotez statistic
X.
legea de probabilitate a caracteristicii studiate sau chiar referitoare la tipul legii caracteristicii.
(2) O
ipotez neparametric
o ipotez de genul
(3)
Numim
f (x, ).
De exemplu,
Normal.
ipotez parametric
Dac
mulimea la care se presupune c aparine parametrul necunoscut este format dintr-un singur element,
priori a adevrat.
Cu alte cuvinte, ipoteza nul este ceea ce doreti s crezi, n cazul n care nu exist
suciente evidene care s sugereze contrariul. Un exemplu de ipotez nul este urmtoarul: "presupus
nevinovat, pn se gsesc dovezi care s ateste o vin".
ipotez alternativ
128
(H0 )
= 250 grame,
6= 250 grame.
(H1 )
n general, pentru teste parametrice considerm
A = A0
A1 , A 0
A1 =
i spunem c
(H0 )
A0
iar
(H1 )
(5) A
A1
testa o ipotez statistic (en., statistical inference) nseamn a lua una dintre deciziile:
etc.
regiune critic mulimea tuturor valorilor care cauzeaz respingerea ipotezei nule.
o submulime U R se numete regiune critic cu un nivel de semnicaie (0, 1) dac
Vom numi
P ((x1 , x2 , . . . , xn ) U | H0
admis)
Matematic,
= .
se numete
Construirea unui test statistic revine la construirea unei astfel de mulimi critice. Folosind datele observate
i
(i)
(ii)
(x1 , x2 , . . . , xn ) 6 U,
(x1 , x2 , . . . , xn ) U,
(H0 )
(H0 )
(H1 )
este acceptat);
false positive)
= P ((x1 , x2 , . . . , xn ) U | H0
admis).
Probabilitatea
129
= P ((x1 , x2 , . . . , xn ) 6 U | H1
admis).
Gravitatea comiterii celor dou erori depinde de problema studiat. De exemplu, riscul de genul (I) este
mai grav dect riscul de genul al (II)-lea dac vericm calitatea unui articol de mbracminte, iar riscul de genul al (II)-lea este mai grav dect riscul de genul (I) dac vericm concentraia unui medicament.
Fie
de selecie de volum
Deniia 19.3
f (x; ),
cu
(x1 , x2 , . . . , xn )
valori
n.
Vom numi
= 1 = P ((x1 , x2 , . . . , xn ) U | H0 fals) .
Deniia 19.4
Denumim
valoare P
sau
P valoare (en.,
(19.8)
cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Valoarea
cea mai mic valoare a nivelului de semnicaie
(H0 )
este
ar respins, bazndu-ne
Pv > ,
atunci admitem
Un exemplu simplu de test este testul de sarcin. Acest test este, de fapt, o procedur statistic ce ne
d dreptul s decidem dac exist sau nu suciente evidene s concluzionm c o sarcin este prezent.
Ipoteza nul ar lipsa sarcinii. Majoritatea oamenilor n acest caz vor cdea de acord cum c un
false
S presupunem c suntem ntr-o sal de judecat i c judectorul trebuie s decid dac un inculpat este
sau nu vinovat. Are astfel de testat urmtoarele ipoteze:
(
(H0 )
(H1 )
[2]
H1
H1
este fals);
este adevrat)
Deciziile posibile (asupra crora avem control putem lua o decizie corect sau una fals) sunt:
130
[i] H0
[ii] H0
Decizii
Respinge H0
Accept H0
Situaie real
H0 - adevrat H0 - fals
[1]&[i]
[2]&[i]
[1]&[ii]
[2]&[ii]
Situaie real
Decizii
H0 - adevrat
H0 - fals
Respinge H0 nchide o persoana nevinovat
nchide o persoana vinovat
Accepta H0 elibereaz o persoana nevinovat elibereaz o persoana vinovat
Tabela 19.2: Decizii posibile.
Erorile posibile ce pot aparea sunt cele din Tabelul 19.3.
Situaie real
Decizii
H0 - adevrat
H0 - fals
Respinge H0
judecat corect
Accepta H0 judecat corect
(H1 ).
6= 0
Avem astfel:
< 0
> 0
(a));
(b));
131
Figura 19.1: Regiune critic pentru test (a) unilateral stnga, (b) unilateral dreapta.
Aadar, pentru a construi un test statistic vom avea nevoie de o regiune critic. Pentru a construi aceast
regiune critic vom utiliza metoda intervalelor de ncredere. Dac valoarea observat se a n regiunea
critic (adic n afara intervalului de ncredere), atunci respingem ipoteza nul.
f (x; ),
Deniia 19.5
(H0 )
U,
(H1 ),
este
la nivelul de semnicaie
cu probabilitatea de risc
P ((x1 , x2 , . . . , xn ) U | (H0 )
(b)
U U .
n raport cu
condiii:
(a)
se admite)
= ;
132
Observaia 19.6
se numete
n cazul ipotezelor simple, lema urmtoare ne confer un cel mai bun test. n cazul general, nu se poate
construi un astfel de criteriu.
(H0 ) :
la nivelul de semnicaie
Notm cu
= 0
= 1 ,
L(x; ) = L(x1 , x2 , . . . , xn ; )
S(x) =
Atunci regiunea
(H1 ) :
vs.
funcia de verosimilitate i e
L(x; 1 )
.
L(x; 0 )
denit prin
U = {x Rn | S(x) c},
cu
astfel nct
semnicaie
P (x U | (H0 )
adevrat)
= ,
Exemplu 19.8
Fie
x1 , x2 , . . . , xn
X N (, ),
unde
este
(H0 ) :
= 0
(H1 ) :
= 1 .
Soluie:
12
2
1
L(x1 , x2 , . . . , xn ; ) =
n e
n
(2) 2
Calculnd
S(x),
n
X
(xk )2
k=1
obinem:
L(x; 1 )
S(x) =
=
L(x; 0 )
0
1
n
12
1
1
2 2
1
0
n
X
k=1
(xk )2
.
Utiliznd Lema Neyman-Pearson, cel mai puternit test este bazat pe o regiune ce depinde de
(H0 )
dac
1 > 0 ,
n
X
atunci
S(x)
(xi )2 .
i=1
(xi )2 .
Aadar,
i=1
(xi )2
i=1
19 Jerzy
n
X
n
X
133
Matlab
Pentru a
estima dac abaterile diametrelor pieselor produse de cele dou maini sunt sensibil egale, s-au luat la
ntamplare dou seturi de volume
n1 = 7
n2 = 10
la urmtoarele rezultate:
Lotul
Lotul
1
2
25.06
25.01
24.95
25.09
25.01
25.02
25.05
24.95
24.98
24.97
24.97
25.03
25.02
24.99
24.97
25.03
24.98
S se determine un interval de ncredere pentru raportul dispersiilor diametrelor pieselor produse de cele
dou loturi (
Soluie:
= 0.1).
d21 =
10
1X
(L1i L1i )2 = 0.0412
6
f0.05, 6, 9 = 0.2440
d22 =
i=1
1X
(L2j L2j )2 = 0.0409.
9
j=1
Cuantilele sunt:
Folosind
f0.95, 6, 9 = 3.3738.
f1 = finv(0.05, 6, 9);
f2 = finv(0.95, 6, 9);
Exemplu 20.2
Dintr-o selecie de 45 de baiei ai unei coli, 21 au spus c le place Matematica, iar dintr-o
65 de fete ale aceleiai coli, 37 au susinut c le place aceast disciplin. Construii un interval
de ncredere la nivelul de semnicaie = 0.02 pentru diferena proporiilor de baiei i fete din respectiva
selecie de
Soluie:
21 37 2.33
45 65
21
45
24
45
+
45
37
65
28
65
,
65
pb1 =
23
45 ,
pb2 =
s
21 37
+ 2.33
45 65
37
65 i
21 24
37 28
45 45
+ 65 65 = (0.1990, 0.0061).
45
65
134
Exerciiu 20.3
de volum
n = 25
= 2.
N = 1000,
cu media se selecie
x = 50
se ia dintr-o populaie
(a) Dac presupunem c populaia este normal, gsii un interval de ncredere pentru media populaiei,
cu
= 0.05.
= 0.05)
normal.
Soluie:
(, ) =
50 z0.975
2
,
25
50 + z0.975
25
= (48.4, 51.6).
(b) Deoarece populaia nu este normal distribuit i nici volumul populaiei nu este mare (n
estima intervalul de ncredere bazndu-ne pe inegalitatea lui Cebev (5.4).
valorile lui
s e aproximate prin
X =
P ({|X X | < kX }) 1
Lund
< 30),
Avem c probabilitatea ca
1
.
k2
1
= 0.95, gsim k = 20. Astfel, un interval de ncredere pentru media populaiei va
2
k
2
2
= (46.42, 53.58).
(, ) = x k , x + k
= 50 20 , 50 + 20
n
n
25
25
Am folosit faptul c
2 = D 2 (X) =
X
2
.
n
vom
Observm c acest interval este mai mare dect cel gsit ante-
rior, de aceea inegalitatea lui Cebev este rar folosit pentru a determina intervale de ncredere. Totui,
n acest caz nu aveam o alt alternativ de calcul. Dac se dorete o precizie mai bun, ar indicat ca
volumul seleciei s e de cel puin
sau testul
t,
datele
testate trebuie s e normal distribuite i independente. De multe ori, chiar i ipoteza ca datele s e
normal repartizate trebuie vericat.
de repartiia empiric i cea teoretic (teste de concordan). Vom discuta mai pe larg aceste teste de
concordan ntr-o seciune urmtoare.
n
Matlab sunt deja implementate unele funcii ce testeaz dac datele sunt normal repartizate. Funcia
normplot(X)
este de a determina grac dac datele din observate sunt normal distribuite. Dac aceste date sunt selectate dintr-o repartiie normal, atunci acest grac va liniar, dac nu, atunci va un grac curbat. De
exemplu, s reprezentm cu
normplot
vectorii
X = normrnd(100,2,200,1);
subplot(1,2,1); normplot(X)
Y = exprnd(5,200,1);
135
sunt normal repartizate (fapt conrmat i de modul cum le-am generat), iar datele
Funcia
chi2gof
nivel de semnicaie
= 0.05.
2 ,
Astfel, comanda
h = chi2gof(x)
ne va furniza rezultatul
admis), sau
ipoteza nul
h = 1.
h = 1,
(H1 )
este
h = 0,
respectiv,
De asemenea, putem verica dac datele statistice ar putea proveni i din alte repartiii dect cea normal.
De exemplu, funcia
probplot(distribution,Y)
creaz un grac ce compar repartiia datelor din vectorul
'weibull'
'lognormal'.
distribution = 'normal'.
wblplot(Y)
cu repartiia dat de
136
probplot(weibull,Y).
n continuare, prezentm un exemplu de utilizare a acestor comenzi. Figura 20.2, vericm dac ecare
dintre cele dou selecii generate, una exponenial i cealalt normal, ar putea proveni dintr-o repartiie
exponenial.
x = exprnd(0.5, 250,1);
% selectie exponentiala
y = normrnd(3, 1, 250,1);
% selectie normala
probplot('exponential',[x y])
legend('Selectie exponentiala','Selectie normala','Location','SE')
histfit(X, n, 'tip_repartitie')
reprezint datele din vectorul
'tip_repartitie'
n.
Dac opiunea
apare (valabil doar pentru lucrul cu Statistics Toolbox!), atunci peste histogram
etc).
n caz n care opiunea nu apare, se consider implicit c repartiia cu care se compar datele este cea
normal. Exemplul de mai jos produce gracul din Figura 20.3.
137
teste parametrice.
n continuare, vom prezenta cele mai folosite teste parametrice. ncepem prin a prezenta paii care apar
ntr-o testare parametric.
x1 , x2 , . . . , xn
De multe ori, aceast selecie provine dintr-o repartiie normal. n caz contrar, va trebui ca volumul
seleciei s e mare, de regula
n 30.
Fie
X1 , X2 , . . . , Xn
S(X1 , X2 , . . . , Xn )
(H0 ),
Calculm valoarea
Lum decizia:
s0
apropiat de
0.
De regul,
U;
a statisticii
S(X1 , X2 , . . . , Xn )
aceast are
138
Dac
s0 U ,
Dac
s0 6 U , atunci ipoteza nul, (H0 ), se admite (mai bine zis, nu avem motive s o respingem
(H0 ),
se respinge;
Observaia 21.1
valorii
(sau
O alt modalitate de testare a unei ipoteze statistice parametrice este prin intermediul
P valoarea
P valoarea
un rezultat cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Pentru
testul bilateral,
P valoarea
s0
(21.1)
P valoarea
Pv = P (S < s0 ),
iar pentru testul unilateral dreapta,
P valoarea
(21.2)
Pv = P (S > s0 ),
Utiliznd
P valoarea,
(21.3)
Pv <
i va admis dac
Pv .
Aadar, cu ct
Pv
pentru medie se folosete pentru selecii normale sau pentru selecii de volum mare (n
orice tip de variabile aleatoare, atunci cnd dispersia populaiei este cunoscut
Fie caracteristica
N (, )
cu
necunoscut i
a priori.
>0
30) din
cunoscut. Presupunem
X:
x1 , x2 , . . . , xn .
Dorim s vericm ipoteza nul
(H0 ) :
= 0
(H1 ) :
6= 0 ,
cu probabilitatea de risc
Z=
Dac ipoteza
(z1 , z2 )
(H0 )
se admite, atunci
X
.
(21.4)
Propoziiei
11.23).
Cautm un interval
astfel nct
(21.5)
139
unde
z1 2 ,
pentru repartiia
z1 2 ,
N (0, 1).
(H0 )
Z)
1.
n
U = z R;
Astfel,
o
= {z; |z| z1 2 }.
z 6 z1 2 , z1 2
(21.6)
X 0 + z1 2
n
Notm cu
z0
valoarea statisticii
X 0 z1 2 .
n
dac
z0 z1 2 ,
z1 2
, (echivalent,
z0 6 U ),
atunci admitem
z0 U ),
atunci respingem
(H0 )
dac
z0 6 z1 2 ,
z1 2
, (echivalent,
(H0 )
s o respingem).
(1)
Se dau:
(2)
Determinm valoarea
normal),
0 ,
z1 2 = 1 .
2
(3)
Calculez valoarea
z0 =
(4)
x 0
Dac:
(i)
(ii)
Testul Z unilateral
n condiiile din seciunea anterioar, dorim s vericm ipoteza nul
(H0 ) :
= 0
(H1 )s :
< 0 ,
(unilateral stnga)
140
(H1 )d :
cu probabilitatea de risc
> 0 ,
(unilateral dreapta)
Pentru a realiza testele, avem nevoie de denirea unor regiuni critice corespunztoare. Acestea vor chiar
intervalele de ncredere pentru condiiile din ipotezele alternative. Cu alte cuvinte, o regiune critic pentru
ipoteza nul (ceea ce semnic o regiune n care, dac ne am, atunci respingem ipoteza nul la pragul
de semnicaie
este o regiune n care realizarea ipotezei alternative este favorizat. Dac ipoteza nul
pentru care
(H1 )s
se realizeaz cu probabilitatea
U = (, z1 ).
(21.7)
U = (z1 , +).
(21.8)
dac
z0 =
dac
z0 =
x 0
x 0
Observaia 21.2
6 U ,
atunci admitem
U,
atunci respingem
Testul
(H0 ).
(H0 ).
n 30.
orice tip de variabile aleatoare, atunci cnd dispersiile populaiilor considerate sunt cunoscute
Fie
X1
X2
N (1 , 1 ),
30)
din
a priori.
N (2 , 2 ),
de volum n1 ,
respectiv,
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie
repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i
1
(X2j )j=1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie
. Dorim s testm ipoteza nul c mediile sunt egale
(H0 ) :
1 = 2
(H1 ) :
1 6= 2 .
Z=
(X1 X2 ) (1 2 )
s
.
12 22
+
n 1 n2
(21.9)
141
(H0 )
1 = 2 ),
Z N (0, 1).
Fie
(u1 u2 )
.
z0 = q 2
22
1
+
n1
n2
(conform Propoziiei
11.28).
(21.10)
U =
este:
o
z 6 z1 2 , z1 2
.
n
z;
U,
U,
atunci admitem
atunci respingem
(H0 ).
(H0 ).
(1)
(2)
Determinm valoarea
0 , 1 , 2 ,
z1 2 = 1 .
2
(3)
Calculez valoarea
(4)
Dac:
(i)
(ii)
Observaia 21.3
(1)
x1 x2
z0 = q 2
.
1
22
n1 + n2
n cazul n care
1 , 2
pentru dou
pentru dou selecii, bilateral sau unilateral, poate aplicat cu succes i pentru populaii
Z , P valoarea
n1 30, n2 30.
(pentru testul
Pv = P (Z > z0 ) = 1 (z0 )
(pentru testul
bilateral);
(21.11)
unilateral stnga);
(pentru testul
(21.12)
unilateral dreapta).
(21.13)
a priori.
n < 30,
cnd dispersia
X:
x1 , x2 , . . . , xn .
Considerm
142
(H0 ) :
= 0
(H1 ) :
6= 0 ,
cu probabilitatea de risc
X
.
d (X)
T =
Dac ipoteza
(H0 )
se admite (adic
Cutm un interval
(t1 , t2 )
ia valoarea
0 ),
(21.14)
atunci
T t(n 1),
(conform Propoziiei
astfel inct
unde
t; n
(21.15)
t1 2 ; n1 , t1 2 ; n1 ,
pentru repartiia
t(n).
dac
t0 =
dac
t0 =
x 0
d (X)
x 0
d (X)
t1 2 ; n1 , t1 2 ; n1
6 t1 2 ; n1 , t1 2 ; n1
(echivalent,
(echivalent,
t0 6 U ),
atunci admitem
t0 U ),
(H0 ).
atunci respingem
(H0 ).
(3)
Fn1 t1 2 ; n1 = 1 .
2
Se dau:
(4)
repartiie pentru
t(n 1),
Calculez valoarea
t0 =
x 0
d (X)
unde,
v
u
u
d (X) = t
1 X
(xi x)2 .
n1
k=1
Dac:
(i)
(ii)
13.9).
Testul t unilateral
n condiiile de mai sus, dorim s vericm ipoteza nul
(H0 ) :
= 0
143
(H1 )s :
< 0 ,
(H1 )d :
> 0 ,
(unilateral stnga)
cu probabilitatea de risc
(unilateral dreapta)
(H1 )s ,
atunci regiunea
critic pentru ipoteza nul va mulimea valorilor favorabile realizrii ipotezei alternative
(H1 )s ,
adic
intervalul:
U = (, t1; n1 ).
Dac alegem ipoteza alternativ
(H1 )d ,
(21.16)
U = (t; n1 , +).
(21.17)
dac
t0 =
dac
t0 =
x 0
d (X)
x 0
d (X)
Observaia 21.4
6 U ,
atunci admitem
U,
atunci respingem
Testul
(H0 ) :
(H1 )
6= 0
cunoscut
< 0
> 0
(H0 ).
Ali parametri
(H0 ).
n 30.
= 0
Tipul testului
Regiunea critic
iSh
, z1 2
z1 2 , +
6= 0
(, z1 )
(z1 , +)
iSh
t1 2 ; n1 , +
, t1 2 ; n1
necunoscut
< 0
> 0
(, t1; n1 )
(t1; n1 , +)
Testul
Testul
Testul
bilateral
Z unilateral stnga
Z unilateral dreapta
Testul
Testul
Testul
bilateral
t unilateral stnga
t unilateral dreapta
t pentru diferena mediilor se folosete pentru selecii normale independente de volum mic (n < 30),
X1
X2
a priori.
N (1 , 1 ),
respectiv,
N (2 , 2 ),
144
n1 ,
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie
repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i
1
(X2j )j=1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie
. Dorim s testm ipoteza nul c mediile sunt egale
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum
(H0 ) :
1 = 2
(H1 ) :
1 6= 2 .
Cazul I
Presupunem c
1 6= 2
T =
Aici,
(X1 X2 ) (1 2 )
s
.
d21 d22
+
n1
n2
Dac
(21.18)
T t(N ),
cu
(21.19)
ca n relaia (19.4). Regiunea critic este complementara intervalului de ncredere pentru diferena
mediilor, adic:
U = R \ t1 2 ; N , t1 2 ; N .
Cazul II
Presupunem c
1 = 2
(X1 X2 ) (1 2 )
T =q
(n1 1)d21 + (n2 1)d22
Dac
(H0 )
1 = 2 ),
n1 + n2 2
.
1
1
n1 + n2
(21.20)
T t (n1 + n2 2).
(21.21)
Regiunea critic este complementara intervalului de ncredere pentru diferena mediilor, adic:
U = R \ t1 2 ; n1 +n2 2 , t1 2 ; n1 +n2 2 .
Fm t1 2 ; m = 1 .
2
Se dau:
nct
145
Calculez valoarea
t0 =
(4)
x x2
q 12
d1 + d22
n1
n2
x1 x2
n1 + n2 2
1
1
n1 + n2
, dac
1 6= 2
, dac
1 = 2
Dac:
(i)
(ii)
Observaia 21.5
ce urmeaz a testate sunt egale sau nu. De aceea, pentru a ti ce test s folosim, va trebui s testm
mai nti ipoteza c cele dou dispersii sunt egale, vs. ipoteza ca ele difer. Pentru aceasta, va trebui s
utilizm un test pentru raportul dispersiilor. Dup ce acest prim test a fost realizat, putem decide dac
n testarea egalitii mediilor folosim statistica (21.18) sau statistica (21.20).
(2)
pentru dou selecii, bilateral sau unilateral, poate aplicat cu succes i pentru populaii
Z , P valoarea
n1 30, n2 30.
(pentru testul
Pv = P (T > t0 ) = 1 Fm (t0 )
unde
m=N
sau
m = n1 + n2 2,
Ali parametri
1 , 2
1 6= 2
cunoscute
1 < 2
1 > 2
1 6= 2
1 6= 2
necunoscute
1 < 2
1 > 2
bilateral);
unilateral stnga);
(pentru testul
(21.22)
(21.23)
unilateral dreapta).
(21.24)
dup caz.
(H0 ) :
(H1 )
(pentru testul
1 = 2
Tipul testului
Regiunea critic
2
X1 X2 < z1 n11 + n22
q 2
2
X1 X2 > z1 n11 + n22
q
2
2
Testul
Testul
Testul
Testul
bilateral
unilateral stnga
unilateral dreapta
Testul
Testul
bilateral
unilateral stnga
unilateral dreapta
146
N (, )
X , x1 , x2 , . . . , xn .
cu
>0
Vrem s vericm
2 = 02
(H0 ) :
cu probabilitatea de risc
2 6= 02 ,
(H1 ) :
2 =
n1 2
d (X),
2
(21.25)
unde
2; n1
Regiunea critic
2
S notm prin 0
urmtoarea:
2 (n).
pentru repartiia
n1 2
d (x) valoarea statisticii 2
02
dac
20 2 ; n1 , 21 ; n1 ,
dac
20 6 2 ; n1 , 21 ; n1 ,
Observaia 21.6
atunci admitem
(H0 )
atunci respingem
(i.e.,
(H0 )
2 = 02 );
(i.e.,
2 6= 02 ).
(H1 )s :
2 < 02
2 > 02 .
(H1 )d :
Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.3.
(H0 ) :
(H1 )
2 6= 02
necunoscut
2 < 02
2 > 02
2 = 02
Tipul testului
Regiunea critic
iSh
, 2 ; n1
21 ; n1 , +
2
2
, 21; n1
2; n1 , +
Testul
Testul
Testul
bilateral
2 unilateral stnga
2 unilateral dreapta
X1
X2
N (1 , 1 ),
respectiv,
N (2 , 2 ),
n1 ,
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum
147
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie
repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i
1
(X2j )j=1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie
. Dorim s testm ipoteza nul c dispersiile sunt egale
(H0 ) :
12 = 22
(H1 ) :
12 6= 22 .
F =
Dac
(H0 )
12 = 22 ),
22 d2 (X1 )
.
12 d2 (X2 )
(21.26)
atunci:
F F(n1 1, n2 1)
(repartiia
Fisher).
(21.27)
;
2
n1 1, n2 1 ,
1
;
2
n1 1, n2 1
P f 2 ; n1 1, n2 1 F f1 2 ; n1 1, n2 1 = 1 .
Extremitile intervalului se determin din relaiile
Fn1 1; n2 1 f 2 ; n1 1, n2 1 =
2
(f; n1 1, n2 1 este cuantila de ordin
Regiunea critic
Notm prin
f0
Fn1 1; n2 1 f1 2 ; n1 1, n2 1 = 1 .
2
F(n1 1, n2 1)).
valoarea lui
f0 =
x1
x2 .
Avem:
d2 (x1 )
.
d2 (x2 )
dac
f0 f 2 ; n1 1, n2 1 , f1 2 ; n1 1, n2 1 ,
dac
f0 6 f 2 ; n1 1, n2 1 , f1 2 ; n1 1, n2 1 ,
Observaia 21.7
atunci admitem
(H0 )
atunci respingem
(i.e.,
(H0 )
1 = 2 );
(i.e.,
1 6= 2 ).
(H1 )s :
12 < 22 ,
(H1 )d :
12 > 22 .
Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.4.
148
necunoscute
(H1 )
2
1 6= 22
12 < 22
12 > 22
12 = 22
Tipul testului
Regiunea
S critic
Testul F bilateral
Testul F unilateral stnga
Testul F unilateral dreapta
, f 2 ; n1 1, n2 1
f1 2 ; n1 1, n2 1 , +
(, f1; n1 1, n2 1 )
(f1; n1 1, n2 1 , +)
(H0 ) : p = p0
p.
p:
(H1 ) : p 6= p0 .
vs.
(H1 )s : p < p0
(H1 )d : p > p0 .
sau
Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem
c volumul populaiei (N ) este mult mai mare posibil innit) dect volumul
Fixm un nivel de semnicaie
al seleciilor considerate.
de ncredere (17.18).
Calculm valoarea
P0 = r
Calculm cuantila
Dac
pb,
pb p0
p0 (1 p0 )
n
p;
z1 2 ;
P0 z1 2 , z1 2 ,
atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic
este complementara intervalului de ncredere.
Observaia 21.8
(z1 , ).
P0
este
(, z1 ),
iar pentru
149
Fie
de
X1
(H0 ) : p1 = p2
vs.
i probabilitile
(H1 ) : p1 6= p2 .
(H1 )s : p1 < p2
sau
(H1 )d : p1 > p2 .
Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c
volumul populaiei (N ) este mult mai mare (posibil innit) dect volumele seleciilor considerate. Fixm
un nivel de semnicaie
p1 = p2 = p.
Un estimator pentru
este frecvena relativ a numrului de succese cumulate n cele dou selecii, i.e.,
p =
n1 pb1 + n2 pb2
.
n1 + n2
Calculm valoarea
Calculm cuantila
Dac
pb1
pb2 ,
pb1 pb2
P0 = r
p (1 p ) n11 +
1
n2
p1 ,
respectiv,
p2 ;
;
z1 2 ;
P0 z1 2 , z1 2 ,
atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic
este complementara intervalului de ncredere.
150
Testul Z n
Testul
Matlab
h = 1,
h = 0,
atunci ipoteza
nul nu poate respins pe baza observaiilor facute (adic, se admite, pn la un test mai puternic);
este valoarea
ci
value);
zval
X
P (P
multe teste
m0 = 0 ,
Dac
X;
valoarea testat;
sigma
alpha
tail
la nivelul de semnicaie
X , a priori
cunoscut;
Spre exemplicare, s presupunem c datele discrete din Tabelul 1.1 sunt obinute n
urma unui sondaj care contabilizeaz notele la Matematic obinute de elevii unei anumite coli. Dorim
s testm, la nivelul de semnicaie
este
= 6.8
Soluie:
= 2.5.
(H0 )
Vectorul
= 0.05,
= 6.8
vs.
(H1 )
> 6.8.
151
h =
0
p =
0.9500
ci =
stats =
5.9332
Inf
-1.6444
Aceasta nseamn faptul c ipoteza nul este admis la acest nivel de semnicaie.
Observaia 22.2
: 6= 6.8),
atunci comanda ar :
P valorii.
h = 1).
Aceasta este:
(3) Pentru efectuarea testului, nu este neaprat necesar s am toate cele patru variabile din membrul
stng. Putem aa, dup preferin, doar trei, dou, sau numai o variabil, dar doar n ordinea precizat.
De exemplu, comanda
Testul t n
=0
sau
h = 1),
Matlab
poate simulat n
152
variabila
stats
ztest;
Dorim s testm dac o anumit moned este corect, adic ansele ecrei fee de a
59
de exact
50% 50%.
100
(H0 ) :
(H1 ) :
la un prag de semnicaie
Soluie:
= 0.05.
X variabila aleatoare
X = 1, dac apare faa cu
E(X) = 0.5, D2 (X) = 0.25.
Fie
spunem c
de unde
X = 0,
X B(1, 0.5),
59
de
ipotezele
6= 0.5.
(H1 ) :
Dac
{X1 , X2 , . . . , Xn }
T =
Dac ipoteza
(H0 )
se admite, atunci
este xat,
t0 =
Din t1 ; n1
2
= t0.975; 99 = 1.9842,
P valoarea
d (X)
= 0.5
x
d (X)
i statistica
T t(n 1).
Valoarea acestei
= 1.8207.
|t0 | < t1 2 ; n1 ,
).
rezult c
i decidem c ipoteza
este
153
ttest
din
h =
0
p =
0.0717
Observaia 22.4
0.08,
(1)
ci =
Deoarece
P valoarea
stats =
0.4919
0.6881
este
p = 0.0717,
tstat: 1.8207
df: 99
sd: 0.4943
tail
sunt vectori sau o matrice, coninnd observaiile culese. Dac ele sunt matrice, atunci mai
multe teste
vartype ia valoarea equal dac dispersiile teoretice sunt egale sau unequal pentru dispersii inegale.
154
Exemplu 22.5
0
Caracteristicile X1 i X2 reprezint notele obinute de studenii de la Master M F 08,
0
respectiv, M F 09 la examenul de Statistic Aplicat. Conducerea universitii recomand ca aceste note s
urmeze repartiia normal i examinatorul se conformeaz dorinei de sus. Presupunem c
i
X2 N (2 , 2 ), cu 1 6= 2 , necunoscute a priori.
X1 N (1 , 1 )
25
note din a doua grup. distribuctii de frecvene ale notelor sunt cele din Tabelul 22.1.
(i)
(ii)
(ii)
(H0 ) :
= 0.01)
= 0.05;
ipoteza nul
1 = 2 ,
(H1 ) :
1 < 2 ,
Frecvena absolut
Nota obinut
Grupa
5
6
7
8
9
10
M F 0 08
3
4
9
7
2
0
Grupa
M F 0 09
5
6
8
6
3
2
(i)
h = chi2gof(u)
k = chi2gof(v)
%
%
h = 0, deci u N
k = 0, deci v N
(u i
(ii)
Matlab
(-0.7294, 0.6760)
x1 x2 t1 ; N
2
Codul
Matlab:
d21
n1
d22
n2
s
,
x1 x2 + t1 2 ; N
d21
n1
d22
n2
30
de
155
Comanda
Matlab este:
h =
0
p =
0.4698
Observaia 22.6
Valoarea
ci =
-Inf
0.8137
stats =
tstat: -0.0761
df: 52.7774
sd: 2x1 double
Matlab,
t0 = (mean(u)-mean(v))/sqrt(d1/n1+d2/n2);
tim c
Pv = tcdf(t0, N-1)
Matlab
N (, ).
n = 11
i obinem
distribuia empiric:
S se testeze (cu
= 0.1)
10.50
10.55
10.60
10.65
.
ipoteza nul
(H0 ) :
2 = 0.003,
(H1 ) :
2 6= 0.003.
Soluie:
este
(0.0012, 0.0055)
20 = 7.2727.
Deoarece aceasta aparine intervalului de ncredere, concluzionm c ipoteza nul nu poate respins la
156
P,
Testul
poate simulat n
Avem:
ttest;
h =
0
p =
0.6011
ci =
0.0012
0.0055
stats =
chisqstat: 7.2727
df: 10
Testul F n
Pv = 1 - chi2cdf(c0,10)
Matlab
Exemplu 22.8
ttest2.
Revenim la Exerciiul 22.5 i vericm dac cele dou selecii de note (Tabelul 22.1)
157
12 = 22
(H0 )
Soluie:
12 6= 22 .
(H1 )
vs.
= 0.01)
'left'
sau
'right'
n locul lui
'both'.)
h =
0
Deoarece
p =
0.2119
h = 0,
stats =
fstat: 0.6047
df1: 24
df2: 29
0.2191
1.7426
decidem c dispersiile teoretice ale celor dou populaii pot considerate a egale la
nivelul de semnicaie
Observaia 22.9
mai mare dect
CI =
= 0.01.
P,
Aceasta este:
5000
ntrebare legat de apartenena religioas. La ntrebarea "Suntei cretini?", rspunsul a fost armativ n
4893
dintre cazuri. Rezultatul acestui sondaj este utilizat n estimarea procentului de cretini din ar.
S notm cu
Soluie:
p acest procent.
La nivelul de semnicaie
(H0 ) : p = 0.95
Procentul de selecie este
pb =
4893
5000
= 0.9786,
vs.
cuantila este
z1 = 1.6449
0.9786 0.95
P0 = r
= 9.2791 [1.6449, ),
0.95 (1 0.95)
5000
158
P valorii.
p > 0.95.
Aceasta este
Exemplu 22.11
diferene semnicative ntre proporiile de baiei i fete din respectiva coal crora le place Matematica.
Soluie:
Avem:
pb1 =
23
45 ,
pb2 =
P0 = q
37
65 ,
6
11 (1
p =
23
45
6
11 )
23+37
45+65
37
65
1
45
1
65
6
11 i
z0.99 2.33.
P valoarea.
Aceasta este:
Pv = P (|Z| > |P0 |) = 1 P (Z < |P0 |) + P (Z < |P0 |) = 0.5472 > 0.02 = .
159
160
Testul 2 de concordan
Acest test de concordan poate utilizat ca un criteriu de vericare a ipotezei potrivit creia un ansamblu de observaii urmeaz o repartiie dat. Se aplic la vericarea normalitii, a exponenialitii,
a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit i
testul
sau
Cazul neparametric
S considerm o caracteristic
necunoscut
a priori,
1
2
este
f (x, )
(e.g.,
f (x) =
e2 2x
x! ,
x N
( X P(2) )
sau
f (x) =
( X N (5, 3) )).
X,
x1 , x2 , . . . , xn
X i
f (x). Fie
F 0 = f . n
testm concordana dintre repartiia empiric a datelor observate cu legea teoretic dat de
F (x)
2
cele ce urmeaz, urmrim s aplicm testul de concordan, ale crui etape sunt:
X,
{x1 , x2 , . . . , xn } =
k
[
Oi ,
Oi
Oj = , i 6= j.
i=1
Determinm frecvenele empirice absolute, i.e., numerele
Oi .
k
X
ni
ni = n.
i=1
n general, se dorete ca
n 30
ni 5,
5,
n cazul n care
mai multe clase, astfel nct n noua clas s e respectat condiia. Dei, dac avem cel puin
clase, atunci sunt suciente cel puin
k ).
161
Pentru ecare
s se ae n clasa
(H0 ) :
este
F (x).
Oi
este
pi .
(H0 ) :
(i = 1, 2, . . . , k).
Deviaia ntre cele dou situaii (empiric i teoretic) este msurat de statistica
2 =
k
X
(ni n pi )2
i=1
(ni n pi )2
n pi
n pi
(23.1)
urmeaz repartiia
2 (k 1).
Uneori, statistica
p
2
se numete
discrepan.
20
20 > 21; k1 ,
unde
21; k1
pentru repartiia
2 (k 1).
Dac ne am n regiunea critic, atunci datele observate sunt semnicativ diferite de datele ateptate (calculate teoretic). n consecin, ipoteza nul
(H0 )
Cazul parametric
pi nu sunt a priori cunoscute, atunci ele vor trebui estimate. Acest caz apare
probabilitate f (x, ) nu este complet specicat, ci doar specicat (tim forma lui
f,
dar nu tim unul sau, eventual, mai muli parametri ai si). Folosind datele observate, va trebui s
estimm parametrii necunoscui ai repartiiei ipotetice. Fiecare estimare ne va costa un grad de libertate.
Cu alte cuvinte, dac avem de estimat un singur parametru, atunci pierdem un grad de libertate, pentru
doi parametri, pierdem dou grade etc.
S presupunem c legea de probabilitate a lui
p ) R p
X.
f (x, ),
unde
= (1 , 2 , . . . ,
xime.
Dup ce am estimat parametrii repartiiei teoretice ipotetice, determinm probabilitile estimate. Stabilim apoi ipoteza nul:
(H0 ) :
pi = pi ,
(i = 1, 2, . . . , k),
162
pi
2 cazul parametric
pi
cu
(k p 1) grade de libertate.
parametri necunoscui.
Se dau:
x1 , x2 , . . . , xn .
(H0 )
(H1 )
Dac
Intuim
F (x; 1 , 2 , . . . , p );
este
F (x; 1 , 2 , . . . , p )
1 , 2 , . . . , k (k p) nu
1 , 2 , . . . , k
similitate maxim
cazul parametric;
pas);
clasa
ni
Se calculeaz probabilitatea
Oi = [ai1 , ai ),
pi ,
Oi
,
i=1, n
n
X
ni = n, ni 5;
i=1
Oi .
Dac
atunci
2
Se calculeaz 0
k
X
(ni n pi )2
i=1
Determinm valoarea
n pi
care este
(
21; k1
=
21; kp1
unde
2; n
Dac
20 < ,
, n cazul neparametric,
, n cazul parametric,
pentru repartiia
(H0 ),
2 (n);
altfel o respingem.
350
163
preferat i nivelul de studiu ce consider c li s-ar potrivi. Identicm aici dou caracteristici (atribute):
este limba strin (e.g., Englez, Francez, German, Italian, Spaniol i Rus) i
reprezint nivelul
de studiu (e.g., nceptor, mediu i avansat). Numrul de elevi ce intr n ecare categorie este aat n
Tabelul 23.1.
Nivel @
@Limba
Englez
Francez
German
Italian
Spaniol
Rus
Total
nceptor
33
65
43
141
19
37
15
71
11
10
7
28
12
14
17
43
11
24
12
47
6
7
7
20
92
157
101
350
mediu
avansat
Total
Xi , i = 1, r, Yj , j = 1, s,
tabel de contingen.
Aici
sunt atributele i
@
@Y
Y1 Y2 . . .
n11 n12 . . .
n21 n22 . . .
..
..
.
.
.
..
ni1 ni2 . . .
.
..
..
..
.
.
nr1 nr2 . . .
n1 n2 . . .
X1
X2
..
.
Xi
..
.
Xr
Suma pe coloan
Yj . . .
n1j . . .
n2j . . .
..
.
.
..
nij . . .
.
..
..
.
nrj . . .
nj . . .
Ys
n1s
n2s
Suma pe linie
nis
ni
nrs
ns
nr
n1
n2
..
.
..
.
..
.
..
.
(suma total)
Xi
pentru atributul
sunt
nj =
i valoarea
r
X
nij ,
ni =
i=1
s
X
j=1
nij ,
n=
r X
s
X
nij .
i=1 j=1
Fiecare individ din selecia aleas aparine unei singure categorii caracterizat de atributul
gure categorii caracterizat de atributul
cele
rs
Y.
i unei sin-
celule.
nsemna determinarea faptului dac alegerea cursului de limba strin este independent de nivelul de
studiu).
164
S notm prin
Xi , Yj ,
probabilitile marginale,
pi =
s
X
pij ,
pj =
j=1
Avem c
r X
s
X
pij , pi
pij =
r
X
pi =
i=1
pj
pj
pij .
i=1
i=1 j=1
n general, valorile reale pentru
r
X
pi
i prin
s
X
pj = 1.
j=1
pbij , pbi
i, respectiv,
nj
n
(j = 1, s).
a priori
pbj
i se vor estima
pbi =
ni
n
(i = 1, r)
pbj =
(23.2)
(H0 ) :
(H1 ) :
(H0 )
Astfel, pentru
i = 1, r, j = 1, s
(i.e.,
Y ).
nu este adevrat.
xai, valoarea ateptat n celula
Eij = n pbij =
ni nj
,
n
(i, j)
este
i = 1, r, j = 1, s.
(23.3)
ni nj 2
n
X ij
n
H2 =
ni nj
i, j
n
unde, n parantez,
Oij = nij
X (Oij Eij )2
=
,
Eij
(23.4)
i, j
(i, j)
iar
Eij
numrul de valori
ateptate (
2
repartiia cu
(r 1)(s 1)
5,
atunci statistica
H2
urmeaz
grade de libertate.
Se dau
Pe baza observaiilor
Calculm
Dac
nij ,
H2
i = 1, r, j = 1, s
nij ,
i pragul de semnicaie
cu formula (23.4);
Exemplu 23.1
= 0.05,
estimaiile
la pragul de semnicaie
alegerea cursului de limba strin este independent de nivelul de studiu, calculm mai nti
Eij .
165
H 2:
H2 =
3 X
6
X
(nij Eij )2
(33 37.06)2
(7 5.77)2
=
+ +
Eij
37.06
5.77
i=1 j=1
n = [33 19 11 12 11 6; 65 37 10 14 24 7; 43 15 7 17 12 7];
E = [37.06 18.66 7.36 11.30 12.35 5.26; 63.25 31.85 12.56...
19.29 21.08 8.97; 40.69 20.49 8.08 12.41 13.56 5.77];
H2 = sum(sum((n-E).^2./E)); crit = chi2inv(0.05,2*5);
Nivel @
@Limba
nceptor
mediu
avansat
Total
Englez
Francez
German
Italian
Spaniol
Rus
33
(37.06)
65
(63.25)
43
(40.69)
141
19
(18.66)
37
(31.85)
15
(20.49)
71
11
(7.36)
10
(12.56)
7
(8.08)
28
12
(11.30)
14
(19.29)
17
(12.41)
43
11
(12.35)
24
(21.08)
12
(13.56)
47
6
(5.26)
7
(8.97)
7
(5.77)
20
Total
92
157
101
350
r = s = 2,
@
@Y
X1
X2
Suma pe coloan
Y1
Y2
a
b
c
d
a+c b+d
Suma pe linie
a+b
c+d
a+b+c+d
unde
a, b, c, d
Eij
(vezi formula
(23.3)) sunt:
E11 =
(a + b)(a + c)
,
n
E12 =
(a + b)(b + d)
,
n
E21 =
(c + d)(a + c)
,
n
E22 =
(c + d)(b + d)
,
n
166
n = a + b + c + d.
Statistica
H2
H =
i urmeaz repartiia
poate utiliza
2 (1).
ad bc
n
Din faptul c
2
1
1
1
1
+
+
+
E11 E12 E21 E22
H 2 2 (1),
rezult c statistica
H =
H 2 N (0, 1),
Fisher.
22
se utilizeaz
Acest test poate utilizat chiar i n cazul n care valorile observaiilor sunt mai mici dect
i se
5.
(H0 ) :
Y.
(H1 ) :
(H0 )
nu este adevrat.
(test bilateral)
Rezultatele obinute le putem scrie sub forma unei matrice, pe care o vom numi
Aceasta este:
priori.
a b
c d
M=
2 2,
matricea conguraiei.
Atunci, putem alege elementele matricei ce satisface aceste condiii n mai multe moduri (este
greu de precizat n cte moduri, n cazul cel mai general). n cazul problemei de fa, s presupunem c
a + b, c + d, a + c i b + d sunt xate.
P =
a Cc
Ca+b
c+d
Cna+c
(23.5)
putem calcula o probabilitate (condiionat de realizarea ipotezei nule) de genul celei de mai sus. n cazul
testului bilateral,
P valoarea
Pv )
astfel calculate, care sunt mai mici sau egale cu probabilitatea obinut pentru conguraia dat (inclusiv
probabilitatea conguraiei date).
Dac
Dac
n cazul n care ipoteza alternativ este una specic (e.g., unul dintre atribute este preferat celuilalt),
atunci
Exemplu 23.2
G1 ,
14
7 persoane.
G2 nu li s-au
14
= 0.05.
167
@
@Y
sntos
bolnav
Suma pe linie
6
4
10
1
3
4
7
7
14
G1
G2
Suma pe coloan
(H0 ) :
(H1 ) :
Ipoteza
(H0 )
este fals.
M1 =
6 1
4 3
Folosind relaia (23.5), probabilitatea apariiei acestei conguraii, tiind c sumele pe linii i pe coloane
sunt xate, este
P1 =
Alte conguraii cu suma
M2 =
4 3
6 1
,
C76 C74
10 = 0.2448.
C14
M3 =
5 2
5 2
,
coloan sunt:
P2 = 0.2448;
P valoarea
P3 = 0.4404,
P4 = 0.0350,
P5 = 0.0350.
P1 :
Observaia 23.3
P1 + P2 + P3 + P4 + P5 = 1, ceea ce
matricea M5 i ipoteza alternativ este
(H1 ) :
era de ateptat.
P valoarea
este
Pv = P5 /2 = 0.0152 < ,
la respingerea ipotezei nule i, deci, exist evidene c medicamentul are efecte benece.
ceea ce conduce
168
Se arunc un zar de
nivelul de semnicaie
= 0.02,
60
Faa (clasa
Oi )
1
2
3
4
5
6
15
7
4
11
6
17
Soluie:
(aplicm testul
Zarul este corect doar dac ecare fa a sa are aceeai ans de a aparea, adic probabilitile ca ecare
fa n parte s apar sunt:
1
pi = ,
6
(H0 ) :
Altfel, notm cu
(i = 1, 2, . . . , 6).
(H0 ) :
este
U(6).
(H1 ) :
Calculez valoarea statisticii
Exist un
j,
cu
1
pj 6= ,
6
(j {1, 2, . . . , 6}).
20 =
Repartiia statisticii
cu
k1=5
20
Matlab:
= 0.02,
169
Observaia 24.2
f
%
%
%
= [15,7,4,11,6,17]; p = 1/6*ones(1,6);
valoarea 20
cuantila 20.99; 5
afiseaza 0 daca zarul e corect si 1 daca nu
= 0.01,
atunci
20.99; 5 = 15.0863,
ceea ce de-
termin acceptarea ipotezei nule (adic zarul este corect) la acest nivel.
Teste de concordan n
Am vzut deja c funcia
Matlab
chi2gof(x)
2 ,
provine
x.
Matlab este:
[h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)
unde:
h, p
Variabilele
Exemplu 24.3
Spre exemplicare, revenim la Exerciiul 24.1, dar cu valoarea nivelului de ncredere din
h =
0
p =
0.0184
stats =
chi2stat:
df:
edges:
O:
E:
13.6000
5
[0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000]
[15 7 4 11 6 17]
[10 10 10 10 10 10]
Acest rezultat conrm c ipoteza nul (zarul este corect) este acceptat la nivelul
Exemplu 24.4
= 0.01.
iar repartiia numrului de goluri nscrise ntr-un meci are tabelul de distribuie ca n Tabelul 24.2.
170
= 0.05)
Poisson.
Nr. de meciuri
0
1
2
3
4
5
6
8
13
18
11
10
2
2
(H0 ) :
P().
(H1 ) :
Dac admitem ipoteza
(H0 )
(adic
X P(2.25),
atunci
pi = pi ()
Clasa
ni
pi
n pi
0
1
2
3
4
5
6
5
8
13
18
11
10
2
2
4
0.1054
0.2371
0.2668
0.2001
0.1126
0.0506
0.0274
0.0780
6.7456
15.1775
17.0747
12.8060
7.2034
3.2415
1.7514
4.9926
P().
i distribuia valorilor variabilei este
(ni n pi )2
n pi
0.2333
0.3124
0.0501
0.2547
1.0857
0.1973
s ia valoarea
p5 = P (X 5) = 1 P (X < 5) = 1 P (X 4) = 1
4
X
i=0
P (X = i).
171
(H0 ) :
(H0 )
(H1 ) :
ipoteza
(H0 )
nu este adevrat.
20 =
+
Deoarece avem 6 clase i am estimat parametrul , deducem c numrul gradelor de libertate este
6 1 1 = 4. Cuantila de referin (valoarea critic) este 20.95; 4 = 9.4877. Regiunea critic pentru
2 este intervalul (20.95; 4 , +). Deoarece 20 < 20.95; 4 , urmeaz c ipoteza nul (H0 ) nu poate
respins la nivelul de semnicaie . Aadar, este rezonabil s armm c numrul de goluri marcate
urmeaz o repartiie Poisson.
X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);...
5*ones(2,1);6*ones(2,1)];
f = [8 13 18 11 10 4];
% vectorul de frecvente absolute
n = 64;
alpha = 0.05; lambda = mean(X);
for i=1:5
% probabilitatile P(X=i), i=0,1,2,3,4
p(i) = poisspdf(i-1,lambda);
end
p(6)= 1 - poisscdf(4,lambda);
% probabilitatea P(X5)
H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4);
if (H2 < Hstar)
disp('X urmeaza repartitia Poisson');
else
disp('X nu urmeaza repartitia Poisson');
end
Observaia 24.5
Dac ipoteza nul este respins, atunci motivul poate acela c unele valori observate
reziduurile standardizate:
Oi n pi
Oi Ei
ri = p
=p
,
n pi (1 pi )
Ei (1 pi )
Oi am notat valorile observate i prin Ei valorile ateptate. Dac ipoteza nul ar adevrat,
ri N (0, 1). n general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observate
unde prin
atunci
extreme.
Exemplu 24.6
minute ateptate n staie, pn sosete tramvaiul. Rezultatele observaiilor sunt sumarizate n Tabelul
24.4. Se cere s se cerceteze (
= 0.05)
172
ni
05
39
5 10
35
10 15
14
15 20
7
20 25
5
(folosim testul
de concordan, parametric)
(H0 )
F (x)
= F0 (x) = 1 e x , x > 0
(H1 )
Deoarece parametrul
ipoteza
(H0 )
este fals.
este necunoscut, va trebui estimat pe baza seleciei date. Pentru aceasta, folosim
L(t1 , t2 , . . . , tn ; ) =
n
Y
exp()
este
e ti = n e n t .
k=1
Mai sus, am notat prin
Punctele critice pentru
t1 , t2 , . . . , tn valorile de selecie
L() sunt date de ecuaia
T.
ln L
= 1.
= 0 =
n ln n t =
t
Se observ cu uurin c
de unde concluzionm c
2 ln L
2
|= = n t < 0,
2
t=
2.5
39
este:
7.5
35
12.5
14
17.5
7
22.5
5
.
= 0.1299.
= 7.7, adic
ca T s ia valori n ecare
1
100 (2.5 39 + 7.5 35 + 12.5 14 + 17.5 7 + 22.4 5)
,
exp()
atunci probabilitile
pi = pi ()
unde
i = 1, 2, 3, 4, 5.
a6 = +.
clasele (de notat c ultima clas este (20, +), deoarece se dorete o concordan a datelor observate
cu date repartizate exponenial, iar mulimea valorilor pentru repartiia exponenial este R+ ),
extremitile
frecvenele absolute ni
probabilitile
erorile relative
pi , valorile ateptate
n ecare clas (n pi ),
173
k p 1 = 3.
20.95; 3 = 7.8147
i, de
asemenea, valoarea
H0 =
k
X
(ni n pi )2
i=1
Deoarece
Codul
20 < 20.95; 3 ,
ipoteza
(H0 )
n pi
= 6.5365.
T =
% sau
% T =
n =
a =
for
[2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)];
[5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)];
100; alpha = 0.05; m = mean(T); lambda = 1/m;
[0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5];
i =1:5
p(i) = expcdf(a(i+1),m)-expcdf(a(i),m);
end
H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3);
if (H2 < cuant)
disp('Timpii de asteptare sunt exponential repartizati');
else
disp('ipoteza (H0) se respinge');
end
Clasa
(0, 5]
(5, 10]
(10, 15]
(15, 20]
(20, +)
(0, +)
ai
ni
0 39
5 35
10 14
15 7
20 5
100
pi
n pi
0.4776 47.7615
0.2495 24.9499
0.1303 13.0334
0.0681 6.8085
0.0745 7.4467
1
100
(ni n pi )2
n pi
1.6072
4.0483
0.0717
0.0054
0.8039
6.5365
174
(posibil i altele) nu este vericat i nu tim nimic despre repartiia datelor sau despre parametrii variabilei? Testele neparametrice sunt cele n cadrul crora nu se fac presupuneri asupra formei repartiiei.
Aceste teste nu estimeaz parametrii necunoscui, de aceea mai sunt cunoscute i sub titulatura de
fr parametri (en.,
metode
distribution-free methods).
Se pot construi teste neparametrice corespunztoare ecrui test parametric studiat mai sus, ns aceste
teste neparametrice sunt, n general, grupate n urmtoarele categorii:
teste pentru diferena dintre grupuri (pentru selecii independente). Este cazul comparrii mediilor
a dou selecii ce provin din populaii independente. De regul, se utilizeaz testul
acestuia sunt ndeplinite.
t dac ipotezele
testul Wald-Wolfowitz,
teste pentru diferena dintre variabile (pentru selecii dependente). Utilizat la compararea a dou
variabile ce caracterizeaz populaia din care s-a luat selecia. Teste neparametrice utilizate: testul
semnelor, testul Wilcoxon.
teste pentru relaii ntre variabile. Pentru a gsi corelaia ntre variabile, se utilizeaz coecientul de
corelaie. Exist variante neparametrice ale coecientului de corelaie standard, e.g., coecientul
(Spearman), coecientul
coecientul de corelaie:
Testul semnelor
Este un test neparametric bazat pe semnele anumitor caracteristici i nu pe valorile lor. Este unul dintre
cele mai simple teste statistice neparametrice.
F.
Notm cu
m0 .
(H0 ) :
M e = m0 .
(H1 ) :
M e 6= m0 .
Pentru a testa ipotez nul, inem cont de faptul c ecare observaie n parte va mai mic dect
cu probabilitatea
p = F (m0 ).
(
1,
yi =
0,
dac
dac
xi < m0
xi m0 ,
i = 1, n,
m0
175
B(n, p).
echivalent cu ipoteza
1
p= .
2
(H0 ) :
Notm prin
y0 =
n
X
yi
i e
o variabil aleatoare
B(n, 0.5).
Valoarea critic
Pv
utilizat n luarea
i=1
deciziei este
Pv = 2 min{P (Y y0 ), P (Y y0 )}.
Dac
< Pv ,
(H0 )
nul.
Testul se numete
Exemplu 25.1
Dorim s testm preferinele clienilor dintr-o anumit pizzerie pentru pizza cu blat
subire sau gros. S spunem c aceste preferine sunt reprezentate n Tabelul 25.1. n acest tabel, ecrei
mrime
subire
gros
gros
gros
subire
gros
gros
subire
gros
gros
semn
se pare c marea parte (70%) a clienilor prefer blatul gros. Dorim s testm semnicaia acestor date.
Cu alte cuvinte, care este ansa obinerii acestor rezultate dac, de fapt, nu exist vreo diferen ntre
preferine? Sau, dac am presupune c preferinele pentru cele dou tipuri sunt mprite n mod egal,
care sunt ansele de a obine un rezultat de genul prezentat n tabelul de mai sus? Presupunem c pragul
de semnicaie
Soluie:
= 0.05
(H0 ) :
50% 50%;
(H1 ) :
p = 0.5.
Y variabila aleatoare ce reprezint alegerea blatului de ctre clienii care au comandat
Y B(10, 0.5) (aici avem o selecie de n = 10). Calculm valoarea critic Pv , adic
Presupunem c ipoteza nul este adevrat, deci ansa ca cineva s aleag un blat subire este
Dac notm cu
pizza, atunci
valoarea maxim pentru pragul de semnicaie pentru care ipoteza nul nu poate respins.
valoare este de dou ori probabilitatea
P (Y 3)
Aceasta
probabilitatea de a obine un rezultat ca cel din tabel. Putem interpreta aceast probabilitate ca ind
probabilitatea de a obine un rezultat cel puin la fel de extrem ca cel observat. Gsim c
este
Deoarece
< Pv ,
P valoarea
concluzionm c
176
Observaia 25.2
(H0 ) :
Ca mai sus, notm prin
y0 ) .
< Pv ,
Dac
M e m0
p = F (m0 ).
Y
(H0 )
Pentru
(H1 ) :
vs.
i
y0
M e > m0 .
Pv = P (Y
Altfel, respingem
ipoteza nul.
Revenind la exemplul prezentat, dac ipoteza alternativ ar fost
(H0 ) :
(H1 ) :
Pv = P (Y 3) = 1 - binocdf(3,10,0.5) = 0.1719.
nivelul de semnicaie = 0.05.
(H0 )
este admis la
Testul seriilor (
aleator generat.
Dac o anumit valoare a unui anumit ir de caractere este inuenat de poziia sa sau de valorile ce o
preced, atunci selecia generat nu poate aleatoare.
Denim noiunea de
serie
sau
faz (en.,
acelai tip, care sunt precedate i urmate de simboluri de alt tip sau de niciun simbol. De exemplu:
001111010010
sau
MFFFFFMMMF
++-+---++++--+--++-
sau
Numrul de faze i lungimea lor pot folosite n determinarea gradului de stochasticitate a unui ir de
simboluri. Prea puine sau prea multe faze, sau de lungimi excesiv de mari sunt rare n serii cu adevrat
aleatoare, de aceea ele pot servi drept criterii statistice pentru testarea stochasticitii.
Aceste criterii
sunt adiacente: prea puine faze implic faptul c unele faze sunt prea lungi, prea multe faze implic
prea multe secvene.
(H0 ) :
este echiprobabil).
(H1 ) :
Putem gsi repartiiile vectorilor aleatori
atunci secvena datele observate,
Pentru
(R1 , R2 ), R1 , R2
x1 , x2 , . . . , xn ,
sau
R.
f (r) =
Cnn1
n1 !n2 !
n!
k faze
permutri echiprobabile.
r = 0, n.
177
k1 k1
C
C
2 n1 1 n1 n2 1
Cn
f (r) = h
i
k1
k1
k
k
C
C
+
C
C
n1 1 n2 1
n1 1 n2 1
n1
Cn
Cnd
n1
n2
R N (, ),
Aadar,
r = 2k;
, dac
r = 2k + 1.
unde
n1 n2
=2
+ 1,
n
, dac
2 n1 n2 (2 n1 n2 n)
.
n2 (n 1)
R
N (0, 1).
r0 ,
Pv
a testului este
Pv = 2 min{P (R r0 ), P (R r0 )}.
Dac
< Pv ,
(H0 )
nul.
Corelaie i regresie
Introducere
n acest capitol vom discuta msuri i tehnici de determinare a legturii ntre dou sau mai multe variabile
aleatoare. Pentru lecturi suplimentare, se pot consulta materialele [13], [14], [15].
Primele metode utilizate n studiul relaiilor dintre dou sau mai multe variabile au aprut de la nceputul
pentru aproximarea orbitelor astrelor n jurul Soarelui. Un alt mare om de tiin al timpului, Francis
22 , a studiat gradul de asemnare ntre copii i prini, att la oameni, ct i la plante, observnd c
Galton
nlimea medie a descendenilor este legat liniar de nlimea ascendenilor. Este primul care a utilizat
conceptele de
corelaie
regresie (
(lat.)
regressio
cror nlime este mai mic dect media colectivitii provin copii cu o nlime superioar lor i viceversa. Astfel, a concluzionat c nlimea copiilor ce provin din prini nali tinde s "regreseze" spre
nlimea medie a populaiei. Din lucrrile lui Galton s-a inspirat un student de-al su, Karl Pearson, care
a continuat ideile lui Galton i a introdus coecientul (empiric) de corelaie ce i poart numele. Acest
coecient a fost prima msur important introdus ce cuantica tria legturii dintre dou variabile ale
unei populaii statistice.
20 Adrien-Marie
178
plot.
scatter
n probleme de regresie n care apare o singur variabila rspuns i o singur variabil observat,
diagrama scatter plot (rspuns vs. predictor) este punctul de plecare pentru studiul regresiei. O diagram
scatter plot
da o prim idee despre ce tip de regresie vom folosi. Un exemplu de astfel de diagram este reprezentat
n Figura 25.1, n care am reprezentat coecientul de inteligen (IQ) a
200
este un termen statistic folosit pentru a deni interdependena sau legtura ntre dou sau
Observaia 25.3
atunci cov(X,
sau
Y ) = 0.
X U(1, 1) i Y = X 2 , atunci cov(X, Y ) =
asemenea, c E(X Y ) = E(X) E(Y )).
0,
ns
X i Y
aleatoare X i Y
variabilelor
Y ) = 0.
179
relaie liniar
ntre dou variabile este acea relaie ce poate reprezentat cel mai bine printr-o linie.
Corelaia detecteaz doar dependene liniare ntre dou variabile aleatoare. Putem avea o
tiv, nsemnnd c X
tiine ca ind o msur a dependenei liniare ntre dou variabile. Din punct de vedere teoretic, denim
X,Y =
Y)
X Y
prin:
= cov(X, Y ),
1/2
2 1/2
X = E(X X)2
i Y = E(Y Y )
sunt deviaiile standard corespunztoare variabilelor aleatoare X , respectiv Y . Proprietile coecientului
unde
Fie
aleator
de
n
X
(xk x)(yk y)
r =
v k=1
v
u n
u n
uX
uX
t (xk x)2 t (yk y)2
k=1
cove (x,
sx sy
(25.1)
k=1
y)
(25.2)
unde
1
cove (x, y) =
n1
sunt
n
X
(xk x)(yk y),
k=1
v
u
u
sx = t
1
n1
n
X
(xk
x)2 ,
v
u
u
sy = t
k=1
n
1 X
(yk y)2
n1
k=1
Y.
x = [0.49
y = [1.31
coecientul
0.24
-0.86
0.72
-1.23
0.15
0.13 -1.01];
2.64 -0.90 -1.22];
r = 0.0905.
X,Y , coecientul r al lui Pearson ia valori doar n intervalul
[1, 1]. Cazurile limit pentru r sunt r = 1 sau r = 1, cazuri n care putem trage concluzia c variabilele
X i Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 25.2). Pentru valori ale lui r ntre
1 i 1, nu putem vorbi de gradul de corelare ntre X i Y fr a efectua un test statistic asupra valorii
coecientulul teoretic de corelaie, . De multe ori ns, putem arma ca avem o corelaie pozitiv dac
Asemeni coecientului de corelaie teoretic,
180
(e.g.,
r = 0.85,
(e.g.,
r = 0.98,
panta descendent).
r = 0.0905 de mai sus ar putea sugera faptul c cele dou selecii au fost obinute independent
= 0), fapt ce va trebui conrmat folosind un test statistic n care testm ipoteza
= 0, cu ipoteza alternativ 6= 0.
Rezultatul
X, Y ,
i am calculat
r,
obinnd o valoare
r0
apropiat de
(H0 )
X,Y = 0
(H1 )
X,Y 6= 0
<< 1
(e.g.,
r
T =r
Calculez valoarea statisticii
de ordin
2 a repartiiei
T
t
n2
1 r2
i considerm statistica
t(n 2).
pentru
cu
= 0.05)
181
|T0 | < t1 2 ; n2 ,
|T0 | t1 2 ; n2 ,
Observaia 25.4
(i)
(H0 )
(H0 )
atunci ipoteza
atunci ipoteza
r,
este acceptat;
este respins.
exist o legtura liniar ntre dou seturi de date statistice. Totodat, n denirea acestui coecient se
presupune c datele statistice urmeaz o repartiie normal. De multe ori, n practic, doar coecientul
sigur nu poate edicator asupra triei legturii ntre dou seturi de date statistice, ba chiar poate
genera informaii false n cazul n care cele dou seturi date nu depind liniar unul de cellalt. De aceea,
i ali coecieni pentru determinarea corelaiei sunt luai n consideraie, cum ar :
r2 , coecientul de determinare
R2 ),
variaia uneia dintre datele statistice ce determina (sau explic) pe celelalte date. De exemplu, un
coecient de determinare
R2 = 0.42
42%
din variaia variabilei dependente. n Statistic, acest coecient este denit n mai multe moduri,
unele nu tocmai ntr-un mod echivalent;
sunt normale)
(H0 ) :
X, Y = 0 ,
cu
0 6= 0,
1
Z = ln
2
1+r
1r
N
1
ln
2
1 + 0
1 0
1
,
n3
.
(iii) Corelaia a dou variabile aleatoare nu implic o cauzare. Cu alte cuvinte, exist o corelaie ntre
vrst i nlime la copii, ns niciuna dintre aceastea nu o cauzeaz pe cealalt. Corelaia poate luat
n eviden pentru o posibil relaie cauzal, ns nu este determinant i nu poate preciza relaia cauzal,
dac aceast exist.
(iv)
Volumul seleciei este un factor foarte important n testarea ipotezei c dou variabile aleatoare
0),
nu foarte aproape de
0), ns nu
r aproape
Exemplu 25.5
S presupunem c dorim s stabilim dac exist vreo legtura ntre vrst unei persoane
i coecientul su de inteligen. Culegem astfel dou seturi de datele asupra acestor caracteristici, de
volum
n = 10,
23 Charles
24 Sir
r = 0.62.
Se cere:
182
Soluie:
R2 ,
R2 = 0.3844.
i gsim
doar
38.44%
(b)
considerat va avea
grade de libertate,
=0
T0 = 0.62
8
0.3844
= 0.05.
de unde
Statistica
Se poate testa i ipoteza c doi coecieni de corelaie ce corespund a dou selecii diferite difer
(H0 ) :
1 = 2 ,
(H1 ) :
1 6= 2 .
n1
n2
i c
r1 , r2
Z1 Z2 (Z1 Z2 )
q
N (0, 1) ,
1
1
+
n1 3
n2 3
Z=
unde
1
Zi = ln
2
1 + ri
1 ri
,
Zi
1
= ln
2
1 + i
1 i
,
i = 1, 2.
coecientul de
date calitative, ct i pentru date cantitative. Pentru a calcula acest coecient, ecrui atribut sau ecrei
valori a caracteristicii i se desemneaz un rang. Coecientul de corelaie Spearman este coecientul de
corelaie Pearson pentru aceste ranguri.
n general, dac
(xi , yi )i=1, n
rS
n
X
(xk x)(yk y)
v
rS = v k=1
.
u n
u n
uX
uX
t (xk x)2 t (yk y)2
k=1
(25.3)
k=1
[1, 1];
valoarea
a rangurilor.
n cazul n care avem
rS
este:
6
rS = 1
n
X
d2i
i=1
n(n2 1)
(25.4)
183
di = xi yi ,
i.
i (25.7).
Exemplu 25.6
D1
D2)
A, B , C , D , E , F
soiuri de vin i
G.
Preferinele
acestora sunt cele din Tabelul 25.2, n ordinea descresctoare a preferinelor. Tabelul 25.3 conine rangurile
preferinelor celor doi degusttori, iar Figura 25.3 reprezint grac rangurile (diagrama
Mostra
Mostra A B C D E F G H I
D1
E B A G C H F D I
D2
B E C G A H D I F
Tabela 25.2: Preferinele degusttorilor de
vin.
rang
D1
scatter plot).
rang
D2
scatter plot
cordan ntre preferinele celor doi degusttori. Coecientul de corelaie Spearman va atribui o valoare
numeric acestei concordane, aceasta ind
Tem!
rS = 0.8667.
Utilizai testul semnelor pentru a testa ipoteza c preferinele celor doi degusttori nu sunt
semnicativ diferite (
= 0.05).
184
Exemplu 25.7
Datele din Tabelul 25.4 reprezint numrul de accidente rutiere (A) i numrul de decese
prezentate n Tabelul 25.5. Datele au fost introduse n tabel n ordinea invers a numrului de accidente.
De notat c, deoarece numrul de decese nregistrate n luna Mai este egal cu numrul de decese din
Aprilie, rangul pentru ecare dintre cele dou luni este media celor dou poziii n care s-ar aa. Folosind
formula (25.3), calculm coecientul de corelaie Spearman. Acesta este
Luna
Ian.
27
8
24
6
15
5
11
3
17
3
Feb.
12
2
Mai
Mar.
Iun.
Apr.
A
27
24
17
15
12
11
rS = 0.8117.
rang
6
5
4
3
2
1
D
8
6
3
5
2
3
rang
2+3
2
2+3
2
6
5
= 2.5
4
1
= 2.5
Analiza regresional
cuprinde tehnici de modelare i analiz a relaiei dintre o variabil dependent (variabila rspuns) i una
sau mai multe variabile independente. De asemenea, rspunde la ntrebri legate de predicia valorilor
viitoare ale variabilei rspuns pornind de la o variabil dat sau mai multe. n unele cazuri se poate preciza
variabil
independent o variabil ce poate manipulat (numit i variabil predictor, stimul sau comandat), iar
o variabil dependent (sau variabila prezis) este variabila care dorim s o prezicem, adic o variabil
care dintre variabilele de plecare sunt importante n prezicerea variabilei rspuns. Se numete
crei rezultat depinde de observaiile fcute asupra variabilelor independente. S lum exemplul unei cutii
negre (
y.
x1 , x2 , . . . , xm ,
pensiei (y ) n funcie de numrul de ani lucrai (x1 ) i salariul avut de-alungul carierei (x2 ). Variabilele
independente sunt msurate exact, fr erori. n timpul prelucrrii datelor sau dup aceasta pot apra
distorsiuni n sistem, de care putem ine cont dac introducem un parametru ce s cuantice eroarea ce
poate aprea la observarea variabilei
y.
x1 , x2 , . . . , xm ,
y,
matematic general
y = f (x1 , x2 , . . . , xm ; 1 , 2 , . . . , k ) + ,
unde
1 , 2 , . . . , k
(25.5)
a priori,
x),
atunci
185
y = f (x1 , x2 , . . . .., xm ; 1 , 2 , . . . , k ).
(25.6)
y = f (x; ) + .
(25.7)
i apoi s determinm
(aproximm) valorile parametrilor de regresie. n acest scop, un experimentalist va face un numr sucient
de observaii (experimente statistice), n urma crora va aproxima aceste valori. Dac notm cu
n numrul
de experimente efectuate, atunci le putem contabiliza pe acestea n urmtorul sistem stochastic de ecuaii:
yi = f (x, ) + i ,
n ipoteze uzuale, erorile
dou cte dou (
i
> 0).
i = 1, 2, . . . , n.
(25.8)
N (0, ),
independente stochastic
{j }j
n cazul n care numrul de experimente este mai mic dect numrul parametrilor ce trebuie aproximai
(n
< k ),
ecuaii cu
f,
putem avea:
f (x; ) = 0 + 1 x.
regresie liniar multipl,
dac
f (x; ) = 0 + 1 x1 + 2 x2 + + m xm .
regresie ptratic multipl
dac
f (x; ) = 0 + 1 x + 2 x2 + 3 x3 + + k xk .
Vom avea
Dac
n = k,
n > k,
atunci
atunci
186
cnd
f (x; ) = 0 e1 x .
dac
f (x; ) = 0 log1 x.
i altele.
De remarcat faptul c primele patru modele sunt liniare n parametri, pe cnd ultimele dou nu sunt liniare
n parametri. Modelele determinate de aceste funcii se vor numi
n cadrul analizei regresionale, se cunosc datele de intrare,
regresie
{j }j
{xi }i ,
metoda celor mai mici ptrate i metoda lui Bayes. Dac f este necunoscut, metode ce duc la estimarea
necunoscutelor sunt: metoda celor mai mici ptrate sau metoda minimax.
187
Matlab
unde:
nul,
variabila de memorie
este
P- valoarea,
h = 0.
Altfel, se aeaz
= 0.05
p > 0.05
se
h = 1.
0,
(H0 ):
variabila
stats
setul de date
cu ipoteza alternativ c
n 30);
method
'approximate';
method
este
'exact',
188
Exemplu 26.1
x = [-1 1 1 1 -1 1 1 -1 1 1];
[p, h, stats] = signtest(x, 0)
Rezultatul testului este:
p =
0.3438
h =
0
stats =
sign: 3
Observaia 26.2
Soluie:
Codul
signtest.
x = [ones(59,1); zeros(41,1)];
[p, h, stats] = signtest(x,.5)
Obinem rezultatele:
p =
0.0891
h =
0
stats =
zval: 1.7000
sign: 41
Testul seriilor n
Funcia
= 0.05.
Matlab
h, p
sunt ca n testul
signtest.
Aici, variabila
stats
h = 0
= 0.05)
h = 1 n caz contrar.
De exemplu,
rularea codului
x = '011010100010001001010101110010101001010101010010111';
[h, p, stats] = runstest(x)
189
h =
1
p =
0.0014
stats =
nruns:
n1:
n0:
z:
38
24
27
3.2899
Acest rezultat se traduce astfel: ipoteza c irul considerat este aleator generat este respins la nivelul
de semnicaie
= 0.05
(subneles),
Pv
P valoarea
este
Pv = 0.0014
stats aeaz
Comanda urmtoare
h = 0
ori
h = 1,
este valoarea de referin a irului de caractere. Sunt numrate valorile ce sunt mai mici sau mai
mari dect
alpha
tail
v,
nu sunt contabilizate;
'both',
y = 0:10;
y = 0:10;
y = 0:10;
[h, p] = runstest(y,median(y),0.02,'left')
[h, p] = runstest(y,median(y),0.02,'right')
[h, p] = runstest(y,median(y),0.02,'both')
h = 1
h = 0
h = 1
Ipoteza nul este aceea c valorile din irul
median(y) = 5.
p = 0.0043
p = 1
p = 0.0087
[0 1 2 3 4 5 6 7 8 9 10]
190
Observm mai sus c testul unilateral stnga respinge ipoteza nul i admite ipoteza c valorile irului se
strng ciorchine n jurul acestei valori. Testul unilateral dreapta admite ipoteza nul, iar testul bilateral
o respinge, admind ipoteza c numerele nu vin n ordine aleatoare, raportat la valoarea median.
Exerciiu 26.1
x 3
y 9
2 1 0 1 2
4
1 0 1 4
Exerciiu 26.2
Sem. I
Sem. II
10
discipline,
FB
FB
FB
FB
FB
FB
FB
FB
FB
= 0.05);
S se gseasc o msur a legturii dintre cele dou seturi de calicative (e.g., coecientul de corelaie
Spearman).
Exerciiu 26.3
149 155 148 165 176 144 174 142 145 162 165 154
188 154 198 199 194 201 169 182 209 201 188 198 191.
Testai dac aceste valori sunt observaii aleatoare asupra unei caracteristici (
Exerciiu 26.4
= 0.05).
8 1 0 1 3 4 0 2 10 5 1 7 0 2 0 1 11 3 4 5 3 2 4 7 4 0 2 3 1 2
La nivelul de semnicaie
= 0.05,
repartiie Poisson.
Exerciiu 26.5
n concordan cu teoria lui Mendel din Genetic, o anumit specie de plant ar trebui
124
546
0.25, 0.5,
de plante, observnd c
191
Exerciiu 26.6
Datele urmtoare reprezint punctajele unor elevi dintr-o coal (din max.
100 de
72 la
= 0.05.
71 67 55 64 82 66 74 58 79 61 78 46 84 93 72 54 78 86 48 52 67 95 70 43 70 73 57 64 60
83 73 40 78 70 64 86 76 62 95 66
192
Este cel mai simplu tip de regresie, n care avem o singur variabil independent,
i variabila depen-
y.
x0y
forma
y = 0 + 1 x.
O astfel de dreapt o vom numi
(27.1)
(b).
Exemplu 27.1
Dac notm cu
15000 RON
12500 EUR.
La
exist relaia:
Y = 15000 + 650 X.
n acest exemplu, relaia ntre
bidimensionale
{(xi , yi )}i=1, n
perfect (spre exemplu, rata lunar poate una variabil, n funcie de rata de schimb
care parametrii din dependena liniar trebuie a estimai.
EUR-RON),
caz n
193
de
este de forma
y = 0 + 1 x + ,
cu
N (0, ).
Plecnd de la
{xi , yi }i ,
(27.2)
elul nostru este s gsim o dreapt ce se apropie cel mai mult (ntr-un sens bine
precizat) de aceste date statistice. Cu alte cuvinte, va trebui s estimm valorile parametrilor de regresie
1 .
y i = 0 + 1 x i + i ,
i = 1, n,
(27.3)
unde
i N (0, ), i
Deoarece
i = yi (0 + 1 xi ),
putem interpreta
i = 1, n,
0 + 1 xi ).
i N (0, ) i 0 , 1
yi N (0 + 1 xi , ),
pentru ecare
xi
i,
s obinem rspunsul
yi
este
1
(yi 0 1 xi )2
Pi = exp
.
2 2
2
{i }i sunt independente stochastic, probabilitatea ca n cele n observaii independente s obinem
de valori (y1 , y2 , , . . . , yn ) este (funcia de verosimilitate):
!
n
n
Y
X
1
(yi 0 1 xi )2
L(0 , 1 , ) =
.
Pi = n
exp
2 2
(2)n/2
Deoarece
vectorul
i=1
i=1
maxime.
0 , 1
0 , 1
metoda verosimilitii
max L(0 , 1 , ).
0 , 1 ,
Condiiile de extrem (impuse pentru
ln L)
sunt:
n
1 X
(yi 0 1 xi )
2 2
ln L
0
ln L
1
ln L
1
2 2
i=1
n
X
xi (yi 0 1 xi )
0;
=
0;
i=1
n
n
1 X
+ 2
(yi 0 1 xi )2
0.
i=1
sxy
b1 = 2
sx
1 ,
obinem estimaiile:
b0 = y b1 x,
(27.4)
194
unde,
1X
x=
xi ,
n
i=1
1X
y=
yi ,
n
s2x
i=1
1 X
=
(xi x)2 ,
n1
sxy
i=1
n raport cu
1 X
=
(xi x)(yi y).
n1
i=1
sxy
y = y b1 x + 2 x,
sx
sau, altfel scris,
y=y+
(27.5)
sxy
(x x).
s2x
(27.6)
este:
1X
=
(yi b0 b1 xi )2 .
n
2
(27.7)
i=1
c2 =
1 X
(yi b0 b1 xi )2 .
n2
(27.8)
i=1
Observaia 27.2
(1) Terminologie:
liniar a lui
de valorile
195
care se apropie cel mai mult (n sensul metodei celor mai mici ptrate) de datele experimentale (de
selecie)
{xi , yi }i .
Valorile
yi
(i
se numesc
= 1, n);
valorile
bi = yi ybi
se numesc
reziduuri.
n
X
b2i ,
i=1
MSE
rdcina ptrat a
se poate demonstra c
sau
rezidual este
se numete
SSE
,
n2
notat
c2
SSE
= (n 2) 2 2 (n 2).
2
cu autorul acestei relaii se pot gsi intervale de ncredere pentru valoarea real a lui
n formula (27.8),
(2)
(n 2)
(x, y)
2.
SSE.
n jurul dreptei de
regresie. Mai subliniem faptul c valorile din formulele (27.4) i (27.8) sunt doar estimaii ale parametrilor
necunoscui, i nu valorile lor exacte. Formula pentru
b1
sy
b1 = xy .
sx
(3) Dac deviaia standard
mod. Estimm aceti doi parametri prin acele valori ce realizeaz minimumul sumei ptratelor erorilor
SSE.
min
n
X
0 , 1
Notnd cu
F (0 , 1 ) =
n
X
(yi 0 1 xi )2 .
i=1
(yi 0 1 xi )2 ,
i=1
F
0
= 2
F
1
= 2
n
X
(yi 0 1 xi )
i=1
n
X
xi (yi 0 1 xi )
0;
=
0.
i=1
1 ,
gsim soluiile
b0
i, respectiv,
b1
de
mai sus. Aceasta dovedete c, n cazul n care erorile sunt identic normal repartizate i independente
stochastic, metoda verosimilitii maxime este, n fapt, totuna cu metoda celor mai mici ptrate.
196
1 ,
1 depind de observaiile folosite. Pentru a decide dac va{xi , yi }i pot considerate valorile potrivite pentru ntreaga
ns cel mai uzual test este testul pentru vericarea valorii pantei
1 .
E(b1 ) = E
sxy
s2x
b1
b0 .
n
X
(xi x)(yi y)
i=1
.
= E
n
(xi x)2
i=1
Aici,
xi
yi
y = 0 + 1 x +
1X
i ,
n
i=1
obinem c
E(y) = 0 + 1 x.
ns,
n
X
E(b1 ) =
(xi x)E[yi y]
i=1
n
X
n
X
i=1
Pentru
b0
(xi x)2
i=1
=
(xi x)
n
X
i.
= 1 .
(xi x)
i=1
avem:
b0 ,
ct i
b1 ,
D2 b1
D2 b0 .
Deoarece
n
X
i, respectiv,
(xi x)y = 0,
1 .
avem:
i=1
n
X
(xi x)yi
i=1
=
D2 b1 = D2
n
X
(xi x)2
i=1
n
X
i=1
n
X
(xi x)2
!2 =
2 s2x
2
=
.
s4x
s2x
(27.9)
i=1
D2 (X + Y ) = D2 (X) + 2 cov(X, Y ) + D2 (Y ),
putem scrie:
D2 b0 = D2 (y b1 x) = D2 (y) 2 x cov(y, b1 ) + x2 D2 b1 .
(27.10)
197
D2 (y) = D2
1X
i
n
!
=
i=1
1
2
2
n
=
n2
n
cov
y, b1
n
X
n
1 X
i ,
cov
n
i=1
i=1
(xi x)(0 + 1 xi + i )
2
(xi x)
i=1
n
X
(xi x)i
X
1 n
cov
i , i=1
n
n
X
i=1
(xi x)2
i=1
=
n
n
X
n
X
cov
i=1
(xi x)
n
X
i ,
(xi x)i
i=1
i=1
n
X
(xi x) 2
i=1
n
X
= 0.
2
(xi x)
i=1
nlocuind n (27.10), gsim c
2
2
1 x2
2
2
b
D 0 = x 2 +
=
+
.
sx
n
n s2x
2
2,
b0
b1
(27.11)
c2
se poate demonstra c:
b 0
q0
t(n 2)
2
b n1 + xs2
(27.12)
b1 1
b
sx
Aici, am notat prin
t(n 2).
(27.13)
cantitatea:
b=
1 X
(yi b0 b1 xi )2
n2
!1
2
i=1
la nivelul de semnicaie
"
b0 t1 2 ; n2
b
1 .
Un interval de
este:
1 x2
+ ,
n s2x
s
b0 + t1 2 ; n2
b
#
1 x2
+
.
n s2x
(27.14)
198
Observaia 27.3
b
b
b
.
1 t1 2 ; n2 , 1 + t1 2 ; n2
sx
sx
(27.15)
a priori.
n cazul
b 0
q0
N (0, 1),
2
n1 + xs2
b1 1
sx
N (0, 1).
(27.16)
z1 2
1
; n2
2
R2 (= r2 )
R2 = 1
unde
s2y/x
s2y
s2y/x
(27.17)
1 X
=
(yi b0 b1 xi )2 ,
n1
s2y
i=1
1 X
=
(yi y)2 .
n1
i=1
2
n analiza regresional, coecientul R este folosit pentru a determina ct de bine poate construit o
valoare prezis pe baza valorilor independente.
10
ia o valoare dat
(H0 ) :
1 = 10
(H1 ) :
versus
1 6= 10 .
Considerm statistica
T =
care urmeaz repartiia
t(n 2).
b1 1
b
sx
T0 =
Dac
b1 10
b
sx
2 pentru repartiia
cu
.
(n 2)
grade de libertate,
|T0 | < t1 2 ; n2 ,
(H0 );
|T0 | t1 2 ; n2 ,
(H1 );
Dac
t1 2 ; n2 ;
199
Observaia 27.4
(H1 )s :
(2)
Dac
10 = 0,
1 < 10 ,
(H1 )d :
1 6= 0
1 > 10 .
x
exist o dependen
liniar.
ia o valoare dat
(H0 ) :
0 = 0
(H1 ) :
versus
0 6= 0 .
Considerm statistica
b0 0
T = q
t(n 2),
2
b n1 + xs2
x
t(n 2).
b0 0
t(n 2).
T0 = q
2
b n1 + xs2
x
Dac
2 pentru repartiia
cu
(n 2)
grade de libertate,
|T0 | < t1 2 ; n2 ,
(H0 );
|T0 | t1 2 ; n2 ,
(H1 );
t1 2 ; n2 ;
Dac
Observaia 27.5
n cazul n care
a priori
0 ,
ct i pentru
0 .
pentru
1 .
n anumite cazuri, putem folosi regresia n predicia unor valori ale variabilei dependente. De exemplu,
putem prezice temperatura ntr-un anumit ora plecnd de la observaiile temperaturilor din oraele
nvecinate. Regresia poate utilizat pentru predicie dup cum urmeaz. S presupunem ca datele pe
care le deinem,
valoarea
xp
{(xi , yi }i=1, n ,
ce nu se a printre valorile
independente,
xmin
xmax ,
xi ,
Dat ind o
y p = 0 + 1 x p + p .
200
de regresie
0 ,
respectiv,
1 ,
atunci
valoarea prezis
ybp = b0 + b1 xp .
Un interval de ncredere pentru
"
ybp t1 2 ; n2
b
Observaia 27.6
i
xmax .
pentru
1+
pentru un
xp
b 1+ +
n
s2x
1 (xp x)2
+
,
n
s2x
ybp + t1 2 ; n2
x,
(27.18)
cu
ybp
(27.19)
xmin
pentru orice
xp
este:
y(19) 6.5,
x = 19,
x [0, 10].
Dac, folosind
atunci am gsi c
yb(19) 10,
mult, dac inem cont i de urmtoarele valori observate (vezi Figura 27.3(b)), atunci curba de regresie
pare s nu e o dreapt. Pentru estimarea de valori viitoare ale variabilei dependente folosind valori ale
Aceasta
Valoarea prezis
pentru un
xp
ybp
dat.
R2 = 1
(x, y)
ybp este
bidimensionale
(3)
determinat doar pe baza seleciei date, de aceea, pentru a verica dac aceast
Valoarea
valoare poate extrapolat la ntreaga populaie este nevoie de inferen statistic (test statistic). Prezentm, n continuare, un test ce compar valoarea
ybp
cu o constant dat.
201
(H0 )
ybp = y0
ybp 6= y0 .
(H1 )
versus
Estimm
Considerm statistica
ybp
ybp y
T =q
t(n 2);
2
p x)
MSE( n1 + P(x(x
)
2
i x)
i
Calculez valoarea
ybp y0
;
T0 = q
2
p x)
MSE( n1 + P(x(x
)
2
i x)
i
Dac
|T0 | < t1 2 ; n2 ,
(H0 );
|T0 | t1 2 ; n2 ,
(H1 );
Dac
(4) n concluzie, regresia este o unealt dibace pentru predicie. Economitii care o utilizeaz pot prezice
cu succes chiar
10
Exemplu 27.7
dintre ultimele
recesiuni!
ybp
la nivelul de ncredere
h
ybp S t1 2 ; n2 ,
unde
s
S=
este:
i
ybp + S t1 2 ; n2 ,
(27.20)
(xp x)2
1
MSE 1 + + P
.
2
n
i (xi x)
(de vericat!)
Observaia 27.8
y,
folosind pe
x.
n unele cazuri,
De exemplu,
n raport cu
x,
n raport cu
Formulele
sunt inversate.
202
i regresiei:
scatter(X,Y)
X;
R = corrcoef(X,Y) calculeaz coecientul de corelaie ntre X i Y. Rezultatul este aat sub forma:
>> ans =
1.0000
1.0000
unde
1.0000 este coecientul de corelaie dintre X i X, respectiv Y i Y, iar este coecientul cutat.
este (9.3).
liniar multipl.
regresie
dintre
avem
observaii. Comanda
1
x1
x2
1
.
. + 1 .
.
.
.
.
1
xn
y1
y2
..
.
yn
aproximare ct mai
p = polyfit(X,Y,n) gsete coecienii unui polinom p(x) de grad n ale crui valori p(xi ) se apropie
cel mai mult de datele observate yi , n sensul celor mai mici ptrate.
va aa n acest
caz un vector linie de lungime n + 1, coninnd coecienii polinomiali n ordinea descresctoare a
Matlab
p(x) = 0 + 1 x + 2 x2 + + n xn ,
atunci
Matlab va aa
n , . . . , 1 , 0 .
203
Y = polyval(p,X) aeaz valorile unui polinom p(x) pentru valorile din vectorul X . Polinomul
p(x) este dat prin coecienii si, ordonai n ordine descresctoare a puterilor. De exemplu, dac
p(x) = 3x2 + 2x + 4 i dorim s evalum acest polinom pentru trei valori, 3, 1 i 5, atunci scriem
n
Matlab:
p = [3
2 4];
polyval(p,[-3 1 5])
obinnd rezultatul:
ans =
Exerciiu 28.1
37
Dorim s determinm dac exist vreo corelaie ntre notele la examenul de Probabiliti
10
studeni la aceste dou discipline i au fost trecute n Tabelul 28.1 de mai jos. Se cere:
69
r2 );
scatter plot).
(c) Testai dac exist sau nu vreo corelaie ntre notele de la Statistic i Probabiliti.
Student
Probabiliti
82
84
36
42
72
50
58
64
70
68
48
54
44
46
94
80
60
60
40
32
Statistic
(a) Calculm r cu formula (25.1). Funcia Matlab pentru coecientul Pearson este corrcoef.
Matlab de mai jos l-am calculat pe r folosind aceast funcie, dar i n dou alte modaliti,
r.
Matlab
regress
din
Matlab.
plot,
P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32];
mp = mean(P); ms = mean(S);
%%%~~~~~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~~~~
CC = corrcoef(P,S); r = CC(1,2)
%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
% C = cov(P,S)/(std(P)*std(S)); r = C(1,2);
% r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2));
%%%~~~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~
B = polyfit(P,S,1)
%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
% b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms - b1*mp;
204
% B = regress(S',[P;ones(10,1)']');
%%%~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-')
% scatter(P,S)
% varianta pentru scatter plot
%%%~~~~~~~~~~~~~~~~~~~~~~~ Testul pentru = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2)); quant = tinv(1-alpha/2,n-2);
if (abs(T0) < quant)
disp('P si S nu sunt corelate')
else
disp('P si S sunt corelate')
end
Rulnd codul de mai sus, obinem:
r =
0.8247
B =
0.7553
P si S sunt corelate
10.3816
Exerciiu 28.2
x =
y =
0.3
3.52
0.8
4.53
Soluie:
Calculm
ln y =
ln y .
1.2
5.58
x
1.6
6.62
de forma
2.1
8.27
2.4
10.18
2.7
11.80
y = a eb x .
Obinem:
1.2585
1.5107
1.7192
1.8901
2.1126
2.3204
2.4681
205
r = 0.9988 1
0 = 1.1074,
1 = 0.4980.
ln y .
ln y ),
ln y
fa de
regress(log(y)',[x',ones(7,1)])
Aadar,
ln y = 0.4980 x + 1.1074,
de unde
Exerciiu 28.3
la ecare
1km
ctigat n nlime.
6 C
n 10
localiti diferite din acea zon, acestea ind nregistrate n Tabelul 28.2. Dac temperatura se presupune
hi
Ti
500
15
1000
14
1500
11
2000
6
2500
1
3000
2
3500
0
4000
4
4500
8
5000
14
= 0.05)
1 ;
1 = 0.006);
1 ;
h = 2544.
aceasta temperatur.
Soluie:
polyfit
(i)
(H0 ) : 1 = 0.006
Matlab
206
R2
= 94.83,
Codul
Acesta este
R2 .
xp = 2544.
h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000];
T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T);
%%%~~~~~~ Calculez coeficientul de corelatie empiric si coeficientul de determinare ~~~
CC = corrcoef(h,T); r = CC(1,2)
R2 = r^2
%%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
B = polyfit(h,T,1)
%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
% B = regress(T',[h;ones(10,1)']');
% b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT - b1*mh;
%%%~~~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~
x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-')
%%%~~~~~~ Testul pentru panta dreptei de regresie, (H0 ) : 1 = 0.006 ~~~~~~~~~~~~~~~~
alpha = 0.05; n = 10;
sigmahat = sqrt(sum((T-B(2) - B(1)*h).^2)/(n-2));
sigmax = std(h);
T0 = (B(1)+0.006)*sigmax/sigmahat; quant = tinv(1-alpha/2,n-2);
if (abs(T0) < quant)
disp('ipoteza (H0 ) se accepta')
else
disp('ipoteza (H0 ) se respinge')
end
%%%~~~~~~~~~~~~~~~
Interval de incredere pentru 1 ~~~~~~~~~~~~~~~~~~~~~~~
CI = [B(1) - quant*sigmahat/sigmax,\;B(1) + quant*sigmahat/sigmax]
hp = 2544; Tp = B(2) + B(1)*hp
CI_T = [Tp - quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}, ...
Tp + quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}]
Rulnd codul de mai sus, obinem:
r =
-0.9738
R2 =
94.83
Tp =
3.3610
B =
[-0.0061, 18.9333]
CI_T =
CI =
[-0.0096, -0.0026]
[-2.2335, 8.9555]
Statistics Toolbox):
Desenul
(x, y)
cu un polinom
207
de grad
Exemplu 28.4
xname,
respectiv
yname.
Exemplu 28.5
Figura 28.4: Curba de ordinul al doilea care aproximeaz datele (x, y).
208
209
29
Anexa 1
Scurt introducere n
Matlab
Matlab este un pachet comercial de programe de nalt performan produs de The MathWorks, Inc.,
dedicat calculului numeric i reprezentrilor grace n domeniul tiinelor i ingineriei. Elementul de baz
cu care opereaz
este un software standard n mediile universitare, precum i n domeniul cercetrii i rezolvrii practice a
problemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea datelor
experimentale, matematici nanciare, matematici aplicate n diverse domenii etc. Cea mai important
caracteristic a
Matlab-ului
Matlab, utilizatorul poate aduga propriile sale coduri, dezvoltnd aplicaii specice domeniului n care
lucreaz. Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de
funcii Matlab (iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva
probleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz, cu
interpretor propriu, n jurul cruia sunt construite toolbox-urile.
Prezentm mai jos o scurt introducere n
lucrare. Pentru o tratare mai detaliat, putei consulta un manual de utilizare sau [9]. Mai menionm
aici i lucrarea [1], unde putei gsi diverse modaliti de implementare n
demo din Matlab, putei urmri o demonstraie a principalelor faciliti din Matlab,
toolbox)
ct i a pachetelor de funcii (
Toolbox,
Statistics
care este o colecie de funcii folosite pentru analiza, modelarea i simularea datelor. Conine:
2 ),
generarea nume-
Comenzile
Matlab pot scrise n iere cu extensia .m, ce urmeaz apoi a compilate. Un ier-m
const dintr-o succesiune de instruciuni, cu posibilitatea apelrii altor iere-M precum i a apelrii
recursive. De asemenea,
care ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot vizualizate sau
evaluate imediat. De exemplu, introducnd la linia de comand
>> a = sqrt((sqrt(5)+1)/2)
=,
de ce tip sunt. Valoarea unei variabile poate : o constant, un ir de caractere, poate reiei din
calculul unei expresii sau al unei funcii.
help
va vine n ajutor.
210
Comanda
menzii
O linie de cod de
forma
>> v = [1,3,5,7,9]
% sau
v = [1 3 5 7 9]
1, 3, 5, 7, 9. Aceasta poate realizat i folosind
de la 1 la 9, cu pasul 2. Pentru un vector coloan,
v = 1:2:9
>> v = [1;3;5;7;9]
% vector coloana
>> v = linspace(x1,x2,n)
adic
x1
x2.
Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instruciuni i funcii. La denirea explicit, trebuie inut cont de urmtoarele: elementele matricei sunt
cuprinse ntre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaii libere sau
virgule, liniile se separ prin semnul punct-virgul. De exemplu, comanda
>> A = [1 2 3; 4, 5, 6]
211
A =
2
5
3
6
A(i,:)
coloan
j)
Funcia
Matlab ones(m,n)
zeros(m,n) denete
Funcia
ordin
1
4
sau
(elementele de linia
A(i,j)
sau
A(:,j)
(elementele de
i);
m n, avnd toate componentele egale cu 1.
m n. Funcia eye(n) denete matricea unitate de
denete o matrice
o matrice zero
n.
erea unui cod. Dac funcia ce o avem de denit este una simpl, atunci avem varianta utilizrii
comenzii
inline.
>> f = inline('exp(5*x).*sin(3*y)')
f =
Inline function:
f(x,y) = exp(5*x).*sin(3*y)
Putem apoi calcula
>> f(7,pi)
f (7, )
prin
0.5827
Un program
Matlab poate scris sub forma ierelor script sau a ierelor de tip funcie. Ambele
tipuri de iere sunt scrise n format ASCII. Aceste tipuri de iere permit crearea unor noi funcii,
care le pot completa pe cele deja existente. Un ier
ven de comenzi
n acesta. Dup execuia complet a unui ier script, variabilele cu care acesta a operat rmn
n zona de memorie a aplicaiei. Fiierele script sunt folosite pentru rezolvarea unor probleme care
cer comenzi succesive att de lungi, nct ar putea deveni greoaie pentru lucrul n mod interactiv,
adic n modul linie de comand.
Matlab, putem copia datele direct ntr-un ier Matlab, prin denirea unui
vector sau a unei matrice de date. De exemplu, urmtoarele date au fost introduse prin "copy-paste" n
matricea
data:
>> data =
21.3 24.1
18.4 20.5
22.1 16.6
];
Datele din
[
19.9 21.0
17.5 23.2
23.5 19.7
212
load Timpi_de_reactie
Timpi_de_reactie
Fiierele funcie
Matlab creaz cadrul propice extinderii funciilor sale, prin posibilitatea crerii de noi iere.
dac prima linie a ierului
ier funcie.
acesteia.
.m
conine cuvntul
function,
Astfel,
Prin urmare, la terminarea execuiei unei funcii, n memoria calculatorului nu rmn dect
variabilele de ieire ale acesteia. Forma general a primei linii a unui ier este:
function[param_iesire] = nume_functie(param_intrare)
unde:
function
nume_functie
este numele funciei, care este totuna cu numele sub care se salveaz ierul;
param_iesire
param_intrare
Comenzile i funciile care sunt utilizate de nou funcie sunt nregistrate ntr-un ier cu extensia
Exemplu 29.1
tor
Fisierul
.m.
function m2 = medie(X)
n = length(X); m2 = sum(X.^2)/n;
Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab
(iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din
domenii variate.
Statistics Toolbox
simularea datelor i conine: generarea de numere aleatoare; distribuii, analiza grac interactiv (GUI),
analiza regresional, descrieri statistice, teste statistice.
n Tabelul 29.1 am adunat cteva comenzi utile n
Matlab.
213
%
%
%
rand
normal
cauta intrarile n
Matlab pentru
vector linie cu
vector coloan cu
10
7
5
elemente
2 n 2
% lungimea vectorului X
% denete o diviziune a [0, 3] cu diviziunea 0.01
% ridic toate componentele vectorului X la puterea a doua
% produsul a doi vectori
% suma cumulat a elementelor vectorului X
% produsul cumulativ al elementelor vectorului X
% realizeaz minimum dintre componentele lui X
% realizeaz maximum dintre componentele lu X
% ordoneaz componentele lui X n ordine crescatoare
% ordoneaz componentele lui X n ordine descrescatoare
% funcia eroare
% calculeaz exponenial ex
% calculeaz logaritmul natural ln(x)
% calculeaz radicalul ordinului doi dintr-un numr
% furnizeaz valoarea numeric a lui x
% n!
% A e matrice m n, cu toate elementele 1
% matrice m n zero
% matrice unitate, n n
% matrice 3 3
% dimensiunea matricei A
% determinantul matricei A
% inversa matricei A
% transpusa matricei A
% coloana a 7-a a matricei A
% scoate primele 20 de linii ale lui A
% combinri de n luate cte k
% numarul 105
% numarul e
% reprezentarea prin bare
% reprezentarea prin histograme
% reprezentarea prin histograme 3-D
% deseneaz primele 5 componente ale lui X , cu * magenta
% deseneaz gracul lui X versus t, cu linie continua
% deseneaz un grac n 3-D
% deseneaz o funcie scara
% mparte gracul n m n zone & deseneaz n zona z
% logaritmeaz valorile de pe absci, resp., ordonata
% reine gracul pentru a realiza o nou gura
% terge gura
% terge toate variabilele denite
% adaug titlu gurii
% gsete indicii elementelor nenule ale unui vector
% ataeaz o legend la un grac
vector cu numerele intregi de la
Matlab utile
la
10,
elemente
din
214
Anexa 2
30
(1)
Scriem c
X U(n),
sunt
(unid)
{1, 2, . . . , n},
P (X = k) =
Media i dispersia sunt:
Exemplu:
(2)
E(X) =
n+1
2 ,
1
,
n
cu probabilitile
k = 1, 2, . . . , n.
n2 1
12 .
D2 (X) =
numrul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat
Scriem
Matlab.
X B(1, p).
V.a.
U(6).
(bino)
X = 1
(succes) sau
X = 0
P (X = 1) = p; P (X = 0) = 1 p.
E(X) = p; D2 (X) = p(1 p).
(insucces), cu probabilitile
Media i dispersia sunt:
Exemplu:
(3)
aruncarea o singur dat a unei monede ideale poate modelat ca ind o v.a.
Scriem
B(1, 0.5).
(bino)
extragerilor cu repetiie)
P (X = k) = Cnk pk (1 p)nk , k = 0, 1, . . . , n.
Media i dispersia sunt:
Dac
Exemplu:
(4)
(Xk )k
Xk B(n, p).
k=1
aruncarea de
X H(n, a, b)
Cak Cbnk
,
n
Ca+b
pentru orice
binomial
B(15, 0.5).
(hyge)
P (X = k) =
25 Jacob
X=
n
X
ce satisface
(n, a, b > 0)
dac
215
n
X
i=0
Observaia 30.1
(i)
Dac
X=
cu
p=
a+bn
.
a+b1
a
a+b (v.a. dependente stochastic), atunci
Xi H(n, a, b).
i=1
n cazul schemei bilei nerevenite, nu mai putem scrie egalitate ntre
D2 (X)
n
X
D2 (Xi ),
deoarece
(Xi )i
i=0
nu sunt independente stochastic.
(ii)
Pentru
N = a + b n,
a+bn
a+b1
a+bn
a+b
=1
n
N , de unde
n
.
D2 (X) np(1 p) 1
N
(30.1)
Observm c repartiiile binomial i hipergeometric au aceeai medie, ns dispersiile difer prin terme-
N n
N 1 . n cazul n care numrul de bileeste mult mai mare dect numrul de extrageri (N n), atunci
n
acest termen devine aproximativ 1
N . n plus, dac N este foarte mare, atunci trecnd N n
nul
(30.1), gsim c i dispersiile celor dou repartiii coincid. Cu alte cuvinte, cnd numrul de bile din urn
este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiie sau nu. Acest fapt l vom
utiliza n Teoria seleciei, cnd extragerile se fac dintr-o colectivitate de volum foarte mare.
(5)
(poiss)
> 0,
spunem c
X P()
(legea
cu probabilitile
P (X = k) = e
k
, k N.
k!
E(X) = ; D2 (x) = .
(6)
(geo)
X Geo(p),
(p (0, 1))
dac
P (X = k) = p(1 p)k ,
E(X) =
p.
ia valori n
N,
pentru orice
cu probabilitile
k N,
unde
p 0.
1p
1p
; D2 (X) =
.
p
p2
Observaia 30.2
primul succes.
26 Simon-Denis
Dac
X Geo(p),
Y =X +1
reprezint
ateptarea pn la
216
(nbin)
Valorile sale reprezint numrul de insuccese obinute nainte de a se realiza succesul de rang
n cazul particular
Pentru
m = 1,
m.
m 1, p (0, 1),
spunem c
X BN (m, p)
dac
ia valorile
{m, m + 1, m + 2, . . . },
cu
probabilitile
m1
P (X = k) = Cm+k1
pm (1 p)k , k m, p 0.
Media i dispersia sunt:
E(X) =
m(1 p)
m(1 p)
; D2 (X) =
.
p
p2
V.a.
X U(a, b) (a < b)
(unif)
1
ba
f (x; a, b) =
E(X) =
, dac x (a, b)
, altfel.
(b a)2
a+b
, D2 (X) =
.
2
12
Exemplu:
U(0, 1).
(0, 1),
Comanda
rand
din
(2)
Repartiia normal, N (, )
Spunem c
X N (, ),
dac
(norm)
are densitatea:
(x)2
1
f (x; , ) = e 22 , x R.
2
E(X) = i D2 (X) = 2 .
Se mai numete i repartiia gaussian. n cazul
= 0, 2 = 1
x2
1
f (x) = e 2 , x R.
2
urmeaz
(30.2)
grac (pentru
se a
n intervalul
(5.5).
Dac
217
X N (, )
F (x) = (
(3)
x
),
x R.
(30.4)
(logn)
Repartiia log-normal este foarte util n Matematicile Financiare, reprezentnd o repartiie de preuri
viitoare pentru un activ nanciar.
Dac
X N (, ),
atunci
Y = eX
este o v.a.
nenegativ, avnd
densitatea de repartiie
(
f (x; , ) =
e
2
(ln x)2
2 2
0
Aadar,
Y logN (, )
dac
ln Y N (, ).
2
E(X) = e+ /2 ,
(4)
, dac x > 0
, dac x 0
2
(exp)
Valorile sale sunt timpi realizai ntre dou valori spontane repartizate
Spunem c
X exp() ( > 0)
f (x; ) =
Media i dispersia sunt:
Observaia 30.3
E(X) =
P().
D2 (X) =
ex , dac x > 0
0
, dac x 0
1
.
2
218
Este unica distribuie continu cu aceast proprietate. Distribuia geometric satisface o variant discret
a acestei proprieti. [
(5)
Vericai!]
O v.a.
X (a, ), a, > 0,
(gam)
a a1 x
e
(a) x
, dac
x > 0,
, dac
x 0.
(
f (x; a, ) =
unde
Z
: (0, ) (0, ),
(a) =
xa1 ex dx.
0
Media i dispersia sunt:
Observaia 30.4
(ii) Dac v.a.
(i)
E(X) =
a
a
, D2 (X) = 2 .
(1, ) exp().
n
X
Xk (n, ).
k=1
(6)
(wbl)
Aceast repartiie este asemntoare cu repartiia exponenial (aceast obinndu-se n cazul particular
k = 1)
este asemn-
(7)
Repartiia 2 , 2 (n)
O v.a.
X 2 (n)
(se citete
(chi2)
este:
f (x; n) =
n
( n
)2 2
2
0
unde
x 2 1 e 2
, dac
x > 0,
, dac
x 0.
este funcia lui Euler. Gracul acestei repartiii (pentru diverse valori ale lui
n Figura 30.2.
Media i dispersia sunt:
27 Ernst
E(2 ) = n, D2 (2 ) = 2n.
n)
este reprezentat
219
Observaia 30.5
(b)
(a)
Repartiia
X N (0, 1),
atunci
X 2 2 (1).
(8)
Spunem c
X t(n)
(cu
(t)
n+1
2 2
n+1
x
2
1+
f (x; n) =
,
n
n n2
E(X) = 0, D2 (X) =
(9)
n
.
n2
Spunem c
E(X) =
X F(m, n)
(f)
0
, x 0.
(cu
este:
n
2n2 (n + m 2)
, D2 (X) =
.
n2
m(n 2)2 (n 4)
28 William
29 Sir
x R.
Sealy Gosset (1876 1937), statistician britanic, care a publicat sub pseudonimul Student
Ronald Aylmer Fisher (1890 1962), statistician, eugenist, biolog i genetician britanic
220
Spunem c
X C(, )
(fr corespondent n
f (x; , ) =
,
[(x )2 + 2 ]
30 Augustin
Matlab)
x R.
221
Bibliograe
[1] Petru Blaga,
1968.
2006.
Duxbury Press,
2004.
[9]
http://www.mathworks.com
3rd
ed.,
2nd
ed.,
2005.
[14] Larry J. Stephens,
2nd
1998.
2002.
Statistic prin
2001.
1987.
Cambridge University