Curs

Iulian STOLERIU
Statistic Aplicat
1 Statistic Aplicat (C1)

Introducere n Statistic
Scurt istoric
Statistica este o ramur a tiinelor ce se preocup de procesul de colectare de date i informaii,
de organizarea i interpretarea lor, n vederea explicrii unor fenomene reale. n general, prin date
(sau date statistice) nelegem o mulime de numere ce au o anumit nsemntate. Aceste numere
pot legate ntre ele sau nu. Suntem interesai de studiul acestor date, cu scopul de a nelege
anumite relaii ntre diverse trsturi ce msoar datele culese. De regul, oamenii au anumite
intuiii despre realitatea ce ne nconjoar, pe care le doresc a conrmate ntr-un mod ct mai
exact. De exemplu, dac ntr-o anumit zon a rii rata somajului este ridicat, este de ateptat
ca n acea zon calitatea vieii persoanelor de acolo s nu e la standarde ridicate. Totui, ne-am
dori s m ct mai precii n evaluarea legturii dintre rata somajului i calitatea vieii, de aceea
ne-am dori s construim un model matematic ce s ne conrme intuiia. Un alt gen de problem:
ardem de nerbdare s am cine va noul preedinte, imediat ce seciile de votare au nchis porile
(exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea i unicarea tuturor datelor
ntr-un timp record nu este o msur deloc practic. n ambele probleme menionate, observaiile
i culegerea de date au devenit prima treapt spre nelegerea fenomenului studiat. De cele mai
multe ori, realitatea nu poate complet descris de un astfel de model, dar scopul este de a oferi
o aproximare ct mai del i cu costuri limitate. n ambele situaii menionate apar erori n
aproximare, erori care in de ntmplare. De aceea, ne-am dori s putem descrie aceste fenomene
cu ajutorul variabilelor aleatoare. Plecnd de la coleciile de date obinute dintr-o colectivitate,
Statistica introduce metode de predicie i prognoz pentru descrierea i analiza proprietilor
ntregii colectiviti. Aria de aplicabilitate a Statisticii este foarte mare: tiine exacte sau sociale,
umanistic sau afaceri etc. O disciplin strns legat de Statistic este Econometria. Aceasta
ramur a Economiei se preocup de aplicaii ale teoriilor economice, ale Matematicii i Statisticii
n estimarea i testarea unor parametri economici, sau n prezicerea unor fenomene economice.
Statistica a aprut n secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre
populaiile pe care le reprezentau sau de a studia mersul economiei locale, n vederea unei mai
bune administrri. Datorit originii sale, Statistica este considerat de unii ca ind o tiin de
sine stttoare, ce utilizeaz aparatul matematic, i nu este privit ca o subramur a Matematicii.
Dar nu numai originile sale au fost motivele pentru care Statistica tinde s devin o tiin separat
de Teoria Probabilitilor. Datorit revoluiei computerelor, Statistica a evoluat foarte mult n
direcia computaional, pe cnd Teoria Probabilitilor foarte puin. Aa cum David Williams
scria n [18], "Teoria Probabilitilor i Statistica au fost odat cstorite; apoi s-au separat; n
cele din urm au divorat. Acum abia c se mai ntlnesc".
Din punct de vedere etimologic, cuvntului statistic i are originile n expresia latin statisticum
collegium (nsemnnd consiliul statului) i cuvntul italian statista, nsemnnd om de stat sau
politician. n 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat
pentru a analiza datele referitoare la stat. Mai trziu, n secolul al XIX-lea, Sir John Sinclair a
extrapolat termenul la colecii i clasicri de date.
Metodele statistice sunt astzi aplicate ntr-o gam larg de discipline. Amintim aici doar cteva
C1 & L1 [Dr. Iulian Stoleriu]
exemple:
n Agricultur, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a folosite
pe un anumit teren arabil;
n Economie, pentru studiul rentabilitii unor noi produse introduse pe pia, pentru core-
larea cererii cu ofert, sau pentru a analiza cum se schimb standardele de via;
n Biologie, pentru clasicarea din punct de vedere tiinic a unor specii de plante sau
pentru selectarea unor noi specii;
n tiinele educaiei, pentru a gsi cel mai ecient mod de lucru pentru elevi sau pentru a
studia impactul unor teste naionale asupra diverselor caregorii de persoane ce lucreaz n
nvmnt;
n Meteorologie, pentru a prognoza vremea ntr-un anumit inut pentru o perioad de timp,
sau pentru a studia efectele nclzirii globale;
n Medicin, pentru testarea unor noi medicamente sau vaccinuri;

n Psihologie, n vederea stabilirii gradului de corelaie ntre timiditate i singurtate;
n Politologie, pentru a verica dac un anumit partid politic mai are sprijinul populaiei;
n tiinele sociale, pentru a studia impactul crizei economice asupra unor anumite clase
sociale;
etc.
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai nti
care este colectivitatea asupra creia se dorete studiul. Aceast colectivitate (sau populaie)
poate populaia unei ri, sau numai elevii dintr-o coal, sau totalitatea produselor agricole
cultivate ntr-un anumit inut, sau toate bunurile produse ntr-o uzin. Dac se dorete studiul
unei trsturi comune a tuturor membrilor colectivitii, este de multe ori aproape imposibil de
a observa aceast trstur la ecare membru n parte, de aceea este mult mai practic de a
strnge date doar despre o submulime a ntregii populaii i de a cuta metode eciente de a
extrapola aceste observaii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cu
descrierea acestei colecii de date, numit Statistic descriptiv. Aceast descriere a trsturilor
unei colectiviti poate fcut att numeric (media, dispersia, mediana, cuantile, tendine etc),
ct i grac (prin puncte, bare, histograme etc). De asemenea, datele culese pot procesate ntrun anumit fel, nct s putem trage concluzii foarte precise despre anumite trsturi ale ntregii
colectiviti. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale ntregii
colectiviti, studiind doar o parte din ea, se numete Statistic inferenial. n contul Statisticii
infereniale putem trece i urmtoarele: luarea de decizii asupra unor ipoteze statistice, descrierea
gradului de corelare ntre diverse tipuri de date, estimarea caracteristicilor numerice ale unor
trsturi comune ntregii colectiviti, descrierea legturii ntre diverse caracteristici etc.
Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract
a Statisticii. Din datele culese pe cale experimental, Statistica Matematic va cuta s extrag
informaii i s le interpreteze. Un cercettor ntr-un domeniul teoretic al Statisticii, cum este i

Statistica Matematic, va cuta s mbunteasc metodele teoretice existente sau s introduc
altele noi. Aceasta va utiliza noiuni din Teoria probabilitilor, dar i noiuni din alte ramuri ale
Matematicii, cum ar : Algebra liniar, Analiza matematic, Teoria optimizrii. De asemenea,
partea computaional este deosebit de util n studiul Statisticii moderne, fr de care cercetarea
ar ngreunat sau, uneori, chiar imposibil de realizat. n aceast lucrare vom utiliza pachetele de
programe
pentru efectuarea calculelor, n versiunea
7.1. Acest software este
introdus i dezvoltat de compania The MathWorks (vezi [9]).
Matlab
Matlab
Modelare Statistic
De obicei, punctul de plecare este o problem din viaa real, e.g., care partid are o susinere
mai bun din partea populaiei unei ri, dac un anumit medicament este relevant pentru boal
pentru care a fost creat, dac este vreo corelaie ntre numrul de ore de lumina pe zi i depresie.
Apoi, trebuie s decidem de ce tipuri date avem nevoie s colectm, pentru a putea da un rspuns
la ntrebarea ridicat i cum le putem colecta. Modurile de colectare a datele pot diverse: putem
face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este
nevoie de o metod bine stabilit de colectare a datelor i s construim un model statistic potrivit
pentru analiza acestora. n general, date culese de noi pot potrivite ntr-un model statistic prin
care
Data observat = f (x, ) + eroare de aproximare,
(1.1)
unde f este o funcie ce veric anumite proprieti i este caracteristic modelului, x este vectorul
ce conine variabilele msurate i e un parametru (sau un vector de parametri), care poate
determinat sau nedeterminat. Termenul de eroare apare deseori n pratic, deoarece unele date
culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, i eventual
revizuit, astfel nct s se potriveasc ntr-o msur ct mai precis datelor culese.
Denim o populaie (colectivitate) statistic ca ind o mulime de elemente ce posed o trasatur
comun. Aceasta poate nit sau innit, real sau imaginar. Elementele ce constituie o colectivitate statistic se vor numi uniti statistice sau indivizi. Volumul unei colectiviti statistice
este dat de numrul indivizilor ce o constituie. Caracteristica (variabila) unei populaii statistice
este o anumit proprietate urmrit la indivizii ei n procesul prelucrrii statistice. Caracteristicile
pot : cantitative (msurabile sau variabile) (e.g., 2, 3, 5, 7, 11, . . . ) i calitative (nemsurabile sau
atribute) (e.g., rou, verde, albastru etc). La rndul lor, variabilele cantitative pot discrete (numrul de sosiri ale unui tramvai n staie) sau continue (timpul de ateptare ntre dou sosiri ale
tramvaiului n staie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii
ind astfel caracteristici numerice ale colectivitii.
Suntem interesai n a msura una sau mai multe variabile relative la o populaie, ns aceasta s-ar
putea dovedi o munc extrem de costisitoare, att din punctul de vedere al timpului necesar, ct
i din punctul de vedere al depozitrii datelor culese, n cazul n care volumul colectivitii este
mare sau foarte mare (e.g., colectivitatea este populaia cu drept de vot a unei ri i caracteristica
urmrit este candidatul votat la alegerile prezideniale). De aceea, este foarte ntemeiat alegerea
unei selecii de date din ntreaga populaie i s urmrim ca pe baza datelor selectate s putem
trage o concluzie n ceea ce privete variabila colectivitii.
O selecie (sau eantion) este o colectivitate parial de elemente extrase (la ntmplare sau nu)
din colectivitatea general, n scopul cercetrii lor din punctul de vedere al unei caracteristici.
Dac extragerea se face la ntmplare, atunci spunem c am facut o selecie ntmpltoare. Numrul indivizilor din selecia aleas se va numi volumul seleciei. Dac se face o enumerare sau o
listare a ecrui element component al unei a populaii statistice, atunci spunem c am facut un
recensmnt. Selecia ar trebui s e reprezentativ pentru populaia din care face parte. Numim
o selecie repetat (sau cu repetiie) o selecie n urma creia individul ales a fost reintrodus din
nou n colectivitate. Altfel, avem o selecie nerepetat. Selecia nerepetat nu prezint interes
dac volumul colectivitii este nit, deoarece n acest caz probabilitatea ca un alt individ s e
ales ntr-o extragere nu este aceeai pentru toi indivizii colectivitii. Pe de alt parte, dac
volumul ntregii populaii statistice este mult mai mare dect cel al eantionului extras, atunci
putem presupune c selecia efectuat este repetat, chiar dac n mod practic ea este nerepetat.
Spre exemplu, dac dorim s facem o prognoz a cine va noul preedinte la alegerile din toamn,
eantionul ales (de altfel, unul foarte mic comparativ cu volumul populaiei cu drept de vot) se
face, n general, fr repetiie, dar l putem considera a o selecie repetat, n vederea aplicrii
testelor statistice.
Seleciile aleatoare se pot realiza prin diverse metode, n funcie de urmtorii factori: disponibilitatea informaiilor necesare, costul operaiunii, nivelul de precizie al informaiilor etc. Mai jos
prezentm cteva metode de selecie.
selecie simpl de un volum dat, prin care toi indivizii ce compun populaia au aceeai
ans de a alei. Aceast metod mininimizeaz riscul de a prtinitor sau favorabil

unuia dintre indivizi. Totui, aceast metod are neajunsul c, n anumite cazuri, nu reect
componena ntregii populaii. Se aplic doar pentru colectiviti omogene din punctul de
vedere al trsturii studiate.
selecie sistematic, ce presupune aranjarea populaiei studiate dup o anumit schem ordonat i selectnd apoi elementele la intervale regulate. (e.g., alegerea a ecrui al 10-lea
numr dintr-o carte de telefon, primul numr ind ales la ntmplare (simplu) dintre primele
10 din list).
selecie straticat, n care populaia este separat n categorii, iar alegerea se face la ntm-
plare din ecare categorie. Acest tip de selecie face ca ecare grup ce compune populaia s
poata reprezentat n selecie. Alegerea poate facut i n funcie de mrimea ecrui grup
ce compune colectivitatea total (e.g., aleg din ecare jude un anumit numr de persoane,
proporional cu numrul de persoane din ecare jude).
selecie ciorchine, care este un eantion straticat construit prin selectarea de indivizi din
anumite straturi (nu din toate).
selecia de tip experien, care ine cont de elementul temporal n selecie. (e.g., diveri timpi
de pe o encefalogram).
selecie de convenien: de exemplu, alegem dintre persoanele care trec prin faa universitii.
selecie de judecat: cine face selecia decide cine ramne sau nu n selecie.
selecie de cot: selecia ar trebui s e o copie a ntregii populaii, dar la o scar mult mai
mic. Aadar, putem selecta proporional cu numrul persoanelor din ecare ras, de ecare
gen, origine etnic etc) (e.g., persoanele din Parlament ar trebui s e o copie reprezentativ
a persoanelor ntregii ri, ntr-o scar mult mai mic).
Organizarea i descrierea datelor

Presupunem c avem o colectivitate statistic, creia i se urmrete o anumit caracteristic.
(e.g., colectivitatea este mulimea tuturor studenilor dintr-o universitate nrolai ntr-un anumit
an de studii, iar caracteristica este numrul de credite obinute de studeni n decursul acelui an).
Vom numi date informaiile obinute n urma observaiei valorilor acestei caracteristici. Datele
pot calitative sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ
sau, respectiv, cantitativ. Aceste date pot date discrete, dac sunt obinute n urma observrii
unei caracteristici discrete (o variabila aleatoare discret), sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu). n cazul din exemplu, datele vor
cantitative i discrete.
Primul pas n analiza datelor proaspt culese este de a le ordona i reprezenta grac, dar i de a
calcula anumite caracteristici numerice pentru acestea. Datele nainte de prelucrare, adic exact
aa cum au fost culese, se numesc date negrupate. De exemplu, numrul de apeluri la 112 n luna
Iulie, specicat zilnic, este:
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948
598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731
De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmrete a se grupa datele, pentru o mai uoar gestionare. Imaginai-v c enumerm toate voturile
unei selecii ntmpltoare de 15000 de votani, abia ieii de la vot. Mai degrab, este util s
grupm datele dup numele candidailor, preciznd numrul de voturi ce l-a primit ecare.
Gruparea datelor
Datele prezentate sub form de distribuie (tabel) de frecvene se numesc date grupate. Datele
de selecie obinute pot date discrete sau date continue, dup cum caracteristicile studiate sunt
variabile aleatoare discrete sau, respectiv, continue.
(1) Dac datele de selecie sunt discrete (e.g., {x1 , x2 , . . . , xn }) i au valorile distincte
x01 , x02 , . . . , x0r , r n, atunci ele pot grupate ntr-un aa-numit tabel de frecvene (vezi exemplul
din Figura 1.1) sau ntr-un tablou de frecvene, dup cum urmeaz:
data :
x01
f1
x02
f2
...
...
x0r
fr
unde fi este frecvena apariiei valorii x0i , (i = 1, 2, . . . , r), i se va numi distribuia empiric de
selecie a lui X . Aceste frecvene pot absolute sau de relative. Un tabel de frecvene (sau o
distribuie de frecvene) conine toate categoriile ce sunt observate din datele colectate i numrul
de elemente ce aparine ecrei categorii n parte, adic frecvena absolut. O frecven relativ
se obine prin mprirea frecvenei absolute a unei categorii la suma tuturor frecvenelor din tabel.

nota
frecvena
frecvena relativ
2.22%
4.44%
8.89%
15
16.67%
18
20.00%
17
18.89%
15
16.67%
7.78%
10
4.44%
Total
90
100%
Tabela 1.1: Tabel cu frecvene pentru date discrete.

Astfel, suma tuturor frecvenelor relative este egal cu 1. Elementele unui tabel sunt, de regul:
valori pentru variabile, frecvene sau frecvene relative.
n Tabelul 1.1, sunt prezentate notele studenilor din anul al III-lea la examenul de Statistic.
Acesta este exemplu de tabel ce reprezent o caracteristic discret.
Observaia 1.1 (o glum povestit de G. Plya,1 despre cum NU ar trebui interpretat frecvena
relativ)
Un individ suferind merge la medic. Medicul l examineaz ndelung i, balansnd dezamgit
capul, i spune pacientului:
"Of... drag domnule pacient, am dou veti: una foarte proast i una bun. Mai nti v aduc
la cunotin vestea proast: suferii de o boal groaznic. Statistic vorbind, din zece pacieni ce
contracteaz aceast boal, doar unul scap."
Pacientul, deja n culmea disperrii, este totui consolat de doctor cu vestea cea bun:
"Dar, i pe pace! Dumneavoastr ai venit la mine, i asta v face tare norocos", continu
optimist doctorul.
"Am avut deja nou pacieni ce au avut aceeai boal i toi au murit, aa c... vei supravieui!"
(2) Dac X este de tip continuu, atunci se obinuieste s se fac o grupare a datelor de selecie n
clase. De exemplu, ni se dau datele din Tabelul 1.2, reprezentnd timpi (n min.sec) de ateptare
pentru primii 100 de clieni care au ateptat la un ghieu pn au fost servii.
Putem grupa datele de tip continuu ntr-un tablou de distribuie de forma:
data :
[a0 , a1 )
f1
[a1 , a2 )
f2
...
...
[ar1 , ar )
fr

,
sau sub forma unui tabel de distribuie (vezi Tabelul 1.3). Aadar, putem grupa datele de tip
continuu de mai sus n tablou de distribuie:

1 Gyrgy
[0, 1)
14
[1, 2)
17
[2, 3)
21
Plya (1887 1985), matematician ungur
[3, 4)
18
[4, 5)
16
[5, 6)
14

.
(1.2)

1.02
0.13
2.98
0.94
1.12
3.79
3.12
5.36
2.01
5.32
4.33
3.44
4.75
1.48
0.71
1.32
2.08
3.97
5.08
1.35
2.88
2.65
2.76
3.78
3.36
4.67
3.64
4.30
1.55
1.95
2.03
4.31
0.79
2.92
4.55
3.95
0.10
0.92
3.58
3.14
2.67
5.87
5.88
4.22
4.08
5.64
0.99
2.86
0.70
1.58
5.69
2.35
1.95
0.78
2.41
5.04
5.49
5.41
1.30
0.91
2.34
3.19
5.33
0.48
1.68
4.50
1.26
4.51
5.41
2.40
2.77
2.46
4.06
0.74
3.53
5.14
1.50
3.20
1.40
3.55
3.64
4.55
2.75
0.83
2.51
2.16
2.63
4.77
1.89
1.67
3.74
5.80
4.98
1.76
2.14
3.28
3.89
4.85
4.12
0.88
Tabela 1.2: Date statistice negrupate

clasa
frecvena
valoare medie
[a0 , a1 )
[a1 , a2 )
f1
f2
.
.
.
.
.
.
x01
x02
[ar1 , ar )
fr
.
.
.
x0r
Tabela 1.3: Tabel cu frecvene pentru date continue.

Uneori, tabelul de distribuie pentru o caracteristic de tip continuu mai poate scris i sub forma:
data :
x01
f1
x02
f2
...
...
x0r
fr
unde
x0i =
ai1 + ai
este elementul de mijloc al clasei [ai1 , ai );
2
fi este frecvena apariiei valorilor din [ai1 , ai ), (i = 1, 2, . . . , r),
r
X
f i = n.
i=1
Aadar, dac ne este dat o niruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat n tabele sau tablouri de frecvene. Invers (avem tabelul sau tabloul de
repartiie i vrem s enumerm datele) nu este posibil, dect doar n cazul unei caracteristici de
tip discret. De exemplu, dac ni se d Tabelul 1.4, ce reprezint rata somajului ntr-o anumit
regiune a rii pe categorii de vrste, nu am putea ti cu exactitate vrsta exact a persoanelor
care au fost selecionate pentru studiu.
Observm c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clas, valoarea obinut prin media valorilor extreme ale clasei. n
cazul Tabelului 1.4, valorile de mijloc sunt scrise n coloana cu vrsta medie. Frecvena cumulat
a unei clase este suma frecvenelor tuturor claselor cu valori mai mici.
Vom numi o serie de timp (sau serie dinamic ori cronologic) un tablou de forma
data :
x1
t1
x2
t2
...
...
xn
tn

,

vrsta
frecvena
frecvena relativ
frecvena cumulat
vrsta medie
[18, 25)
[25, 35)
[35, 45)
[45, 55)
[55, 65)
34
76
8.83%
8.83%
21.5
19.74%
28.57%
124
32.21%
30
60.78%
40
87
64
22.60%
83.38%
50
16.62%
100.00%
60
Total
385
100%
Tabela 1.4: Tabel cu frecvene pentru rata somajului.

unde xi sunt variabile de rspuns, iar ti momente de timp (e.g., rspunsurile citite de un electrocardiograf).
Motive serioase pentru care merit s devii statistician

(top 10)
(10) Pentru statisticienii, deviaiile sunt considerate a normale.

(9) Statisticienii lucreaz discret i continuu.
(8) Putem concluziona orice dorim, la un nivel de semnicaie potrivit.
(7) Nu trebuie s spunem niciodat ca suntem siguri; e sucient doar 95%.
(6) Normalitatea nu este o condiie sine qua non.
(5) Suntem semnicativ diferii.
(4) Putem testa, fr probleme i folosind o lege bine stabilit, distribuia posterioar a cuiva.
(3) Statistica este arta de a nu nevoit s spui vreodat c ai greit.
(2) Un statistician poate sta cu capul ntr-un cuptor incandescent i cu picioarele npte n
ghea i s spun c, n medie, se simte bine.
(1) Aproape nimeni nu dorete jobul nostru important, deci nu vei avea emoii c vei rmne
omer.
Laborator 1 [Dr. Iulian Stoleriu]
2 Statistic Aplicat (L1)

Reprezentri grace
Un tabel de frecvene sau o distribuie de frecvene (absolute sau relative) sunt de cele mai multe
ori baza unor reprezentri grace, pentru o mai bun vizualizare a datelor. Aceste reprezentri
pot fcute n diferite moduri, dintre care amintim pe cele mai uzuale.
0.6
0.4
0.2
10
Figura 2.1: Reprezentarea cu puncte.
Reprezentare prin puncte

Reprezentarea prin puncte (en., dot plot) este folosit pentru selecii de dimensiuni mici. Sunt
reprezentate puncte aezate unul peste celalalt, reprezentnd numrul de apariii ale unei valori
pentru caracteristica dat. Un astfel de grac este reprezentat n Figura 2.1. Aceste reprezentri
sunt utile atunci cnd se dorete scoaterea n eviden a anumitor plcuri de date (en., clusters) sau
chiar lipsa unor date (goluri). Au avantajul de a conserva valoarea numeric a datelor reprezentate.
Matlab
O funcie
util pentru reprezentarea datelor discrete este funcia stem. Aceast funcie
reprezint datele sub forma unor linii verticale terminate cu un un cercule gol (n mod implicit)
la extremitatea opus axei. Are formatul general:
stem(X, Y, 'fill', 'type')
% deseneaza pe Y vs. X
Opiunea 'fill' poate lipsi; dac ea apare, atunci coloreaz cercurile din grac. Opiunea 'type'
se refer la tipul de linie folosit; poate linie continu (n mod implicit), punctat (:) sau de tip
linie-punct (.). Spre exemplu, linia de cod
x = -pi:pi/10:pi; stem(x, sin(x), 'fill', '--')
10
produce Figura 2.2.
Figura 2.2: Reprezentarea datelor discrete.
Reprezentarea stem-and-leaf
S presupunem c urmtoarele date sunt punctajele (din 100 de puncte) obinute de cei 20 de
elevi ai unei grupe la o testare semestrial:
50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96
Tabelul 2.1 reprezint aceste date sub forma stem-and-leaf (ramur-frunz). Se observ c acest
tabel arat att cum sunt repartizate datele, ct i forma repartiiei lor (a se privi gracul c
avnd pe OY drept axa absciselor i OX pe cea a ordonatelor). Aadar, 7|5 semnic un punctaj
de 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod de
vizualizare a datelor. n seciunile urmtoare vom prezenta i alte metode utile.
stem
10
9
8
7
6
5
4
3
2
1
0
leaf
2
1
3
1
0
1
4
6
5
5
2
3
4
9
6
7
2
5
8
8
779
488
9
Tabela 2.1: Tabel stem-and-leaf reprezentnd punctajele studenilor.
11
Reprezentarea cu bare
Este util pentru reprezentarea variabilelor discrete cu un numr mic de valori diferite. Barele sunt
dreptunghiuri ce reprezint frecvenele i nu sunt unite ntre ele. Fiecare dreptunghi reprezint
o singur valoare. ntr-o reprezentare cu bare, categoriile sunt plasate, de regul, pe orizontal
iar frecvenele pe vertical. n Figura 2.31 sunt reprezentate datele din tabelul cu note. Se poate
schimba orientarea categoriilor i a claselor; n acest caz barele vor aprea pe orizontal (vezi
Figura 2.32 ). Pentru reprezentri grace vom folosi aplicaia
. n capitolul urmtor vom
Matlab
Figura 2.3: Reprezentrile cu bare.
Matlab
prezenta o scurt introducere n

. Pentru mai multe detalii, se poate consulta ghidul
online de utilizare [9].
Comenzile
uzuale pentru reprezentarea cu bare sunt:
Matlab
bar(X, Y, 'style');
barh(X, Y);
bar(X, w);
bar3(Y, w, 'style')
Mai sus,
%
%
%
%
%
deseneaza vectorul Y vs. vectorul X

deseneaza pe orizontala vectorul Y vs. vectorul X
deseneaza vectorul X vs. 1:N (N este lungimea lui X);
deseneaza vectorul Y prin bare 3D
w este latimea barelor, 'style' este modul reprezentarii
'style' poate una dintre urmtoarele: 'detached' (bare separate), 'grouped' (bare grupate
'stacked' (bare suprapuse).
alturat), sau
Exemplu 2.1
(1)
Comanda care produce primul grac din Figura 2.3 este:
bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)

X este vectorul linie [2 3 4 5 6 7 8 9 10],
[2 4 8 15 18 17 15 7 4]. Limea barelor este 0.5.
Aici, vectorul
este
scris prescurtat prin
[2:10],
iar vectorul
12

(2)
Comanda
Matlab urmtoare realizeaz al doilea grac din Figura 2.3, corespunztor datelor din
Tabelul 2.1:
barh(5:9, [3 5 6 4 2], 0.5)

3D trei vectori: X (numerele naturale de la 1 la 7), Y
(permutare aleatoare a elementelor lui X ) i Z (numere naturale pare, de la 14 la 2). Cei trei vectori
formeaz coloanele matricei M . Comanda subplot(m,n,p) divizeaz fereastra grac n m n zone
dreptunghiulare i se poziioneaz pe zona de rang p, unde va executa comanda ce urmeaz. Figura 2.4
(3)
n Figura 2.4, am reprezentat prin bare
este generat de codul urmtor:
X = 1:7; Y = randperm(7); Z = 14:-2:2; M = [X'; Y'; Z'];

subplot(1,3,1); bar3(M, 0.75, 'detached')
subplot(1,3,2); bar3(M, 0.75, 'grouped')
subplot(1,3,3); bar3(M, 0.75, 'stacked')
Figura 2.4: Reprezentare 3D prin bare.
Histograme
Cuvntul "histogram" a fost introdus pentru prima oar de Karl Pearson
cuvintele greceti
histos (gr.,
ridicat n sus) i
gramma (gr.,
2 n
1895.
desen, nregistrare). O
Acesta deriv din
histogram
este o
form pictorial a unui tabel de frecvene, foarte util pentru selecii mari de date de tip continuu. Se
aseamn cu reprezentarea prin bare, cu urmtoarele dou diferene: nu exist spaii ntre bare (dei, pot
aprea bare de nalime zero ce arat a spaiu liber) i ariile barelor sunt proporionale cu frecvenele
corespunztoare. Numrul de dreptunghiuri este egal cu numrul de clase, limea dreptunghiului este
2 Karl
Pearson (1857 1936), statistician, avocat i eugenist britanic
13
nlimea (n cm) frecvena

[0, 5)
[5, 10)
[10, 15)
[15, 20)
[20, 25)
[25, 30)
5
13
23
17
10
2
Tabela 2.2: Tabel cu nlimile plantelor.

Tabela 2.3: Histograme pentru datele din Tabelul 2.2.
intervalul clasei, iar nlimea este aa nct aria ecrui dreptunghi reprezint frecvena. Aria total a
tuturor dreptunghiurilor este egal cu numrul total de observaii. Dac barele unei histograme au toate
aceeai lime, atunci nlimile lor sunt proporionale cu frecvenele. nlimile barelor unei histogramei
se mai numesc i
densiti de frecven.
n cazul n care limile barelor nu sunt toate egale, atunci nlimile lor satisfac:
nlimea
Comenzile
=k
frecvena
limea clasei
k = factor
de proporionalitate.
Matlab uzuale pentru crearea histogramelor sunt:
hist(X, n);
hist(X, Y);
N = histc(X,E);
bar(E,N,'histc')
hist3(Y)
%
%
%
%
%
%
%
unde X este un vector, n este numarul de bare

deseneaza distributia vectorului X, cu numarul de bare egal cu
lungimea vectorului Y, centrate in elementele lui Y
returneaza numarul N de valori ale vectorului X, care se afla
intre elementele vectorului E
reprezinta grafic pe N determinat anterior
realizeaza o histogram 3D, unde Y este vector bidimensional
Datele din Tabelul 2.2 reprezint nlimile unui eantion de plante culese de un cercettor dintr-o anumit regiune a rii. Reprezentarea cu histograme asociat acestor date este cea din Figura 2.3. Codul
Matlab care produce acest grac este:
X = [5*rand(5,1); 5*rand(13,1)+5; 5*rand(23,1)+10; 5*rand(17,1)+15; ...

5*rand(10,1)+20; 5*rand(2,1)+25];
% genereaza un vector X ca in Tabelul
C = [2.5 7.5 12.5 17.5 22.5 27.5];
% mijloacele latimilor barelor
hist(X,C);
% deseneaza 6 histograme
axis([-1 31 0 30])
% fixeaza axele
2.2
S presupunem c altcineva ar grupat datele din Tabelul 2.2 ntr-o alt manier, n care clasele nu
sunt echidistante (vezi Tabelul 2.4).
n Tabelul 2.4, datele din ultimele dou clase au fost cumulate
ntr-o singur clas, de lime mai mare dect celelalte, deoarece ultima clas din Tabelul 2.2 nu avea
14

suciente date.
Histograma ce reprezint datele din Tabelul 2.4 este cea din Figura 2.5.
Conform cu
regula proporionalitii ariilor cu frecvenele, se poate observa c primele patru bare au nlimi egale
cu frecvenele corespunztoare, pe cnd nlimea ultimei bare este jumtate din valoarea frecvenei
corespunztoare, deoarece limea acesteia este dublul limii celorlalte.
n general, pentru a construi o histogram, vom avea n vedere urmtoarele:
datele vor mprite (unde este posibil) n clase de lungimi egale.
Uneori aceste divizri sunt naturale,
alteori va trebui s le fabricm.
numrul de clase este, n general, ntre
20.
nregistrai numrul de date ce cad n ecare clas (numite
frecvene).
gura ce conine histograma va avea clasele pe orizontal i frecvenele pe vertical.
Liniile de cod urmtoare simuleaz histograma reprezentat n Figura 2.5:
x = randn(1000, 2);
hist3(x)
% numere repartizate normal
Figura 2.5: Histogram 3D.
Observaia 2.2
[20, )),
(1)
Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 2.4 este
atunci se obinuiete ca limea ultimului interval s e luat drept dublul limii intervalu-
lui precedent.
(2) n multe situaii, capetele intervalelor claselor sunt nite aproximri, iar n locul acestora vom putea
utiliza alte valori. Spre exemplu, s considerm clasa
ce au nlimea cuprins ntre
i
20
15cm
20cm.
[15, 20).
Aceast clas reprezint clasa acelor plante
Deoarece valorile nlimilor sunt valori reale, valorile
15
sunt, de fapt, aproximrile acestor valori la cel mai apropiat ntreg. Aadar, este posibil ca aceast
clas s conin acele plante ce au nlimile situate ntre
14.5cm
(inclusiv) i
putea face referire la aceste valori ca ind valorile reale ale clasei, numite
20.5cm
(exclusiv).
frontierele clasei.
Am
n cazul n
care am determinat frontierele clasei, limea unei clase se denete ca ind diferena ntre frontierele ce-i
15

corespund. n concluzie, n cazul clasei
de frecven
17
6 .
[15, 20),
aceasta are frontierele
14.5 - 20.5,
limea
i densitatea
Pentru exemplicare, n Tabelul 2.6 am prezentat frontierele claselor, limile lor i
densitile de frecven pentru datele din Tabelul 1.4.
nlimea (n cm) frecvena

[0, 5)
[5, 10)
[10, 15)
[15, 20)
[20, 30)
5
13
23
17
12
Tabela 2.4: Tabel cu nlimile plantelor.

Tabela 2.5: Histograme pentru datele din Tabelul 2.4.
nlimea (n cm)
frontierele
[18, 25)
[25, 35)
[35, 45)
[45, 55)
[55, 65)
17.5 25.5
24.5 35.5
34.5 45.5
44.5 55.5
54.5 65.5
limea frecvena densitatea de frecven

8
11
11
11
11
34
76
124
87
64
4.25
6.91
11.27
7.91
5.82
Tabela 2.6: Tabel cu frontierele claselor.

Reprezentare prin sectoare de disc
Se poate reprezenta distribuia unei caracteristici i folosind sectoare de disc (diagrame circulare) (
pie charts),
ecare sector de disc reprezentnd cte o frecven relativ. Aceast variant este util n
special la reprezentarea datelor calitative. Comanda

este
pie(X).
en.,
Matlab pentru un pie chart pentru un vector X
De exemplu, comanda care produce Figura 2.6 este:
T = [10 11.11 15.56 25.55 22.22 15.56];

pie(T,{'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10'})
Exist i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale, folosind comanda
Matlab. n Figura 2.7 am reprezentat datele din Tabelul 1.4.

pie3([34 76 124 87 64])
pie3(x)
din
16

10%
Nota 5
Nota 6
Nota 7
Nota 8
Nota 9
Nota 10
16%
11%
22%
16%
26%
Figura 2.6: Reprezentarea pe disc a frecvenelor relative ale notelor din tabelul cu note
Figura 2.7: Reprezentare pe disc 3D
17
STATS 2 [Dr. Iulian Stoleriu]

Elemente de Teoria probabilitilor
Experiene aleatoare
Numim
experien aleatoare
(sau
experiment aleator)
orice act cu rezultat incert, care poate repetat n
anumite condiii date. Opusul noiunii de experiment aleator este
experimentul determinist,
semnicnd
un experiment ale crui rezultate sunt complet determinate de condiiile n care acesta se desfoar. Rezultatul unui experiment aleator depinde de anumite circumstante ntmpltoare ce pot aparea. Exemple
de experiene aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de via a unui individ,
observarea vremii de a doua zi, observarea numrului de apeluri telefonice recepionate de o centrala
prob.
telefonic ntr-un timp dat. Aplicarea experienei asupra unei colectiviti date se numete
zultatul potenial al unei experiene aleatoare se numete
duble
(6, 6)
eveniment aleator.
Re-
De exemplu: apariia unei
la aruncarea a dou zaruri, extragerea unei bile albe dintr-o urn. Se numete
caz favorabil
pentru evenimentul aleator un caz n care respectivul eveniment se realizeaz. Un eveniment aleator poate
avea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz favorabil se numete
elementar.
Fie
al lui
eveniment
o mulime nevid, pe care o vom numi mulimea tuturor evenimentelor elementare. Un element
l vom nota cu
evenimentul sigur, acel eveniment care se poate realiza n urma

Evenimentul imposibil este acel eveniment ce nu se realizeaz n nicio prob.
Vom numi
oricrei experiene aleatoare.
Evenimentele aleatoare le vom nota cu

care se realizeaz atunci cnd
A, B, C, . . . .
Ac vom nota
Ac = \ A.
Prin
nu se realizeaz. Avem:
evenimentul complementar lui
Pentru a putea cuantica ansele de realizare a unui eveniment aleator, s-a introdus noiunea de
litate.
A,
probabi-
n literatura de specialitate, probabilitatea este denit n mai multe moduri: cu deniia clasic
(apare pentru prima oar n lucrrile lui P. S. Laplace ), folosind o abordare statistic (cu frecvene
relative) sau utiliznd deniia axiomatic (Kolmogorov).
Probabilitatea clasic
este denit doar pentru cazul n care experiena aleatoare are un numr nit de
cazuri posibile i echiprobabile (toate au aceeai ans de a se realiza). n acest caz, probabilitatea de
realizare a unui eveniment este raportul dintre numrul cazurilor favorabile realizrii evenimentului i
numrul cazurilor egal posibile ale experimentului aleator.
Exemplu 3.1
Se cere probabilitatea obinerii unei duble la o singur aruncare a unei perechi de zaruri
{(i, j); i, j = 1, 6}, care are 36 de

{(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}, adic 6
6
P = 36
= 61 .
ideale. Mulimea cazurilor posibile este mulimea tuturor perechilor

elemente. Cazurile favorabile sunt cele din mulimea
elemente. Probabilitatea apariiei unei duble este
Sunt ns foarte multe cazuri n care deniia clasic nu mai poate utilizat. Spre exemplu, n cazul
n care se cere probabilitatea ca, alegnd la ntmplare un punct din ptratul
[0, 1] [0, 1],
acesta s se
situeze deasupra primei bisectoare. n acest caz, att numrul cazurilor posibile, ct i numrul cazurilor
favorabile este innit, fcnd deniia clasic a probabilitii inutilizabil.
Probabilitatea statistic exprim probabilitatea cu ajutorul frecvenelor de realizare a unui eveniment ntrun numr mare de experimente aleatoare realizate n aceleai condiii.
3 Pierre-Simon,
marquis de Laplace (1749 1827), matematician i astronom francez
18
S considerm o experien aleatoare (e.g., aruncarea unui zar) al crei rezultat posibil este evenimentul
aleator
(e.g., apariia feei cu
puncte).
condiii identice (spunem c efectum
Aceste experiment aleator l putem efectua de
probe independente).
nu inueneze rezultatul alteia (

a lui
n cele
probe independente. Raportul
acest raport, ce are urmtoarele proprieti:
Mai mult, exist

notat
P (A).
N (A) frecven absolut
S notm cu
N (A)
N
se va numi
(a)
0 fN (A) 1;
(b)
fN () = 1;
(c)
fN (Ac ) = 1 fN (A), A;
[
fN (A B) = fN (A) + fN (B),
(d)
ori n
probe ale experimentului), astfel nct rezultatul unei probe s
dac
frecven relativ.
de realizare
Notm cu
fN (A)
B = .
lim fN (A) i aceasta este denit ca ind probabilitatea de realizare a evenimentului A,
Aadar, n cazul deniiei statistice a probabilitii, aceasta este limit irului frecvenelor
relative de producere a respectivului eveniment cnd numrul de probe tinde la innit (vezi Teorema 7.4).
n cele ce urmeaz, vom deni noiunea de probabilitate din punct de vedere axiomatic. Aceast axiomatic a fost introduse de matematicianul rus A. N. Kolmogorov
4 (1929) i are la baza teoria msurii.
Deniia axiomatic a probabilitii

Reamintim,
este o mulime abstract, nevid.
Deniia 3.2
Numim
algebr sau cmp o colecie F
de submulimi ale lui
F;
c
(b) dac A F , atunci A F;
(Ac = \ A)
S
(c) dac A, B F , atunci A
BF
astfel nct:
(a)
Propoziia 3.3
(nchidere la complementariere)
(nchidere la reuniune nit).
(c) implic
(c') dac
(Ai )i=1, n F,
atunci
n
[
Ai F.
(3.1)
i=1
Deniia 3.4
Numim
algebr
sau
cmp
(sau
corp borelian)
o colecie
de submulimi ale lui
astfel nct (a), (b) din deniia anterioar sunt satisfcute i, n plus, avem
(c') dac
(An )nN F,
atunci
An F;
(nchidere
la reuniune numrabil)
(3.2)
n=1
Exemplu 3.5
(1) = R i F = {A; A R} este o algebr;

F = {, } este o algebr;
c
(3) Dac A , F = {A, A , , } este o algebr;
(4) Dac A R, atunci mulimea tuturor prilor lui A, P(A), formeaz o -algebr.
(5) Dac e o mulime nevid i F este o algebr pe , atunci perechea (, F)
msurabil. Elementele unei -algebre se numesc mulimi msurabile.
(2)
4 Andrei
Nikolaevich Kolmogorov (1903 1987), matematician rus
se numete
spaiu
19
Deniia 3.6
algebr
Fie
ce conine
o colecie de submulimi ale lui
F.
O notm prin
(F)
Numim
algebr generat de F
cea mai mic
i este, de fapt,
(F) =
A.
(3.3)
AF
Dac
-algebr Borel5 , notat B(E), -algebra

mic -algebr ce conine deschiii lui E .
este -algebra generat de cuburile deschise
e un spaiu topologic, vom numi
mulimilor deschise din
E , i.e., cea mai

B(Rd ) (sau B d )
E = Rd , atunci
A Bd se numete mulime borelian.
Dac
Deniia 3.7
O funcie
P : (, F) R,
care asociaz oricrui eveniment
AF
generat de familia
din
Rd .
O mulime
numrul real
P (A),
cu
proprietile:
(a)
P (A) 0, A F;
(b)
P () = 1;
[
\
P (A B) = P (A) + P (B), A, B F, A B = ,
(c)
se numete
probabilitate.
Aceasta este deniia axiomatic dat de A. N. Kolmogorov. Un cmp de evenimente

o probabilitate
Observaia 3.8
(c)0
dac
se numete
Dac n locul condiiei
(An )nN F
(, F)
nzestrat cu
cmp de probabilitate n sens Kolmogorov i l vom nota cu (, F, P ).

(c)
avem:
disjuncte dou cte dou (Ai
Aj = , i 6= j )
P(
An ) F
, atunci
nN
P(
An ) =
nN
P (An ).
( aditivitate)
atunci P se va numi probabilitate aditiv pe corpul borelian (, F),

borelian de probabilitate.
Observaia 3.9
(1) Fie
(3.4)
nN
o mulime cu
elemente,
P (A) =
F = P()
card
card
iar
A .
(, F, P )
se va numi
cmp
Atunci
(3.5)
F (probabilitatea n sens clasic).

(b) din deniia probabilitii lipsete, atunci spunem ca P denete o msur
pe spaiul msurabil (, F ), iar tripletul (, F, P ) se va numi spaiu cu msur. O probabilitate este
astfel un caz particular al noiunii de msur, n cazul n care msura ntregului spaiu este P () = 1.
denete o msur de probabilitate pe
(2) n cazul n care condiia
Spunem c o proprietate
are loc a.s.
O astfel de mulime se va numi mulime
pentru care
5 Flix
P (A) = 0.
(aproape sigur) dac are loc ntotdeauna, cu excepia unei mulimi
P -nul.
douard Justin mile Borel (1871 1956), matematician si politician francez
20
Cmp de probabilitate
Principalul concept al teoriei probabilitilor este
spaiu probabilistic sau cmp de probabilitate.
urmeaz, cnd ne vom referi la cmp de probabilitate, vom nelege un triplet
(, F, P ),
n cele ce
cu urmtoarele
proprieti:
(i)
este o mulime abstract (mulimea tuturor evenimentelor elementare ale unui experiment
stochastic);
F P () este o -algebr, i.e., sunt

(1 ) F ;
c
(2 ) A F = A F ;
[
(3 ) (An )nN F =
An F ;
(ii)
ndeplinite urmtoarele condiii:
nN
P : F R e o funcie satisfcnd condiiile:

(P1 ) P () = 1;
(P2 ) A F , P (A) 0;
[
X
T
(P3 ) (An )nN , An
Am = , n 6= m, avem P (
An ) =
P (An ).
(iii)
nN
nN
Terminologie:
F se numesc evenimente iar sunt elemente de prob.

A F , cu A -algebr, o vom numi sub- -algebr a lui F .
(iii) A F , P (A) se va numi probabilitatea lui A.
(iv) Dac P (A) = 0, atunci A se va numi mulime P -nul.
(v) Dac P (A) = 1, atunci A este evenimentul sigur sau A se realizeaz aproape sigur (a.s.).
(i) Elementele lui
(ii) O mulime
Dat ind un ir
(An )nN
denim
lim inf An =
n
n general,
\
[
lim sup An =
n
n=1 mn
lim inf An lim sup An .

n
Am
[
\
n caz de egalitate vom spune c irul
(An )nN
lim An = lim inf An = lim sup An .
Observaia 3.10
toate
An
Din punct de vedere euristic,
lim inf An
n
are limit i vom scrie
(3.7)
reprezint evenimentul care se realizeaz cnd
se realizeaz, mai puin un numr nit. Pe de alt parte,
inniti de evenimente din irul
(3.6)
n=1 mn
Am .
lim sup An
nseamn realizarea unei
A1 , A2 , . . . .
Cmp de probabilitate geometric

S presupunem c am dispune de un procedeu prin care putem alege la ntmplare un punct dintr-un
[a, b]. n plus, vom presupune c acest procedeu ne asigur c nu exist poriuni privilegiate ale
intervalului [a, b], i.e., oricare ar dou subintervale de aceeai lungime, este la fel de probabil ca punctul
interval
s cad n oricare dintre aceste intervale. Dac am folosi de mai multe ori procedeul pentru a alege un
numr mare de puncte, acestea vor repartizate aproximativ uniform n
[a, b],
i.e., nu vor exist puncte
n vecintatea crora punctul ales s cad mai des, ori de cte ori este ales. De aici reiese c probabilitatea
21

ca un punct s cad ntr-un subinterval al lui
poziia sa n interiorul lui
[a, b].
[a, b] este dependent de lungimea acelui subinterval i nu de
Mai mult, aceasta este chiar proporional cu lungimea subintervalului.
Se poate observa analogia cu experiena alegerii dintr-un numr de cazuri egal posibile.
Dac
[a, b]
e mulimea cazurilor egal posibile i
probabilitatea ca punctul ales s cad n
[c, d]
P (A) =
n particular, dac
x (c, d),
[c, d] [a, b]
este mulimea cazurilor favorabile, atunci
este
d])
dc
=
.
msura ([a, b])
ba
msura ([c,
atunci probabilitatea ca punctul ales aleator dintr-un interval s coincid
cu un punct dinainte stabilit este zero i, astfel, ntrezrim posibilitatea teoretic ca un eveniment s aib
probabilitatea nul, far ca el s e evenimentul imposibil
n mod cu totul analog, dac se ia la ntmplare un punct dintr-un domeniu planar
D, astfel ca s nu existe
puncte sau poriuni privilegiate n acest domeniu, atunci probabilitatea ca punctul s cad n subdomeniul
D0
.
D0 D este aria
aria D
n trei dimensiuni, o probabilitate similar este raportul a dou volume: volumul mulimii cazurilor favorabile i volumul mulimii cazurilor egal posibile.
Probabiliti condiionate
Fie spaiul probabilistic (, F, P ) i A, B F , cu P (B) > 0. Denim probabilitatea evenimentului A
condiionat de realizarea evenimentului B , notat P (A|B) sau PB (A), prin:
T
P (A B)
PB (A) =
.
P (B)
(3.8)
Observaia 3.11 PB (A) astfel denit va o probabilitate pe F , iar tripletul (, F, PB ) este un cmp
de probabilitate.
Propoziia 3.12
P (Bi ) > 0, i I .
(a)
(formula probabilitilor totale) Fie (Bi )iI , (I N) o partiie a lui , astfel nct
Atunci
P (A) =
P (Bi ) PBi (A), A F.
(3.9)
iI
(b)
(formula lui
Bayes6 ) n condiiile de la (a) i, n plus,
P (A) > 0,
avem:
P (Bi ) PBi (A)

PA (Bi ) = X
, i I.
P (Bj ) PBJ (A)
(3.10)
jI
(c) Dac
T
T T
B1 , B2 , . . . , Bn F , astfel nct P (B1 B2 Bn ) > 0, atunci:
\
\
\
P (B1 B2 Bn ) = P (B1 ) PB1 (B2 ) . . . PB1 T T Bn1 (Bn ).
6 Thomas
Bayes, (1702 1761) matematician britanic
(3.11)
22
Variabile aleatoare
Din punct de vedere euristic, o
variabil aleatoare
este o funcie ce ia valori ntmpltoare. n via de
zi cu zi ntlnim numeroase astfel de funcii, e.g., numerele ce apar la extragerea loto, numrul clienilor
deservii la un anumit ghieu ntr-o anumit perioad, timpul de ateptare a unei persoane ntr-o staie de
autobuz pn la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfritul alfabetului
X, Y, Z
Fie
sau
, ,
i altele.
(, F, P ) un cmp de probabilitate i (E, E) un spaiu msurabil.

X : (, F, P ) (E, E) se numete variabil aleatoare (v.a.)
O funcie
pentru orice
(mai spunem c
dac
B E, X 1 (B) F
(3.12)
Fmsurabil).
este o funcie
n particular, dac:
(E, E) (R, B(R)),
(E, E) (Rd , B(Rd )),
(E, E) (Rnm , B(Rnm ),
Deoarece mulimile
atunci
atunci
este o
este
atunci
{(, x], x R}
variabil aleatoare real;

vector aleator (sau v.a.) d-dimensional();
este o
genereaz
matrice aleatoare.
B(R),
pentru ca
X : (, F, P ) R
s e o v.a. real
este sucient ca
x R, { | X() x} F.
Vom utiliza notaiile
not
{X x} = { | X() x}
(3.13)
i, n general,
not
{X B} = { | X() B}
X : (, F, P ) Rd
Dac
este o v.a., atunci
F(X) = {X 1 (B), B Bd }
algebr, denumit algebra generat de v.a. X .
F astfel nct X este msurabil.
este o
a lui
Dac
(Xn )nN
este un ir de v.a. reale astfel nct
Astfel,
(X) este cea mai mic subalgebr
Xk () X(),
aproape pentru toi
atunci
este tot o v.a. real.
Xi : (, F, P ) (E, E), (i I) o familie de v.a.. Denim algebra generat de

notat (Xi , i I), cea mai mic algebr pentru care Xi , i I , sunt msurabile.
Fie
familia
{Xi , i N},
v.a. discrete) sau

vom numi (v.a. de tip
Variabilele aleatoare pot lua o mulime cel mult numrabil de valori (i le numim
poate lua o mulime continu de valori (un interval nit sau innit din
continuu).
R),
i le
Exemple de v.a. discrete: numrul feei aprute la aruncarea unui zar, numrul de apariii
ale unui tramvai ntr-o staie ntr-un anumit interval, numrul de insuccese aprute pn la primul succes
etc. Din clasa v.a. de tip continuu amintim: timpul de ateptare la un ghieu pn la servire, preul unui
activ nanciar ntr-o perioad bine determinat.
O v.a. discret
se poate scrie sub forma
X() =
X
iJ
xi Ai (), , J N.
(3.14)
23

Aici
este funcia indicatoare a mulimii
n
[
A,
Ai =
iar
Ak = X 1 ({xk }).
Ai
Observm cu uurin c
Aj = , i 6= j.
i=1
tablou de repartiie:
Uneori, unei o v.a. discrete i se atribuie urmtorul

X:
unde
pi = P (X = xi ), i J N,
n
X
pi = 1.
xi
pi

,
(3.15)
Spre exemplu, tabloul de repartiie pentru v.a. ce reprezint
i=1
numrul de puncte ce apare la aruncarea unui zar ideal este:
O v.a.
real se numete
1
2
3
4
5
6
1/6 1/6 1/6 1/6 1/6 1/6
de tip continuu
dac exist

,
f : Rd R
msurabil Borel ce ndeplinete
condiiile:
f (x) 0, a.s.
Z
f (x) dx = 1
R
Z
PX (B) =
f (x) dx,
(a)
(b)
(c)
B F.
B
Funcia
se numete
densitatea de repartiie a lui X .
n urmtoarele dou seciuni, vom deni cele mai importante caracteristici funcionale i numerice ale
unei variabile aleatoare
X : (, F, P ) (Rd , B(Rd )).
Caracteristici funcionale ale variabilelor aleatoare
Repartiia
Repartiia
(sau
legea,
sau
distribuia)
lui
este o msur de probabilitate pe
Bd , PX : Bd [0, 1],
dat
prin
PX (B) = P (X B), B Bd .
(3.16)
Repartiia unei v.a. de tip discret (de forma 3.14) este astfel:
PX (B) =
P (Aj )xj (B),
(3.17)
jJ
unde
Repartiia unei v.a.
(
1,
a (B) =
0,
X
dac
aB
n rest
de tip continuu este:
Z
PX (B) =
f (x) dx,
B
B Bd ,
(3.18)
24

unde
f (x)
este densitatea de repartiie a lui
distribution sau law.
X.
n limba englez, pentru repartiie se folosesc termenii:
Funcia de repartiie (sau funcia de repartiie cumulat)

Numim
funcie de repartiie
ataat v.a reale
o funcie
F : R [0, 1],
dat prin
F (x) = P (X x).
Astfel,
F (x) = PX ((, x]),
adic este repartiia mulimii
Termenul n englez pentru funcia de repartiie este
X = (X1 , X2 , . . . , Xd ) : (, F, P ) Rd
d
denete ca ind F : R [0, 1], dat prin
Dac
(, x].
cumulative distribution function (cdf ).
este un vector aleator, atunci funcia de repartiie se
F ((x1 , x2 , . . . , xd )) = P (X1 x1 ; X2 x2 ; . . . , Xd xd ).
Proprieti ale funciei de repartiie:
este cresctoare (F (x)
F (y), x, y R, x y );
este continu la dreapta ( lim
y&x
lim F (x) = 0
F (y) = F (x), x R);
lim F (x) = 1.
n cazul unei variabile aleatoare discrete, cu tabloul de repartiie dat de (3.15), funcia sa de repartiia
ntr-un punct
este:
F (x) =
pi .
(3.19)
{i; xi x}
Dac
este o variabil aleatoare continu i
este dat de formula:
este densitatea sa de repartiie, atunci funcia de repartiie
Zx
F (x) =
f (t) dt,
x R.
(3.20)
Observaia 3.13
P (X > x), pentru un

Fc : R [0, 1], dat prin F (x) = P (X >
Deseori n calcule probabilistice, avem de calculat evenimentul
x R dat. Numim funcie de repartiie complementar,

x) = 1 F (x), x R.
funcia
Funcia caracteristic
Numim
funcie caracteristic ataat v.a reale X

X (t) =
ei t xk pk ,
o funcie
dac
X=
kJ
Z
X (t) =
ei t x f (x) dx,
R
Aici,
este numrul imaginar,
(i2 = 1).
Proprieti ale funciei caracteristice:
X : R C,
dat prin:
xk Ak , (X =
discret)
kJ
dac
X=
variabil aleatoare continu.
25
|X (t)| = 1, t R;
a X (t) = X (a t), t R, a R;
a X+b (t) = X (a t)eibt , t R, a R;
X (t) = X (t), t R;
X : R C
este uniform continu;
ti , tj R, zi , zj C
n
X
avem
X (ti tj )zi zj 0.
i, j=1
Funcia de probabilitate (sau de frecven)

Fie
o variabil aleatoare discret,
X() =
xi Ai (), , Ai F, J N.
Numim
funcie de
iJ
probabilitate (de frecven) ataat variabilei aleatoare discrete X

f (xi ) = pi ,
Funcia de probabilitate (
unde
o funcie
f : R R,
denit prin
pi = P (Ai ), i J.
en., probability distribution function) pentru o variabil aleatoare discret este
similara densitii de repartiie pentru o variabil aleatoare continu. ntr-adevar, proprietile pe care le
satisface funcia de probabilitate sunt:
f (xi ) 0, i J,
n
X
f (xi ) = 1.
i=1
Caracteristici numerice ale variabilelor aleatoare
Media
Deniia 3.14
Dac
este o v.a. de tip discret,
X() =
xi Ai (), , J N,
atunci
media
iJ
acestei v.a. se denete prin:
E(X) =
xi P (Ai ).
(3.21)
iJ
Deniia 3.15 Dac X este o v.a. de tip continuu, cu densitatea de repartiie f : R R, atunci media
(teoretic) acestei v.a., dac exist (!) (nu toate v.a. de tip continuu admit medie - vezi repartiia Cauchy),
se denete astfel:
Z
E(X) =
xf (x)dx,
(dac
aceast integral exist).
(3.22)
Observaia 3.16 Deniia mediei poate dat ntr-un cadru mult mai general, folosind integrala Lebesque. Aceast integral este generalizarea integralei Riemann. Sumarizm mai jos, gradual i fr
demonstraiile aferente, construcia mediei unei v.a. reale.
26
Pasul 1:
O v.a.
cu
X() =
n
X
xi Ai ()
v.a. simpl.
se numete
Pentru v.a. simpl
denim
i=1
media (notat cu
E(X))
astfel:
not
X() dP () =
E(X) =
Pasul 2:
Dac
X :R
X 0,
n
X
xi P (Ai ).
i=1
atunci exist un ir
Xn : R, (n N)
de v.a. simple astfel
nct
0 X1 () Xn () X(),
i
lim Xn () = X().
n
Denim
E(X) = lim E(Xn ).

n
Pasul 3:
Fie
X:R
o v.a.. Atunci
X=
media lui X ,
ori de cte ori mcar una dintre
este o
Dac
v.a. integrabil.
X = X1 + iX2 : C,
unde
X () = max{X(), 0} = (X)+ ().
X + () = max{X(), 0},
n acest caz denim
X ,
X+
E(X) = E(X + ) E(X ),
E(X + )
E(X )
este nit. Cnd ambele sunt nite, atunci spunem c
denim media v.a. complexe
prin
E(X) = E(X1 ) + iE(X2 ),

ori de cte ori ambele medii exist i sunt nite.
Dac
este un vector aleator,
X = (X1 , X2 , . . . , Xd )T : Rd ,
atunci denim media lui
prin
E(X) = (E(X1 ), E(X2 ), . . . , E(Xd ))T .
Propoziia 3.17
Fie
X : Rd
o v.a. cu densitatea de repartiie
Atunci
i o funcie msurabil
g : Rd R.
Z
E(g(X)) =
n particular, dac
g:RR
g(x)f (x) dx.

Rd
este funcia identic, atunci:
Z
E(X) =
Z
X() dP () =
xf (x) dx,
R
i astfel redescoperim deniia mediei unei v.a. de tip continuu din Deniia 3.15.
Relaia anterioar se mai numete i
pe mulimea
formula de transport
pentru integral, deoarece integrala abstract
este "transportat" ntr-o integrala Riemann pe
R.
Dispersia (sau variana) i abaterea standard

X este o variabil aleatoare i X = X E(X) (numit abaterea lui X de la media sa), atunci
E(X) = 0. Aadar, nu putem msur gradul de mprtiere a valorilor lui X n jurul mediei sale doar
calculnd X E(X). Avem nevoie de o alt msur. Aceasta este dispersia variabilei aleatoare.
Dac
27
Deniia 3.18
denim
Dac
dispersia lui X
este o v.a. discret,
X() =
xi Ai (), , J N, cu media E(X) = m,
iJ
ca ind:
D2 (X) =
X
(xi m)2 pi ,
unde
pi = P (Ai ), i J.
(3.23)
iJ
Deniia 3.19
E(X) = m R).
Fie
X : R
o v.a.
Denim dispersia lui
de tip continuu pentru care media poate denit (exist

(sau variana lui
D (X) = E[(X m) ] =
X)
cantitatea
(x m)2 f (x) dx.
Notaiile consacrate pentru dispersie sunt
Observaia 3.20
D2 (X)
sau
2.
Dispersia scris ca integral abstract (vezi propoziia anterioar) este:
(X() m)2 dP ().
Numim
abatere standard (sau deviaie standard) cantitatea = 2 .
(3.24)
28
Experiene aleatoare n Matlab

Generarea de numere (pseudo-)aleatoare
Numerele generate de
el vor
Matlab sunt rezultatul compilrii unui program deja existent n Matlab, aadar
pseudo-aleatoare.
Putem face abstracie de modul programat de generare ale acestor numere i
s considerm c acestea sunt numere aleatoare.
Generarea de numere uniform repartizate ntr-un interval, U(a, b)

Funcia rand
Funcia
rand
genereaz un numr aleator repartizat uniform n
[0, 1].
De exemplu, comanda
X =
(rand < 0.5)
simuleaz aruncarea unei monede ideale. Mai putem spune ca numrul

numr aleator repartizat
astfel generat este un
B(1, 0.5).
De asemenea, numrul
Y =
urmeaz repartiia
rand(m, n)
B(10, 0.5)
sum(rand(10,1) < 0.5)
(simularea a
10
genereaz o matrice aleatoare cu
a + (b a) rand
Comanda
Folosind comanda
aruncri ale unei monede ideale).
mn
componente repartizate
U(0, 1).
genereaz un numr pseudo-aleator repartizat uniform n
[a, b].
s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-
zentnd starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimba
starea curent a generatorului sau iniializarea lui, putem folosi comanda
rand(method, s)
unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state',
'seed' sau 'twister'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului. De exemplu,
rand('state', 125)
xeaz generatorul la starea
125.
29
Observaia 4.1
Printr-o generare de numere aleatoare uniform distribuite n intervalul
numere aleatoare care au aceeai ans de a oriunde n
(a, b),
(a, b)
nelegem
i nu numere la intervale egale.
Figura 4.1 reprezint cu histograme date uniform distribuite n intervalul
Matlab:
[2, 3],
produse de comanda
hist(5*rand(1e4,1)-2,100)
Figura 4.1: Reprezentarea cu histograme a datelor uniforme.

Generarea de numere repartizate normal, N (, )
Funcia randn
Funcia
randn
randn(m, n)
genereaz un numr aleator repartizat normal
mn
N (0, 1).
N (0, 1).
Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generatorului, folosim comanda:
randn(method, s)
method este metoda prin care numerele aleatoare sunt generate (aceasta poate 'state'
'seed'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului.
unde unde
sau
Comanda
m+ randn genereaz un numr aleator repartizat normal N (m, ).
De exemplu, codul
urmtor produce Figura 4.2:
x = 0:0.05:10;
y = 5 + 1.1*randn(1e5,1);
hist(y,x)
% date distribuite N (5, 1.1)
30

250
200
150
100
50
10
Figura 4.2: Reprezentarea cu histograme a datelor normale.

Generarea de numere aleatoare de o repartiie dat
Comenzile
Matlab
legernd(<param>, m, n)
random('lege',
<param>, m, n).
Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu

numere aleatoare ce urmeaz repartiia
lege.
n loc de
m linii i n coloane, avnd componente
lege putem scrie oricare dintre expresiile din tabelul
din Figura 6.1. De exemplu,
normrnd (5, 0.2,

100 10
100, 10);
N (5, 0.2).
random ('poiss',0.01, 200, 50);

200 50
P(0.01).
Utiliznd comanda
randtool
putem reprezenta interactiv selecii aleatoare pentru diverse repartiii.
Comanda deschide o interfa
grac ce reprezint prin histograme seleciile dorite, pentru parametrii dorii (vezi Figura 4.3). Datele
generate de
Matlab pot exportate n ierul Workspace cu numele dorit. De exemplu, folosind datele
din Figura 4.3, am generat o selecie aleatoare de

parametri
=2
= 0.5
10000
de numere ce urmeaz repartiia lognormal de
i am salvat-o (folosind butonul
Export) ntr-un vector L.
31
Figura 4.3: Interfa pentru generarea de numere aleatoare de o repartiie dat.

Simularea aruncrii unei monede
Comanda
X = (rand < 0.5);
simuleaz aruncarea unei monede ideale. Vom mai spunem c numrul
numr aleator repartizat
B(1, 0.5)
astfel generat este un
(similar cu schema bilei revenite, n cazul n care o urn are bile
albe i negre n numr egal i extragem o bil la ntmplare)
Numrul
Y =
urmeaz repartiia
B(30, 0.5)
sum (rand(30,1)<0.5)
(simularea a
30
aruncri ale unei monede ideale).
Acelai experiment poate modelat i prin comanda
round(rand(30,1))
Pentru a numra cte fee de un anumit tip au aprut, folosim
sum(round(rand(30,1)))
Exemplu 4.2
Dorim s scriem o funcie
MATLAB care s simuleze aruncarea repetat a unei monede
msluite, pentru care probabilitatea teoretic de a obine o anumit fa este
p (0, 1).
S se determine
32

probabilitatea ca la aruncarea monedei s obinem faa cu
stema
i s deseneze o gur care s justice
grac convergena irului frecvenelor relative la aceast probabilitate.
function moneda(N,p);
x = rand(1, N);
V = (x < p);
Sn = cumsum(V);
A = 1:N;
Fn = Sn./A;
semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:');
axis([0 N 0 1]);
title('moneda')
xlabel('aruncari');ylabel('probabilitatea')
%
%
%
%
%
%
%
%
%
%
functia moneda.m
aruncam moneda
valoarea de adevar a lui (x<p)
suma cumulata
vectorul nr de aruncari
frecventa relativa a stemei
reprezinta grafic Fn
axele
numele figurii
numele axelor
moneda
zar
1
5/6
probabilitatea
probabilitatea
3/4
0.5
0.5
1/4
1/6
0
10
10
10
aruncari
10
10
10
10
10
aruncari
10
10
Figura 4.4: Simularea aruncrii unei monede corecte (a) i a unui zar corect (b)
O rulare a funciei, e.g.,
moneda(1e5,0.5),
produce gracul din Figura 4.4(a). De asemenea, se poate
simula i aruncarea unei monede msluite, dac alegem ca parametrul
Simularea n
Matlab a unei v.a.
0.5, 0.2
i, respectiv,
0.3.
X:
Pentru a modela aceast variabil aleatoare n
din intervalul
[0, 1].
0.5.
rezultate posibile,
a, b
c,
cu probabilitile de
Tabloul de repartiie asociat este:
un numr
al funciei s e diferit de
de tip discret
S considerm o variabil aleatoare ce poate avea doar

realizare
Dac
a
b
c
0.5 0.2 0.3

,
Matlab, procedm astfel: alegem uniform la ntmplare
x < 0.5,
atunci convenim c rezultatul
s-a realizat, dac
33

0.5 < x < 0.7,
atunci rezultatul
s-a realizat. Altfel, rezultatul v.a.
este
c.
Dac acest experiment se
repet de multe ori, atunci rezultatele pot folosite n estimarea probabilitilor de realizare a variabilei
aleatoare. Cu ct vom face mai multe experimente, cu att vom aproxima mai bine valorile teoretice ale
probabilitilor, deci putem spune c am aproximat variabila aleatoare
n
Matlab, scriem:
X.
syms a b c
% declaram a, b si c ca variabile simbolice
r = rand;
X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)
Folosind aceast metod, putem simula aruncarea unui zar ideal. Avem
apariia unei fee cu
1, 2, 3, 4, 5
sau
puncte.
[0, 1]
rezultate posibile, i anume,
Pentru a simula acest experiment, modicm n mod
convenabil problema. Vom considera c punctele din intervalul

posibile i mprim intervalul
[0, 1] formeaz mulimea tuturor cazurilor
subintervale de lungimi egale:

1
1 2
2 3
3 4
4 5
5
(0, ), ( , ), ( , ), ( , ), ( , ), ( , 1) .
6
6 6
6 6
6 6
6 6
6
corespunztoare, respectiv, celor ase fee, s zicem n ordinea cresctoare a punctelor de pe ele. Vom
vedea mai trziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete nchise, deschise
sau mixte nu are efect practic asupra calculului probabilitii dorite. Acum, dac dorim s simulm n
Matlab apariia feei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numr "la
ntmplare" din intervalul
Matlab
[0, 1]
i vericm dac acesta se a n intervalul
( 62 , 36 ).
Aadar, comanda
u = rand; (u < 3/6 & u > 2/6)
simuleaz aruncarea unui zar ideal. Ca o observaie, deoarece cele
fee sunt identice, putem simplica
aceast comanda i scrie
(rand < 1/6).
Exemplu 4.3
Dorim s simuleze n
Matlab aruncarea repetat a unui zar corect. S se determine pro-
babilitatea ca la aruncarea zarului s obinem faa cu trei puncte i s deseneze o gura care s justice
grac convergena irului frecvenelor relative la aceast probabilitate (vezi Figura 4.4(b)).
function dice(N);
% functia dice.m
u = rand(1, n);
% probabilitatea aparitiei fetei
Z1 = (u < 3/6 & u > 2/6);
% aparitia fetei
freq = cumsum(Z1)./(1:n);
% frecventa relativa
subplot(1,2,2);
% activeaza fereastra din stanga
semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:');
axis([0 n 0 1]);
% axele
title('zar')
% numele figurii
xlabel('aruncari');ylabel('probabilitatea')
dice.m simuleaz aruncarea unui zar
dice(1e5) produce gracul din Figura 4.4(b).
Fiierul
corect de un numr
de ori.
O rulare a funciei, e.g.,
34
Metoda Monte Carlo

Metoda Monte Carlo este o metod de simulare statistic, ce produce soluii aproximative pentru o mare
varietate de probleme matematice prin efectuarea de experimente statistice pe un computer.
Se poate
aplica att problemelor cu deterministe, ct i celor probabilistice i este folositoare n obinerea de soluii
numerice pentru probleme care sunt prea dicile n a rezolvate analitic. Este o metod folosit de secole,
dar a cptat statutul de metod numeric din anii
1940.
1946,
7 a devenit primul matema-
S. Ulam
tician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatul
Monaco, unde se practic foarte mult jocurile de noroc, n special datorit jocului de rulet (ruleta = un
generator simplu de numere aleatoare). De asemenea, Nicholas Metropolis
8 a adus contribuii importante
metodei.
Are la baz generarea de numere aleatoare convenabile i observarea faptului c o parte dintre acestea
veric o proprietate sau anumite proprieti. n general, orice metod care are la baz generarea de numere aleatoare n vederea determinrii rezultatului unui calcul este numit o metod Monte Carlo. Orice
eveniment zic care poate vzut ca un proces stochastic este un candidat n a modelat prin metoda MC.
Integrarea folosind metoda Monte Carlo

Dorim s folosim metode Monte Carlo pentru evaluarea integralei
Z
I=
f (x) dx.
(4.1)
a
n general, pentru a evalua numeric integral, metoda Monte Carlo nu este prima alegere, nsa este foarte
util n cazul n care integral este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient
dect alte metode de aproximare cnd dimensiunea spaiului e mare.
Dac dorim aplicarea metodei MC, atunci avem de ales una din urmtoarele variante:
Varianta 1
(poate aplicat doar pentru
f 0.
Dac
i valori negative, dar este mrginit inferior,
atunci putem utiliza o translaie, astfel nct s avem de integrat o funcie nenegativ) ncadrm gracul
funciei
ntr-un dreptunghi
D = [a, b] [0, d],

unde
d > sup f .
Evalum integrala folosindu-ne de calculul probabilitii evenimentului
A,
c un punct
[a, b]
ales la ntmplare n interiorul dreptunghiului
s se ae sub gracul funciei
experien aleatoare: alegem n mod uniform (comanda
rand
f (x).
Facem urmtoarea
ne ofer aceast posibilitate n
un punct din interiorul dreptunghiului i testm dac acest punct se a sub gracul lui
experiena de un numr
(mare) de ori i contabilizm numrul de apariii
f (x).
Matlab)
Repetm
f (N ) ale punctului sub grac.
Pentru un numr mare de experiene, probabilitatea ca un punct generat aleator n interiorul dreptunghiului s se ae sub gracul funciei va aproximat de frecvena relativ a realizrii evenimentului,
adic
P '
f (N )
.
N
Pe de alt parte, probabilitatea teoretic este
P =
7 Stanislaw
8 Nicholas
I
aria dreptunghi
Marcin Ulam (1909 1984), matematician de origine polonez, nscut n Lvov, Ucraina
Constantine Metropolis (1915 1999), zician grec
35

de unde aproximarea
I ' aria
Totui, aceast metod nu e foarte ecient, deoarece
f (N )
.
N
dreptunghi
(4.2)
trebuie s e foarte mare pentru a avea o precizie
bun.
Exemplu 4.4
Utiliznd metoda Monte Carlo, s se evalueze integrala
Z5
ex dx.
I=
2
Soluie:
Generm
106
puncte aleatoare n interiorul ptratului
acestea se a sub gracul funciei
f (x) = ex , x [0, 1].
[2, 5] [0, 1]
Urmtoarea funcie
i vericm care dintre
Matlab calculeaz inte-
grala dorit:
function I = integrala(N)
x = 7*rand(N,1)-2; y = rand(N,1);
f = find(y < exp(-x.^2));
I = 7* length(f)/N;
O rulare a funciei,
Varianta 2
integrala(1e6),
%
%
%
%
functia integrala.m
genereaza N numere aleatoare in [2, 5] [0, 1]
2
numar punctele aflate sub graficul functiei ex
formula (4.2)
ne furnizeaz rezultatul
I = 1.7675.
Putem rescrie integrala n forma
Z
I = (b a)
f (x)h(x) dx,
(4.3)
a
unde
h(x) =
Funcia
h(x)
1
ba
0
x [a, b],
dac
altfel.
denit mai sus este densitatea de repartiie a unei v.a.
X U[a, b],
iar relaia (4.1) se
rescrie
I = (b a)E(f (X)).
Folosind legea slab a numerelor mari, putem aproxima
(4.4)
prin:
baX
f (Xk ),
I'
N
k=1
unde
Xk
sunt numere aleatoare ce urmeaz repartiia
U[a, b].
Putem generaliza aceast metod pentru calculul integralelor de tipul
Z
f (x) dx,
V
unde
V Rn .
(4.5)
36
Exemplu 4.5
Soluie:
S se evalueze integrala din Exemplul (4.4) folosind formula (4.5).
Matlab este urmtorul:
Codul
x = 7*rand(1e6,1)-2;
g = exp(-x.^2);
I = 7*mean(g)
% genereaza 106 numere aleatoare U(2, 5)

2
% g(x) = ex
% 7*media lui g(x)
sau, restrns, putem apela urmtoarea comand:
estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2)))
% I 1.7671
Exemplu 4.6
Evalund integrala
Z1
I=
ex dx
0
printr-o metod Monte Carlo s se estimeze valoarea numrului transcendent
Soluie:
estimate = mean(exp(rand(10^6,1))) + 1
e. (e = I + 1).
% e 2.7183
Exemplu 4.7 (aproximarea lui folosind jocul de
darts
n ce const jocul? S presupunem c suntem la nivelul nceptor. Avem de aruncat o sgeat ascuit,
ce poate penetra cu uurin lemnul, spre o tabl ptrat din lemn, n interiorul cruia se a desenat
un cerc circumscris ptratului. Dac sgeata se nnge n interiorul discului atunci ai ctigat un punct,
dac nu - nu ctigai nimic. Repetm jocul de un numr
puncte acumulate, s zicem c acest numr este
de ori i contabilizm la sfrit numrul de
N .
S presupunem c suntei un juctor slab de darts (asta implic faptul c orice punct de pe tabl are
aceeai ans de a intit), dar nu aa de slab nct s nu nimerii tabla. Cu alte cuvinte, presupunem
c de ecare dat cnd aruncai sgeata, ea se nnge n tabl.
Se cere s se aproximeze valoarea lui
pe baza jocului de mai sus i s se scrie un program n
Matlab
care s simuleze experimentul.
Soluie:
A evenimentul ca sgeata s se nng chiar n interiorul discului. n cazul n care

N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat
N
frecvenelor relative, adic lim
.
n N
S notm cu
numrul de aruncri
de limit irului
Pe de alt parte,
P (A) =
aria disc
aria perete
= 4 .
Aadar, putem aproxima
'4
Funcia
lui
N
N
(pentru N 1).
prin
(4.6)
Matlab care aproximeaz pe este prezentat mai jos. Metoda care a stat la baza aproximrii
este o
metoda Monte Carlo.
37
function Pi = darts(N)
% numar de aruncari
theta = linspace(0,2*pi,N);
% genereaza vectorul theta
x = rand(N,1); y = rand(N,1);
% (x,y) - intepaturi
X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta);
% cerc in polar
plot(x,y,'b+',X,Y,'r-');
% deseneaza cercul si punctele
S = sum((x-.5).^2 + (y-.5).^2 <= 1/4);
% numarul de succese
Prob = S/N;
% frecventa relativa
approxpi = 4*Prob;
% aproximarea lui pi
axis([0 1 0 1]);
% deseneaza axele
title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);
O simpl rulare a funciei,
darts(2000),
ne genereaz Figura 4.5.
Figura 4.5: Simularea jocului de darts.
38

Elemente de Teoria probabilitilor (II)
Caracteristici numerice ale variabilelor aleatoare (continuare)
Momente
X
Pentru o v.a.
de tip discret,
X() =
xi Ai (), , J N,
iJ
cu
pi = P (Ai ), i J , denim
X
k (X) = E(X k ) =
xki pi
E(X) = m
momentele:
(momente iniiale de ordin
k);
(momente absolute de ordin
k);
iJ
k
k (X) = E(|X| ) =
|xi |k pi
iJ
X
(xi m)k pi
k (X) = E((X m)k ) =
(momente iniiale centrate de ordin
k);
iJ
k
k (X) = E(|X m| ) =
|xi m|k pi
(momente absolute centrate de ordin
k);
iJ
Pentru o v.a.
de tip continuu ce admite medie
k (X) = E(X k ) =
xk f (x) dx =
m = E(X) < ,
denim momentele:
X k dP
(momente iniiale de ordin k);
R
Z
Z
k (X) = E(|X|k ) =
|x|k f (x) dx =
|X|k dP
(momente absolute de ordin k);
R
Z
Z
k (X) = E((X m)k ) = (x m)k f (x) dx = (X m)k dP
(momente iniiale centrate);
R
Z
Z
k
k
k (X) = E(|X m| ) =
|x m| f (x) dx =
|X m|k dP
(momente absolute centrate);
Cuantile
Fie o v.a.
cu funcia de repartiie
Deniia 5.1
Pentru
(0, 1),
F (x).
denim
cuantila de ordin
valoarea
F (x ) = P (X x ) = .
Observaia 5.2
(1)
astfel nct:
(5.1)
Cuantilele sunt msuri de poziie, ce msoar locaia unei anumite observaii fa
de restul datelor. Aa cum se poate observa din Figura 5.1, valoarea

aria haurat este chiar
este acel numr real pentru care
39
Figura 5.1: Cuantila de ordin .
(2)
n cazul n care
este o variabil aleatoare discret, atunci (5.1) nu poate asigurat pentru orice
ns, dac exist o soluie a acestei ecuaiei
F (x) = ,
atunci exist o innitate de soluii: intervalul
ce separ dou valori posibile.
mediana ( = 1/2), cuartile ( = i/4, i = 1, 4), decile ( =

j/10, i = 1, 10), percentile ( = k/100, k = 1, 100), promile ( = l/1000, l = 1, 1000).
(3)
Cazuri particulare de cuantile:
Modul (valoarea cea mai probabil)

Este acea valoare
pentru care
f (x ) (densitatea de repartiie sau funcia de probabilitate) este maxim.
O repartiie poate s nu aib niciun mod, sau poate avea mai multe module.
Inegaliti ntre momente

(a)
r (X + Y ) cr (r (X) + r (Y )),
(b)
(r (X))1/r (s (Y ))1/s , 0 r s;
(c)
E|XY | (E|X|r )1/r (E|Y |s )1/s , r, s > 1, r1 + s1 = 1;
(d)
(E|X + Y |r )1/r (E|X|r )1/r + (E|Y |r )1/r ;
(e) Fie
g:RR
(f ) Dac
unde
convex. Atunci avem
a > 0, p N ,
cr = 1
r (0, 1]
cr = 2r1
pentru
(Lyapunov 9 )
(H lder10 );
(M inkowski11 )
g(E(X)) E(g(X)).
(Jensen12 )
atunci avem:
P ({|X| a})
9 Aleksandr
pentru
p (X)
;
ap
(M arkov 13 )
Mikhailovich Lyapunov (1857 1918), matematician rus, student al lui Cebev

Ludwig Hlder (1859 1937), matematician german
11 Hermann Minkowski (1864 1909), matematician german
12 Johan Ludwig William Valdemar Jensen (1859 1925), matematician si inginer danez
13 Andrei Andreyevich Markov (1856 1922), matematician rus, student al lui Cebev
10 Otto
r > 1.
40

n particular, pentru
p=2
e nlocuit cu variabila aleatoare
P ({|X m| a})
2
.
a2
a = k ,
k N,
Dac n inegalitatea lui Cebev lum
unde
(X m), (m = E(X)),
obinem:
(Cebev14 )
(5.2)
atunci obinem:
P ({|X m| k})
1
,
k2
(5.3)
sau, echivalent:
P ({|X m| < k}) 1

n cazul particular
k = 3,
obinem
1
.
k2
(5.4)
regula celor 3 :
1
0.1.
9
P ({|X m| 3})
sau
P ({m 3 < X < m + 3})

semnicnd c o mare parte din valorile posibile pentru
8
,
9
(5.5)
se a n intervalul
[m 3, m + 3].
Standardizarea unei variabile aleatoare

Fie variabila aleatoare
Deniia 5.3
X,
de medie
Variabila aleatoare
i dispersie
X =
X m
2.
se numete
variabila aleatoare standardizat
(sau nor-
mat).
Proprietile variabilei aleatoare standardizate:
E(X) = 0,
D2 (X) = 1.
Corelaia i coecientul de corelaie

Conceptul de corelaie (sau covarian) este legat de modul n care dou variabile aleatoare tind s se
modice una fa de cealalt; ele se pot modica e n aceeai direcie (caz n care vom spune c
sunt direct
<sau
pozitiv> corelate) sau n direcii opuse (X i
X, Y v.a. cu
X + Y , obinem:
Fie
mediile, respectiv,
mX , m Y
i dispersiile
2 ,
X
sunt invers
respectiv,
<sau
Y2 .
= E[(X mX )2 ] + E[(Y mY )2 ] + 2E[(X mX )(Y mY )]
14 Pafnuty
Lvovich Chebyshev (1821 1894), matematician rus
Calculnd dispersia sumei
D2 (X + Y ) = E[(X + Y (mX + mY )2 )]
= D2 (X) + D2 (Y ) + 2E[(X mX )(Y mY )].
negativ> corelate).
41
Deniia 5.4
cov(X,
Denim
corelaia
(sau
covariana) v.a. X
Y,
Proprietatea 5.5
(a)
Y ),
atunci
Fie v.a.
cantitatea
Y,
Deniia 5.6
X
cov(X,
Y ).
(5.6)
(b) cov(X, Y ) = cov(Y, X) = E[(X mX )(Y mY )] = E(XY ) mX mY .

(c) cov(X, X) = D2 (X), pentru orice v.a. X .
(d) cov(X + Y, Z) = cov(X, Z) + cov(Y, Z), pentru orice v.a. X, Y, Z .
(e) Dac X i Y sunt v.a. independente (i.e., realizrile lui X nu depind de realizrile
cov(X, Y ) = 0. Reciproca nu este ntotdeauna adevrat.
standardizate,
dizate
Y ),
Continund irul anterior de egaliti, putem scrie:
D2 (X + Y ) = D2 (X) + D2 (Y ) + 2
lui
notat prin cov(X,
Y ) = E[(X mX )(Y mY )].
Y.
pentru care presupunem c variaiile
X mX
X=
X
Se numete
Y mY
Y =
Y
Y2
sunt nite i nenule. Considerm v.a.
coecient de corelaie (teoretic) al v.a. X
covariana variabilelor standar-
Notm astfel:
(X, Y ) =
Observaia 5.7
zrile celeilalte
2
X
(a)
Dac
cov(X,
Y)=
cov(X,
Y)
X Y
(5.7)
sunt independente (i.e., realizrile uneia sunt independente de reali-
vezi seciunea urmtoare), atunci
(X, Y ) = 0.
(b)
(c)
1 (X, Y ) 1, pentru orice v.a. X i Y .

Dac Y = aX + b (a, b R), atunci
(
+1, dac a = 1;
(X, Y ) =
1, dac a = 1.
Independena
Conceptul de independen a v.a.
sau a evenimentelor este foarte important din punctul de vedere al
calculului probabilitilor evenimentelor compuse din evenimente mai simple.
Independena este unul
dintre conceptele principale care deosebesc Teoria probabilitilor de Teoria msurii, neavnd echivalent
n teoria din urm.
Deniia 5.8
Fie
(, F, P )
un cmp de probabilitate,
A, B F
dou evenimente arbitrare.
Dac anumite informaii despre evenimentul B au inuenat n vreun fel realizarea evenimentului
A, atunci vom spune c A i B sunt evenimente dependente. De exemplu, evenimentele A = mine plou
i B = mine mergem la plaj sunt dependente.
(2)
S presupunem c evenimentul B satisface relaia P (B) > 0. Vom spune c evenimentele A i
B sunt independente dac probabilitatea lui A este independent de realizarea evenimentului B , adic
(1)
probabilitatea condiionat
P (A| B) = P (A),
(5.8)
42

echivalent cu
T
P (A B)
= P (A).
P (B)
Putem rescrie ultima egalitate sub forma simetric:
P (A
B) = P (A) P (B).
(5.9)
Deoarece n relaia (5.9) nu mai este nevoie de condiie suplimentara pentru
P (B),
este preferabil s
denim independen a dou evenimente arbitrare astfel:

Dou evenimente,
Deniia 5.9
submulime
A, B F
se numesc
A1 , A2 , . . . , An se numesc independente n ansamblu dac pentru ecare

{1, 2, . . . , n} avem
\
\ \
P (Ai1
Ai1
Aik ) = P (Ai1 ) P (Ai2 ) . . . P (Aik ).
(5.10)
(i) Evenimentele
{i1 , i2 , . . . , ik }
a mulimii
A1 , A2 , . . . , An
(ii) Spunem c evenimentele

evenimente,
Ai
independente (stochastic) dac relaia (5.9) are loc.
Aj ,
sunt
independente dou cte dou dac pentru oricare dou
din aceast mulime, avem
P (Ai
(iii) n general, evenimentele
Aj ) = P (Ai ) P (Aj )).
(Ai )iI F, (I N), se numesc independente

\
Y
P(
Aj ) =
P (Aj ),
jJ
pentru orice
(5.11)
dac
(5.12)
jJ
J I, Jnit.
Observaia 5.10
Independen dou cte dou a evenimentelor nu implic independena n ansamblu.
S exemplicm considernd urmtoarea experien.

Considerm aruncarea a dou monede ideale. Fie
stema",
evenimentul ca "faa ce apare la prima moned este
evenimentul ca "faa ce apare la a doua moned este stema", iar
evenimentul ca "doar la o
moned din cele dou a aprut faa cu stema". Se observ cu uurin c evenimentele
A, B
sunt
independente dou cte dou, deoarece:
P (A
1
C) = P (A) P (C) = ;
4
P (B
1
C) = P (B) P (C) = ;
4
P (A
1
B) = P (A) P (B) = .
4
Totodat, mai observm c oricare dou dintre ele determina n mod unic pe al treilea. Aadar, independena a dou cte dou nu implic independena celor trei evenimente n ansamblu, fapt observat i din
relaia
0 = P (A
1
C) 6= P (A) P (B) P (C) = .
8
Deniia 5.11 Dac {Mi , i I N}, cu Mi F , este o familie de corpuri, atunci spunem c
acestea sunt independente (stochastic) dac pentru orice submulime nit J I i pentru orice alegere
de evenimente
Aj Mj ,
este ndeplinit condiia
P(
\
jJ
Aj ) =
Y
jJ
P (Aj ).
(5.13)
43
Deniia 5.12
(1)
(Xi )iI : (, F) R, (I N), sunt independente (n ansamblu)

Xi , {(Xi )}iI , formeaz o familie de corpuri independente.
: (, F) R, (I N), sunt independente dou cte dou dac oricare ar
Spunem c v.a.
dac
corpurile
(2)
Spunem c v.a.
generate de
(Xi )iI
dou variabile aleatoare din aceast familie, acestea sunt independente n sensul deniiei de la (1).
Observaia 5.13
Deniia variabilelor aleatoare independente (n ansamblu) este echivalent cu:
k 2 i orice alegere a mulimilor boreliene B1 , B2 , . . . , Bk Bd , avem:

\
\
\
P {X1 B1 } {X2 B2 } {Xk Bk } = P (X1 B1 ) P (X2 B2 ) . . . P (Xk Bk ),
Pentru orice
sau, cu alte cuvinte, evenimentele
Exemplu 5.14
X2 ,
(5.14)
{X1 B1 }, {X2 B2 }, . . . , {Xk Bk } sunt independente n ansamblu.
S considerm aruncarea unui zar. Aruncm zarul de dou ori i notm cu
X1 , respectiv,
v.a. ce reprezint numrul de puncte aprute la ecare aruncare. Evident, valorile acestor v.a. sunt
din mulimea
{1, 2, 3, 4, 5, 6}.
Aadar,
Xi : {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:

\
1
P {X1 = i} {X2 = j}
= P ({X1 = i, X2 = j}) =
36
= P ({X1 = i}) P ({X2 = j}),

aceast nsemnnd c variabilele aleatoare
X1
X2
i, j {1, 2, 3, 4, 5, 6},
sunt independente stochastic (aruncrile au fost
efectuate independent una de cealalt).
Teorema 5.15
Considerm familia de v.a.
{X1 , X2 , . . . , Xn },
Xi : (, F) R, i = 1, n.
Urmtoarele armaii sunt echivalente:
(i)
(ii)
X1 , X2 , . . . , Xn
sunt v.a. independente stochastic;
P (X1 B1 , X2 B2 , . . . , Xn Bn ) = P (X1 B1 ) P (X2 B2 ) . . . P (Xn Bn ), Bi Bd ;
(iii)
F(X1 , X2 ,..., Xn ) (x1 , x2 , . . . , xn ) = FX1 (x1 ) FX2 (x2 ) . . . FXn (xn ), x1 , x2 , . . . , xn R;
(iv)
(X1 , X2 ,..., Xn ) (t) = X1 (t1 ) X2 (t2 ) . . . Xn (tn ), t = (t1 , t2 , . . . , tn ) Rn .
(5.15)
Dou dintre dintre cele mai importante proprieti ale v.a. independente sunt urmtoarele:
Teorema 5.16
Dac
X1 , X2 , . . . , Xn
sunt v.a. reale, independente, astfel nct
E(|Xk |) < , k = 1, 2, . . . , n,
atunci
E(|X1 X2 . . . Xn |) <
i:
E(X1 X2 . . . Xn ) = E(X1 ) E(X2 ) . . . E(Xn ).
Teorema 5.17
Dac
X1 , X2 , . . . , Xn
(5.16)
sunt v.a. reale, independente, astfel nct
D2 (Xk ) < , k = 1, 2, . . . , n,
atunci
D2 (X1 + X2 + . . . + Xn ) <
i:
D2 (X1 + X2 + . . . + Xn ) = D2 (X1 ) + D2 (X2 ) + . . . + D2 (Xn ).
(5.17)
44
Tipuri de convergen a irurilor de variabile aleatoare

Fixm
(, F, P )
un cmp de probabilitate i
Xn , X : R
variabile aleatoare cu media
i dispersia
2 nite.
Deniia 5.18
(1)
Spunem c:
Xn converge aproape sigur la X
a.s.
Xn X )
(notat
dac
P ( lim Xn = X) = 1,
n
echivalent cu relaia
0 F, P (0 ) = 1,
(2)
Xn converge n probabilitate la X
lim Xn () = X(), 0 .
astfel nct
(notat
prob
Xn X ),
dac
> 0, lim P ({ : |Xn () X()| }) = 0.

n
(3)
Lr
Xn converge n medie de ordin r la X (notat Xn X ), dac

Z
lim
|Xn () X()|r dP () = 0,
n
echivalent cu
Z
lim
(4)
Xn converge n repartiie
la
|xn x|r f (x)dx = 0.
n R
rep
(notat
X, sau Xn X )
lim E(g(Xn )) = E(g(X)), g : R R,
n
(5)
Xn converge la X n sensul funciei de repartiie

lim FXn (x) = FX (x), x
n
(6)
dac
continu i mrginit.
dac
punct de continuitate pentru
Xn converge la X n sensul funciei caracteristice
FX .
dac
lim Xn (t) = X (t), t R.
Teorema 5.19 (legturi ntre diverse tipuri de convergen)

(a)
(b)
Lr
Xn X
implic
(c)
(d)
a.s.
Xn X
implic
prob
Xn X
prob
Xn X
prob
Xn X.
(din inegalitatea lui Markov).
implic
Xn X.
Urmtoarele tipuri de convergen sunt echivalente: convergena n repartiie, convergena n funcie
de repartiie i convergena n funcie caracteristic.
45

Repartiii probabilistice n Matlab
Funcia de probabilitate (pentru v.a. discrete) i densitatea de repartiie (pentru v.a. continue) (ambele
notate anterior prin
f (x))
se introduc n
Matlab cu ajutorul comenzii pdf, astfel:
pdf('LEGE', x, <param>)
Funcia de repartiie
cdf,
F (x)
sau
LEGEpdf(x, <param>).
a unei variabile aleatoare se poate introduce n
Matlab cu ajutorul comenzii
astfel:
cdf('LEGE', x, <param>)
sau
LEGEcdf(x, <param>).
Inversa funciei de repartiie pentru repartiii continue,
icdf('LEGE', y, <param>)
n comenzile de mai sus,
sau
F 1 (y),
se introduce cu comanda
icdf,
astfel:
LEGEinv(y, <param>).
LEGE poate oricare dintre legile de repartiie din Tabelul 6.1, x este un scalar sau
f (x) sau F (x), y este un scalar sau vector pentru care se calculeaz F 1 (y),
vector pentru care se calculeaz

iar
<param>
este un scalar sau un vector ce reprezint parametrul (parametrii) repartiiei considerate.
Observaia 6.1
tiiei. Pentru un
Fie X
x R,
o variabil aleatoare i
F (x, )
funcia sa de repartiie,
ind parametrul repar-
relaia matematic
P (X x) = F (x)
o putem scrie astfel n
Matlab:
cdf('numele repartiiei lui X',x,).
Problema poate aparea la evaluarea n
Matlab a probabilitii P (X < x). Dac repartiia considerat

Matlab este tot (6.1), deoarece n acest caz
este una continu, atunci corespondentul n
P (X x) = P (X < x) + P (X = x) = P (X < x).

De exemplu, dac
X N (5, 2),
atunci
P (X < 4) = cdf('norm', 4, 5, 2).

Dac
(6.1)
este de tip discret, atunci
(
P (X [x])
, x nu e ntreg
P (X < x) =
P (X m 1) , x = m Z,
46

unde
[x]
x.
este partea ntreag a lui
De exemplu, dac
X B(10, 0.3),
atunci
P (X < 5) = P (X 4)
= cdf('bino', 4, 10, 0.3) = 0.8497.
Tabelul 6.1 conine cteva repartiii uzuale i funciile corespunztoare n
repartiii probabilistice discrete
bino:
nbin:
poiss:
unid:
geo:
hyge:
repartiia binomial
repartiii probabilistice continue
norm:
unif:
exp:
gam:
beta:
logn:
chi2:
t:
f:
wbl:
B(n, p)
repartiia binomial negativ

repartiia Poisson
BN (n, p)
P()
repartiia uniform discret
U(n)
Geo(p)
hipergeometric H(n, a, b)
repartiia geometric
repartiia
repartiia normal
O moned ideal este aruncat de
100
N (, )
U(a, b)
exp()
Gamma (a, )
Beta (m, n)
lognormal logN (, )
2 (n)
student t(n)
Fisher F(m, n)
Weibull W bl(k, )
repartiia uniform continu

repartiia exponenial
repartiia
repartiia
repartiia
repartiia
repartiia
repartiia
repartiia
Tabela 6.1: Repartiii uzuale n

Exerciiu 6.1
Matlab.
de ori, iar
Matlab
X
este variabila aleatoare ce reprezint
numrul de fee cu stema aprute.
(a)
(b)
Care este probabilitatea de a obine exact

S se calculeze
P (45 X 55).
Soluie:
(a)
B(100, 0.5),
aadar rezultatul exact este:
Avem de calculat
52
de steme?
Folosii aproximarea cu o variabil aleatoare normal.
P = P (X = 52).
ns
este o variabil aleatoare distribuit
52
P = C100
(0.5)52 (0.5)48 = 0.0735.
(b) Notm cu
FX
funcia de repartiie pentru variabila aleatoare binomial
X.
Atunci,
P (45 X 55) = P (X 55) P (X < 45)

= FX (55) FX (44)
55
X
k
=
C100
(0.5)k (0.5)100k = 0.7287.
k=45
Codul
Matlab urmtor calculeaz probabilitile cerute, calculate analitic anterior.
P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48
P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5)
.
% solutia exacta
% solutia exacta
47
Exerciiu 6.2
Cineva a nregistrat zilnic timpul ntre dou sosiri succesive ale tramvaiului ntr-o anumit
staie i a gsit c, n medie, acesta este de
20 de minute.
Se tie c acest timp este distribuit exponenial.
Dac o persoan a ajuns n staie exact cnd tramvaiul pleca, aai care sunt ansele ca ea s atepte cel
puin
15
Soluie:
minute pn vine urmtorul tramvai.
Notm cu
timpul de ateptare n staie ntre dou sosiri succesive ale tramvaiului i cu
funcia sa de repartiie. tim c
T exp(),
unde
= 20.
Aadar, avem de calculat
P (T 15),
FT
care
este:
P (T 15) = 1 P (T < 15) = 1 FT (15),

i aceasta este
1 - cdf('exp',15, 20) = 0.4724,
ceea ce implic
47.24%
Exerciiu 6.3
Dintre spectatorii prezeni pe un anumit stadion la un meci de fotbal, un procent de
anse.
20%
sunt femei.
La o tombola organizat pentru spectatori, un computer alege la ntmplare numerele a
7 bilete de intrare
i se premiaz posesorii.
(i)
Care este probabilitatea ca mcar
(ii)
Care este probabilitatea ca nicio femeie s nu ctige la tombol?
(iii)
dintre spectatorii premiai s e femei?
Dac selecia biletelor ctigtoare ar fost realizat prin alegerea a
spectatori ce erau aezai
n ir, pe un acelai rnd ales la ntmplare, argumentai dac probabilitile gsite la (i) si (ii) rmn
aceleai.
Soluie:
Fie
variabila aleatoare ce reprezint numrul de femei ce apar la alegerea la ntmplare a
X B(7, 0.2). Fie p = 0.2.

P (X 3) = 1 P (X < 3) = 1 P (X 2) = 1 FX (2) = 0.1480.
spectatori. Atunci
(i)
n
Matlab,
(ii)
n
P1 = 1-binocdf(2,7,0.2).
P (X = 0) =
Matlab,
C70 p0 (1
p)7
= 0.2097.
P2 = binopdf(0,7,0.2).
(iii) n acest caz,
nu ar mai o v.a. binomial, deoarece alegerea spectatorilor nu mai este aleatorie
(spectatorii aezai alturi pot cunotinte, prieteni etc.).
Exerciiu 6.2 (a) n magazinul de la colul strzii intr n medie 20 de clieni pe or.
tiind c numrul
clienilor pe or este o variabil aleatoare repartizat Poisson, s se determine care este probabilitatea ca
15 clieni?
(b) Care este probabilitatea ca, ntr-o anumit zi de lucru (de 10 ore), n magazin s intre cel puin 200 de
ntr-o anumit or s intre n magazin cel puin
clieni? Calculai aceast probabilitate n dou moduri: folosind funcia de repartiie Poisson i folosind
aproximarea cu repartiia normal.
Soluie:
(b)
P2 = P (
k=1
P1 = P (X 15) = 1 P (X < 14) = 1 FX (14) = 0.8951.

10
10
X
X
Xk 200) = 1 P (
Xk < 199) = 1 FP Xk (199) = 0.5094, unde
Xk P(200).
(a) Probabilitatea este
10
X
k=1
Matlab, probabilitile cerute se calculeaz astfel:
k=1
48

P1 = 1 - poisscdf(14,20);
P2 = 1 - poisscdf(199,200);
Exerciiu 6.4
(i)
probabil: s ctigi
(ii)
n faa unui oponent de acelai calibru la tenis de mas, care eveniment este mai
partide din
4,
sau s ctigi
partide din
8?
Justicai rspunsul.
Se menine rezultatul anterior dac, n loc de tenis de mas, cei doi s-ar ntrece la ah? Presupunem
c adversarii sunt de aceeai valoare. Justicai rspunsul.
49

Elemente de Teoria probabilitilor (III)
Teoreme limit
Fie
(, F, P )
un cmp de probabilitate i
X : (, F, P ) R
o v.a. ce nregistreaz rezultatele posibile
ale unui anumit experiment aleator. Putem modela repetiia acestui experiment prin introducerea unui
ir de v.a.,
(Xn )nN : (, F, P ) R. Ne-am dori ca acest ir s dein aceeai informaie (din punct de
X . n acest scop, introducem noiunea de variabile aleatoare identic repartizate.
vedere probabilistic) ca i
Deniia 7.1
Variabilele aleatoare
X1 , X2 , . . . , Xn , . . .
se numesc
identic repartizate
dac funciile co-
respunztoare de repartiie satisfac irul de egaliti:
x R.
FX1 (x) = FX2 (x) = . . . = FXn (x) = . . . ,
(7.1)
Dac, n plus, presupunem c v.a. din irul de mai sus sunt independente stochastic, atunci putem privi
acest ir de v.a. ca un model pentru repetri independente ale experimentului n aceleasi condiii. Dei
avem de-a face cu un ir de funcii ce iau valori ntmpltoare, suma unui numr sucient de mare de
variabile aleatoare i pierde caracterul aleator.
Teoremele limit clasice descriu comportarea asimptotic a sumei
Sn =
n
X
Xk ,
potrivit normalizat.
k=1
Spunem c irul
(Xn )n
urmeaz
legea slab (respectiv, tare) a numerelor mari dac:
Sn E(Sn ) prob
Sn E(Sn ) a.s.
0, (respectiv,
0),
n
n
(n )
n Teoria Probabilitilor exist mai multe rezultate care stabilesc condiiile n care una sau cealalt dintre
legile anterioare au loc. Prezentm n continuare doar cele mai importante dintre ele, i anume: teoremele
lui Cebev i Hincin, pentru legea slab, i teorema lui Kolmogorov pentru legea tare.
Teorema 7.2 (Cebev)

Dac v.a.
(Xn )nN
(i)
(ii)
atunci
Xn admit momente
1
lim 2 D2 (Sn ) = 0,
n n
toate
absolute de ordin
Sn E(Sn ) prob
0,
n
cnd
(i.e.,
2 (Xn ) < );
n .
Sn
a > 0 xat, conform inegalitii lui Cebev aplicate variabilei aleatoare
,
n

Sn
Sn
1
Sn
1 1
P (
E
a 2 D2
= 2 2 D2 (Sn ) 0, cnd n .

n
n
a
n
a n
2
Demonstraie.
avem:
satisfac condiiile:
Pentru orice
50
Observaia 7.3
m, n N,
n plus, dac
Xn
sunt independente stochastic i identic repartizate, cu
E(Xn ) =
atunci concluzia anterioar devine:
Sn prob
m.
n
Astfel, teorema ne spune c, dei variabilele aleatoare independente pot lua valori deprtate de mediile lor,
media aritmetic a unui numr sucient de mare de astfel de variabile aleatoare ia valori n vecintatea
lui
m,
cu o probabilitate foarte mare.
Teorema 7.4 (Teorema lui Bernoulli)

S considerm o experien n care probabilitatea de realizare a unui eveniment
experiene independente. Dac
pentru orice
> 0,
avem:
este numrul de realizri ale lui
este
din cele
dac se efectueaz o selecie de volum mare
1,
Demonstraie.
(7.2)
i se obin
p.
Asta nseamn c,
cazuri favorabile, atunci, cu o probabilitate
putem arma c probabilitatea evenimentului cercetat este egal cu frecvena relativ.
Vom asocia ecrei experiene
(
1,
Xi =
0,
Observm c
Se fac
experiene atunci,

N

lim P
p < = 1.
n
N
Cu alte cuvinte, irul frecvenelor relative converge n probabilitate la probabilitatea

apropiat de
P (A) = p.
Xi B(1, p).
n
X
o variabil aleatoare
dac n experiena
dac experiena
evenimentul
evenimentul
Xi ,
astfel nct
s-a realizat;
nu s-a realizat.
Atunci, deoarece experimentele sunt independente, avem:
Xi = N B(N, p), E(N ) = N p,
D2 (N ) = N p(1 p).
i=1
Aplicnd inegalitatea lui Cebev variabilei aleatoare
N
,
N
obinem:

D2 NN
N
N
P
E
,
< 1
N
N
2
echivalent cu

p(1 p)
N

P
p < 1
,
N
N 2
2
de unde concluzia dorit.
Teorema 7.5
Dac
(Hincin
Xn , n 1,
15 )
(legea slab a numerelor mari)
sunt variabile aleatoare ce admit momente absolute de ordin
cte dou i identic repartizate, atunci irul
(Xn )n
1,
sunt independente dou
urmeaz legea slab a numerelor mari, i.e.,
1X
prob
Xk m, (n ),
n
k=1
unde
m = E(Xn ), n N .
15 Aleksandr
Yakovlevich Khinchin (1894 1959), matematician rus
(7.3)
51
Teorema 7.6
(Kolmogorov)
Fie irul de v.a.

Dac notm cu
(legea tare a numerelor mari)
(Xn )nN , independente, sunt identic repartizate i E(|X1 |) < .

m = E(X1 ), atunci irul (Xn )n satisface legea tare a numerelor mari,
adic:
1X
a.s
Xk m, (n ).
n
(7.4)
k=1
Observaia 7.7
Concluzia legii slabe a numerelor mari se mai poate scrie i sub forma:

P
Teorema 7.8
Dac v.a.
(TLC)
(Xn )nN
(teorema limit central)
sunt independente i identic repartizate, cu
Observaia 7.9

X1 + X2 + + Xn
lim
= m = 1.
n
n
n
X
m = E(X1 )
nite, atunci:
!
Xk nm
Y N (0, 1),
pentru
n .
k=1
(a) Teorema TLC ne spune c, dac avem un ir de v.a.
identic repartizate, atunci, pentru
independente stochastic i
sucient de mare, suma standardizat,
Sn =
este o v.a. de repartiie
2 = D2 (X1 )
Sn nm
(7.5)
N (0, 1).
n
Sau, mai putem spune c distribuia v.a.
X=
1X
Xk
n
este aproximativ normal
k=1
N (m, ).
n
(b) Notm cu
not
Zn =
n
X
!
Xk nm .
k=1
Atunci, convergena din teorema limit central este echivalent cu
lim P (Zn x) = (x), x R,
(7.6)
n
unde
(x)
este denit n (30.3), sau

Z b
Sn nm
1
2
lim P a
b =
ex /2 dx = (b) (a).
n
n
2 a
(b) Dac
m = 0, 2 = 1,
(7.7)
atunci TLC devine
1 X
Xk Y N (0, 1),
n
pentru
n .
k=1
(c) TLC ne permite s aproximm sume de v.a.
identic repartizate, avnd orice tip de repartiii (att
timp ct variaia lor e nit), cu o v.a. normal. Un exemplu ar aproximarea repartiiei normale cu
repartiia binomial cnd numrul de ncercri e foarte mare (vezi teorema lui
jos).
de Moivre-Laplace de mai
52

Se pune problema:
aplicabil?
Ct de mare ar trebui s e n, n practic, pentru c teorema limit central s e
Dac variabilele aleatoare
{Xk }k
sunt deja normal repartizate, atunci teorema aproximarea
sumei standardizate cu o variabil normal este, de fapt, o egalitate, ind adevarat pentru orice
Dac
{Xk }k
nu sunt normal repartizate, atunci un numr
n N .
n astfel nct n 30 ar sucicient pentru

Xk este simetric, aproximarea ar putea
aproximarea cu repartiia normal dei, dac repartiia lui

bun i pentru un numr
mai mic de
30.
(d) Legea tare a numerelor mari e foarte util n metode de simulare tip Monte Carlo.
Teorema 7.10
16 - Laplace)
(de Moivre
Fie X1 , X2 , . . . , Xn , . . . un ir de v.a. independente stochastic, identic repartizate B(1, p)

X1 + X2 + + Xn . Atunci, pentru orice < a < b < , avem:

Z b
Sn np
1
2
lim P a
ex /2 dx.
(q = 1 p)
b =
n
npq
2 a
Demonstraie.
i e
Sn =
(7.8)
Demonstraia rezult imediat din (7.7), innd cont c
E(Sn ) = np
D2 (Sn ) = npq.
Observaia 7.11
(1)
Aadar, dac parametrul
poate aproximat cu una normal, cu media
np
este sucient de mare, atunci o repartiie binomial
i dispersia
n practic,
aproximarea este una sucient de bun dac
aceast aproximare poate mbuntit dac aplicm factori de corecie.
Pentru
np 5
npq .
n(1 p) 5;
ndeplinind condiiile de mai sus, i folosind (7.6), putem aproxima funcia de repartiie a
repartiiei binomiale prin:

P (X k)
unde
k np
npq

,
(7.9)
este funcia de repartiie pentru repartiia normal standard, i.e.,
1
(x) =
2
y2
2
dy,
x R.
De asemenea, putem aproxima i funcia de probabilitate a repartiiei binomiale folosind densitatea repartiiei normale standard:
1
P (X = k)
npq
unde
(x) =
k np
npq

,
(7.10)
d
dx (x) este densitatea de repartiie a repartiiei normale standard.
O variant mbuntit a aproximrii (7.9) este:
P (X k)
16 Abraham
k + 12 np
npq
de Moivre (1667 1754), matematician francez
!
.
(7.11)
53

Termenul
1
2 din (7.11) este folosit ca o valoare de ajustare cnd se face aproximarea unei variabile aleatoare
discrete cu una continu.

O variant mbuntit a aproximrii (7.10) este:
1
1
<X <k+ )
2
2
!
1
k + 12 np
k 2 np
X np
<
<
npq
npq
npq
!
!
k + 12 np
k 12 np
npq
npq
P (X = k) = P (k
= P

(2)
n general, dac dorim s aproximm o repartiie discret (ce are media
i dispersia
2)
cu una
normal, atunci scriem:
P (X k)
k+
1
2
!
(7.12)

1
k
P (X = k)
,
!
!
k + 21
k 12
P (X = k)
sau
(7.13)
(7.14)
Funcii de variabile aleatoare

Funcii de o singur variabil aleatoare
X este o variabil aleatoare
FX (x) funcia sa de repartiie.
Presupunem c
Notm cu
Fie
g(x)
continu, creia i se cunoate densitatea de repartiie,
este o funcie msurabil (Borel). Atunci
s gsim densitatea de repartiie pentru
g(X).
fX (x).
Y = g(X) denete o alt variabil aleatoare. Dorim

notm cu DY = {x R; g(x) y}. Putem scrie:
{Y y} = {g(X) y} = { , X() DY }
not
( = {X DY }).
Atunci,
FY (y) = P (X DY ),
Z
=
fX (x) dx.
(7.15)
DY
Dac
g(x)
densitatea de repartiie a
not
x = h(y) = g 1 (y),
lui Y este dat de:
este bijectiv i
atunci, folosind schimbarea de variabil la integrare,

dh(y)

.
fY (y) = fX (h(y))
dy
(7.16)
54
Exemplu 7.12
Considerm funcia
g(x) = ax + b, a 6= 0.
fX (x)
Dac
este densitatea de repartiie a unei variabile aleatoare continue
repartiie a variabilei aleatoare
Y = g(X)
X,
atunci densitatea de
este
1
fY (y) =
fX
|a|
yb
a

.
g(X) astfel:
Y i cu fY (y) densitatea sa de repartiie. Atunci:

yb
yb
X
, a > 0;
, a > 0;
FX
a
a

=
yb
yb
X
, a < 0;
, a < 0;
1 FX
a
a
Alternativ, putem calcula densitatea lui

Notm cu
FY (y)
funcia de repartiie pentru
FY (y) = P (aX+b y) =
FX
Dac
este continu, atunci:
fY (y) =
dFY (y)
1
=
fX
dy
|a|
yb
a

.
Aplicaie. Metoda funciei de repartiie inverse (Hincin-Smirnov)

Propoziia 7.13
F (x),
Fie
aleatoare repartizat
Demonstraie.
a lui
este o variabil aleatoare de o repartiie dat, pentru care funcia sa de repartiie,
0 sau 1. Fie U o variabil

Y = F 1 (U ) urmeaz aceeai repartiie ca i X .
este continu i strict cresctoate, n orice punct n care aceasta nu este
X.
U(0, 1).
Notez cu
FY
Atunci, variabila aleatoare
Y.
Aratm ca
FY
este tocmai funcia de repartiie
Avem succesiv:
FY (x) = P (Y x) = P (F 1 (U ) x)
= P (U F (x)) = F (x),
x [0, 1].
2
Utiliznd acest rezultat, urmtoarea propoziie rezult imediat:
Propoziia 7.14
{U1 , U2 , . . . , Un } sunt
1 (U ), F 1 (U ), . . . ,
variabile aleatoare independentic stochastic i identic repartizate U(0, 1), atunci {F
1
2
1
F (Un )} formeaz o selecie ntmpltoare de numere ce urmeaz repartiia lui X .
Fie
o variabil aleatoare ca n propoziia precedent. Dac
55
STATS L4 [Dr. Iulian Stoleriu]

Aplicaii la TLC
Exerciiu 8.1
O moned ideal este aruncat de
100
de ori, iar
este variabila aleatoare ce reprezint
numrul de fee cu stema aprute.
(a) Care este probabilitatea de a obine exact
(b) S se calculeze
P (45 X 55).
Soluie:
(a)
B(100, 0.5),
aadar rezultatul exact este:
Avem de calculat
52
de steme?
Folosii aproximarea cu o variabil aleatoare normal.
P = P (X = 52).
ns
este o variabil aleatoare distribuit
52
P = C100
(0.5)52 (0.5)48 = 0.0735.
Dac aproximm rezultatul folosind formula (7.12), obinem:
1
P =
100 0.5 0.5
52 50
100 0.5 0.5

0.0737.
Cu varianta mbuntit, obinem:
P =
(b) Notm cu
FX
52 + 12 50
25
52 12 50
25
!
0.0736.
funcia de repartiie pentru variabila aleatoare binomial
X.
Atunci,
P (45 X 55) = P (X 55) P (X < 45)

= FX (55) FX (44)
55
X
k
=
C100
(0.5)k (0.5)100k = 0.7287.
k=45
Dac folosim aproximarea cu repartiia normal, obinem:
P (45 X 55)
Codul
55 + 12 50
25
45 12 50
25
!
= 0.7287.
Matlab urmtor calculeaz probabilitile cerute.
P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48
% solutia exacta
P1 = 1/5*normpdf(2/5)
% solutia aproximativa 1
P1 = normcdf(2.5/5) - normcdf(1.5/5)
% solutia aproximativa 2
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) % solutia exacta
P2 = normcdf(5.5/5) - normcdf(-5.5/5)
% solutia aproximativa
56
Exerciiu 8.1
Un cetean turmentat pleac de la bar spre cas. S presupunem c punctul de plecare
de pe axa orizontal i se mic doar pe aceast ax astfel: n ecare unitate de timp,
este punctul
acesta ori face un pas la stnga, cu probabilitatea
0.5,
0.5,
100 de
ori face un pas la dreapta, cu probabilitatea
independent de paii anteriori. Folosind Teorema limit central, estimai probabilitatea ca, dup
pai, acesta nu a ajuns la mai mult de doi pai de punctul de plecare.
Soluie:
Xi variabila aleatoare ce reprezint pasul pe care ceteanul l face la momentul i (i N).

X = 1, dac face un pas la stnga, i X = 1, dac face un pas la dreapta. Aadar, X este
o variabil aleatoare discret ce poate lua doar dou valori, 1 i 1, ambele cu probabilitatea 0.5. Se
2
calculeaz cu uurin, E(X) = 0 i D (X) = 1. Suntem interesai s am ce se ntmpl dup 100 de
n
X
pai. Considerm mai nti Sn =
Xi . Atunci,
Fie
S atribuim
i=1
E(Sn ) =
n
X
E(Xi ) = 0
i=1
D2 (Sn ) =
n
X
D2 (Xi ) = n,
i=1
{Xi }i=1, n sunt independente. Pentru n 30, Teorema limit central spune c Sn N (0,
n = 100, S100 N (0, 10). Probabilitatea cerut este (utilizm i relaia (7.12)):
!
!
2 + 12 0
2 + 21 0
= 0.1583.
P (|S100 | 2) = P (2 S100 2)
10
10
deoarece
Pentru
Folosind urmtorul cod, putem simula n
N = input('N = ');
X = 2*(rand(N,1)<0.5)-1;
S = cumsum(X);
plot(1:N, S, '-')
Z=length(find(S == 0))
n).
Matlab micarea aleatorie (vezi Figura 8.1):

%
%
%
%
%
numar de pasi
simuleaza pasii la fiecare moment
simuleaza unde a ajuns dupa fiecare pas
reprezinta miscarea
numarul de reintoarceri la bar
Figura 8.1: Micare aleatoare (brownian) 1D.
57
Exerciiu 8.2
Aruncm o moned ideal n condiii identice i notm cu
a feei cu stema din cele
efectuate pentru ca
Determinai
n frecvena absolut de apariie
repetiii ale experimentului. Care este numrul minim de aruncri ce trebuie

n

P 0.5 0.1 0.98.
n
prin dou metode:

(i)
Folosind inegalitatea lui Cebev;
(ii)
Folosind Teorema limit central.
Soluie:
(i)
Observm c variabila aleatoare
n B(n, 0.5),
E(
Folosim inegalitatea lui Cebev pentru
n
) = 0.5,
n
X=
n
n ,
de unde
D2 (
n
2 i
E(n ) =
D2 (n ) =
n
4 . Aadar,
n
1
)=
.
n
4n
a = 0.1.
Gsim c:

D2 nn
25

n
=1 .
P 0.5 0.1 1
n
0.01
n
Impunem condiia
1
de unde obinem c
(ii)
Cutm
n 1250
25
0.98,
n
astfel nct

n
P 0.1
0.5 0.1 = 0.98.
n
Ne ateptm ca valoarea lui
(8.1)
s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,
scriem c variabila aleatoare standardizat
n E(n )
n 0.5n
=
N (0, 1).
D(n )
0.5 n
Folosind aceasta, rescriem egalitatea (8.1) astfel:

n
0.5 0.1
0.98 = P 0.1

n

n
n 0.5n
n
= P 0.1
0.1
0.5
0.5
0.5 n

n
n

=
5
5

n
n
n
=
1
= 2
1
5
5
5
de unde

n
5
= 0.99
n
5
= (0.99) = z0.99 2.33
standard). Din ultima egalitate gsim c
n 135.2974.
(cuantila de ordin
n
0.99
pentru repartiia normal
Matlab, calculm astfel:
n = (5*norminv(0.99,0,1))^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca
n 136
Observm c aceast valoare este mult mai mic dect cea gsit anterior. Metoda a doua (TLC) ne d
un rezultat mai bun dect cel obinut cu ajutorul inegalitii lui Cebev. Aici, mai bun se traduce prin
faptul c, folosind numr mai mic de simulri ale experimentului, obinem acelai rezultat.
58
Exerciiu 8.3
O companie independent de evaluri statistice a estimat ca un anumit candidat are
anse s ctige alegerile locale.
25%
Dorim s efectum un alt sondaj de opinie care s verice rezultatul
companiei. Determinai care ar trebui s e volumul minim de selecie pentru ca, cu o probabilitate de cel
puin
0.97, procentul de alegtori ce intenioneaz s-l voteze pe respectivul candidat se ncadreaz ntre
20% i 30%. Determinai volumul minim folosind cele dou metode menionate n Exerciiul 8.2.
valorile
Soluie:
n numrul de
n N pentru care
S notm cu
Se cere cel mai mic
echivalent cu
(i)
Observm c variabila
votani (din
alei aleator) care voteaz cu respectivul candidat.

n
P 0.2
0.3 0.97,
n

n

P 0.25 0.05 0.97.
n
aleatoare n B(n, 0.25), de unde E(n ) =
n
4 i
D2 (n ) =
3n
16 . Aadar,
n
n
3
) = 0.25, D2 ( ) =
.
n
n
16n
Cebev pentru X = n , a = 0.05. Gsim c:

n

D2 nn
75

n
P 0.25 0.05 1
=1 .
2
n
0.05
n
E(
Folosim inegalitatea lui
Impunem condiia
1
de unde obinem c
(ii)
Cutm
n 2500
astfel nct
Ne ateptm ca valoarea lui
75
0.97,
n

n
P 0.05
0.25 0.05 = 0.97.
n
n
(8.2)
s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,
scriem c variabila aleatoare standardizat

Atenie, aici s-a strecurat o
n E(n )
n 0.25n
=4
N (0, 1).
D(n )
3n
|
{z
}
greeal n soluia de la seminar!

2
Acolo, s-a mprit la D (n ), n loc de
Folosind aceasta, rescriem egalitatea (8.2) astfel:

n
0.97 = P 0.05
0.25 0.05
nr
r

n
n 0.25n
n
0.05 4
= P 0.05 4
4
3
3
3n
r
r

n
n
= 0.2
0.2
3
3
r
r
r
n
n
n
1 0.2
= 2 0.2
1
= 0.2
3
3
3
pn
pn
de unde 0.2
3 = 0.985 i 0.2
3 = z0.985 2.17 (cuantila de ordin 0.985 pentru
standard). Din ultima egalitate gsim c n 353.1969. n
, calculm astfel:
Matlab
repartiia normal
n = 3*(norminv(0.985,0,1)/0.2)^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca
n 354
Observm, din nou, c aceast valoare este mult mai mic dect cea gsit anterior.
D(n )
59

Elemente de Statistic descriptiv
S considerm o populaie statistic de volum
F.
Asupra acestei caracteristici facem
i o caracteristic a ei,
X,
ce are funcia de repartiie
observaii, n urma crora culegem un set de date statistice.
Dup cum am vzut anterior, datele statistice pot prezentate ntr-o form grupat (descrise prin tabele
de frecvene) sau pot negrupate, exact aa cum au fost culese n urma observrilor.
Pentru analiza
acestora, pot utilizate diverse tehnici de organizare i reprezentare grac a datelor statistice ns, de
cele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat. Suntem interesai n a
atribui acestor date anumite valori numerice reprezentative. Pot denite mai multe tipuri de astfel de
valori numerice, e.g., msuri ale tendinei centrale (media, modul, mediana), msuri ale dispersiei (dispersia, deviaia standard), msuri de poziie (cuantile, distana intercuantilic) etc. n acest capitol, vom
introduce diverse msuri descriptive numerice, att pentru datele grupate, ct i pentru cele negrupate.
Msuri descriptive ale datelor negrupate

x1 , x2 , . . . , xn (xi R, i = 1, 2 . . . , n, n N ),
variabilei X . Denim urmtoarele:
Considerm un set de date statistice negrupate,

corespund unor observaii fcute asupra
ce
(1) Valoarea medie empiric

Este o msur a tendinei centrale a datelor. Pentru o selecie
{x1 , x2 , . . . , xn },
denim:
x
=
1X
xi ,
n
i=1
ca ind
media empiric.
Dac
{x1 , x2 , . . . , xN }
sunt toate cele
observaii (
recensmnt) asupra carac-
teristicii populaiei, atunci mrimea
N
1 X
xi
=
N
i=1
se numete
media (empiric a) populaiei.
Vom vedea mai trziu c, pentru a estima media
populaii statistice, nu este necesar s avem toate valorile

putea folosi
Pentru ecare
.
di = xi x se
ca un estimator pentru
i,
cantitatea
numete
{x1 , x2 , . . . , xN },
deviaia fa de medie.
o msur a gradului de mprtiere a datelor, deoarece
n
X
(xi x) = 0.
i=1
(2) Momentele empirice

Pentru
k N , momentele empirice de ordin k
se denesc astfel:
k =
1X k
xi
n
i=1
(pentru selecie).
a ntregii
ci doar o selecie a ei, i vom
Aceasta nu poate denit ca
60

Pentru
p 6= 0,
denim
n
X
1
x
p =
n
!1
xpi
(pentru selecie),
(9.1)
i=1
formula generalizat a mediilor. Pentru p = 1, obinem

media empiric (aritmetic) (x
), pentru p = 1, obinem media armonic (x
(h) ), pentru p = 2 avem
media ptratic (x(q) ). Dac inem cont i de media geometric,
formul ce este cunoscut i sub denumirea de
x
(g) =
x1 x2 . . . xn ,
atunci relaia dintre aceste medii este:
x
(h) x
(g) x
x
(q) .
Pentru ntreaga colectivitate, momentele de ordin
mk =
sunt
N
1 X k
xi ,
N
(k N ).
i=1
Pentru ecare
k N , momentele empirice centrate de ordin k
se denesc astfel:
1X
k =
(xi x)k ,
n
pentru selecie,
i=1
N
1 X
k =
(xi )k ,
N
pentru populaie.
i=1
(3) Dispersia empiric

Aceasta este o msur a gradului de mprtiere a datelor n jurul valorii medii.
{x1 , x2 , . . . , xn },
denim
dispersia empiric:
n
!
n
1 X 2
2
=
[
xi n(
x) ] .
n1
1 X
(xi x
)2
s =
n1
2
i=1
Pentru ntreaga populaie de volum
i=1
N , dispersia populaiei
2 =
Pentru o selecie
este denit prin msura
N
1 X
(xi )2 .
N
i=1
Observaia 9.1
Cantitatea
1X
(xi x
)2
n
este tot o msur a dispersiei (empirice) de selecie.
Vom
i=1
2
vedea mai trziu c alegerea lui s este mai potrivit ntr-un anume sens. De altfel, ambele valori pot
2
folosite ca estimatori ai dispersiei populaiei, .
61
(4) Deviaia empiric standard

Este tot o msur a mprtierii datelor n jurul valorii medii. Pentru o selecie
deviaia empiric standard:
v
u
u
s=t
{x1 , x2 , . . . , xn },
denim
1 X
(xi x
)2 .
n1
i=1
Pentru ntreaga populaie de volum
N , deviaia standard a populaiei

v
u
N
u1 X
=t
(xi )2 .
N
este denit prin cantitatea
i=1
(5) Amplitudinea (plaja de valori, range)

Pentru un set de date,
amplitudinea (en.,
range) este denit ca ind diferena dintre valoarea cea mai
mare i valoarea cea mai mic a datelor, i.e.,
xmax xmin .
(6) Scorul Z
Este numrul deviaiilor standard pe care o anumit observaie,
o selecie
{x1 , x2 , . . . , xn }, scorul Z
Pentru o populaie, scorul
x, le are sub sau deasupra mediei.
Pentru
este denit astfel:
z=
xx
.
s
z=
x
.
este:
(7) Corelaia (covariana) empiric

Dac avem
n perechi de observaii, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), denim corelaia (covariana) empiric
(de selecie):
covsel
1 X
=
(xi x
)(yi y).
n1
(9.2)
i=1
Covariana empiric pentru ntreaga populaie este:
covpop =
N
1 X
(xi x )(yi y ).
N
(9.3)
i=1
(8) Coecientul de corelaie empiric

rsel =
rpop =
covsel
,
sx sy
coecient de corelaie de selecie,
covpop
,
x y
coecient de corelaie pentru populaie.
(9) Funcia de repartiie empiric

Se numete
funcia
funcie de repartiie empiric
Fn : R [0, 1],
asociat unei variabile aleatoare
X i unei selecii {x1 , x2 , . . . , xn },
denit prin
Fn (x) =
card{i;
xi x}
.
n
(9.4)
62
Propoziia de mai jos arat c funcia de repartiie empiric aproximeaz funcia de repartiie teoretic
(vezi Figura 9.1).
Propoziia 9.2
cu
F (x)
Fie
o colectivitate statistic i X o caracteristic a sa, ce se dorete a studiat. Notez

X . Pentru o selecie de valori ale lui X , {x1 , x2 , . . . , xn }, construim
empiric, Fn (x). Atunci:
funcia de repartiie a lui
funcia de repartiie
prob
Fn (x) F (x),
Demonstraie.
Notez cu
evenimentul
cnd
n ,
{X x} i cu p = P (A).
A este
x R.
Se fac
repetiii ale acestui eveniment
i frecvena relativ a realizrii evenimentului
n
=
n
card{i;
xi x}
= Fn (x).
n
Astfel, concluzia propoziiei este o consecin imediat a teoremei lui Bernoulli, Teorema 7.4.
Figura 9.1: Funcia de repartiie empiric i funcia de repartiie teoretic pentru distribuia
normal.
(10) Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se denete prin
1 =
O repartiie este simetric dac
i negativ (sau la stnga) dac
n1/2
1 =
n
X
( (xi x)2 )3/2
i=1
3/2
1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac 1 > 0

1 < 0. Vom avea:
n
X
(xi x)3
i=1
(pentru selecie)
3 X
1 = 3 =
(xi )3
i=1
(pentru populaie).
63
(11) Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se denete prin
4
3.
22
K=
Avem astfel:
n
X
n
(xi x)4
K=
i=1
n
X
( (xi x)2 )2
(pentru selecie)
i=1
i
K=
N
4
1 X
3
=
(xi )4 3
4
n 4
(pentru populaie),
i=1
Este o msur a boltirii distribuiei (al patrulea moment standardizat).

c indicele kurtosis al distribuiei normale s e egal cu
K = 0, leptocurtic
pentru
K>0
sau
platocurtic
pentru
Termenul
(3)
apare pentru
0. Vom avea o repartiie mezocurtic pentru

K < 0. Un indice K > 0 semnic faptul c,
n vecintatea modului, curba densitii de repartiie are o boltire (ascuire) mai mare dect clopotul lui
Gauss. Pentru
K < 0, n acea vecintate curba densitii de repartiie este mai plat dect curba lui Gauss.
(12) Cuantile
Cuantilele (de ordin n)
Dac
n = 2,
2, numit mediana, notat

x1 < x2 < < xn . Pentru aceast
atunci avem o singur cuantil de ordin
Presupunem c observaiile sunt ordonate,

median:
x0.5
Dac
n = 4,
sunt valori ale unei variabile aleatoare care separ repartiia ordonat n
egale.
(
x(n+1)/2
=
(xn/2 + xn/2+1 )/2
cuantilele se numesc
cuartile
, dac
, dac
(sunt n numr de
n=
n=
3).
prin
x0.5
sau
pri
Me.
ordine, denim valoarea
impar;
par;
Prima cuartil, notat
x0.25
sau
Q1 ,
cuartila inferioar, a doua cuartil este mediana, iar ultima cuartil, notat x0.75 sau Q3 , se
cuartila superioar. Diferena Q3 Q1 se numete distana intercuartilic.
Dac n = 10 se numesc decile (sunt n numr de 9), dac n = 100 se numesc percentile (sunt n numr de
99), dac n = 1000 se numesc permile (sunt n numr de 999). Sunt msuri de poziie, ce msoar locaia
se numete
numete
unei anumite observaii fa de restul datelor.
(13) Modul
Modul
(sau
valoarea modal)
este acea valoare
din setul de date care apare cel mai des. n anumite
cazuri, dac datele sunt deja grupate, putem doar estima modul sau, alternativ, s precizm clasa care
l conine, numit
clasa modal.
Tabelul 1.4 clasa modal este
De exemplu, pentru datele din Tabelul 1.1 este
[35, 45).
astfel de valori, atunci vom spune c setul de date este

de date
trimodal etc.
6,
iar pentru datele din
Un set de date poate avea mai multe module. Dac apar dou
bimodal,
pentru trei astfel de valori avem un set
n cazul n care toate valorile au aceeai frecven de apariie, atunci spunem c nu
exist mod. De exemplu, setul de date
1 3
5 6
3 2
1 4
4 6
2 5
nu admite valoare modal. Nu exist un simbol care s noteze distinctiv modul unui set de date.
64
Msuri descriptive ale datelor grupate

Considerm un set de date statistice grupate (de volum
X.
n), ce corespund celor n observaii asupra variabilei
Datele grupate sunt n genul celor prezentate n Figurile 1.1 i 1.4.
Pentru o selecie cu valorile de mijloc
. . . , fn },
cu
n
X
fi = n,
{x1 , x2 , . . . , xn }
i frecvenele absolute corespunztoare,
{f1 , f2 ,
denim:
i=1
n
x
f =
1X
xi fi ,
n
media (empiric) de selecie, (sau, media ponderat)
i=1
!
n
n
X
X
1
1
2
2
2
2
fi (xi x
f ) =
xi fi n x
f , dispersia
s =
n1
n1
i=1
i=1
s = s2 , deviaia empiric standard.
empiric,
Formule similare se pot da i pentru msurile descriptive ale ntregii populaii.

Mediana pentru un set de date grupate este acea valoare ce separ toate datele n dou pri egale. Se
determin mai nti clasa ce conine mediana (numit
clas median),
ecrei clase datele sunt uniform distribuite (vezi Exerciiu 10.3).

mediana este:
Me = l +
l
unde:
este limita inferioar a clasei mediane,
la (exclusiv) clasa median,
fM e
n
2
apoi presupunem c n interiorul
O formul dup care se calculeaz
FM e
c,
fM e
este volumul seleciei,
este frecvena clasei mediane i
FM e
este suma frecvenelor pn
este limea clasei.
Pentru a aa modul unui set de date grupate, determinm mai nti clasa ce conine aceast valoare (clas
modal), iar modul va calculat dup formula:
M od = l +
unde
d1
d2
d1
c,
d1 + d2
sunt frecvena clasei modale minus frecvena clasei anterioare i, respectiv, frecvena clasei
modale minus frecvena clasei posterioare,
este limita inferioar a clasei modale i
este limea clasei
modale.
Observaia 9.3
S considerm urmtoarea problem. La brutria din col a fost adus o main nou de
fabricat pine. Aceast main de pine ar trebui s fabrice pini care s aiba n medie
m = 400 de grame.
Pentru a testa dac maina respectiv ndeplinete norma de gramaj, am pus deoparte (la ntmplare)
pini produse ntr-o zi lucratoare, n scopul de a le cntri. Spunem astfel c am facut o selecie de
volum
n din mulimea pinilor produse n acea zi. Dorim s decidem dac, ntr-adevr, maina este setat
n pini, obinem datele (empirice): {x1 , x2 , . . . , xn } (n
la parametrii potrivii. n urma cntririi celor
grame). Calculm media masei acestora i obinem:
x=
1X
xi .
n
i=1
Intuitiv, ar de ateptat ca acest
x s aproximeze (ntr-un anumit sens) masa medie (teoretic) a pinilor
produse de aceast main. Pentru a putea obine aceast aproximare, am avea nevoie de un criteriu care
65
x m.
Mai mult, am dori s m convini c aceast aproximare nu depinde de eantionul
s ne spun c
de pini ales, adic, dac am ales alte pini i calculat media maselor lor, am obinut din nou o
valoarea foarte apropiat de
m.
Pentru a construi un astfel de criteriu, avem nevoie de un cadru teoretic
mai abstract pentru modelarea datelor statistice. Acest cadru l vom construi n capitolele ce urmeaz.
n Tabelul 9.1, am prezentat cteva funcii
mean(x)
geomean(x)
harmmean(x)
quantile(x,alpha)
iqr(x)
median(x)
std(x), var(x)
range(x)
mode(x)
zscore(x)
moment(x,k)
sort(x)
max(x), min(x)
skewness(x)
kurtosis(x)
prctile(x,p)
cdfplot(x)
cov(x,y)
corrcoef(x,y)
LEGEstat(<param>)
Tabela 9.1: Funcii

.
Matlab specice pentru msurile descriptive.
% media valorilor elementelor lui x;

% media geometric a elementelor lui x;
% media armonic a elementelor lui x;
% cuantila de ordin a vectorului x;
% distana intercuantilic, x0.75 x0.25 ;
% valoarea median a lui x;
% deviaia standard i dispersia valorilor lui x;
% amplitudinea (range) vectorului x;
% modul lui x;
% realizeaz scorul elementelor lui x;
% momentul de ordin k al lui x;
% sorteaza crescator elementele vectorului x;
% maximum i minimum pentru elementele lui x;
% skewness pentru elementele lui x;
% kurtosis pentru elementele lui x;
% percentilele de ordin p ale lui x;
% reprezint grac funcia de repartiie empiric a lui x;
% covariana dintre x i y ;
% coecientul de corelaie dintre x i y ;
% aeaz media i dispersia pentru LEGE(<param>);
Matlab specice pentru msuri descriptive.
66

Justicare grac a teoremei limit central
Exemplu 10.1
n Figura 10.1 am reprezentat grac (cu bare) funciile de probabilitate pentru repartiiile
binomial i Poisson, atunci cnd numrul de extrageri n schema binomial este un numr mare. Observm c pentru un numr
n sucient de mare, cele dou grace se suprapun.
Aceasta este o "demonstraie"
grac a urmtoarei convergene:
lim Cnk pk q nk =
n
p0
e k
.
k!
(10.1)
=np
0.12
0.1
0.08
0.06
0.04
0.02
10
15
20
25
30
Figura 10.1: B(n, p) i P(np) pentru n = 100, p = 0.15

n practic, proprietatea (10.1) este satisfcut pentru
n 30, p 0.1, = n p 0.1.

Din gura 10.1, observm c gracul are forma clopotului lui Gauss, justicnd grac faptul c funciile
de probabilitate pentru binomial (
albastru)
i Poisson (
rou)
tind la densitatea de repartiie pentru
repartiia normal.
n = input('n='); p = input('p=');
lambda = n*p;
a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda));
% a si b sunt valorile din problema celor 3
x=a:b;
fB=binopdf(x,n,p); fP=poisspdf(x,lambda);
bar(x',[fB',fP'])
67
Generare de numere aleatoare folosind metoda funciei de repartiie inverse (Hincin-Smirnov)

Exemplu 10.2
1
e x ,
x>
0, iar F 1 este:
X exp().
Funcia sa de repartiie este
F : R [0, 1],
F (x) =
(
ln(1 u) , u (0, 1);
F 1 (u) =
0
, altfel.
{u1 , u2 , . . . , un } sunt numere aleatoare uniform repartizate n [0, 1], avem
1
F (u2 ), . . . , F 1 (un )} formeaz o selecie ntmpltoare de numere repartizate exp().
Atunci, dac
n Figura 10.2, am reprezentat grac o dou selecii de volum
{F 1 (u1 ),
150 de numere aleatoare repartizate exp(5);
Matlab predenit
Matlab care genereaz gura este
una generat prin metoda funciei de repartiie inverse, cealalt generat de funcia
exprnd.
Seleciile generate au fost ordonate descresctor.
Funcia
prezentat mai jos.

Apelarea funciei se face prin tastarea n fereastra de lucru n
Matlab a comezii expsel(5).
function expsel(lambda)
% functia expsel.m
% generez 150 de numere cu metoda Hincin-Smirnov si le ordonez descrescator
Y = sort(-lambda*log(1-rand(150,1)), 'descend');
plot(Y, 'bo'); hold on
% desenez selectia si retin figura
% generez 150 de numere cu exprnd si le ordonez descrescator
Z = sort(exprnd(lambda, 150,1), 'descend');
plot(Z, 'r*')
% desenez Z cu rosu
legend('metoda functiei inverse','generare cu exprnd')
Figura 10.2: Generare de numere aleatoare prin metoda funciei inverse.
Exerciiu 10.1
i simulai n
Considerm v.a.
X U 2 ,
2 . Determinai densitatea de repartiie a v.a.
Matlab o selecie de observaii independente asupra lui Y .
Y = tan X
68
Generarea de numere aleatoare ntregi
Funciile floor, ceil, round, fix

Sunt funcii folosite pentru generarea de numere aleatoare ntregi.
partea ntreag a lui
x.
De exemplu, funcia
floor(x)
este
Astfel, comenzile
floor(11*rand(20,1));
ceil(11*rand(20,1));
20 de numere ntregi ntre 0 i 10, distribuite uniform discret. Diferena dintre cele
floor(x) face rotunjirea la numrul ntreg aat la stnga lui x, pe cnd ceil(x) face
rotunjirea la numrul ntreg aat la dreapta lui x.
Funciile round(x) i fix(x) rotunjesc numrul real x la cel mai apropiat numr ntreg, n direcia lui
, respectiv, n direcia lui zero.
genereaz ecare cte
dou funcii este ca
Pentru generarea de numere ntregi n
Matlab, mai putem folosi urmtoarele comenzi:
randsample(populatie, k)
randsample(n, k)
randsample(populatie, k, replace)
Prima comand genereaz o selecie uniform (discret) nerepetat de
vectorul
populatie.
numere naturale alese aleator din
populatie este n (comanda a doua), atunci se realizeaz o

{1, 2, . . . , n}. A treia comand ne d posibilitanu este repetat. Dac variabila replace este true sau 1, atunci
dac variabila replace este false sau 0, atunci selecia obinut
Dac n locul vectorului
selecie uniform nerepetat de
numere din mulimea
tea s controlm dac selecia este sau

selecia obinut este una repetat, iar
este una nerepetat.
De exemplu, comanda
randsample([50:2:100], 10, 0)
genereaz o selecie nerepetat de
66
Vectorul
72
10
numere pare ntre
50
68
88
50
74
100:
82
80
94
76
dat de
X = randperm(n)
este o permutare aleatoare a elementelor mulimii
Exerciiu 10.2
{1, 2, . . . , n}.
Urmtorul set de date reprezint preurile (n mii de euro) a
20
de case, vndute ntr-o
69

anumit regiune a unui ora:
113 60.5 340.5 130 79 475.5 90 100 175.5 100

111.5 525 50 122.5 125.5 75 150 89 100 70
Determinai amplitudinea, media, mediana, modul, cuartilele i distana intercuartilic pentru aceste
date. Care valoare este cea mai reprezentativ?
Soluie:
Rearanjm datele n ordine cresctoare:
50 60.5 70 75 79 89 90 100 100 100 111.5

113.5 122.5 125.5 130 150 175.5 340.5 475.5
525 50 = 475, media lor
Q1 = 84, cuartila superioar
d = Q3 Q1 = 56.
Amplitudinea este
este
inferioar este
este
525
154.15, mediana este 105.75, modul este 100, cuartila

Q3 = 140, Q2 = M e i distana intercuartilic este
Mediana este valoarea cea mai reprezentativ n acest caz, deoarece cele mai mari trei preuri, anume
340.5, 475.5, 525,
mresc media i o fac mai puin reprezentativ pentru celelalte date. n cazul n care
setul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. n
Matlab,
X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ...
111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70
a = range(X); m = mean(X); Me = median(X); Mo = mode(X);
Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;
Exerciiu 10.3
Considerm datele din Tabelul 2.2. Determinai amplitudinea, media, mediana, modul,
dispersia i prima cuartil pentru aceste date.
Soluie:
x
=
Amplitudinea este
a = 30.
Media este
P
(x f )
1
= (2.5 5 + 7.5 13 + 12.5 23 + 17.5 17 + 22.5 10 + 27.5 2) = 13.9286.
n
70
Dispersia este:
1 X 2
( (x f ) n x
2 )
n1
1
=
(2.52 5 + 7.52 13 + 12.52 23 + 17.52 17 + 22.52 10 + 27.52 2 70 13.92862 )
69
= 37.06.
s2 =
Clasa median este clasa
[10, 15).
Deoarece n clasele anterioare ([0,
5)
[5, 10))
se a deja
5 + 13 = 18
date mai mici dect mediana, pentru a aa nlimea median a plantelor (i.e., acea valoare care este
mai mare dect nlimea a
35
de plante i mai mic dect nlimea a alte
s determinm acea valoare din clasa median ce este mai mare dect alte
17
35
de plante), va trebui
valori din aceast clas.
70

Aadar, avem nevoie de a determina o fracie
17
23 dintre valorile clasei mediane. n concluzie, valoarea
median este
M e = 10 +
Clasa modal este
[10, 15),
17
5 = 13.6957.
23
iar modul este valoarea central a clasei,
12.5.
Calculm acum prima cuartil. mprim setul de date n patru. Prima cuartil este acea valoare dintre
cele
70
care este mai mare dect alte
18
valori, adic
Q1 = 10.
Implementarea n
Matlab:
x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5];

% centrele claselor
f = [5; 13; 23; 17; 10; 2];
% frecventele
n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1);
Exerciiu 10.4
O companie de asigurri a nregistrat numrul de accidente pe sptmn ce au avut loc
ntr-un anumit sat, n decurs de un an (52 de sptmni). Acestea sunt, n ordine:
1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2,
4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2
(a) Construii un tabel de frecvene care s conin numrul de accidente, frecvenele absolute i relative.
(b) Gsii media empiric, mediana i deviaia standard empiric.
(c) Reprezentai prin bare rezultatele din tabelul de frecvene.
(d) Gsii i reprezentai grac (cdfplot) funcia de repartiie empiric a numrului de accidente.
(e) Aproximai probabilitatea ca ntr-o sptmn aleas la ntmplare s avut cel puin dou accidente.
Soluie:
(a) Tabelul de frecvene este Tabelul 10.1.

numrul
frecv. abs.
frecv. rel.
0
7
0.1346
1
9
0.1731
2
14
0.2692
3
12
0.2308
4
10
0.1923
Tabela 10.1: Tabel de frecvene pentru Exerciiu 10.4

(b) Avem:
x=
52
X
xi = 2.1731,
i=1
(c)
v
u
52
u1 X
t
s=
(xi x
)2 = 1.3094,
51
M e = 2.
i=1
Reprezentarea prin bare a numrului de accidente i gracul lui
Fn (x)
10.3.
(d) Funcia de repartiie empiric este:
Fn (x) = P (X x) =
0,
7,
52
16 ,
52
30
52 ,
42
52 ,
1,
x < 0;
dac x [0,
dac x [1,
dac x [2,
dac x [3,
dac x 4.
dac
1);
2);
3);
4);
sunt reprezentate n Figura
71
Figura 10.3: Reprezentare pentru numrul de accidente.

Probabilitatea cerut la
(e)
este:
P (X 2) = 1 P (X < 2) = 1 P (X 1) = 1 Fn (1) = 1
Codul
16
= 0.6923.
52
Matlab pentru calcule i grace este:
Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];
m = mean(Y); s = std(Y); Me = median(Y);
subplot(1,2,1); bar(0:4,[7,9,14,12,10])
% graficul cu bare
subplot(1,2,2); cdfplot(Y)
% graficul functiei de repartitie empirice
Exerciiu 10.5
Testm media notelor obinute de studenii din ultimul an al unei universiti. S pre-
supunem c pentru aceste note avem media de selecie

este
s,
8.45.
x = 7.24
i deviaia standard
s = 0.7.
Media ta
Care i este poziia mediei tale, raportat la mediile colegilor ti? (i.e., cte deviaii standard,
dedesubtul sau deasupra mediei de selecie te situezi?)
Soluie:
Calculm scorul
z=
Z.
Avem:
xx
8.50 7.24
=
= 1.8
0.7
deviaii standard deasupra mediei de selecie.
72

Noiuni de Teoria seleciei statistice
Deniia 11.1
Numim
colectivitate statistic
(sau
populaie)
o mulime nevid
cercetat din punct de vedere al uneia sau mai multor caracteristici.

numi
indivizi
(sau
atunci numrul
(sau
uniti statistice).
Vom nota cu
de elemente care este
Elementele colectivitii le vom
o unitate statistic.
Dac populaia este nit,
al unitilor statistice ce o compun (i.e., card()) l vom numi
volumul populaiei).
Considerm o populaie (colectivitate statistic)

caracteristici a sale,
X.
Studiem populaia
volumul colectivitii
din punctul de vedere al unei
Aceast caracteristic este o anumit proprietate urmrit la indivizii ei n
procesul prelucrrii statistice i o vom asimila cu o variabil aleatoare denit pe
Problema esenial
a Statisticii Matematice este de a stabili legea de probabilitate pe care o urmeaz caracteristica
X.
Pentru a gsi aceast lege (repartiie), avem nevoie mai nti de un numr reprezentativ de observaii
asupra colectivitii
variabila
Pe baza acestor observaii, vom determina prin inferen o lege care s reprezinte
X.
Deniia 11.2
sondaj) o subcolectivitate a colectivitii cercetate . Numrul

volumul seleciei (sondajului). Seleciile pot repetate sau nerepetate. O selecie se numete repetat (sau bernoullian) dac dup examinarea individului acesta se
reintroduce n colectivitate; n caz contrar avem o selecie nerepetat. n practic, volumul colectivitii
Vom numi
selecie
(sau
elementelor seleciei poart numele de
este mult mai mare dect volumul seleciei. n aceste cazuri, selecia nerepetat poate considerat ca
ind selecie repetat. Seleciile pe care le vom considera n continuare sunt numai selecii repetate din
colectivitatea statistic.
Dorim acum s introducem un cadru matematic abstract pentru aceste selecii repetate (pentru o abordare
mai detaliat, se poate consulta [11]).
Considerm spaiul msurabil
(, F),
unde
este un corp borelian de pri ale lui
urmrit poate reprezentat de o variabil aleatoare denit pe

o selecie repetat de volum
mulime
n ori".
n.
(, F).
Caracteristica
Dorim s denim matematic
Euristic, ideea este urmtoarea: a efectua
sondaje repetate dintr-o
este echivalent cu a considera o singur selecie dintr-o populaie de genul "
multiplicat de
Construim astfel:
(n) = ,
produs cartezian de
ori. Un element al lui
(n)
F (n) = F F F,
va
(n) = (1 , 2 , . . . , n ),
numit
n.
selecie repetat de volum n.
Cuplul
((n) , F (n) )
se numete
spaiul seleciilor repetate de volum
Considerm variabilele aleatoare
Xi : (n) R,
Xi ( (n) ) = X(i ),
i = 1, n.
73

Acestea sunt variabile aleatoare denite pe
{X(i )}i=1, n
(se
Vom numi Xi , i = 1, n, variabile aleatoare de selecie repetat de

vector de selecie repetat de volum n, vectorul Y , astfel nct:
Y : (n) R,
(n)
FX
FXi = FX , i = 1, n).
Vom numi
Pentru un
sunt independente stochastic (pentru c v.a.
sunt independente) i sunt identic repartizate, cu funcia de repartiie comun
veric usor c
volum n.
((n) , F (n) ),
Y ( (n) ) = (X1 ( (n) ), X2 ( (n) ), . . . , Xn ( (n) )).
xat, componentele vectorului
Y ( (n) )
se numesc
valori de selecie repetat de volum n.
Vom nota cu
Ln = Y ((n) ) Rn ,
i-l vom numi
spaiul valorilor de selecie repetat de volum n.
Elementele lui
Ln
le vom nota prin
x = (x1 , x2 , . . . , xn ),
(xi = Xi ( (n) ),
pentru
(n)
Deniia 11.3
Vom numi
i = 1, 2, . . . , n).
xat,
statistic (sau funcie de selecie) variabila aleatoare

Sn (X) = g(X1 , X2 , . . . , Xn ),
unde
este o funcie
g : Rn R
msurabil (i.e.,
B B(R),
g 1 (B) B(Rn )).
Ca o observaie, numele de "statistic" este folosit n literatura de specialitate att pentru variabila aleatoare de mai sus, ct i pentru valoarea ei, nelesul exact desprinzndu-se din context. Repartiia unei
statistici se mai numete i
Notaii:
repartiia (distribuia) de selecie.
n literatur, statistica este notat cu una dintre urmtoarele:
Sn (X),
S(X, (n) ),
S(X, n),
S(X1 , X2 , . . . , Xn ).
Valoarea numeric
Sn (x) = g(x1 , x2 , . . . , xn )
se numete
valoarea funciei de selecie pentru un (n)
Observaia 11.4
xat.
Aadar, o statistic este o funcie de variabilele aleatoare de selecie. Prin intermeniul
statisticilor putem trage concluzii despre populaia
din care a provenit eantionul
babilitilor ne ofer procedee de determinare att a repartiiei exacte a lui

asimptotice a lui
Sn (X),
(n) .
Teoria pro-
ct i a repartiiei
Sn (X). Repartiia exact este acea repartiie ce poate determinat pentru orice volum
< 30), atunci repartiia exact ar
al seleciei. n general, dac se lucreaz cu selecii de volum redus (n

trebui s e cunoscut
este repartiia limit a
a priori,
Sn (X)
dac se dorete luarea de decizii prin inferen.
cnd
n ,
Repartiia asimptotic
iar utilizarea acesteia conduce la rezultate bune doar pentru
n 30.
De cele mai multe ori, o funcie de selecie (statistic) este utilizat n urmtoarele cazuri:
n probleme de estimare punctual a parametrilor;
n obinerea intervalelor de ncredere pentru un parametru necunoscut;
ca o statistic test pentru vericarea ipotezelor statistice.
74
Exemple de statistici
Fie
(, F)
o colectivitate statistic i
f (x) i F (x) densipentru X . Acestea pot
o caracteristic cercetat a sa. S notm cu
tatea de repartiie (sau funcia de probabilitate), respectiv, funcia de repartiie
a priori i le vom numi funcii teoretice (densitate de repartiie teoretic,

funcie de probabilitate teoretic sau funcie de repartiie teoretic). Dac se cunoate f (x), atunci putem
2
2
determina = E(X) i = D (X), dac acestea exist, i le vom numi medie teoretic i dispersie
teoretic.
n cazul n care una sau mai multe caracteristici teoretice corespunztoare lui X nu ne sunt a priori
cunoscute sau necunoscute
cunoscute, vom cuta s le determinm prin inferen, adic prin extragerea unor selecii de date din
colectivitate, calculnd caracteristicile respective pentru seleciile considerate i apoi extrapolnd (n anumite condiii i dup anumite criterii) la ntreaga colectivitate.
S considerm
(n)
din colectivitatea dat i
Xi , i = 1, n,
variabilele
aleatoare de selecie. Cu ajutorul acestora, putem construi diverse funcii de selecie.
Media de selecie
Deniia 11.5
(mean)
Numim
medie de selecie (repetat de volum n), statistica

n
X( (n) ) =
1X
Xi ( (n) ),
n
(n) (n) .
(11.1)
i=1
Pentru un
(n)
{x1 , x2 , . . . , xn } valorile de selecie corespunztoare variabilelor

{X1 , X2 , . . . , Xn }. Atunci valoarea mediei de selecie pentru un (n) xat este:
xat, s notm cu
toare de selecie
alea-
1X
x=
xi
n
(media
empiric).
i=1
Propoziia 11.6
Media de selecie satisface urmtoarele proprieti:
E(X) = E(X),
D2 (X) =
D2 (X)
;
n
(11.2)
1X
a.s.
Xi E(X),
n
cnd
n .
(conform LTNM)
(11.3)
i=1
Observaia 11.7
(1)
n capitolele urmtoare vom scrie relaia (11.4) sub forma restrns:
X=
1X
Xi .
n
(11.4)
i=1
Pentru simplitatea formulelor, de acum nainte vom face abstraie de dependena de
(n)
n formule, care
se va subnelege.
(2)
Propoziia 11.22 precizeaz care este repartiia mediei de selecie pentru variabile aleatoare de selecie
dintr-o colectivitate normal, iar Propoziia 11.24 precizeaz care este repartiia asimptotic a mediei de
selecie pentru variabile de selecie ntr-o colectivitate oarecare.
75
Momente de selecie
Deniia 11.8
Numim
moment de selecie (repetat de volum n) de ordin k, (k N ), statistica

n
1X k
k (X) =
Xi .
n
i=1
Valoarea momentului de selecie de ordin
pentru un
(n)
xat este:
1X k
xi
n
k (x) =
(moment
iniial empiric de ordin
k).
i=1
k = 1,
n cazul particular
avem:
1 (X) = X.
Propoziia 11.9
Pentru oricare
E(k (X))
D2 (k (X))
xat,
k N ,
avem:
E(X k ) = k (X),
D2 (X k )
,
n
(momente
iniiale teoretice pentru
X)
1 X k a.s.
Xi k (X),
n
cnd
n .
i=1
Momente de selecie centrate
Deniia 11.10
Numim
moment de selecie centrat de ordin k, statistica

n
k (X) =
1X
[Xi X]k .
n
i=1
Valoarea momentului de selecie de ordin
pentru un
(n)
xat este:
k (x) =
1X
[xi x]k
n
(moment
centrat empiric de ordin
k).
i=1
Propoziia 11.11
Pentru oricare
E(k (X))
1
n
n
X
i=1
(Xi X)k
=
a.s.
xat,
k N ,
avem:
E([X ]k ) = k (X),
k (X),
cnd
n .
(momente
centrate teoretice pentru
X)
76
Dispersie de selecie
Deniia 11.12
(var)
dispersie de selecie (repetat de volum n), statistica
Numim
1X
[Xi X]2 .
n
d2 (X) = 2 (X) =
i=1
d2 (X),
Pentru simplitate, o vom nota cu
iar valoarea acesteia pentru un
(n)
xat este:
d2 (x) =
1X
[xi x]2
n
(dispersia
empiric).
(11.5)
i=1
De cele mai multe ori, n locul lui
d2 (X)
se utilizeaz statistica
d2 (X),
denit prin:
d2 (X)
1 X
[Xi X]2 .
=
n1
(11.6)
i=1
Aceasta se mai numete i
dispersie de selecie modicat, iar valoarea ei pentru un (n)
xat este:
s =
d2 (x)
1 X
=
[xi x]2
n1
(dispersia
empiric modicat).
i=1
Motivaia pentru considerarea statisticii
Propoziia 11.13
d2 (X)
este dat de proprietile din propoziia urmtoare:
Dispersiile de selecie veric urmtoarele relaii:
E(d2 (X)) =
n1 2
D (X),
n
E(d2 (X)) = D2 (X)

prob
d2 (X) D2 (X),
Observaia 11.14
d2 (X)
(ii)
cnd
(11.7)
n .
(11.8)
(i) Dup cum vom vedea n capitolul urmtor, primele dou relaii arat c statistica
d2 (X) este estimator deplasat.

a priori, E(X) = R, atunci dispersia de
este un estimator nedeplasat pentru dispersia teoretic, pe cnd
Dac media teoretic a colectivitii este cunoscut
selecie
d2 (X)
devine:
d2 (X) =
1X
[Xi ]2 .
n
(11.9)
i=1
Propoziia 11.28 precizeaz care este repartiia acestei statistici.
Funcia de repartiie de selecie
(cdfplot)
Deniia 11.15 Fie X1 , X2 , . . . , Xn variabile aleatoare de selecie repetat de volum n.

de repartiie de selecie (repetat de volum n), funcia
Fn : R (n) [0, 1],
Fn (x, (n) ) =
n(x)
,
n
(x, (n) ) R (n) ,
Numim
funcie
77

unde
n(x) = card {i, Xi ( (n) ) x}
reprezint numrul de elemente din selecie mai mici sau egale cu
x.
Relaia din deniie poate scris i sub forma:
Fn (x) =
1X
(, x] (Xi ),
n
x R,
i=1
unde
este funcia indicatoare a mulimii
A.
(n) ) este o variabil aleatoare repartizat binomial

Pentru un x R xat, Fn (
(n)
(n)
Pentru ecare
xat, Fn (x) ia valorile:
Fn (x) =
card
B(n, F (x)).
{i, xi x}
,
n
(i.e., este funcia de repartiie empiric denit n 9.4).
Propoziia 11.16
Funcia de repartiie de selecie satisface urmtoarele relaii:
E(Fn (x)) = F (x), x R;

1
[F (x)(1 F (x))],
D2 (Fn (x)) =
n
x R;
n Statistic, exist o serie de criterii care permit s se aprecieze apropierea lui
Fn (x)
de
F (x).
Mai jos,
amintim doar cteva dintre ele.
Propoziia 11.17
Funcia de repartiie de selecie satisface convergena
a.s.
Fn (x) F (x), x
n
Demonstraie.
R.
2
Rezultatul este o consecin direct a legii tari a numerelor mari.
Propoziia 11.18
Pentru
Demonstraie.
xat n
n N sucient de mare,
funcia de repartiie de selecie satisface proprietatea
n(Fn (x) F (x)) N ( 0, F (x)(1 F (x)) ), x
xat n
R.
Rezultatul este o consecin direct a Propoziiei 11.16 i a teoremei limit central.
Teorema 11.19 (Glivenko-Cantelli) Fie X
F (x) funcia sa de repartiie i Fn (x) funcia
volum n. Atunci Fn (x) converge uniform la F (x),
o caracteristic,
de repartiie empiric corespunztoare unei selecii de

adic:
sup |Fn (x) F (x)| 0,

xR
cu probabilitatea
1.
Statistici de ordine
Deniia 11.20
Dac variabilele aleatoare din selecia
{X1 , X2 , . . . , Xn }
mii lor i scriem
X(1) X(2) X(n) ,
le rearanjm n ordinea mri-
78
X(i) statistica de ordine de ordin i, pentru orice i = 1, 2, . . . , n.

i o vom nota prin x(i) , pentru orice i =
atunci vom numi variabila aleatoare
Pentru o selecie dat, valoarea statisticii de ordine de ordin
1, 2, . . . , n.
Statistica X(1)
se numete
prima statistic de ordine i este ntotdeauna minimumul seleciei, i.e.,

X(1) = min{X1 , X2 , . . . , Xn }.
Statistica
X(n)
se numete
ultima statistic de ordine i este ntotdeauna maximumul seleciei, i.e.,

X(n) = max{X1 , X2 , . . . , Xn }.
De exemplu, dac avem valorile de selecie
x1 = 8,
x2 = 7,
x3 = 9,
x4 = 5,
x5 = 3,
atunci
x(1) = 3,
Dac
n = 2m + 1,
caz. Dac
atunci
n = 2m,
x(2) = 5,
X(m) = X( n+1 ) = X ,
2
x(3) = 7,
x(5) = 9.
adic media de selecie este o statistic de ordine n acest
atunci avem dou valori de mijloc,
media de selecie nu este statistic de ordine pentru

Denim
x(4) = 8,
X(m)
X(m+1) .
Deoarece
X = 21 (X(m) + X(m+1) ),
par.
amplitudinea (range) seleciei ca ind statistica A = X(n) X(1) .

deviaiile extreme ale seleciei.
Statisticile
X(n) X
X(1) X
se numesc
Dei variabilele aleatoare de selecie sunt independente, totui statisticile de ordine sunt dependente.
S presupunem c
F (x)
este funcia de repartiie a seleciei date i
f (x)
densitatea de repartiie. Urm-
toarea propoziie stabilete funciile de repartiie pentru statisticile de ordine.
Propoziia 11.21
Pentru un
k 1, n
FX(k) (x) =
n
X
xat, funcia de repartiie pentru
Cnj F (x)j [1 F (x)]nj ,
X(k)
pentru orice
este:
x R.
j=k
Demonstraie.
Avem succesiv:
FX(k) (x) = P (X(k) x)

= P ({cel
puin
v.a. din cele
nu depesc pe
x})
= P ({cel puin k succese n n ncercri})

n
X
=
Cnj [P (X x)]j [1 P (X x)]nj
=
j=k
n
X
Cnj F (x)j [1 F (x)]nj ,
pentru orice
x R.
j=k
2
n particular, pentru
k = 1,
obinem c funcia de repartiie a celui mai mic element al seleciei:
FX(1) (x) = 1 [1 F (x)]n ,
pentru orice
x R.
79

Funcia de repartiie a celui mai mare element al seleciei este:
FX(n) (x) = [F (x)]n ,
pentru orice
x R.
Selecii aleatoare dintr-o colectivitate normal

S considerm
o colectivitate statistic i
o caracteristic a sa, ce urmeaz a studiat din punct de
{X1 , X2 , . . . , Xn } variabile aleatoare de selecie repetat de volum n. n cele mai

X urmeaz o repartiie normal (gaussian). De regul, dac volumul populaiei
este mic (n < 30), atunci considerm doar populaii normale, iar pentru n > 30 putem considera orice tip
vedere statistic. Fie
multe cazuri practice,
de repartiie pentru colectivitate. Mai jos, prezentm cteva rezultate utile referitoare la selecia dintr-o
colectivitate gaussian.
Propoziia 11.22 (repartiia mediei de selecie pentru o selecie gaussian)

Dac
Xi N (, ), i = 1, 2, . . . , n,
atunci statistica

XN
Demonstraie.
,
n
satisface:
(n N )
Vom folosi metoda funciei caracteristice.
caracteristic este:
(t) = ei t 2
Pentru o variabil aleatoare

2 t2
N (, )
funcia
(11.10)
Folosind proprietile funciei caracteristice i relaia
aX (t) = X (at),
obinem c funcia caracteristic a lui
X (t) =
este:
n
Y
t
n
2 t2
2 n2
it
= e
1
2
2
t2
k=1
adic
urmeaz legea de repartiie
N (,
).
n
O consecin direct a acestei propoziii este urmtoarea:
Propoziia 11.23
Dac
Xi N (, ), i = 1, 2, . . . , n
Z=
sunt variabile aleatoare de selecie, atunci
X
N (0, 1).
Propoziia 11.24 (repartiia mediei de selecie pentru o selecie oarecare)

Dac
{X1 , X2 , . . . , Xn }, variabile aleatoare de selecie repetat de volum n, ce urmeaz o repartiie dat,

n sucient de mare, statistica X satisface:

X N ,
.
(n > 30)
n
atunci pentru un volum
80
Demonstraie.
Acest rezultat este o consecin imediat a concluziei teoremei limit central.
Observaia 11.25
Dac
este sucient de mare, atunci concluzia Propoziiei 11.23 ramne valabil i
n cazul n care avem o selecie repetat de volum
dintr-o colectivitate statistic ce nu este neaprat
gaussian.
Propoziia 11.26
i = 1, n,
Dac
atunci variabila
i N (i , i ) sunt variabile aleatoare independente

n
X
aleatoare =
ai i satisface proprietatea:
stochastic i
ai R,
i=1
n
X
N
ai i ,
u n
uX
t
a2i i2 .
i=1
Demonstraie.
i=1
Demonstraia este bazat pe metoda funciei caracteristice.
Propoziia 11.27
Fie
i N (i , i ) variabile
i considerm cte
Pentru ecare caracteristic
de selecie corespunztoare ecrei selecii.
[Exerciiu!]
ai R, i = 1, n.
ni , i notm cu i media
Y = a1 1 + a2 2 + . . . + an n satisface
aleatoare independente stochastic i

Atunci statistica
proprietatea:
n
X
Y N
ai i ,
i=1
Demonstraie.
toare,
i ,
Deoarece
i N (i , i ),
u n
uX i2
t
.
a2i
ni
i=1
din Propoziia 11.22 obinem c media de selecie corespunz-
satisface:

i N
i
i ,
ni

.
Aplicnd rezultatul Propoziiei 11.26 variabilelor aleatoare independente
{1 , 2 , . . . , n },
obinem con-
cluzia dorit.
Urmtoarea propoziie este un caz particular al Propoziiei 11.27.
Propoziia 11.28 (repartiia diferenei mediilor de selecie pentru colectiviti gaussiene)

Considerm o selecie de volum
N (2 , 2 ),
o colectivitate
respectiv,
n1
dintr-o populaie normal
N (1 , 1 )
i o selecie de volum
cele dou selecii ind alese independent una de cealalt.
n2
Notm cu
dintr-
i,
mediile de selecie corespunztoare seleciilor alese. Atunci statistica
1 2 N 1 2 ,
Demonstraie.
12
n1
22
n2
Aplicm rezultatul Propoziiei 11.27 pentru cazul particular n care avem doar dou vari-
abile aleatoare,
2 ,
iar
a1 = 1, a2 = 1.
81
Observaia 11.29
(1)
Concluzia propoziiei anterioare se mai poate scrie astfel:
Z=
(2)
(1 2 ) (1 2 )
q 2
N (0, 1).
22
1
+
n1
n2
S presupunem c avem dou populaii statistice normale,
a celor dou populaii, ce urmeaz a studiat.
1 i 2 , iar este o caracteristic comun
(De exemplu, populaiile statistice s e mulimea
pieselor produse de dou strunguri ntr-o zi de lucru, iar caracteristica comun s e masa lor). S mai
presupunem c deviaiile standard ale caracteristicilor considerate sunt cunoscute (i.e., deviaiile sunt date
deja n cartea tehnic a celor dou strunguri). Pentru ecare dintre cele dou colectiviti, considerm
cte o selecie repetat, de volume
strungul nti i
n2
n1 ,
respectiv,
n2
n1 dintre piesele produse

cu 1 , respectiv, 2 mediile
(adic, vom selecta
piese produse de cel de-al doilea strung). S notm
de
de
selecie corespunztoare. Propoziia anterioar precizeaz care este repartiia diferenei standardizate ale
celor dou medii de selecie. Aceasta ne va deosebit de util, spre exemplu, n vericarea ipotezei c
masele medii ale pieselor produse de cele dou strunguri coincid.
82

Utiliznd funciile
legernd(< param >, m, n)
(12.1)
random(0 lege0 , < param >, m, n)
(12.2)
introduse anterior, putem genera variabile aleatoare de selecie de un volum dat,

trebui ca
m=n
n.
Pentru aceasta, va
n (12.1) i (12.2). Astfel, comanda
random('norm',100,6, 50,50)
genereaz o matrice ptratic, de dimensiune
50.
Putem privi aceast matrice aleatoare astfel: ecare
coloan a sa corespunde unei variabile aleatoare de selecie de volum

valori ale sale obinute la o observaie. n total, avem
aleatoare de selecie. Aadar, am generat
repartiia
50
50
50,
creia i precizm cele
de coloane, corespunznd celor
de variabile aleatoare de selecie de volum
50 de
50, ce
50
de
variabile
urmeaz
N (100, 6).
Exerciii rezolvate
Exerciiu 12.1
o caracteristic
S considerm c masa medie a unor batoane de ciocolat produse de o main este
X N (100, 0.65).
n vederea vericrii parametrilor mainii, dintre sutele de mii de
batoane produse n acea zi s-au ales la ntmplare
1000
dintre acestea.
Calculai masa medie i deviaia standard ale mediei de selecie,
Calculai
X.
P (98 < X < 102).
Un baton este declarat rebut dac masa sa este sub
98
de grame sau peste
102
de grame. Calculai
procentul de rebuturi avute.
Soluie:
Din teorie, tim c media de selecie
urmeaz repartiia
N (100, 0.65/ 1000) (vezi Propoziia
11.22). Aadar,
X = 100,
Probabilitatea
P1 = P (98 < X < 102)
X 0.02.
este
P1 = P (X < 102) P (X 98) = FX (102) FX (98) 1.

Probabilitatea de a avea un rebut este:

[
P2 = P {X < 98}
{X > 102}
= P (X < 98) + P (X > 102)
= FX (98) + 1 FX (102),
de unde, procentul de rebuturi este
r = P2 100% 0.2091%,
83

adic aproximativ
n
rebuturi la
1000
de batoane.
Matlab, acestea pot calculate astfel:
mu = 100; sigma = 0.65; n=1000;

% n = volumul selectiei
X = normrnd(mu, sigma, n,n);
% am generat selectia de volum n
Xbar = mean(X); S = sigma/sqrt(n);
% Xbar = media de selectie
m = mean(Xbar); s = std(Xbar);
% media si deviatia standard
P1 = normcdf(102, mu, S) - normdf(98, mu, S);
P2 = normcdf(98,mu,sigma) + 1 - normcdf(102,mu,sigma);
rebut = P2*100;
Exerciiu 12.2
n vederea studierii unei caracteristici
ce are densitatea de repartiie
(
2 x, x (0, 1);
f (x) =
0,
x 6(0, 1).
s-a efectuat o selecie repetat de volum
unde
Soluie:
n = 100.
Se cere s se determine probabilitatea
P (X < 0.65),
este media de selecie.
f (x)
Se observ cu uurin c
ndeplinete condiiile unei funcii de repartiie, adic este
msurabil, nenegativ i
f (x) dx =
2 x dx = 1.
0
Pentru a calcula probabilitatea cerut, avem nevoie de
E(X)
Z
E(X) =
Z
x f (x) dx =
0
D2 (X) = E(X 2 ) (E(X))2 =
D2 (X).
2
2 x2 dx = ,
3
x2 f (x) dx
R
Aadar, repartiia mediei de selecie
Avem:
1
4
= .
9
18
este

XN
2
1
,
3
18 100

.
Putem acum calcula probabilitatea cerut. Ea este:
P (X < 0.65) = FX (0.65) = normcdf(0.65, 2/3, 1/(30*sqrt(2))) = 0.2398.
Exerciiu 12.3
nem o sum de
Soluie:
X
O pereche de zaruri ideale este aruncat de

n cel puin
20%
200
de ori. Care este probabilitatea s obi-
dintre cazuri?
Probabilitatea de apariie a sumei
p = 1/6. Fie
200 de aruncri.
ntr-o singur aruncare a dou zaruri este
v.a. ce reprezint numrul de apariii ale sumei
la aruncarea a dou zaruri ideale n
84

Atunci,
X B(200, 1/6). Probabilitatea

40 dintre cazuri) este:
ca o sum de
s apar n cel puin
20%
dintre cazuri (i.e., n
cel puin
P = P (X 40) = 1 P (X 39) = 1
39
X
k
C200
pk (1 p)200k = 0.1223.
k=0
n
Matlab,
1 - binocdf(39,200,1/6)
Exerciiu 12.4
; Distana
la care o sunt aruncate mingile de tenis de ctre o main automat de servit
este o variabil aleatoare repartizat normal.

este
Media distanei este necunoscut, dar deviaia standard
1.2 m.
P (X 20) = 0.95, s se gseasc valoarea ateptat a distanei (adic, E(X)).
E(X) = 18. Fie {Xk }k=1, 50 o selecie aleatoare ce urmeaz repartiia lui X .
Calculai P (X 18).
X 18
2
Stabilii repartiia variabilei aleatoare Z =
i calculai probabilitatea P (Z 20).
1.2
(a) tiind c
(b) S presupunem c
(c)
(a)
X N (, 1.2).
P (X 20) = 0.95 obinem c

X
20
20
0.95 = P
=
,
1.2
1.2
1.2
Din
20
= 1 (0.95) = 1.6449. Aadar, EX = = 18.0262 18.
1.2

1.2
Folosim faptul c X N 18,
. Obinem c:
5 2
de unde
(b)
P (X 18) = 1 P (X < 18) = 1 FX (18) = 0.5.

(c)
Z N (0, 1)
Z 2 2 (1). P (Z 2 < 20) = FZ 2 (20) = 1.
(= 1
- normcdf(18, 18, 1.2/sqrt(50)))

(=
chi2cdf(20,1)).
85

Noiuni de Teoria seleciei (continuare)
Considerm o colectivitate statistic
{X1 , X2 , . . . , Xn }
i o caracteristic a sa,
X,
ce urmeaz a studiat. Fie
variabile aleatoare de selecie repetat de volum
cedent, n cele mai multe cazuri practice variabila aleatoare
n.
Dup cum am vzut n cursul pre-
urmeaz o repartiie normal (gaussian).
n acest caz, media de selecie
1X
Xi
n
X=
urmeaz tot repartiia normal, i.e.,
i=1

XN
pentru orice
n N .
Totui, dac
,
n
nu este o v.a.

,
(13.1)
normal repartizat i
n 30,
atunci repartiia
asimptotic a mediei de selecie este una gaussian, i.e. relaia (13.1) este satisfcut pentru
Cnd selecia se face fr revenire dintr-o populaie de volum mai mic dect
30
n 30.
nu este neaprat
normal repartizat, atunci putem spune doar c
E(X) =
fr a putea preciza care este repartiia lui
X.
D (X) =
n
Aici
N n
,
N 1
este volumul populaiei
, N > n.
Mai jos, prezentm i alte cteva rezultate utile referitoare la selecia dintr-o colectivitate gaussian.
Propoziia 13.1
{X1 , X2 , . . . , Xn } variabile aleatoare

N (0, 1) , i = 1, 2, . . . , n. Atunci variabila aleatoare
Fie
H =
n
X
independente stochastic, astfel nct
Xi
Xk2 2 (n).
i=1
Demonstraie.
Pentru a demonstra propoziia, folosim metoda funciei caracteristice.
avem nevoie de funcia caracteristic pentru

S notm cu
G(y)
f (x)
X 2,
funcia densitate de repartiie
X2
X N (0, 1).
pentru X , dat de
relaia (30.2) cu
g(y) densitatea sa de repartiie. Avem:

(
0
, y 0;
2
G(y) = P (X y) =
P ( y X y) , y > 0,
i cu
de unde
g(y) = G (y) =
Pentru aceasta,
unde
(
0
+ f ( y)] ,
(
0
,
,
2 y [f ( y)
1 f ( y)
y
y 0;
y > 0.
y 0;
y > 0,
= 0.
Notm cu
86

Funcia caracteristic pentru
X2
va :
i t X2
X 2 (t) = E e
1
=
2
y 2 eity
2 y
2
dy
= (1 2it) 2 .
Deoarece variabilele aleatoare
{Xi }i
sunt independente stochastic, putem aplica relaia (5.15) i obinem:
H 2 (t) = E(eit
Pn
i=1
Xi2
)=
n
Y

2
E eitXi
i=1
n
Y
X 2 (t) = (1 2it) 2 .
i
i=1
Aceasta este funcia caracteristic pentru o v.a.
Observaia 13.2
X 2 2 (1).
2 (n).
O consecin imediat a acestei propoziii este c, dac
X N (0, 1),
atunci v.a.
Urmtoarea propoziie este tot o consecin direct a Propoziiei 13.1.
Propoziia 13.3 (repartiia dispersiei de selecie cnd media colectivitii este cunoscut)
{X1 , X2 , . . . , Xn } variabile
i = 1, 2, . . . , n. Atunci variabila
Fie
aleatoare independente stochastic, astfel nct
Xi N (, ),
pentru
aleatoare
H2 =
n
1 X
(Xi )2 2 (n).
2
i=1
Demonstraie.
Pentru ecare
i = 1, 2, . . . , n,
consider variabilele aleatoare
Yi =
Xi
.
Yi N (0, 1), i = 1, n. Aplicm

{Y1 , Y2 , . . . , Yn } i obinem concluzia dorit.
Conform Propoziiei 11.23, avem

variabilele aleatoare
Lema 13.4
X +Y
X i Y sunt variabile
+ m), atunci Y 2 (m).
Dac
2 (n
Demonstraie.
rezultatul propoziiei 13.1 pentru
aleatoare independente stochastic, astfel nct
X 2 (n)
Demonstraia se bazeaz pe metoda funciei caracteristice, folosind faptul c
X (t) Y (t) = X+Y (t), t R.

2
Lema 13.5
volum
Fie X caracteristica unei colectiviti statistice N (, ), X

d2 (X) dispersia de selecie repetat. Atunci, statisticile
n
(X )
n
n1 2
1 X
d
(X)
=
(Xi X)2
2
2
i=1
media de selecie repetat de
sunt independente stochastic.
87
Demonstraie.
Demonstraia este tehnic i nu am inclus-o n acest material. Aceast lem este demon-
strat n [4] (Teorema I.2.5).
Propoziia 13.6
Fie
X N (, )
{X1 , X2 , . . . , Xn }
caracteristica unei populaii statistice i e
abile aleatoare de selecie repetat de volum
n.
vari-
Atunci statistica
n
1 X
= 2
(Xi X)2 2 (n 1).
i=1
Demonstraie.
Putem scrie:
n
1 X
(Xi )2
2
i=1
n
n
1 X
(Xi X)2 + 2 (X )2
2
(13.2)
n1 2
2
d (X) + Z ,
2
(13.3)
i=1
sau,
n
X
Zi2
i=1
unde:
Zi =
Xi
N (0, 1)
Z=
N (0, 1).
Utiliznd Propoziia 13.3, observm c membrul stang al egalitii (13.2) este o variabil aleatoare reparti-
2 (n). Folosind Observaia 13.2, concluzionm c al doilea termen din membrul drept este repartizat
2
2 (1). Utiliznd lema anterioar i folosind rezultatul Exerciiului ??, deducem c variabilele aleatoare Z
n1 2
i
d (X) sunt independente stochastic. Facem apel la Lema 13.4, i ajungem la concluzia propoziiei.
2
2
zat
Observaia 13.7
Concluzia propoziiei 13.6 se poate rescrie astfel:
n1 2
d (X) 2 (n 1),
2
unde
d2 (X)
Lema 13.8
(13.4)
este dispersia de selecie.
Dac
sunt variabile aleatoare independente stochastic, cu
atunci statistica
X
T =q
Y
n
Demonstraie.
Fie
f (x)
g(y)
X N (0, 1) i Y 2 (n),
t (n).
densitile de repartiie pentru
X,
x2
1
f (x) = e 2 , x R,
2
n 1 y
y 2n e 2 , y > 0;
2 2 ( n
g(y) =
2)
0
, y 0.
respectiv,
Y.
Avem:
88

Din independen, gsim c densitatea de repartiie a vectorului
(X, Y )
este:
x2 +y
y 2 1 e 2
h(x, y) = f (x)g(y) = n+1
,
2 2 n2
(x, y) R (0, ).
Considerm o transformare a acestui vector,
t = q
y
n
v = y,
n vectorul
(T, Y ).
Densitatea de repartiie a acestui vector este:

t2
v 2 1 e 2 (1+ n )
k(t, v) = n+1

2 2 n2
Densitatea de repartiie marginal pentru
v
,
n
(t, v) R (0, ).
este:
k1 (t) =
k(t, v) dv
0

n+1
2
n+1
t2
2
1+
,
n
n
n 2
adic tocmai densitatea de repartiie a unei variabile aleatoare
Propoziia 13.9
Dac
{X1 , X2 , . . . , Xn } sunt variabile

X N (, ) a unei
urmeaz repartiia unei caracteristici
t=
(Aici,
t(n 1)
Demonstraie.
este repartiia Student cu
t R,
t(n).
aleatoare de selecie repetat de volum
n,
ce
colectiviti statistice, atunci statistica
X
t(n 1).
d (X)
n1
(n 1)
grade de libertate, iar
d (X) =
d2 (X) ).
Aplicm lema anterioar pentru variabilele aleatoare
X=
N (0, 1)
Y =
n1 2
d (X) 2 (n 1).
2
2
Observaia 13.10
Aceasta propoziie va folosit n teoria deciziei statistice, n problema testrii mediei
teoretice cnd dispersia teoretic este necunoscut
Propoziia 13.11
repartizate
N (0, 1),
Dac variabilele aleatoare
a priori.
{X0 , X1 , . . . , Xn }
sunt independente stochastic, identic
atunci variabila aleatoare
T =q
X0
X12 +X22 + ... +Xn2
n
t (n).
89
Demonstraie.
Concluzia rezult prin aplicarea Propoziiei 13.1 i Lemei 13.8.
Propoziia 13.12 (repartiia diferenei mediilor de selecie cnd dispersiile sunt necunoscute, egale)
Considerm o selecie de volum
n1
dintr-o populaie normal
N (1 , 1 )
n2 dintr-o
cu 1 , 2 i
i o selecie de volum
N (2 , 2 ), cele dou selecii ind alese independent una de cealalt. Notm

d21 = d2 (X1 ), d22 = d2 (X2 ) mediile de selecie i dispersiile de selecie corespunztoare seleciilor
colectivitate
alese.
Atunci statistica
(1 2 ) (1 2 )
T =q
(n1 1)d21 + (n2 1)d22
Demonstraie.
n1 + n2 2
1
1
n1 + n2
t (n1 + n2 2).
Considerm variabila aleatoare
U=
Se veric cu uurin c
U N (0, 1).
(1 2 ) (1 2 )
q
.
n11 + n12
V =
(n1 1) d21 (n2 1) d22

+
.
2
2
(n1 1) d21
2
Propoziia 13.13
Dac
2 (n1 1)
(n2 1) d22
2
2 (n2 1). Deoarece aceste dou

2
statistici sunt independente, atunci c suma lor, statistica V , satisface V (n1 + n2 2). Concluzia
propoziiei rezult prin simpla aplicare a Lemei 13.8 variabilelor aleatoare U i V .
2
Conform relaiei (13.4), avem c
X 2 (m) i Y 2 (n) sunt variabile aleatoare independente, atunci variabila
aleatoare
F =
Demonstraie.
Fie
f (x)
g(y)
n X
F(m, n).
m Y
densitile de repartiie pentru
m 1 x
x 2m e 2
2 2 ( m
f (x) =
2 )
0
n 1 y
y 2n e 2
2 2 ( n
g(y) =
2)
i, respectiv,
Y.
Avem:
, x > 0;
, x 0.
, y > 0;
, y 0.
Din independena celor dou variabile aleatoare, gsim c densitatea de repartiie a vectorului
este:
x 2 1 y 2 1 e
h(x, y) = f (x)g(y) = m+n

2 2 m
2
x+y
2
n
2
,
Considerm o transformare a acestui vector,
t = n x
m y
:
v = y,
(x, y) (0, ) (0, ).
(X, Y )
90

n vectorul
(F, Y ).
Densitatea de repartiie a acestui vector este:
m
n
k(u, v) =
m
2
u 2 1 v
m+n
2
m+n
1
2
e 2 (1+ n

n
m
2 2
Densitatea de repartiie marginal pentru
u)
(t, v) (0, ) (0, ).
este:
k(u, v) dv
k1 (u) =
0
m

m 2
m+n
n
2

n
m
2 2

m
m m+n
2
u 2 1 1 + u
,
n
adic tocmai densitatea de repartiie a unei variabile aleatoare
Propoziia 13.14
N (0, 1),
Dac
{X1 , X2 , . . . , Xm+n }
u > 0,
F(m, n).
sunt variabile aleatoare independente, identic repartizate
F =
Demonstraie.
2
n
X12 + X22 + . . . + Xm
2
2
2
m Xm+1
+ Xm+2
+ . . . + Xm+n
F(m, n).
Demonstraia rezult imediat prin aplicarea rezultatelor Propoziiilor 13.1 i 13.13.
Propoziia 13.15 (repartiia raportului dispersiilor pentru colectiviti gaussiene)

Fie
X1 N (1 , 1 )
X2 N (2 , 2 )
caracteristicile a dou populaii statistice,
populaie extragem cte o selecie repetat, de volume
d22 = d22 (X2 )
Rescriem
2 . Din ecare
d21 = d21 (X1 ) i
i considerm
n forma echivalent:
unde
21 =
i
n2 ,
22 d21
F(n1 1, n2 1).
12 d22
F =
{X1 i }i=1, n1
respectiv,
dispersiile de selecie corespunztoare celor dou selecii repetate. Atunci statistica
F =
Demonstraie.
n1 ,
{X2 i }i=1, n2
n2 1 21
,
n1 1 22
n1
1 X
(X1 i X1 )2 ,
12 i=1
22 =
n2
1 X
(X2 j X2 )2 ,
22 j=1
sunt variabile de selecie repetat de volume
repartiia variabilelor aleatoare
X1 ,
respectiv,
X2 .
Statisticile
X1
X2
n1 ,
respectiv,
n2 ,
ce urmeaz
sunt mediile de selecie corespun-
ztoare.
Folosind concluzia Propoziiei 13.6, avem c
21 2 (n1 1),
22 2 (n2 1).
Concluzia acestei propoziii urmeaz n urma aplicrii rezultatului Propoziiei 13.14.
91
Propoziia 13.16 (repartiia raportului dispersiilor pentru colectiviti gaussiene)

Suntem n condiiile Propoziiei 13.15, cu meniunea c mediile teoretice
Atunci
F1 =
unde
d21
d22
sunt cunoscute
a priori.
22 d21
F(n1 , n2 ),
12 d22
sunt date de:
21
Demonstraie.
i 13.14.
n1
1 X
= 2
(X1 i 1 )2 2 (n1 ),
1 i=1
22
n2
1 X
= 2
(X2 j 2 )2 2 (n2 ).
2 j=1
Demonstraia este similar cu cea de mai nainte. Se folosesc rezultatele Propoziiilor 13.3
92

Exerciii rezolvate
Exerciiu 14.1
Becurile produse de un manufacturier
cu deviaia standard de
200
au timpul mediu de funcionare de
1400
ore,
ore, n timp ce timpul mediu de funcionare ale becurilor produse de un
B au timpul mediu de funcionare de 1200 ore, cu deviaia standard de 100 ore. Se face
o selecie de 125 becuri din ecare tip i se testeaz becurile alese. Pentru seleciile date, care este
probabilitatea ca becurile produse de A au un timp mediu de via mai mare cu
(a) 160 de ore;
(b) 250 de ore;
mai mare dect timpul mediu de funcionare ale becurilor produse de B ?
(c)
Care este probabilitatea ca timpul mediu de funcionare al becurilor selectate din tipul A s e
cuprins ntre 1375 de ore i 1425 de ore?
(d) Presupunem c timpul mediu de funcionare ale becurilor produse de A este o v.a. normal. Alegem
la ntmplare un bec de tipul A. Care este probabilitatea ca timpul s mediu de funcionare s e cuprins
ntre 1375 de ore i 1425 de ore?
manufacturier
Notm cu
T1
T2
cele dou timpuri de funcionare. Avem c
T1 = 1400, T1 = 200
Pentru o selecie de volum
n = 125
T2 = 1200, T2 = 100.
(vom considera c selecia este repetat, deoarece volumul seleciei
este mult mai mic dect numrul becurilor produse de ecare manufacturir), avem c:
200
T1 N (1400, )
5 5
100
T2 N (1200, ).
5 5
Diferena mediilor de selecie este o v.a. repartizat astfel:
T1 T2 N (200, 20).
(a)
Probabilitatea cerut este:
P (T1 T2 > 160) = 1 FT1 T2 (160)

= 1 - normcdf(160,200,20) = 0.9772.
(b)
P (T1 T2 > 250) = 1 FT1 T2 (250)

= 1 - normcdf(250,200,20) = 0.0062.
(c)
P (1375 T1 1425) = FT1 (1425) FT1 (1375)

= normcdf(1425,1400,8*sqrt(5)) - normcdf(1375,1400,8*sqrt(5))
= 0.8377.
93

(c)
P (1375 T1 1425) = FT1 (1425) FT1 (1375)

= normcdf(1425,1400,200) - normcdf(1375,1400,200)
= 0.0995.
Exerciiu 14.2
Dou avioane zboar n aceeai direcie pe dou coridoare paralele. La momentul
t = 0,
6km n faa celui de-al doilea. Presupunem c viteza primului avion (msurat
510 i deviaia standard 10, iar viteza celui de-al doilea
avion este normal repartizat, cu media 500 i deviaia standard 10.
(a) Care este probabilitatea ca, dup 4 ore de zbor, al doilea avion s nu l ajuns pe primul?
(b) Determinai probabilitatea ca, dup 4 ore de zbor, distana dintre cele dou avioane s e de cel
mult 5km.
primul avion are un avans de
n
km/h)
este o v.a. repartizat normal, cu media
Notm cu
v1
v2
cele dou viteze. Avem c
v1 N (510, 10)
Dup
v2 N (500, 10).
ore de zbor (adic avem cte o selecie de volum
pentru ecare v.a.), mediile de selecie for
satisface:
v1 N (510, 5)
v2 N (500, 5).
Diferena mediilor de selecie este o v.a. repartizat astfel:
v1 v2 N (10, 5 2).
(a)
Evenimentul ca, dup
4 ore de zbor, al doilea avion s nu l ajuns pe primul este {4v1 4v2 +6 > 0}.
Probabilitatea acestui eveniment este:
3
3
3
P ({4v1 4v2 + 6 > 0}) = P ({v1 v2 > }) = 1 P ({v1 v2 }) = 1 Fv1 v2 ( )
2
2
2
= 1 - normcdf(-3/2,10,5*sqrt(2)) = 0.9994.
(b)
Evenimentul ca, dup
{|4v1 4v2 | + 6 5}.
ore de zbor, distana dintre cele dou avioane s e de cel mult
5km
este
Probabilitatea acestui eveniment este:

11
1
P ({|4v1 4v2 | + 6 5}) = P v1 v2
4
4

1
11
= Fv1 v2
Fv1 v2
4
4
= normcdf(-1/4,10,5*sqrt(2)) - normcdf(-11/4,10,5*sqrt(2))
= 0.0017.
Exerciiu 14.3
Timpul de deservire la un anumit ghieu dintr-o banc este o variabil aleatoare repar-
tizat exponenial, cu media de
10
minute.
tiind c n fa mai sunt nc
persoane ce ateapt s
e servite (prima persoan la rnd abia a fost chemat) i c timpii de servire sunt independeni, s se
calculeze probabilitatea de a atepta mai puin de
50
de minute.
94
Exerciiu 14.4
ca din
20
Notm cu
Se arunc de mai multe ori un zar ideal, n mod independent. Care este probabilitatea
de aruncri s obinem cte un numr par n cel puin jumtate din cazuri?
Sn
suma punctelor nsumate din cele
aruncri.
P (S2 6).
(b)
Calculai probabilitatea
(c)
Folosind teorema limit central, aproximai probabilitatea
Exerciiu 14.5
P (120 S36 130).
S se arate c dispersia de selecie i dispersia de selecie modicat au urmtoarele
proprieti:
E[d2 (X)] = D2 (X), E[d2 (X)] =
n1 2
D (X), n N .
n
95

Noiuni de Teoria estimaiei
Punerea problemei
S presupunem c avem un set de observaii aleatoare
{x1 , x2 , . . . , xn } asupra unei caracteristici X
a unei
populaii statistice. Funcia de probabilitate (respectiv densitatea de repartiie) a caracteristicii poate :
complet specicat, de exemplu,
X U(0, 1);
specicat, dar cu parametru(i) necunoscut(i). De exemplu,
necunoscut, caz n care se poate pune problema de a estimat.
X P()
n mod evident, n primul caz de mai sus nu avem nimic de estimat.
sau
X N (, );
Dac funcia de probabilitate
(densitatea de repartiie) este deja cunoscut, dar cel puin unul dintre parametrii si este necunoscut
priori, se pune problema s estimm valoarea parametrilor de care aceasta depinde. Vom spune astfel c
avem o problem de estimare parametric. n acest capitol, ne vom ocupa de estimarea parametrilor unei
repartiii date.
X care urmeaz repartiia dat de funcia de probabilitate (sau

f (x, ), unde este un parametru necunoscut. n general, acest parametru poate
p
un vector ( R ), ale crui componente sunt parametrii repartiiei lui X . Mai sus, f este funcia
de probabilitate dac variabila aleatoare X este de tip discret, iar f este densitatea de repartiie a lui X ,
S presupunem c avem caracteristica
densitate de repartiie)
dac este o variabil aleatoare de tip continuu.
f,
Scopul teoriei estimaiei este de a evalua parametrii de care depinde
folosind datele de selecie i
bazndu-ne pe rezultatele teoretice prezentate n capitolele anterioare.

Fie
{X1 , X2 , . . . , Xn }
Presupunem totodat c
Deniia 15.1
(1)
n, ce urmeaz
= D2 (X).
variabile aleatoare de selecie repetat de volum

admite medie i notm cu
Se numete
funcie de estimaie
= E(X)
2
i
(punctual) sau
estimator
repartiia lui
al lui
X.
o funcie de
selecie (statistic)
1 , X2 , . . . , Xn ),
= (X
cu ajutorul creia dorim s l aproximm pe
n acest caz, ne-am dori s tim n ce sens i ct de bine
este aceast aproximaie.

(2) O statistic
este
un
estimator nedeplasat (en., biased estimator) pentru
dac
= .
E()
Altfel, spunem c
este
un
estimator deplasat pentru , iar deplasarea (distorsiunea) se denete astfel:

) = E()
.
b(,
Astfel,
)
b(,
este o msur a erorii pe care o facem n estimarea lui
prin
96
Exemplu 15.2
(1) Dispersia de selecie modicat
d2 (X)
1 X
=
[Xi X]2
n1
i=1
este un estimator nedeplasat pentru dispersia teoretic
2 = D2 (X),
iar dispersia de selecie
1X
d (X) =
[Xi X]2
n
2
i=1
este un estimator deplasat pentru
2 = D2 (X),
b(s2 , 2 ) =
(3)
Dac
{x1 , x2 , . . . , xn }
deplasarea ind
2
.
n
[Exerciiu!]
sunt date observate, atunci
1 , x2 , . . . , xn )
(x
se numete
estimaie
a lui
Aadar, o estimaie pentru un parametru necunoscut este valoarea estimatorului pentru selecia observat.
Prin abuz de notaie, vom nota att estimatorul ct i estimaia cu
vom face diferena ntre ele prin
precizarea variabilelor de care depind.
(4) Numim
eroare n medie ptratic a unui estimator pentru (en., mean squared error) cantitatea
) = E
MSE(,
Observaia 15.3
E
h
i2
Putem scrie:
h
h
i2
i2
+ E()

= E E()
+ 2E
= D ()
2
h
[E()

E()]
i
+E
h

E()
i2
+ 0 + (b(,
))2 .
= D2 ()
Aadar,
MSE
(5) Fie
pentru un estimator nedeplasat este
doi estimatori pentru
.
D2 ()
Atunci, valoarea
MSE(1 , )
MSE(2 , )
eciena relativ (en., relative eciency) a lui 1 n raport cu 2 . Vom spune c un estimator
1 este mai ecient dect 2 dac MSE(1 , ) MSE(2 , ) pentru toate valorile posibile ale lui i
MSE(1 , ) < MSE(2 , ) pentru mcar un .
se numete
se numete estimator nedeplasat uniform de dispersie

minim (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dac pentru orice alt estimator
(6) Un estimator nedeplasat
nedeplasat pentru
notat cu
pentru , ,
,
avem
D2 ( ).
D2 ()
97

(7) Estimatorul
pentru
este un
estimator consistent
prob
1 , X2 , . . . , Xn )
(X
,
n acest caz, valoarea numeric a estimatorului,
dac
n .
cnd
1 , x2 , . . . , xn ), se numete estimaie consistent pentru

(x
.
(8) Estimatorul
pentru
este un
estimator absolut corect
= ;
E()
= 0.
lim D2 ()
(i)
(ii)

pentru
dac
1 , x2 , . . . , xn ),
(x
se numete
estimaie absolut corect
(9) Estimatorul
pentru
este un
estimator corect dac

= ;
lim E()
(i)
= 0.
lim D2 ()
(ii)
1 , x2 , . . . , xn ),
(x
se numete
Propoziia 15.4
2
Statistica d (X) este un estimator absolut corect pentru
2
d (X) este un estimator corect, dar nu absolut corect, pentru D2 (X).
Demonstraie.
estimaie corect pentru .
2 = D2 (X),
iar statistica
[Exerciiu!]
Se arat c:
E(d2 (X))
=E
1 X
[Xi X]2
n1
!
= D2 (X),
i=1
D2 (d2 (X)) =
4
n3 2
0,
n
n(n 1) 2
cnd
n .
E(d2 (X)) = E
1X
[Xi X]2
n
!
=
i=1
D2 (d2 (X)) 0,
n1 2
n
D (X) D2 (X),
n
cnd
n .
2
Propoziia 15.5
Demonstraie.
Dac
este
un estimator absolut corect pentru
atunci estimatorul este consistent.
Utilizm inegalitatea lui Cebev n forma:
D2 ()
P ({| | }) 1
, > 0.
2
innd cont c
=0
lim D2 ()
obinem concluzia dorit.
(15.1)
98
Observaia 15.6
Fie
un
estimator pentru
Ptratul acestui estimator,
nu este, n general, esti-
2
matorul pentru .
De exemplu, s presupunem c
X N (0, 1)
i avem urmtoarele
20
de observaii asupra lui
X:
0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570; -0.1802; -0.0357; 1.9344; 1.3056
0.0831; -0.3277; -0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312; 2.0718; -0.5944
0.6286; -0.5350; 2.2090; -0.6057; 1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030
X , i.e., pentru X = 0, este X .
2
2
(pentru selecia dat, X = 0.0521). Variabila aleatoare X urmeaz repartiia (1) i are media X 2 = 1
2
2
(vezi repartiia ). Un estimator absolut corect pentru X 2 este X . Pe de alt parte, pentru selecia
2
2
Un estimator absolut corect pentru media teoretic a lui
dat avem c
X 1.4
Aadar, n general X 2
Observaia 15.7
iar
6= X
X
2
= 0.027.
Pentru un anumit parametru pot exista mai muli estimatori absolut coreci.
exemplu, pentru parametrul
din repartiia
P oisson P()
X
Se pune problema:
De
exist urmtorii estimatori:
d2 (X).
Cum alegem pe cel mai bun estimator i pe ce criteriu?
Dac utilizm inegalitatea lui
Cebev n forma (15.1), atunci ar resc ca "cel mai bun estimator" s e cel de dispersie minim.
(10) Se numete
funcie de verosimilitate
(sau, simplu, verosimilitate), statistica
L(X1 , X2 , . . . , Xn ; ) =
n
Y
f (Xk , ).
k=1
Pentru
aleator
(11)
Xk = xk , k = 1, n, funcia L(x1 , x2 , . . . , xn ; )
V = (X1 , X2 , . . . , Xn ).
este densitatea de repartiie pentru vectorul
Numim cantitate de informaie relativ la parametrul
volum
n (informaie Fisher)
coninut n selecia corespunztoare de
expresia:

In () = E
ln L(X1 , X2 , . . . , Xn ; )
2 !
.
(15.2)
Teorema 15.8 (Rao17 -Cramer18 )

Considerm caracteristica
pentru care exist
f (x, ), cu (a, b) i
1 , X2 , . . . , Xn ), un estimator absolut corect pentru . Atunci,
= (X
cu funcia de probabilitate (densitatea de repartiie)
f
. Considerm

D2 ()
17 Calyampudi
18 Harald
1
.
In ()
Radhakrishna Rao (1920 ), statistician indian

Cramr (1893 1985), matematician i statistician suedez
(15.3)
99

(12) Numim
eciena unui estimator absolut corect pentru , valoarea:

=
e()
(13) Un estimator absolut corect
pentru
In1 ()
.
D2 ()
se numete
(15.4)
estimator ecient
dac
= 1,
e()
adic
= I 1 ().
D2 ()
n
Propoziia 15.9
X
E(X).
Media de selecie
ecient pentru media teoretic
pentru o selecie dintr-o colectivitate normal este un estimator
[Exerciiu!]
pentru se numete estimator sucient (exhaustiv) dac densitatea vectorului

V = (X1 , X2 , . . . , Xn ), adic L(x1 , x2 , . . . , xn ; ), se poate scrie n forma:
(14) Un estimator corect
L(x1 , x2 , . . . , xn ; ) = g(x1 , x2 , . . . , xn )h((x),

),
unde
g : Rn R+
este msurabil i nu depinde de
depinde de observaii doar prin intermediul lui
.
(x)
iar funcia
Funciile
(15.5)
h : R R R+
este msurabil i
nu sunt unice. Din punct de vedere
practic, un estimator este sucient pentru parametrul pe care l estimeaz dac acest estimator conine
toat informaia relevant despre
Propoziia 15.10
ce se poate obine din selecia considerat.
Media de selecie
sucient pentru media teoretic
Observaia 15.11
[Exerciiu!]
pentru o selecie dintr-o anumit colectivitate este un estimator
[Exerciiu!]
E(X).
Orice estimator ecient pentru un parametru
este i estimator sucient pentru
n continuare, discutm urmtoarele metode de estimare punctual a parametrilor:
metoda verosimilitii maxime;
metoda momentelor;
metoda minimului lui
metoda celor mai mici ptrate;
metoda intervalelor de ncredere.
2 ;
Metoda verosimilitii maxime

Fie caracteristica
studiat, care are funcia de probabilitate
parametri necunoscui). S presupunem c avem
f (x; )
(unde
selecie de date,
x1 , x2 , . . . , xn .
Fie
{X1 , X2 , . . . , Xn }
= (1 , 2 , . . . , p ) sunt
X , adic am ales o
observaii asupra caracteristicii
variabilele aleatoare de selecie repetat de volum
n.
100
Deniia 15.12
o statistic
(1) Numim
estimator de verosimilitate maxim (maximum likelihood estimator) pentru
1 , X2 , . . . , Xn )
= (X
pentru care se obine maximumul funciei de verosimilitate,
L(X1 , X2 , . . . , Xn ; ) =
n
Y
f (Xk , ).
k=1
(2)
Valoarea unei astfel de statistici pentru o observaie dat se numete
maxim pentru .
Observaia 15.13
Nu este necesar ca
estimaie de verosimilitate
Aceasta metod estimeaz "valoarea cea mai verosimil" pentru parametrul
s existe pentru ca estimatorul de verosimilitate maxim s e calculat.
Dac
aceasta exist, atunci acest estimator se obine ca soluie a sistemului de ecuaii:
L(X1 , X2 , . . . , Xn ; )
= 0,
k
k = 1, 2, . . . , p,
(15.6)
care este echivalent cu urmtorul sistem:
ln L(X1 , X2 , . . . , Xn ; ) X ln f (Xi ; )
=
= 0,
k
k
k = 1, 2, . . . , p.
(15.7)
i=1
Exemplu 15.14
Soluie:
Estimai prin metoda verosimilitii maxime parametrii unei caracteristici
Legea de probabilitate pentru
X N (, )
X N (, ).
este
(x)2
1
f (x, , ) = e 22 , x R.
2
n, pe care o vom
= (, ) i funcia
Alegem o selecie repetat de volum

Parametrii caracteristicii
sunt
nota
(Xk )k=1, n .
de verosimilitate asociat seleciei este
L(X1 , X2 , . . . , Xn ; , ) =
f (Xk , , )
k=1
n
X
(Xk )2
1
k=1
n e
n (2) 2
=
Astfel,

ln L(X1 , X2 , . . . , Xn ; , ) = ln
1
n
n
(2) 2
n
1 X
2
(Xk )2 .
2
Aadar, pentru a gsi estimatorii de verosimilitate maxim pentru
k=1
L
1 X
=
(Xk ) = 0;

2
k=1
n
L
n
1 X
+
(Xk )2 = 0.

3
k=1
2 2
avem de rezolvat sistemul:
101

> 0) este
v
u n
u1 X
=t
(Xk X)2 = d(X).
n
Se observ cu usurin c soluia sistemului ce convine (inem cont c
1X
Xk = X,
n
k=1
(15.8)
k=1
Vericm acum dac valorile gsite sunt valori de maxim. Pentru aceasta, matricea hessian calculat
pentru valorile obinute trebuie s e negativ denit. Mai nti, calculm matricea hessian. Aceasta
este:
2L
H(, ) =
=
n
2
n
2 X
3
(Xk )
k=1
Acum calculm
n
2 X
3
(Xk )
k=1
!
n
3 X
1
(Xk )2
n 2
n
2
k=1
H(
,
).
H(
,
) =
2L
|=, = =
2
0
0
2n ,
2
care este o matrice negativ denit, deoarece valorile sale proprii, adic rdcinile polinomului caracteristic
det(H(
,
) I2 ) = 0,
sunt
1 =
Deci, estimatorii
n
<0
2n
< 0.
obinui prin metoda verosimilitii maxime sunt
=X
Observaia 15.15
2 =
= d(X).
De remarcat faptul c estimatorul
d(X)
obinut prin metoda verosimilitii maxime
nu este absolut corect, ci doar corect.
Metoda momentelor (K. Pearson)

n anumite cazuri, valorile critice pentru funcia de verosimilitate sunt dicil de calculat.
De aceea, e
nevoie de alte metode pentru a gsi estimatori pentru parametri.

Fie caracteristica
care are funcia de probabilitate
necunoscui) ce admite momente pn la ordinul
f (x; ) (unde = (1 , 2 , . . . , p ) sunt parametri

p = E(X p ) < ). Dorim s gsim esti-
(adic,
matori (estimaii) punctuale ale parametrilor necunoscui.
Pentru aceasta, efectum observaii asupra
caracteristicii, adic alegem o selecie de date,
x1 , x2 , . . . , xn .
Fie
{X1 , X2 , . . . , Xn } variabilele aleatoare de selecie repetat de volum n.
Metoda momentelor const n
estimarea parametrilor necunoscui din condiiile ca momentele iniiale de selecie s e egale cu momentele
iniiale teoretice respective, ale lui
X.
Aceasta nseamn c avem de rezolvat un sistem de ecuaii n care
necunoscutele sunt parametrii ce urmeaz a estimai.
102
Deniia 15.16
Numim estimator (punctual) pentru obinut prin metoda momentelor

= (1 , 2 , . . . , p ) (aici k = k (X1 , X2 , . . . , Xn ), k = 1, p) a sistemului:
1 (X1 , X2 , . . . , Xn ) = 1 (X),
soluia
(15.9)
2 (X1 , X2 , . . . , Xn ) = 2 (X),
.
.
.
p (X1 , X2 , . . . , Xn ) = p (X),
unde
k (X1 , X2 , . . . , Xn )
sunt momentele de selecie de ordin
pentru
X,
k (X1 , X2 , . . . , Xn ) =
1X k
Xi ,
n
i=1
k (X)
sunt momentele teoretice pentru
(care depind de
k = E(X k ),
O
),
adic:
k = 1, 2, . . . , p.
estimaie (punctual) pentru va o realizare a estimatorului = (1 , 2 , . . . , p ), unde componentele
sunt
k = k (x1 , x2 , . . . , xn ), k = 1, p).
Observaia 15.17
Aceasta metod este fundamentat teoretic pe faptul c momentele de selecie sunt
estimatori absolut coreci pentru momentele teoretice corespunztoare.
Metoda nu poate aplicat
repartiiilor care nu admit medie (e.g., repartiia Cauchy).
Exemplu 15.18
Fie
X U(a, b)
caracteristica unei populaii, unde
a<b
sunt numere reale. Utiliznd
metoda momentelor, determinai estimatori pentru capetele intervalului.
Soluie:
Dac
X U(a, b),
atunci
E(X) =
a+b
,
2
D2 (X) =
de unde
E(X 2 ) = D2 (X) + [E(X)]2 =
(b a)2
,
12
a2 + ab + b2
.
3
Sistemul (15.9) se scrie astfel n acest caz:
1 (X1 , X2 , . . . , Xn ) = E(X)
2
2 (X1 , X2 , . . . , Xn ) = E(X ),
unde
1 =
1X
Xi ,
n
2 =
i=1
Inlocuind n relaiile (15.10), avem de gsit soluia
1X 2
Xi .
n
i=1
(
a, b)
a urmtorului sistem:
a + b = 2 1
a b = 4 21 3 2 .
(15.10)
103

Aceasta este:
a
= 1
Fcnd calculele i innd cont c
q
3 2 21 ;
1 = X ,
q
3 2 21 .
b = 1 +
obinem estimatorii pentru
a
=X
unde
n
1X
X=
Xi
n
b = X +
3 S;
i=1
i, respectiv,
b:
3 S,
v
u n
u1 X
S=t
(Xi X)2 .
n
i=1
a i b sunt:
v
u n
n
u3 X
1X
xi t
(xi x)2 ,
a
=
n
n
Estimaiile punctuale pentru
i=1
v
u n
n
X
u3 X
b = 1
xi + t
(xi x)2
n
n
i=1
i=1
i=1
Metoda celor mai mici ptrate

Este o metod de estimare a parametrilor n cazul modelelor liniare, adic atunci cnd avem un set de
variabile aleatoare
Yi , i = 1, n
ce depind liniar de parametrii necunoscui.
vectorul ce conine parametrii necunoscui i presupunem c
Yi =
p
X
xij j + i ,
Yi
Fie
= (1 , 2 , . . . , p )
depind de acetia dup urmtorul sistem:
i = 1, 2, . . . , n,
(15.11)
j=1
sau, scris sub form matriceal:
X = (xij ) Rnp .
Y = X + ,
Variabilele aleatoare
sunt erori, despre care presupunem c:
E(i ) = 0
D2 (i ) = 2 ,
cov (i , j ) = 0,
i = 1, 2, . . . , n;
i 6= j.
(15.12)
Metoda celor mai mici ptrate const n determinarea parametrilor i
astfel nct suma ptratelor erorilor
s e minim. Asta nseamn c avem de rezolvat problema de minim:
min
Astfel, un estimator
n
X
i=1
Yi
i=1
= (1 , 2 , . . . , p ) prin metoda celor
2
p
n
X
X
Yi
xij j = 0,
j
i=1
echivalent,
2i = min
n
X
p
n X
X
i=1 j=1
p
X
2
xij j .
j=1
mai mici ptrate este soluia sistemului:
j = 1, 2, . . . , p,
j=1
xik xij j =
n
X
i=1
xik Yi ,
k = 1, 2, . . . , p.
104

Ultimul sistem poate scris sub forma matriceal:
X0 X = X0 Y,
de unde gsim c estimatorul
este
b = (X0 X)1 X0 Y.
Exemplu 15.19
Fie
= E(X), i e X1 , X2 , . . . , Xn variabilele
b = X este estimatorul obinut prin metoda celor
o caracteristic ce admite medie,
n.
teoretic ,
aleatoare de selecie repetat de volum
Statistica
mai mici ptrate pentru media
adic este soluia problemei de minimizare
min
Soluie:
Deoarece
n
X
(Xi )2 .
(15.13)
i=1
este media variabilelor aleatoare de selecie, putem considera c ecare variabil o
putem scrie sub forma
Xi = + i ,
cu
i = 1, 2, . . . , n,
(15.14)
satisfacnd condiiile (15.12). Soluia problemei (15.13) este soluia ecuaiei
X
(Xi )2 = 0,
i=1
adic
b=
1X
Xi .
n
i=1
Metoda minimului lui 2

X ce urmeaz a studiat, ce urmeaz legea de probabilitate dat de f (x, ),
p
unde = (1 , 2 , . . . , p ) R sunt parametri necunoscui. Fie X1 , X2 , . . . , Xn variabilele aleatoare
prin metoda minimului lui 2 pentru ,
de selecie repetat de volum n. Pentru a obine un estimator
Considerm caracteristica
procedm dup cum urmeaz.

Descompunem mulimea valorilor lui
X , X(),
X() =
k
[
Oi ,
n clase, astfel:
Oi
Oj = , i 6= j.
i=1
Construim evenimentele
Ai = { (n) (n) ; X(i ) Oi },
i = 1, 2, . . . , k.
(n) =
k
[
Ai ,
Ai
Aj = , i 6= j.
i=1
Notm cu
pi () = P (n) (Ai ),
i = 1, 2, . . . , k,
105

i.e., probabilitatea ca un individ luat la ntmplare s aparin clasei
k
X
Oi .
Atunci,
pi () = 1.
i=1
Mai facem urmtoarele notaii:
ni = frecvena absolut a evenimentului Ai n orice selecie repetat de

Ni = variabilele aleatoare de selecie corespunztoare lui ni (i = 1, k ).
Observaia 15.20
metri
N = (N1 , N2 , . . . , Nk )
n;
urmeaz o repartiie multinomial de para-
pi (), i = 1, k .
Deniia 15.21
Vectorul aleator
volum
Statistica
se numete
estimator obinut prin metoda minimului lui 2
este soluie a problemei de minim
min
Propoziia 15.22
)
( k
X [Ni n pi ()]2
i=1
n pi ()
Repartiia urmtoarei statistici este
k
X
[Ni n pi ()]2
i=1
n pi ()
2 (k p 1).
pentru
dac
106

Exerciiu 16.1
Timpul necesar unui student de a rezolva testul la Statistic (T , exprimat n minute)
f : R [0, 1],
(
x x
2e
f (x, ) =
0
este o v.a. cu densitatea de repartiie
(a)
Pentru ce valori ale parametrului
Fixm
, x > 0;
, x 0.
funcia de mai sus este o funcie de repartiie?
= 30.
(b)
Determinai timpul mediu necesar rezolvrii testului.
(c)
Calculai probabilitatea ca un student (ales la ntmplare) s aib nevoie de mai mult de o or i
jumtate pentru a rezolva testul?
Exerciiu 16.2
Pcal l ademenete pe Tndal la un joc de barbut. Pcal a confecionat urmtoarele
trei zaruri, pentru care numrul de puncte de pe ecare fa sunt modicate:
zarul 1:
zarul 2:
zarul 3:
5
2
1
7
3
6
8
4
11
9
15
12
10
16
13
18
17
14
Pentru ecare zar, toate feele au aceeai ans de apariie. Fiecare juctor alege un zar i l pstreaz
pentru restul competiiei. Un joc const n aruncarea zarului ales, iar cel care obine un numr mai mare
de puncte va ctiga jocul.
Un astfel de joc poate repetat de mai multe ori, n condiii identice i
independente.
(a)
Pcal, politicos ind, l invit pe Tndal s e primul care i alege zarul. Artai c, orice zar ar
alege Tndal, Pcal are posibilitatea de a alege un zar mai bun dintre cele rmase.
(b)
La ecare joc, cel care obine un numr mai mare de puncte primete de la cellalt juctor
Determinai ctigul mediu pe care l poate avea Pcal dup
60
60
1 RON.
de jocuri (aruncri).
Calculai probabilitatea ca, dup
(d)
Determinai numrul minim de jocuri ce trebuie efectuate, dup care Pcal va aproape sigur (cu
probabilitate cel puin egal cu
0.99)
de jocuri, Pcal s aib cel puin
10 RON.
(c)
c va avea cel puin
Estimaii prin
10 RON.
Matlab
Estimarea parametrilor prin metoda verosimilitii maxime poate realizat n
mle.
Matlab folosind funcia
Formatul general al funciei este:
[p, pCI] = mle(X,'distribution','lege','nume_1','val_1','nume_2','val_2',...)

unde:
pCI
este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaz a estimat punctual;
este variabila de memorie pentru intervalul (intervalele) de ncredere ce va estimat;
107
distribution
este un vector ce conine datele ce urmeaz a analizate;

este parte din formatul comenzii iar
lege
poate oricare dintre legile din Tabelul
6.1;
nume_i/val_i
alpha
Matlab
sunt perechi opionale de argumente/valori, dintre care amintim:
reprezint nivelul de conden pentru intervalul de ncredere. Valoarea implicit n

este
ntrials
= 0.005;
(utilizat doar pentru repartiia binomial, reprezint numrul de repetiii ale ex-
perimentului.
Dac urmrim s estimm parametrii unei caracteristici gaussiene, atunci putem folosi comanda simplicat:
[p, pCI] = mle(X)

fr a mai preciza legea de distribuie.
De exemplu, s lum drept obiect de lucru datele din Tabelul 1.4. Acestea sunt reprezentate prin bare n
Figura 2.32 . O estimare a parametrilor
prin metoda verosimilitii maxime este
X=[7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35;10*rand(87,1)+45;10*rand(64,1)+55]
[p, pCI] = mle(X)
i obinem estimrile:
p =
41.9716
12.0228
% estimari punctuale pentru si
pCI =
40.7653
43.1779
11.2439
12.9547
% intervale de incredere
unde prima coloan reprezint estimarea punctual i un interval de ncredere pentru

estimarea punctual i un interval de ncredere pentru
, iar a doua coloan
Estimri punctuale i cu intervale de ncredere mai putem obine i utiliznd funcia
LEGEfit(X,alpha)
unde, n locul cuvntului
i
alpha
LEGE
Exerciiu 16.3
parametrului
X reprezint
normfit, binofit, poissfit, expfit etc).
punem o lege de probabilitate ca n Tabelul 6.1,
este nivelul de conden. (Exemple:
S se arate c media de selecie
din repartiia Poisson
P().
observaiile
constituie un estimator absolut corect i ecient al
108
Soluie:
Deoarece
E(X) = D2 (X) = . Atunci,

!
!
n
n
n
X
1
1 X
1 X
E(X) = E
E(Xi ) = (
Xi =
) = ,
n
n
n
X P(),
urmeaz c
i=1
i=1
D2 (X) =
1 2
D
n2
n
X
!
=
Xi
i=1
n
X
1
n2
i=1
!
D2 (Xi )
i=1
n
1 X
(
) = 0,
2
n
n
cnd
n .
i=1
Aadar, conform deniiei, media de selecie este un estimator absolut corect pentru parametrul
de probabilitate este
f (x, ) = e
de unde
Funcia
x
, x N,
x!
ln f (x, )
x
= 1 + .
Calculm eciena estimatorului. Avem
!
ln f (X, ) 2
In () = n E

X
X2
1 2
n
= n E 1 2 + 2 = n 1 2 + 2 ( + ) = .
Se observ c
D2 (X) In () = 1,
Exerciiu 16.4
Fie
deci estimatorul
Xi B(1, p), i = 1, n
= nX =
n
X
pentru
este ecient.
Xi ,
numrul de succese n
incercri.
i=1
S se arate c
Soluie:
este
un estimator sucient pentru
p.
Pentru vericarea sucienei, utilizm deniia. Avem succesiv:
L(x1 , x2 , . . . , xn ; p) =
n
Y
pxi (1 p)1xi
i=1
n
X
n
(1 p)
= g(x) h((x),
p),
xi
= p i=1
unde
g(x) 1
Exerciiu 16.5
n
X
xi
i=1
h((x),
p) = p(x) (1 p)n(x) .
S presupunem c aruncm o moned despre care nu tim dac este sau nu corect
(adic, probabilitatea de apariie a feei cu stema nu este neaprat
0.5).
Fie
variabila aleatoare ce
reprezint numrul de apariii ale feei cu stema la aruncarea repetat a unei monede. Notm cu
babilitatea evenimentului ca la o singur aruncare a monedei apare stema. Realizm
acelei monede i obinem valorile (1 nseamn c faa cu stema a aprut iar
80
pro-
de aruncri ale
dac nu a aprut):
109
0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0
1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0
p
(1) S se gseasca un estimator absolut corect pentru
i a se studieze eciena acestuia.
(2) S se gseasc estimaii punctuale i intervale ncredere pentru

din
Matlab.
Soluie:
(1) Repartiia lui
este Bernoulli,
E(X) = p,
B(1, p).
E(X) = E(X)
X,
Aadar, pentru selecia dat, valoarea

(2) Utiliznd funciile
Matlab astfel:
x=
n
X
folosind funciile
mle
binofit
Astfel,
D2 (X) = p(1 p).
Considerm variabilele de selecie repetat de volum,

Un estimator absolut corect pentru medie este
p,
(Xk )k=1 n .
deoarece
D2 (X) =
p(1 p)
0.
n
n2
xk = 0.5125.
k=1
[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)
cu rezultatul:
p =
0.5125
sau, folosind comanda
pCI =
0.3981
0.6259
binofit,
[p,pCI] = binofit(sum(Y),length(Y),0.05)
cu rezultatul:
p =
0.5125
Exerciiu 16.6
pCI =
0.3981
0.6259
Considerm un vector ale crui componente sunt:
X = 2*rand(1e6,1) - 1;
Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a.
atunci estimm parametrii si astfel:
normale
N (, ),
110

[mu, sigma] = normfit(X)
Gsim estimrile
mu = 0.0006425
sigma =0.5771
Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a.
U(a, b),
atunci estimm parametrii si astfel:
[a, b] = unifit(X)
a = -1.0000
b = 1.0000
uniforme continuu
111

Estimarea parametrilor prin intervale de ncredere
(o singur populaie)
S considerm o caracteristic
a crei lege de probabilitate este dat de
necunoscut. Pentru a estima valoarea real a lui
efectum
f (x, ),
cu
parametru
observaii, obinnd selecia:
x1 , x2 , . . . , xn .
1 , x2 , . . . , xn ). ns, o
(x
1 , x2 , . . . , xn ) fa de valoarea
estimaie punctual nu ne precizeaz ct de aproape se gsete estimaia (x
real a parametrului . De exemplu, dac dorim s estimm masa medie a unor produse alimentare
Dup cum am vzut anterior, putem gsi o estimaie punctual a parametrului,
fabricate de o anumit main, atunci putem gsi un estimator punctual (e.g., media de selecie) care s
ne indice c aceasta este de
masa medie este
500
de grame. Ideal ar dac aceast informaie ar prezentat sub forma:
500g10g.
Putem obine astfel de informaii dac vom construi un interval n care, cu o probabilitate destul de mare,
s gsim valoarea real a lui
S considerm o selecie repetat de volum
n, X1 , X2 , . . . , Xn ,
ce urmeaz repartiia lui
gsim un interval aleator care s acopere cu o probabilitate mare (e.g.,
0.95, 0.98, 0.99
X.
Dorim s
etc) valoarea
posibil a parametrului necunoscut.
Deniia 17.1 Fie (0, 1), foarte apropiat de 0 (de exemplu, = 0.01, 0.02, 0.05 etc). Numim
interval de ncredere (en., condence interval) pentru parametrul cu probabilitatea de ncredere 1 ,
un interval aleator
(, ),
astfel nct
P ( < < ) = 1 ,
unde
(X1 , X2 , . . . , Xn )
(n)
Pentru o observaie
(X1 , X2 , . . . , Xn )
(17.1)
sunt statistici.
xat, capetele intervalului (aleator) de ncredere vor funcii de valorile de
selecie. De exemplu, pentru datele observate,
x1 , x2 , . . . , xn ,
intervalul

(x1 , x2 , . . . , xn ), (x1 , x2 , . . . , xn )
se numete
valoare a intervalului de ncredere
pentru
Pentru simplitate ns, vom folosi termenul
de "interval de ncredere" att pentru intervalul propriu-zis, ct i pentru valoarea acestuia, nelesul
desprinzndu-se din context.
Valoarea
se numete
Observaia 17.2
nivel de semnicaie sau probabilitate de risc.
Pentru a determina un interval de ncredere, metoda de lucru este dup cum urmeaz:
se va considera funcie de selecie

cut i independent de
depind de
),
S(X1 , X2 , . . . , Xn ; ), convenabil aleas, care s urmeze o lege cunosg(s) aceast repartiie. Se determin apoi valorile s1 i s2 (care
S notm cu
astfel nct
Zs2
g(s) ds = 1 .
P (s1 < S < s2 ) =

s1
(17.2)
112

Cum statistica
depinde de
relaia (17.2) determin un interval aleator
(, )
ce satisface (17.1).
Intervalul de ncredere variaz de la o selecie la alta.
Cu ct
sau
= 0.01 sau 0.02 sau 0.05),

s se gseasc n intervalul
este mai mic (de regul,
ca valoarea real a parametrului
99.99%
cu att ansa (care este

gsit este mai mare.
(1 ) 100%)
99%
Dei ansele
par a foarte apropiate i ar da rezultate asemntoare, sunt cazuri n care ecare sutime
conteaz. De exemplu, s presupunem c ntr-un an calendaristic un eveniment are ansa de
99%
de a se
realiza, n orice zi a anului, independent de celelalte zile. Atunci, ansa ca acest eveniment s se realizeze
0.99365 2.55%.
96.42%, ceea ce
n ecare zi a anului n tot decursului acestui an este de

ecare zi ar fost de
99.99%,
atunci rezultatul ar fost
Dac ansa de realizare n

nseamn o diferen foarte
mare generat de o diferen iniial foarte mic.

Intervalul de ncredere pentru valoarea real a unui parametru nu este unic.
Dac ni se dau condiii
suplimentare (e.g., xarea unui capt), atunci putem obine intervale innite la un capt i nite la
cellalt capt.
n continuare, vom cuta intervale de ncredere pentru parametrii unor caracteristici normale.
Interval de ncredere pentru medie, cnd dispersia este cunoscut

X N (, ) caracteristica unei populaii statistice, unde este necunoscut i este cunoscut. Pentru
, efectum o selecie repetat de volum n i
xm nivelul de ncredere 1 1, (0, 1). Alegem urmtoarea statistic:
Fie
a construi un interval de ncredere pentru media teoretic
Z=
X
N (0, 1)
Putem determina un interval numeric
(conform Propoziiei
(z1 , z2 )
11.23).
astfel nct
P (z1 < Z < z2 ) = (z2 ) (z1 ) = 1 ,

unde
: R [0, 1]
este
(z1 , z2 )
y2
2
dy.
(17.5)
X
< z2 ) = 1 ,

P X z2 < < X z1
= 1 ,
n
n
de unde intervalul de ncredere pentru
(1 )

X z1
.
n
cu nivelul de semnicaie
(, ) = X z2 ,
n
Mai ramne de stabilit cum determinm valorile
Distingem trei cazuri:
este determinat, putem scrie:
P (z1 <
echivalent cu
(17.4)
funcia lui Laplace,

1
(x) =
2
De ndat ce intervalul
(17.3)
z1
z2 .
este
113
(1)
Dac nu se cunoate o alt informaie suplimentar despre

de lungime minim pentru
xat.
Aceasta se obine cnd
, atunci alegem (z1 , z2 ) ca ind interval

z1 = z2 (vezi Observaia 17.3), de unde:
(z2 ) (z2 ) = 1 .
Tinnd cont c
(z) = 1 (z),
ultima relaie se reduce la
(z2 ) = 1
de unde gsim pe
z2
ca ind cuantila de ordin
,
2
2 , i anume
z1 2 .
Aadar,
z1 = z1 2 ,
z2 = z1 2 ,
cnd este cunoscut

(, ) = X z1 2 , X + z1 2
.
n
n
i intervalul de ncredere pentru media teoretic
(2)
este:
(17.6)
Dac pentru media teoretic nu se precizeaz o limit superioar, atunci n (17.4) aleg intervalul
aleator
(z1 , z2 )
de forma
(, z2 ).
nlocuind n (17.4) obinem:
P ( < Z < z2 ) = (z2 ) () = 1 ,

| {z }
=0
de unde
z2 = z1 .
n acest caz, intervalul de ncredere este:

(, ) =
(3)
X z1
,
n

.
Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci n (17.4) aleg intervalul
aleator
(z1 , z2 )
de forma
(z1 , ).
nlocuind n (17.4) obinem:
P (z1 < Z < ) = () (z1 ) = 1 ,

| {z }
=1
de unde
z1 = z = z1 .
n acest caz, intervalul de ncredere este:

(, ) =
Observaia 17.3
n cazul
(1)
X + z1
n

.
de mai sus, am ales intervalul aleator de lungime minim, unde aceast
lungime este
l = (z2 z1 ).
n
Pentru a gsi acest interval, avem de rezolvat problema:

min (z2 z1 )
n
Zz2
g(z) dz = 1 ,
z1
114

unde
este desitatea de repartiie pentru
N (0, 1).
Pentru a o rezolva, folosim metoda multiplicatorilor lui Lagrange. Fie funcia
L(z1 , z2 ; ) = (z2 z1 ) +
n
Dorim s am
z1
z2
ce realizeaz
min L(z1 , z2 ; ). Acestea
=0
z1
L
= 0,
z2
= 0,
de unde
z2
g(z) dz.
(17.7)
z1
sunt soluiile sistemului:
g(z1 ) = 0
n
+ g(z2 ) = 0.
n
Deoarece funcia
Observaia 17.4
aceasta nseamn
este simetric, soluiile sunt
(1)
z1 = z2
(ce nu convine) i
z1 = z2 .
n cazul n care volumul seleciei este mare (de cele mai multe ori n practic,
n 30)
metoda de determinare a unui interval de ncredere prezentat mai sus se
poate aplica i pentru selecii dintr-o colectivitate ce nu este neaprat normal. Aceasta este o consecin
faptului c, pentru
caracteristicii
mare, statistica
urmeaz repartiia
N (0, 1)
pentru orice form a repartiiei
(conform teoremei limit central).
(2) Intervalele de ncredere determinate mai sus sunt valide pentru selecia (repetat sau nerepetat) dintro populaie innit, sau pentru selecii repetate dintr-o populaie nit. n cazul seleciilor nerepetate
N al populaiei.
n 0.05N , atunci
din colectiviti nite, n estimarea intervalelor de ncredere vom ine cont i de volumul
Spre exemplu, dac selecia de volum
se face dintr-o populaie nit de volum
un inteval de ncredere centrat pentru media populaiei este:
(, ) =
X z1 2
N n
,
N 1
X + z1 2
N n
N 1
!
.
(17.8)
Interval de ncredere pentru medie, cnd dispersia este necunoscut

Ne am n condiiile din seciunea precedent (i.e., o caracteristic normal,
faptul c
este cunoscut. Dac deviaia standard
deja c o estimaie absolut corect pentru
este statistica
v
u
u
d (X) = t
X N (, )),
mai puin
nu este cunoscut, atunci ea va trebui estimat. tim
d (X),
dat prin
1 X
(Xi X)2 .
n1
i=1
Pentru a estima media teoretic necunoscut
T =
X
t(n 1),
d (X)
printr-un interval de ncredere, alegem statistica
(conform Propoziiei
13.9).
(17.9)
n mod analog cu cazul precedent, gsim intervalul de ncredere n funcie de cele trei cazuri amintite mai
sus:
115
(1)
Dac nu se cunoate o alt informaie suplimentar despre

media teoretic
cnd
(, ) =
(2)
atunci intervalul de ncredere pentru

d (X)
X t1 2 ; n1 ,
n
d (X)
X + t1 2 ; n1
n

.
(17.10)
Dac pentru media teoretic nu se precizeaz o limit superioar, atunci intervalul de ncredere
este:
(3)
este necunoscut este:

d (X)
(, ) = X t1; n1 ,
n

.
Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci intervalul de ncredere este:

(, ) =
Aici, prin
t; n1
am notat cuantila de ordin
Observaia 17.5
X t; n1
pentru repartiia
d (X)
cu

.
(n 1)
grade de libertate.
Formulele din aceast seciune sunt practice atunci cnd selecia se face dintr-o colecti-
n este mare, atunci va o diferen foarte mic ntre valorile z1 2

i t1 ; n1 , de aceea am putea folosi z1 n locul valorii t1 ; n1 . Mai mult, pentru un n mare (n 30),
2
2
2
intervalele de ncredere obinute mai sus rmn aceleai pentru orice form a repartiiei caracteristicii X ,
vitate gaussian de volum
n mic.
Cnd
nu neaprat pentru una gaussian. Aadar, pentru o selecie de volum mare dintr-o colectivitate oarecare,
un interval de ncredere pentru media populaiei, cnd dispersia nu este cunoscut, este:

d (X)
(, ) = X z1 2 ,
n
X +z
1
2
d (X)

.
(17.11)
Interval de ncredere pentru dispersie, cnd media este cunoscut

X N (, ) o caracteristic a unei populaii studiate, pentru care cunoatem media teoretic dar
2 . Dorim s estimm dispersia prin construirea unui interval de ncredere. Alegem o
selecie repetat X1 , X2 , . . . , Xn ce urmeaz repartiia lui X . Fixm nivelul de semnicaie .
2
2
Pentru estimarea punctual a lui cnd media este cunoscut folosim statistica d (X) denit prin
Fie
nu i dispersia
1X
d (X) =
[Xi ]2 .
n
2
i=1
Intervalul de ncredere pentru dispersie se construiete cu ajutorul statisticii
n
n 2
1 X
d
(X)
=
(Xi )2 2 (n),
2
2
(conform Propoziiei 13.3).
i=1
Determinm intervalul aleator din condiia:

n
P 21 < 2 d2 (X) < 22 = Gn (22 ) Gn (21 ) = 1 ,
unde aici
Gn (x)
reprezint funcia de repartiie teoretic pentru repartiia
cu
grade de libertate.
n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie (analog ca anterior), gsim
c intervalul de ncredere pentru
2,
dup cum urmeaz:
116
(1)
nu avem informaii suplimentare despre dispersie:
n d2 (X)
2 ; n
n d2 (X)
,
21 ; n
( 2 , 2 ) =
(2)
(17.12)
avem informaii c dispersia este nemrginit superior:
( ,
(3)
2)
n d2 (X)
,
2; n

+ ;
(17.13)
avem informaii c dispersia este nemrginit inferior:
2)
( ,
unde prin
2; n
n d2 (X)
21; n
pentru repartiia
cu
(17.14)
grade de libertate.
Interval de ncredere pentru dispersie, cnd media este necunoscut

X N (, ) o caracteristic a unei populaii studiate, pentru care nu cunoatem media sau dispersia.
De exemplu, X reprezint timpul de producere a unei reacii chimice. Dorim s estimm dispersia prin
construirea unui interval de ncredere. Alegem o selecie repetat X1 , X2 , . . . , Xn ce urmeaz repartiia
lui X . Fixm nivelul de semnicaie .
2
2
Pentru estimarea punctual a lui cnd media este necunoscut folosim statistica d (X) denit prin
Fie
d2 (X) =
1 X
[Xi X]2 .
n1
i=1
Intervalul de ncredere pentru dispersie se construiete cu ajutorul statisticii
n
n1 2
1 X
d (X) = 2
(Xi X)2 2 (n 1),
2
i=1
Determinm intervalul aleator din condiia:
P
unde
Gn1 (x)

n1 2
2
2
2
21 <
d
(X)
<
2 = Gn1 (2 ) Gn1 (1 ) = 1 ,
2
reprezint funcia de repartiie teoretic pentru repartiia
cu
(n 1)
grade de libertate.
n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie, gsim c intervalul de
ncredere pentru
(1)
este:
nu avem informaii suplimentare despre dispersie:
( 2 , 2 ) =
(n 1)d2 (X)
,
21 ; n1
2
unde prin
2; n1
(n 1)d2 (X)
2 ; n1
!
,
(17.15)
pentru repartiia
cu
(n 1)
grade de libertate.
117
(2)
avem informaii c dispersia este nemrginit superior:
( ,
(3)
2)
(n 1)d2 (X)
,
2; n1
!
+ ;
(17.16)
avem informaii c dispersia este nemrginit inferior:
( , 2 ) =
Observaia 17.6
(n 1)d2 (X)
21; n1
!
.
(17.17)
Intervale de ncredere pentru deviaia standard se obin prin extragerea rdcinii p-
trate din capetele de la intervalele de ncredere pentru dispersie.
Interval de ncredere pentru proporii ntr-o populaie binomial

Pentru o populaie statistic, prin
proporie a populaiei vom nelege procentul din ntreaga colectivitate
ce satisface o anumit proprietate (sau are o anumit caracteristic) (e.g., proporia de studeni integraliti
dintr-o anumit facultate). Pe de alt parte, prin
proporie de selecie nelegem procentajul din valorile de
selecie ce satisfac o anumit proprietate (e.g., proporia de studeni integraliti dintr-o selecie aleatoare
de
40
p),
iar proporia de selecie este o statistic (pe care o notm aici prin
Fie
de studeni ai unei faculti). Proporia unei populaii este un parametru (pe care l vom nota cu
o caracteristic binomial a unei colectiviti, cu probabilitatea de succes
steme aprute la aruncarea unei monede ideale, caz n care

de ncredere pentru proporia populaiei,
p.
variabilei aleatoare
X=
n
X
Xi ,
unde
E(X) = np,
este
Xi
(e.g., numrul de
Dorim s construim un interval
este proporia de selecie, adic
pb = p =
Printr-un "volum mare" vom nelege un
p = 0.5).
Pentru aceasta, avem nevoie de selecii de volum mare din
aceast colectivitate. Un estimator potrivit pentru
ind
p).
X
.
n
ce satisface:
iar dispersia este
n 30, n pb > 5 i n (1 pb) > 5. Media

D2 (X) = np(1 p). Putem scrie pe X ca
sunt variabile aleatoare Bernoulli
B(1, p).
Pentru un volum
mare, variabila
i=1
aleatoare
satisface (conform teoremei limit central aplicat irului
{Xi }i ):
X
p
X np
pb p
p
= rn
=r
N (0, 1).
n p (1 p)
p (1 p)
p (1 p)
n
n
p, de
!
pb (1 pb)
.
n
Pe baza acestui rezultat, putem construi un interval de ncredere pentru
r
pb z1 2
Deoarece
nu este
pb (1 pb)
,
n
r
pb + z1 2
a priori cunoscut, p a fost nlocuit sub radical cu estimatorul su.

r
E = z1 2
se numete
forma:
eroarea standard a proporiei. E
de ncredere dat de (17.18).
(17.18)
Valoarea
pb (1 pb)
n
este eroarea care se face prin estimarea lui
(17.19)
prin intervalul
118
Observaia 17.7
n N,
de regul
Acest interval de ncredere este valabil pentru selecie dintr-o populaie innit (sau
n < 0.05N )
sau pentru selecia cu repetiie dintr-o populaie nit.
se realizeaz fr repetiie dintr-o populaie nit (cu
astfel nt
n 0.05N ),
Dac selecia
atunci intervalul de
ncredere este:
r
pb z1 2
pb (1 pb)
n
N n
,
N 1
r
pb + z1 2
pb (1 pb)
n
N n
N 1
!
.
(17.20)
119

Estimaii prin intervale de ncredere n
Exemplu 18.1
aib masa de
Matlab
O main de ngheat umple cupe cu ngheat. Se dorete ca ngheat din cupe s
= 250g.
Desigur, este practic imposibil s umplem ecare cup cu exact
250g
de nghe-
at. Presupunem c masa coninutului din cup este o variabil aleatoare repartizat normal, cu masa
= 3g. Pentru a verica dac maina este ajustat bine, se aleg la

30 de nghetate i se cntrete coninutul ecreia. Obinem astfel o selecie repetat, x1 , x2 ,
necunoscut i dispersia cunoscut,

ntmplare
. . . , x30
dup cum urmeaz:
257 249
248 256
251 251
247 250
252
247
251 251
251 247
249 248 248

252 248 253
251 253
251 247
Se tie c un estimator absolut corect pentru masa medie este media de selecie,
Se cere s se gseasc un interval de ncredere pentru
Soluie:
cu nivelul de conden
Dup cum am vzut mai sus, un interval de ncredere pentru

(, ) =
Urmtorul cod
x z1 2 ,
n
x + z1 2
n
248 245 251

253 244 253
X = 250.0667.
0.99.
este:
Matlab furnizeaz un interval de ncredere bazat pe datele de selecie observate.
n=30; sigma=3; alpha = 0.01;

x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ...
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];
z = icdf('norm',1-alpha/2,0,1);
% cuantila de ordin 1-alpha/2 pentru normala
m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n); % capetele intervalului
fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
% afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru
cnd
este cunoscut:
(, ) = (248.659, 251.478).
Observaia 18.2
Exist funcii predenite n
Matlab ce furnizeaz estimatori punctuali i intervale de
ncredere. A se compara rezultatul din acest exerciiu cu cel din Exemplul 18.3 (estimare a intervalului de
ncredere cnd
Exemplu 18.3
nu este cunoscut) sau Exerciiul 18.5 (intervale furnizate de funcii
Matlab predenite).
S se gseasc un interval de ncredere pentru masa medie din Exerciiul 18.1, n cazul
n care abaterea standard
nu mai este cunoscut.
120
Figura 18.1: Intervalul de ncredere pentru Exerciiu 18.1.

Soluie:
Dup cum am vzut mai sus, un interval de ncredere pentru

(, ) =
Urmtorul cod
xt
1
; n1
2
d (X)
,
n
x+t
1
; n1
2
este:
d (X)

.
Matlab furnizeaz un interval de ncredere bazat pe datele de selecie observate.
n=30; alpha = 0.01;

x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ...
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];
dev = std(X);
% deviatia standard de selectie
t = icdf('t',1-alpha/2,n-1);
% cuantila de ordin 1-alpha/2 pentru t(n-1)
m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n);
% capetele intervalului
fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
% afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru
cnd
este cunoscut:
(, ) = (248.572, 251.561).
Observaia 18.4
A se compara rezultatul din acest exemplu cu cel din Exemplul 18.1 (estimare a in-
tervalului de ncredere cnd
este cunoscut) sau Exerciiul 18.5 (intervale furnizate de funcii
Matlab
predenite).
Exemplu 18.5 Suntem, din nou, n cadrul Exerciiului 18.1, cu meniunea c dispersia nu este cunoscut
a priori (vezi Exerciiu 18.3). Dorim s obinem o estimaie printr-un interval de ncredere pentru cnd
nu este cunoscut. Folosind funcia
estimaii punctuale pentru
normfit
obinem chiar mai mult dect ne propunem, i anume:
i cte un interval de ncredere pentru ambele. Rulnd funcia, adic
121

[m,s,mCI,sCI] = normfit(X,0.01)
Observm c valorile furnizate pentru intervalul de ncredere pentru
, (mCI),
sunt exact aceleai ca cele
obinute n Exerciiu 18.3.
m =
250.0667
Observaia 18.6
2.9704
S presupunem c facem
diferite cte o selecie de
= 0.01)
s =
30
mCI =
248.572
251.561
sCI =
2.2111
4.4159
50 de selecii repetate de volum 30 (adic alegem n 50 de zile
de ngheate) i am intervalele de ncredere (toate cu nivelul de conden
pentru masa medie a coninutului. Figura 18.2 reprezint grac cele
50
de intervale.
Dup cum se observ din gur, se poate ntmpla ca un interval de ncredere generat s nu conin
valoarea pe care acesta ar trebui s o estimeze. Aceasta nu contrazice teoria, deoarece probabilitatea cu
care valoarea estimat este acoperit de intervalul de ncredere este

P < < = 1 = 0.99,
deci exist anse de a grei n estimare, n cazul de fa de
1%.
Figura 18.2: 50 de realizri ale intervalului de ncredere pentru
Exemplu 18.7
nscrii, doar
conden de
Soluie:
ntr-un institut politehnic, s-a determinat c dintr-o selecie aleatoare de
100 de studeni
67 au terminat studiile, obinnd o diplom. Gsii un interval de ncredere care, cu o

95% s determine procentul de studeni absolveni dintre toi studenii ce au fost nscrii.
67
= 0.05, n > 30, pb = 100
= 0.67, nb
p = 67 > 5 i n(1 pb) = 33 > 5.
informaie despre N (numrul total de studeni nscrii), putem presupune c
Mai nti, observm c
Deoarece nu ni se d vreo
122

n < 0.005N
i putem aplica formula (17.18). Gsim c intervalul de ncredere cutat este:
r
0.67 z0.975
Exemplu 18.8
0.67 (1 0.67)
,
100
Dintr-o selecie de
0.67 + z0.975
200
0.67 (1 0.67)
100
1276
de elevi ai unei coli cu
= (59.27%, 74.73%).
de elevi,
65%
arm c dein cel
puin un telefon mobil. S se gseasc un interval de ncredere pentru procentul de copii din respectiva
coal ce dein cel puin un telefon mobil, la nivelul de semnicaie
Soluie:
interval
= 0.05.
n = 200, N = 1276, p = 0.65. Deoarece n 0.05N , folosind (17.20) i gsim c

de ncredere la nivelul de semnicaie 0.05 este
!
r
r
r
r
0.65 (1 0.65) 1276 200
0.65 (1 0.65) 1276 200
0.65 1.96
, 0.65 + 1.96
200
1276 1
200
1276 1
Avem:
= (58.93%, 71.07%).
Observaia 18.9
p
un
Dac se dorete estimarea volumului seleciei pentru care se obine estimarea proporiei
printr-un interval de ncredere cu o eroare maxim
ghici proporia populaiei,
p,
E,
atunci folosim formula (17.19). Dac am putea
atunci gsim urmtoarea estimare a volumului seleciei:
"
n = p(1 p)
[ ] este partea ntreag. Dac p
pentru p = 0.5 i estimm pe n prin
unde
z1 2
2 #
(18.1)
nu poate ghicit, atunci folosim faptul c
p(1 p)
este maxim
"
#
1 z1 2 2
n=
.
4
E
Exemplu 18.10
Un studiu susine c ntre
35%
40%
dintre elevii de liceu din ar fumeaz. Ct de
mare ar trebui s e volumul unei selecii dintre elevii de liceu pentru a estima procentul real de elevi ce
fumeaz, cu o eroare de estimare maxim de
Soluie:
Folosim formula (18.1), pentru
Cuantila este
z0.95 = 1.28.
0.5%.
p = 0.4
(se alege valoarea
40%,
= 0.1.
cea mai apropiat de
50%).
n este:
#
Gsim c o estimaie pentru
"
n = 0.4(1 0.4)
Exemplu 18.11
Se va alege nivelul de semnicaie
1.64
0.005
O fabric produce batoane de ciocolat cntrind
terea masei de la aceast valoare, s-a fcut o selecie de
100.12; 99.92; 100.1;

99.89; 100.15; 99.9;
99.76; 100.1; 99.24;
100.12; 98.63; 99.03;
99.89;
99.7;
98.19;
100.3;
= 25820.
35
100g
ecare. Pentru a se estima aba-
de batoane, obinndu-se valorile:
100.07; 99.88; 100.11; 99.90; 99.97; 100.2;

100.2; 99.7;
100.2; 100.1; 100.04; 99.89;
100.15; 100.5; 99.79; 98.95; 100.23; 99.89;
98.68.
123

Gsii un interval de ncredere (cu
= 0.05)
pentru deviaia standard masei batoanelor produse de res-
pectiva fabric.
Soluie:
Mai nti, calculm
d2 (x).
Avem:
35
d2 (x) =
1 X
[Xi 100]2 = 0.3.
35
i=1
Din tabele, sau utiliznd
Matlab, gsim cuantilele:

20.975; 35 = 53.2033;
20.025; 35 = 20.5694.
Matlab, cuantilele se calculeaz astfel:

icdf('chi2',0.975, 35);
icdf('chi2',0.025, 35)
Intervalul de ncredere pentru dispersie este (folosind formula (17.12)):
( 2 , 2 ) = (0.20, 0.51).
Pentru variaia standard, intervalul de ncredere este:
(, ) = ( 0.2, 0.51) = (0.44, 0.71).
Exemplu 18.12
Gsii un interval de ncredere (cu
nicotin a unui anumit tip de igri, dac o selecie

de nicotin de
Soluie:
= 0.05) pentru deviaia standard a coninutului de

de 24 de buci are deviaia standard a coninutului
1.6mg.
Mai nti,
s = d (x) = 1.6.
Din tabele, sau utiliznd
20.975; 24 = 39.3641;
Matlab, gsim:
20.025; 24 = 12.4012.
Intervalul de ncredere pentru dispersie este (folosind formula (17.15)):
( 2 , 2 ) = (1.56, 4.95).
Pentru variaia standard, intervalul de ncredere este:
( 1.5608, 4.9544) = (1.25, 2.22).
Tabelul 18.1 sumarizeaz intervalele de ncredere prezentate pn acum. n ecare caz, nivelul de semnicaie este
124
Param.
Ali param.
Interval de ncredere cu nivelul de semnicaie
2
cunoscut
X z1 2 n , X + z1 2 n

X z1 n , +

, X + z1 n
2
necunoscut
cunoscut
necunoscut
p
12
/22
1 2
1 2
1 2
mare
1 , 2
necunoscui
12 , 22
cunoscui
12 6= 22
necunoscui
12 = 22
necunoscui
p1 p2
n1 , n 2
mari

d (X)
X t1 2 ; n1 d(X)
X
+
t
,
1
;
n1
n
n
2

X t1; n1 n , ;

, X t; n1 d(X)
n

2
2
n d (X)
, nd2 (X)
21 ; n
;n
2
22

n d (X)
,
+
2; n

n d2 (X)
, 2
1; n

(n1) d2 (X)
(n1) d2 (X)
,
21 ; n1
2 ; n1
2

2
(n1) d2 (X)
, +
2
; n1

(n1) d2 (X)
,
21; n1

q
q
pb (1b
p)
pb (1b
p)
, pb + z1 2
pb z1 2
n
n
2

2
d1
d1
fn 1, n2 1; 2 , 2 fn1 1, n2 1; 1 2
d22 1
d2
s
s
2
2
2
2
X1 X2 z1 1 + 2 , X1 X2 + z1 1 + 2
2s n
2
s
n2
n1 n2
1
2
2
2
2
d
d
d
d
1
1
X1 X2 t1 ; N
+ 2 , X1 X2 + t1 2 ; N
+ 2
2
n
n
n
n2
1
2
1

X1 X2 t1 2 ; n1 +n2 2 d(X1 , X2 ), X1 X2 + t1 2 ; n1 +n2 2 d(X1 , X2 )

q
q
pb2 (1pb2 )
pb2 (1pb2 )
pb1 (1pb1 )
pb1 (1pb1 )
pb1 pb2 z1 2
+
, pb1 pb2 + z1 2
+
n1
n2
n1
n2
Tabela 18.1: Tabel cu intervale de ncredere.
Mai sus, prin
d(X1 , X2 )
am notat:
q
d(X1 , X2 ) = (n1 1)d21 + (n2 1)d22
n1 + n2 2
1
1
n1 + n2
! 1
125

Estimarea parametrilor prin intervale de ncredere
(dou populaii)
Interval de ncredere pentru diferena mediilor
Fie
X1
X2
caracteristicile a dou populaii normale,
se cunosc mediile teoretice.
N (1 , 1 ),
respectiv,
N (1 , 1 ),
Alegem din prima populaie o selecie repetat de volum
pentru care nu
n1 ,
notat prin
(X1k )k=1, n1 , ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie repetat de volum
n2 , notat prin (X2k )k=1, n2 , ce urmeaz repartiia lui X2 . Fixm nivelul de semnicaie . S notm
dispersiile de selecie pentru ecare caracteristic prin
d21
1
1 X
=
(X1k X1 )2
n1 1
d22
i=1
2
1 X
=
(X2k X2 )2 .
n2 1
i=1
Pentru a gsi un interval de ncredere pentru diferena mediilor, precizm mai nti statisticile care stau
la baza construirii intervalului. Putem avea urmtoarele trei cazuri:
(1) dispersiile
Z=
12
22
sunt cunoscute
a priori.
Alegem statistica
(X1 X2 ) (1 2 )
s
N (0, 1).
12 22
+
n1 n2
(conform Propoziiei
11.27).
(19.1)
Intervalul de ncredere pentru diferena mediilor este:
X1 X2 z1
2
(2) dispersiile
12 = 22 = 2
n1
22
n2
s
X1 X2 + z1 2
12
n1
22
n2
i necunoscute. Pentru a gsi un interval de ncredere pentru diferena
mediilor, alegem statistica
T =q
12
(vezi Propoziia 13.12):
(X1 X2 ) (1 2 )
(n1 1)d21 + (n2 1)d22
Intervalul de ncredere pentru
1 2
n1 + n2 2
1
1
n1 + n2
t (n1 + n2 2),
(19.2)
este:
q
X1 X2 t1 ; n +n 2 (n1 1)d21 + (n2 1)d22
1
2
2
q
X1 X2 + t1 2 ; n1 +n2 2 (n1 1)d21 + (n2 1)d22
n1 + n2 2
1
1
n1 + n2
n1 + n2 2
1
1
n1 + n2
! 1
2
! 1
2
126

(3) dispersiile
12 6= 22 ,
1 2 ,
necunoscute. Pentru un interval de ncredere pentru
T =
alegem statistica
(X1 X2 ) (1 2 )
s
t(N ),
d21 d22
+
n1
n2
(19.3)
unde
2
s21
s22
+
n1 n2
N = 2
2
2 2
s21
1
s2
1
+
n1
n1 1
n2
n2 1

n acest caz, un interval de ncredere pentru
X1 X2 t1 ; N
2
Observaia 19.1

s21 = d2 (x1 ), s22 = d2 (x2 ) .
1 2
d21 d22
+
,
n1
n2
Pentru un volum de selecie
la nivelul de semnicaie
X1 X2 + t1 2 ; N
(19.4)
este:
d21 d22
+
.
n1
n2
n mare (n 30), intervalele de ncredere obinute mai sus

X , nu neaprat pentru una gaussian.
rmn aceleai pentru orice form a repartiiei caracteristicii
Interval de ncredere pentru raportul dispersiilor

Fie
X1
X2
caracteristicile a dou populaii normale,
N (1 , 1 ),
respectiv,
N (2 , 2 ),
pentru care nu
n1
se cunosc mediile i dispersiile teoretice. Alegem din prima populaie o selecie repetat de volum
urmeaz repartiia lui
repartiia lui
X2 .
X1 ,
iar din a doua populaie alegem o selecie repetat de volum
Fixm nivelul de semnicaie
n2
ce
ce urmeaz
Pentru a gsi un interval de ncredere pentru raportul
dispersiilor,
12 /
22
considerm statistica
F =
22 d21
F(n1 1, n2 1),
12 d22
Determinm apoi un interval aleator
(f1 , f2 )
(19.5)
astfel nct
P (f1 < F < f2 ) = Fn1 1, n2 1 (f2 ) Fn1 1, n2 1 (f1 ) = 1 ,

unde
Fn, m
este funcia de repartiie pentru repartiia
f1 = f 2 , n1 1, n2 1
unde
fn, m;
reprezint cuantila de ordin
Fisher cu (n, m) grade de libertate.
Alegem:
f2 = f1 2 , n1 1, n2 1 ,
pentru repartiia
F isher
cu
(n, m)
grade de libertate.
2
2
Intervalul de ncredere pentru raportul dispersiilor, 1 /2 este:
d21
f , n 1, n2 1 ,
d22 2 1

d21
f
1 2 , n1 1, n2 1 .
d22
(19.6)
127
Interval de ncredere pentru diferena proporiilor ntr-o populaie binomial

X2 dou caracteristici binomiale independente ale unei populaii, cu volumele i probabilitile
de succes n1 , p1 i, respectiv, n2 , p2 . Dorim s am un interval de ncredere pentru diferena proporiilor,
p1 p2 . Pentru a reui aceasta, avem nevoie de selecii mari, de aceea utilizarea testului Z este oportun.
Condiiile testului sunt: n1 30, n2 30, n1 pb1 > 5, n2 pb2 > 5, n1 (1 pb1 ) > 5, n2 (1 pb2 ) > 5. La un
nivel de semnicaie , un interval de ncredere pentru p1 p2 este:
s
s
pb1 pb2 z1 pb1 (1 pb1 ) + pb2 (1 pb2 ) , pb1 pb2 + z1 pb1 (1 pb1 ) + pb2 (1 pb2 ) . (19.7)
2
2
n1
n2
n1
n2
Fie
X1
Vericarea ipotezelor statistice

[Ambiia de o via a unui statistician este de a nu da gre
. . . n mai mult de 5% din cazuri.]
Punerea problemei
Testarea ipotezelor statistice este o metod prin care se iau decizii statistice, utiliznd datele experimentale
culese. Testele prezentate mai jos au la baz noiuni din teoria probabilitilor. Aceste teste ne permit
ca, plecnd de la un anumit sau anumite seturi de date culese experimental, s se putem valida anumite
estimri de parametri ai unei repartiii sau chiar putem prezice forma legii de repartiie a caracteristicii
considerate.
X este caracteristica studiat

f (x, ), unde Rp . Dup
Presupunem c
a unei populaii statistice i c legea sa de probabilitate
este dat de
cum precizam n capitolul anterior, aceast funcie poate
specicat (adic i cunoatem forma, dar nu i parametrul

asupra acestui parametru, sau
f (x, )
),
caz n care putem face anumite ipoteze
este necunoscut, caz n care putem face ipoteze asupra formei
sale.
S presupunem c
Deniia 19.2
(xk )k=1, n
(1) Numim
sunt datele observate relativ la caracteristica
ipotez statistic
X.
o presupunere relativ la valorile parametrilor ce apar n
legea de probabilitate a caracteristicii studiate sau chiar referitoare la tipul legii caracteristicii.
(2) O
ipotez neparametric
o ipotez de genul
(3)
Numim
este o presupunere relativ la forma funcional a lui
f (x, ).
De exemplu,
Normal.
ipotez parametric
o presupunere fcut asupra valorii parametrilor unei repartiii.
Dac
mulimea la care se presupune c aparine parametrul necunoscut este format dintr-un singur element,
ipotez parametric simpl. Altfel, avem o ipotez parametric compus.

ipotez nul este acea ipotez pe care o intuim a cea mai apropiat de realitate i o presupunem a
avem de-a face cu o

(4) O
priori a adevrat.
Cu alte cuvinte, ipoteza nul este ceea ce doreti s crezi, n cazul n care nu exist
suciente evidene care s sugereze contrariul. Un exemplu de ipotez nul este urmtoarul: "presupus
nevinovat, pn se gsesc dovezi care s ateste o vin".
ipotez alternativ
este orice alt ipotez
128

admisibil cu care poate confruntat ipoteza nul.
De exemplu, n Exerciiul 18.1, putem presupune c ipoteza (parametric) nul este
(H0 )
= 250 grame,
iar o ipotez alternativ (bilateral) poate
6= 250 grame.
(H1 )
n general, pentru teste parametrice considerm
A = A0
A1 , A 0
A1 =
i spunem c
(H0 )
A0
este ipoteza nul,
iar
(H1 )
(5) A
A1
este ipoteza alternativ.
testa o ipotez statistic (en., statistical inference) nseamn a lua una dintre deciziile:
ipoteza nul se respinge

ipoteza nul se admite (sau, nu sunt motive pentru respingerea ei)
semnicativ din punct de vedere statistic dac este improbabil ca

diferen semnicativ dac exist suciente
dovezi statistice pentru a dovedi diferena, i nu datorit faptului c diferena ar mare. Numim nivel de
semnicaie probabilitatea de a respinge ipoteza nul cnd, de fapt, aceasta este adevrat. n general,
(6) n Statistic, un rezultat se numete
el s se realizat datorit ansei. ntre dou valori exist o
nivelul de semnicaie este ales ca ind una dintre valorile:
= 0.01, 0.02, 0.05
etc.
regiune critic mulimea tuturor valorilor care cauzeaz respingerea ipotezei nule.
o submulime U R se numete regiune critic cu un nivel de semnicaie (0, 1) dac
Vom numi
P ((x1 , x2 , . . . , xn ) U | H0
admis)
Matematic,
= .
Dac putem scrie regiunea critic sub forma
U = {(x1 , x2 , . . . , xn ) Rn | S(x1 , x2 , . . . , xn ) c},

atunci valoarea
se numete
valoare critic iar S(x1 , x2 , . . . , xn ) se numete statistic test sau criteriu.
Construirea unui test statistic revine la construirea unei astfel de mulimi critice. Folosind datele observate
i
determinat ca mai sus, putem avea dou cazuri:
(i)
(ii)
(x1 , x2 , . . . , xn ) 6 U,
(x1 , x2 , . . . , xn ) U,
ceea ce implic faptul c

ceea ce implic faptul c
(H0 )
(H0 )
este acceptat (pn la o alt testare);

este respins (adic
(H1 )
este acceptat);
n urma unor astfel de decizii pot aparea dou tipuri de erori:
eroarea de spea (I)
sau riscul furnizorului (en.,
false positive)
este eroarea care se poate comite
respingnd o ipotez (n realitate) adevrat. Se mai numete i
risc de genul (I).
acestei erori este nivelul de semnicaie, adic:
= P ((x1 , x2 , . . . , xn ) U | H0
admis).
Probabilitatea
129

eroarea de spea a (II)-a
sau riscul beneciarului (en.,
false negative) este eroarea care se poate

risc de genul al (II)-lea. Proba-
comite acceptnd o ipotez (n realitate) fals. Se mai numete i

bilitatea acestei erori este
= P ((x1 , x2 , . . . , xn ) 6 U | H1
admis).
Gravitatea comiterii celor dou erori depinde de problema studiat. De exemplu, riscul de genul (I) este
mai grav dect riscul de genul al (II)-lea dac vericm calitatea unui articol de mbracminte, iar riscul de genul al (II)-lea este mai grav dect riscul de genul (I) dac vericm concentraia unui medicament.
Fie
o caracteristic ce urmeaz legea de probabilitate
de selecie de volum
Deniia 19.3
f (x; ),
cu
(x1 , x2 , . . . , xn )
valori
n.
puterea unui test
Vom numi
probabilitatea respingerii unei ipoteze false (sau, probabili-
tiatea de a nu comite eroarea de spea a II-a). Notm prin
= 1 = P ((x1 , x2 , . . . , xn ) U | H0 fals) .
Deniia 19.4
Denumim
valoare P
sau
P valoare (en.,
(19.8)
P-value) probabilitatea de a obine un rezultat
cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Valoarea
cea mai mic valoare a nivelului de semnicaie
pentru care ipoteza
(H0 )
este
ar respins, bazndu-ne
Pv , atunci respingem ipoteza nul la nivelul de semnicaie , iar dac

(H0 ). Cu ct Pv este mai mic, cu att mai mari anse ca ipoteza nul s e
respins. De exemplu, dac valoarea P este Pv = 0.045 atunci, bazndu-ne pe observaiile culese, vom
respinge ipoteza (H0 ) la un nivel de semnicaie = 0.05 sau = 0.1, dar nu o putem respinge la un
nivel de semnicaie = 0.02. Dac ne raportm la P valoare, decizia ntr-un test statistic poate
fcut astfel: dac aceasta valoare este mai mic dect nivelul de semnicaie , atunci ipoteza nul este
respins, iar dac P value este mai mare dect , atunci ipoteza nul nu poate respins. De reinut
faptul c, cu ct valoarea P este mai mic, cu att mai semnicativ este rezultatul testului.
pe observaiile culese. Dac
Pv > ,
atunci admitem
Un exemplu simplu de test este testul de sarcin. Acest test este, de fapt, o procedur statistic ce ne
d dreptul s decidem dac exist sau nu suciente evidene s concluzionm c o sarcin este prezent.
Ipoteza nul ar lipsa sarcinii. Majoritatea oamenilor n acest caz vor cdea de acord cum c un
negative este mai grav dect un false positive.
false
S presupunem c suntem ntr-o sal de judecat i c judectorul trebuie s decid dac un inculpat este
sau nu vinovat. Are astfel de testat urmtoarele ipoteze:
(
(H0 )
(H1 )
inculpatul este nevinovat;

inculpatul este vinovat.
Posibilele stri reale (asupra crora nu avem control) sunt:

[1]
inculpatul este nevinovat (H0 este adevrat i
[2]
inculpatul este vinovat (H0 este fals i
H1
H1
este fals);
este adevrat)
Deciziile posibile (asupra crora avem control putem lua o decizie corect sau una fals) sunt:
130
[i] H0
[ii] H0
se respinge (dovezi suciente pentru a ncrimina inculpatul);

nu se respinge (dovezi insuciente pentru a ncrimina inculpatul);
n realitate, avem urmtoarele posibiliti, sumarizate n Tabelul 19.1:
Decizii
Respinge H0
Accept H0
Situaie real
H0 - adevrat H0 - fals
[1]&[i]
[2]&[i]
[1]&[ii]
[2]&[ii]
Tabela 19.1: Posibiliti decizionale.

Interpretrile datelor din Tabelul 19.1 se gsesc n Tabelul 19.2.
Situaie real
Decizii
H0 - adevrat
H0 - fals
Respinge H0 nchide o persoana nevinovat
nchide o persoana vinovat
Accepta H0 elibereaz o persoana nevinovat elibereaz o persoana vinovat
Tabela 19.2: Decizii posibile.
Erorile posibile ce pot aparea sunt cele din Tabelul 19.3.
Situaie real
Decizii
H0 - adevrat
H0 - fals
Respinge H0
judecat corect
Accepta H0 judecat corect
Tabela 19.3: Erori decizionale.
Tipuri de teste statistice

Tipul unui test statistic este determinat de ipoteza alternativ
(H1 ).
test unilateral stnga, atunci cnd ipoteza alternativ este
test unilateral dreapta, atunci cnd ipoteza alternativ este
test bilateral, atunci cnd ipoteza alternativ este
6= 0
Avem astfel:
< 0
> 0
(vezi Figura 19.1
(a));
(vezi Figura 19.1
(vezi Figura 19.2);
(b));
131
Figura 19.1: Regiune critic pentru test (a) unilateral stnga, (b) unilateral dreapta.
Figura 19.2: Regiune critic pentru test bilateral.
Aadar, pentru a construi un test statistic vom avea nevoie de o regiune critic. Pentru a construi aceast
regiune critic vom utiliza metoda intervalelor de ncredere. Dac valoarea observat se a n regiunea
critic (adic n afara intervalului de ncredere), atunci respingem ipoteza nul.
Testul cel mai puternic

S presupunem c
f (x; ),
este caracteristica unei colectiviti statistice ce urmeaz o lege de probabilitate
i avem de testat ipoteza nul
Deniia 19.5
(H0 )
vs. ipoteza alternativ
Spunem c testul bazat pe regiunea critic
toate testele bazate pe regiunea critic
U,
(H1 ),
este
cu probabilitatea de risc
cel mai puternic test
P ((x1 , x2 , . . . , xn ) U | (H0 )
(b)
U U .
n raport cu
dac sunt ndeplinite urmtoarele
condiii:
(a)
se admite)
= ;
132
(adic, dintre toate testele de nivel de semnicaie

puterea testului este maxim). Regiunea
Observaia 19.6
se numete
xat, cel mai puternit test este cel pentru care
regiunea critic cea mai bun.
Nu ntotdeauna exist un cel mai puternic test.
n cazul ipotezelor simple, lema urmtoare ne confer un cel mai bun test. n cazul general, nu se poate
construi un astfel de criteriu.
Lema 19.7 (Neyman19 -Pearson)
Presupunem c avem de testat
(H0 ) :
Notm cu
= 0
= 1 ,
L(x; ) = L(x1 , x2 , . . . , xn ; )
S(x) =
Atunci regiunea
(H1 ) :
vs.
funcia de verosimilitate i e
L(x; 1 )
.
L(x; 0 )
denit prin
U = {x Rn | S(x) c},
cu
astfel nct
semnicaie
P (x U | (H0 )
adevrat)
= ,
este cea mai bun regiune critic la nivelul de
Exemplu 19.8
Fie
x1 , x2 , . . . , xn
valori de selecie pentru o caracteristic
X N (, ),
unde
este
cunoscut. Dorim s testm ipoteza nul:
(H0 ) :
= 0
(H1 ) :
= 1 .
versus ipoteza alternativ simpl
Soluie:
Funcia de verosimilitate asociat seleciei este:
12
2
1
L(x1 , x2 , . . . , xn ; ) =
n e
n
(2) 2
Calculnd
S(x),
n
X
(xk )2
k=1
obinem:
L(x; 1 )
S(x) =
=
L(x; 0 )
0
1
n
12
1
1
2 2
1
0
n
X
k=1
(xk )2
.
Utiliznd Lema Neyman-Pearson, cel mai puternit test este bazat pe o regiune ce depinde de
De asemenea, observm c dac
vom respinge ipoteza
(H0 )
dac
1 > 0 ,
n
X
atunci
S(x)
(xi )2 .
i=1
(xi )2 .
Aadar,
i=1
(xi )2
este sucient de mare.
i=1
19 Jerzy
este o funcie cresctoare de
n
X
n
X
Neyman (1894 1981), matematician polonez
133

Estimarea prin intervale de ncredere n
Exemplu 20.1
Matlab
Dou strunguri sunt potrivite s produc piese identice pentru o comand.
Pentru a
estima dac abaterile diametrelor pieselor produse de cele dou maini sunt sensibil egale, s-au luat la
ntamplare dou seturi de volume
n1 = 7
n2 = 10
de piese din cele dou loturi. Msurtorile au condus
la urmtoarele rezultate:
Lotul
Lotul
1
2
25.06
25.01
24.95
25.09
25.01
25.02
25.05
24.95
24.98
24.97
24.97
25.03
25.02
24.99
24.97
25.03
24.98
S se determine un interval de ncredere pentru raportul dispersiilor diametrelor pieselor produse de cele
dou loturi (
Soluie:
= 0.1).
Se va presupune c diametrele pieselor urmeaz o repartiie normal.
Folosim (19.6). Determinm mai nti dispersiile empirice. Acestea sunt:
d21 =
10
1X
(L1i L1i )2 = 0.0412
6
f0.05, 6, 9 = 0.2440
d22 =
i=1
1X
(L2j L2j )2 = 0.0409.
9
j=1
Cuantilele sunt:
Folosind
Matlab, putem calcula cuantilele astfel:
f0.95, 6, 9 = 3.3738.
f1 = finv(0.05, 6, 9);
f2 = finv(0.95, 6, 9);
Gsim intervalul de ncredere:
(f1 , f2 ) (0.25, 3.4).
Exemplu 20.2
Dintr-o selecie de 45 de baiei ai unei coli, 21 au spus c le place Matematica, iar dintr-o
65 de fete ale aceleiai coli, 37 au susinut c le place aceast disciplin. Construii un interval
de ncredere la nivelul de semnicaie = 0.02 pentru diferena proporiilor de baiei i fete din respectiva
selecie de
coal crora le place Matematica.
Soluie:
Folosim formula (19.7). Mai nti,
21 37 2.33
45 65
21
45
24
45
+
45
37
65
28
65
,
65
pb1 =
23
45 ,
pb2 =
s
21 37
+ 2.33
45 65
37
65 i
z0.99 2.33. Intervalul cutat este:
21 24
37 28
45 45
+ 65 65 = (0.1990, 0.0061).
45
65
134
Exerciiu 20.3
de volum
n = 25
= 2.
O selecie aleatoare de volum
N = 1000,
ce are deviaia standard
cu media se selecie
x = 50
se ia dintr-o populaie
(a) Dac presupunem c populaia este normal, gsii un interval de ncredere pentru media populaiei,
cu
= 0.05.
(b) Gsii un interval de ncredere pentru media populaiei (
= 0.05)
n cazul n care populaia nu este
normal.
Soluie:
(a) Folosim formula (17.6). Gsim intervalul de ncredere

(, ) =
50 z0.975
2
,
25
50 + z0.975
25

= (48.4, 51.6).
(b) Deoarece populaia nu este normal distribuit i nici volumul populaiei nu este mare (n
estima intervalul de ncredere bazndu-ne pe inegalitatea lui Cebev (5.4).
valorile lui
s e aproximate prin
X =
cu o eroare de cel mult
P ({|X X | < kX }) 1
Lund
< 30),
Avem c probabilitatea ca
deviaii standard este:
1
.
k2
1
= 0.95, gsim k = 20. Astfel, un interval de ncredere pentru media populaiei va
2
k

2
2
= (46.42, 53.58).
(, ) = x k , x + k
= 50 20 , 50 + 20
n
n
25
25
Am folosit faptul c
2 = D 2 (X) =
X
2
.
n
vom
Observm c acest interval este mai mare dect cel gsit ante-
rior, de aceea inegalitatea lui Cebev este rar folosit pentru a determina intervale de ncredere. Totui,
n acest caz nu aveam o alt alternativ de calcul. Dac se dorete o precizie mai bun, ar indicat ca
volumul seleciei s e de cel puin
30, caz n care putem folosi aproximarea cu repartiia normal.
Testarea tipului de date experimentale

Pentru a putea efectua un test statistic n mod corect, este necesar s tim care este tipul (tipurile) de
date pe care le avem la dispoziie.
Pentru anumite teste statistice (e.g., testul
sau testul
t,
datele
testate trebuie s e normal distribuite i independente. De multe ori, chiar i ipoteza ca datele s e
normal repartizate trebuie vericat.
De aceea, se pune problema realizrii unei legturi ntre funcia
de repartiia empiric i cea teoretic (teste de concordan). Vom discuta mai pe larg aceste teste de
concordan ntr-o seciune urmtoare.
n
Matlab sunt deja implementate unele funcii ce testeaz dac datele sunt normal repartizate. Funcia
normplot(X)
reprezint grac datele din vectorul
versus o repartiie normal. Scopul acestei funcii
este de a determina grac dac datele din observate sunt normal distribuite. Dac aceste date sunt selectate dintr-o repartiie normal, atunci acest grac va liniar, dac nu, atunci va un grac curbat. De
exemplu, s reprezentm cu
normplot
vectorii
X = normrnd(100,2,200,1);
subplot(1,2,1); normplot(X)
Y = exprnd(5,200,1);
de mai jos. Gracele sunt cele din Figura 20.1.
135
Figura 20.1: Reprezentarea normal a datelor.

subplot(1,2,2); normplot(Y)
Observm c primul grac este aproape liniar, pe cnd al doilea nu este. Putem astfel s concluzionm
c datele date de
din
sunt normal repartizate (fapt conrmat i de modul cum le-am generat), iar datele
nu sunt normal repartizate.
Funcia
chi2gof
determin, n urma unui test
nivel de semnicaie
= 0.05.
2 ,
dac datele observate sunt normal repartizate, la un
Astfel, comanda
h = chi2gof(x)
ne va furniza rezultatul
admis), sau
ipoteza nul
h = 1.
h = 1,
dac datele nu sunt normal repartizate (i.e., ipoteza alternativ
h = 0, dac nu putem respinge ipoteza c datele

(H0 ) este admis). Aplicnd testul pentru X i Y
(H1 )
este
observate sunt normal distribuite (i.e.,

de mai sus, obinem
h = 0,
respectiv,
De asemenea, putem verica dac datele statistice ar putea proveni i din alte repartiii dect cea normal.
De exemplu, funcia
probplot(distribution,Y)
creaz un grac ce compar repartiia datelor din vectorul
tre repartiiile ce pot comparate folosind aceast comand menionm:
'weibull'
'lognormal'.
distribution = 'normal'.
wblplot(Y)
Y s e pozitive pentru compararea

probplot(Y), care presupune n mod
Trebuie avut grij ca valorile vectorului
cu oricare dintre ultimele trei repartiii. Comanda simplicat este

implicit c
distribution. Prin'normal', 'exponential',
cu repartiia dat de
O alt comand util este
136

care este echivalent cu comanda
probplot(weibull,Y).
n continuare, prezentm un exemplu de utilizare a acestor comenzi. Figura 20.2, vericm dac ecare
dintre cele dou selecii generate, una exponenial i cealalt normal, ar putea proveni dintr-o repartiie
exponenial.
x = exprnd(0.5, 250,1);
% selectie exponentiala
y = normrnd(3, 1, 250,1);
% selectie normala
probplot('exponential',[x y])
legend('Selectie exponentiala','Selectie normala','Location','SE')
Figura 20.2: Reprezentarea exponenial a datelor.

Urmtoarea funcie
Matlab compar un set de date cu o repartiie precizat. Funcia
histfit(X, n, 'tip_repartitie')
reprezint datele din vectorul
'tip_repartitie'
printr-o histogram ce are numrul de bare egal cu
n.
Dac opiunea
apare (valabil doar pentru lucrul cu Statistics Toolbox!), atunci peste histogram
se va desena densitatea de repartiie a repartiiei precizate (e.g.,
exponential, gamma, lognormal
etc).
n caz n care opiunea nu apare, se consider implicit c repartiia cu care se compar datele este cea
normal. Exemplul de mai jos produce gracul din Figura 20.3.
X = binornd(1e3, 0.1, 1e4, 1); histfit(X, 100)
137
Figura 20.3: Compararea prin histograme.

Teste parametrice
S presupunem c datele statistice colectate provin dintr-o repartiie probabilistic dat, ns nu cunoatem parametrul sau parametrii acestei repartiii. De multe ori, avem anumite intuiii asupra valorilor
parametrilor ce intr n formula densitii de repartiie, pe care dorim s le vericm ntr-un cadru riguros.
Astfel de teste, ce au la baz testarea parametrilor unor repartiii cunoscute, se numesc
teste parametrice.
n continuare, vom prezenta cele mai folosite teste parametrice. ncepem prin a prezenta paii care apar
ntr-o testare parametric.
Etapele unei testri parametrice
Considerm o selecie ntmpltoare
x1 , x2 , . . . , xn
de observaii asupra caracteristicii de interes.
De multe ori, aceast selecie provine dintr-o repartiie normal. n caz contrar, va trebui ca volumul
seleciei s e mare, de regula
Alegem o statistic (criteriu)
n 30.
Fie
X1 , X2 , . . . , Xn
S(X1 , X2 , . . . , Xn )
variabile aleatoare de selecie;
care, dup acceptarea ipotezei
(H0 ),
o repartiie cunoscut, independent de parametrul testat;
Alegem un nivel de semnicaie
Gsim regiunea critic
Calculm valoarea
Lum decizia:
s0
apropiat de
0.
De regul,
= 0.01, 0.02, 0.05.
U;
a statisticii
S(X1 , X2 , . . . , Xn )
pentru selecia considerat;
aceast are
138

Dac
s0 U ,
Dac
s0 6 U , atunci ipoteza nul, (H0 ), se admite (mai bine zis, nu avem motive s o respingem
(H0 ),
atunci ipoteza nul,
se respinge;
i o admitem pn la efectuarea eventual a unui test mai puternic).
Observaia 21.1
valorii
(sau
O alt modalitate de testare a unei ipoteze statistice parametrice este prin intermediul
P valoarea
sau valoare critic). Reamintim,
P valoarea
este probabilitatea de a obine
un rezultat cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Pentru
testul bilateral,
P valoarea
se poate calcula dup formula:
Pv = P (|S| > |s0 |) = P (S > |s0 |) + P (S < |s0 |),

unde
este statistica folosit n testare i
s0
(21.1)
este valoarea acestei statistici pentru selecia dat (respectiv,
seleciile date, n cazul testrii cu dou selecii).

Pentru testul unilateral stnga,
P valoarea
se poate calcula dup formula:
Pv = P (S < s0 ),
iar pentru testul unilateral dreapta,
P valoarea
(21.2)
este dat de:
Pv = P (S > s0 ),
Utiliznd
P valoarea,
(21.3)
testarea se face astfel:
Ipoteza nul va respins dac
Pv <
i va admis dac
Pv .
Aadar, cu ct
Pv
este mai mic, cu
att mai multe dovezi de respingere a ipotezei nule.
Testul Z pentru medie (o selecie)

Testul Z bilateral
Testul
pentru medie se folosete pentru selecii normale sau pentru selecii de volum mare (n
orice tip de variabile aleatoare, atunci cnd dispersia populaiei este cunoscut
Fie caracteristica
ce urmeaz legea normal
N (, )
cu
necunoscut i
c avem deja culese datele de selecie (observaiile) asupra lui
a priori.
>0
30) din
cunoscut. Presupunem
X:
x1 , x2 , . . . , xn .
Dorim s vericm ipoteza nul
(H0 ) :
= 0
(H1 ) :
6= 0 ,
Pentru a efectua acest test, considerm statistica
Z=
Dac ipoteza
(z1 , z2 )
(H0 )
se admite, atunci
X
.
Z N (0, 1), (conform
(21.4)
Propoziiei
11.23).
Cautm un interval
astfel nct
P (z1 < Z < z2 ) = 1 .
(21.5)
139

Gsim c acest interval este:
unde
este cuantila de ordin
z1 2 ,
pentru repartiia

z1 2 ,
N (0, 1).
Denim regiunea critic pentru ipoteza nul (relativ la valorile statisticii

care ipoteza
pentru
(H0 )
se respinge, dac media
va conine valoarea real 0
aparine acelui interval.
cu o probabilitate destul de mare,
Z)
ca ind acea regiune pentru
tim c un interval de ncredere
1.
Este de ateptat ca regiunea
critic s e complementara acestui interval, adic
n
U = z R;
Astfel,
o

= {z; |z| z1 2 }.
z 6 z1 2 , z1 2
(21.6)
este acea regiune n care:
X 0 + z1 2
n
Notm cu
z0
valoarea statisticii
X 0 z1 2 .
n
pentru observaia considerat.
Decizia nal se face astfel:
dac

z0 z1 2 ,
z1 2
, (echivalent,
z0 6 U ),
atunci admitem
z0 U ),
atunci respingem
(H0 )
(pentru c nu sunt su-
ciente dovezi s o respingem).
dac

z0 6 z1 2 ,
z1 2
, (echivalent,
(H0 )
(exist suciente dovezi
s o respingem).
Etapele testul Z bilateral

{x1 , x2 , . . . , xn } (date repartizate
z1 2 astfel nct
(1)
Se dau:
(2)
Determinm valoarea
normal),
0 ,

z1 2 = 1 .
2
(3)
Calculez valoarea
z0 =
(4)
x 0
Dac:
(i)
(ii)
|z0 | < z1 2 , atunci (H0 ) este admis (nu poate respins);

|z0 | z1 2 , atunci (H0 ) este respins (adic (H1 ) este admis);
Testul Z unilateral
n condiiile din seciunea anterioar, dorim s vericm ipoteza nul
(H0 ) :
= 0
(H1 )s :
< 0 ,
(unilateral stnga)
140

sau ipoteza alternativ
(H1 )d :
> 0 ,
(unilateral dreapta)
Pentru a realiza testele, avem nevoie de denirea unor regiuni critice corespunztoare. Acestea vor chiar
intervalele de ncredere pentru condiiile din ipotezele alternative. Cu alte cuvinte, o regiune critic pentru
ipoteza nul (ceea ce semnic o regiune n care, dac ne am, atunci respingem ipoteza nul la pragul
de semnicaie
este o regiune n care realizarea ipotezei alternative este favorizat. Dac ipoteza nul
este vericat vs. ipoteza alternativ

statisticii
pentru care
(H1 )s
(H1 )s , atunci regiunea critic va regiunea acelor posibile valori ale

1 1, adic:
se realizeaz cu probabilitatea
U = (, z1 ).
(21.7)
ntr-adevr, se observ cu uurin c:
P (z U) = P ( < Z < z1 ) = (z1 ) = 1 .

(H1 )d ,
n mod similar, dac avem ipoteza alternativ
atunci alegem regiunea critic:
U = (z1 , +).
(21.8)
La fel ca mai sus, decizia se determin astfel (n ambele cazuri):
dac
z0 =
dac
z0 =
x 0
x 0
Observaia 21.2
6 U ,
atunci admitem
U,
atunci respingem
Testul
(H0 ).
(H0 ).
(bilateral sau unilateral) poate aplicat cu succes i pentru populaii non-
normale, dac volumul seleciei observate este
n 30.
Testul Z pentru diferena mediilor a dou selecii

Testul
pentru diferena mediilor se folosete pentru selecii independente de volum mare (n
orice tip de variabile aleatoare, atunci cnd dispersiile populaiilor considerate sunt cunoscute
Fie
X1
X2
caracteristicile (independente) a dou populaii normale,
N (1 , 1 ),
30)
din
a priori.
N (2 , 2 ),
de volum n1 ,
respectiv,
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie
repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i
1
(X2j )j=1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie
. Dorim s testm ipoteza nul c mediile sunt egale
(H0 ) :
1 = 2
(H1 ) :
1 6= 2 .
Pentru a testa aceast ipotez, alegem statistica
Z=
(X1 X2 ) (1 2 )
s
.
12 22
+
n 1 n2
(21.9)
141

Dac
(H0 )
este admis (adic admitem c
1 = 2 ),
Z N (0, 1).
Fie
(u1 u2 )
.
z0 = q 2
22
1
+
n1
n2
atunci (vezi (19.3)):
(conform Propoziiei
11.28).
(21.10)
Regiunea critic pentru ipoteza nul, exprimat n valori ale statisticii
U =
este:
o

z 6 z1 2 , z1 2
.
n
z;
Dac valoarea statisticii
pentru seleciile date nu se a n
Dac valoarea statisticii
pentru seleciile date se a n
U,
U,
atunci admitem
atunci respingem
(H0 ).
(H0 ).
Etapele testul Z pentru diferena mediilor

{x1 1 , x1 2 , . . . , x1 n1 }, {x2 1 , x2 2 , . . . , x2 n2 }
z1 2 astfel nct, funcia lui Laplace,
(1)
Se dau datele normale
(2)
Determinm valoarea
0 , 1 , 2 ,

z1 2 = 1 .
2
(3)
Calculez valoarea
(4)
Dac:
(i)
(ii)
Observaia 21.3
(1)
x1 x2
z0 = q 2
.
1
22
n1 + n2
|z0 | < z1 2 , atunci 1 = 2 ;

|z0 | z1 2 , atunci 1 6= 2 .
n cazul n care
1 , 2
sunt necunoscute, atunci utilizam testul
pentru dou
selecii, prezentat mai jos.

(2) Regiunile critice pentru testele unilaterale sunt prezentate n Tabelul 21.2.
(3) Testul
pentru dou selecii, bilateral sau unilateral, poate aplicat cu succes i pentru populaii
non-normale, dac volumele seleciilor observate sunt

(4) Pentru testul
Z , P valoarea
n1 30, n2 30.
se poate calcula dup urmtoarele formule:
Pv = P (|Z| > |z0 |) = 1 (|z0 |) + (|z0 |)

Pv = P (Z < z0 ) = (z0 )
(pentru testul
Pv = P (Z > z0 ) = 1 (z0 )
(pentru testul
bilateral);
(21.11)
unilateral stnga);
(pentru testul
(21.12)
unilateral dreapta).
(21.13)
Testul t pentru medie (o selecie)

Testul
pentru medie se folosete pentru selecii normale de volum mic, de regul
populaiei este necunoscut

Fie caracteristica
a priori.
datele de selecie (observaiile) asupra lui
n < 30,
cnd dispersia
N (, ) cu necunoscut i > 0 necunoscut.
X:
x1 , x2 , . . . , xn .
Considerm
142

Vrem s vericm ipoteza nul
(H0 ) :
= 0
(H1 ) :
6= 0 ,
X
.
d (X)
T =
Dac ipoteza
(H0 )
se admite (adic
Cutm un interval
(t1 , t2 )
ia valoarea
0 ),
(21.14)
atunci
T t(n 1),
(conform Propoziiei
astfel inct
P (t1 < T < t2 ) = 1 .

Gsim c acest interval este:
unde
t; n
reprezint cuantila de ordin
(21.15)

t1 2 ; n1 , t1 2 ; n1 ,
pentru repartiia
t(n).
Regiunea critic este complementara intervalului de ncredere. Decizia se ia astfel:
dac
t0 =
dac
t0 =
x 0
d (X)
x 0
d (X)

t1 2 ; n1 , t1 2 ; n1

6 t1 2 ; n1 , t1 2 ; n1
(echivalent,
(echivalent,
t0 6 U ),
atunci admitem
t0 U ),
(H0 ).
atunci respingem
(H0 ).
Etapele testul t bilateral

(1)
(2)
(3)
{x1 , x2 , . . . , xn } (date normale), 0 , ;

Determinm valoarea t1 ; n1 astfel nct funcia de
2

Fn1 t1 2 ; n1 = 1 .
2
Se dau:
(4)
repartiie pentru
t(n 1),
Calculez valoarea
t0 =
x 0
d (X)
unde,
v
u
u
d (X) = t
1 X
(xi x)2 .
n1
k=1
Dac:
(i)
(ii)
13.9).
|t0 | < t1 2 ; n1 , atunci (H0 ) este admis (nu poate respins);

|t0 | t1 2 ; n1 , atunci (H0 ) este respins (adic (H1 ) este admis);
Testul t unilateral
n condiiile de mai sus, dorim s vericm ipoteza nul
(H0 ) :
= 0
143

(H1 )s :
< 0 ,
(H1 )d :
> 0 ,
(unilateral stnga)
sau ipoteza alternativ
(unilateral dreapta)
Pentru a realiza testele, avem nevoie de regiuni critice corespunztoare.

Regiunea critic pentru ipoteza nul va trebui s e mulimea valorilor favorabile realizrii ipotezei alternative, adic este acel interval ce conine doar valori ale statisticii
ce vor duce la respingerea ipotezei
nule i acceptarea ipotezei alternative. Aadar, dac alegem ipoteza alternativ
(H1 )s ,
atunci regiunea
critic pentru ipoteza nul va mulimea valorilor favorabile realizrii ipotezei alternative
(H1 )s ,
adic
intervalul:
U = (, t1; n1 ).
Dac alegem ipoteza alternativ
(H1 )d ,
(21.16)
atunci regiunea critic pentru ipoteza nul va :
U = (t; n1 , +).
(21.17)
La fel ca mai sus, testarea este (n ambele cazuri):
dac
t0 =
dac
t0 =
x 0
d (X)
x 0
d (X)
Observaia 21.4
6 U ,
atunci admitem
U,
atunci respingem
Testul
(H0 ) :
(H1 )
6= 0
cunoscut
< 0
> 0
(H0 ).
(bilateral sau unilateral) poate aplicat cu succes i pentru populaii non-
normale, dac volumul seleciei observate este
Ali parametri
(H0 ).
n 30.
= 0
Tipul testului
Regiunea critic
iSh

, z1 2
z1 2 , +
6= 0
(, z1 )
(z1 , +)
iSh

t1 2 ; n1 , +
, t1 2 ; n1
necunoscut
< 0
> 0
(, t1; n1 )
(t1; n1 , +)
Testul
Testul
Testul
bilateral
Z unilateral stnga
Z unilateral dreapta
Testul
Testul
Testul
bilateral
t unilateral stnga
t unilateral dreapta
Tabela 21.1: Teste pentru valoarea medie a unei colectiviti.

Testul t pentru diferena mediilor a dou selecii
Testul
t pentru diferena mediilor se folosete pentru selecii normale independente de volum mic (n < 30),
atunci cnd dispersiile populaiilor considerate sunt necunoscute

Fie
X1
X2
a priori.
N (1 , 1 ),
respectiv,
N (2 , 2 ),
144
n1 ,
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie
1
. Dorim s testm ipoteza nul c mediile sunt egale
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum
(H0 ) :
1 = 2
(H1 ) :
1 6= 2 .
Cazul I
Presupunem c
1 6= 2
sunt necunoscute. Pentru a testa aceast ipotez, alegem statistica
T =
Aici,
(X1 X2 ) (1 2 )
s
.
d21 d22
+
n1
n2
d21 i d21 sunt dispersiile de selecie (modicate).
Dac
(21.18)
(H0 ) este admis (adic admitem c 1 = 2 ),
atunci (vezi relaia (19.3)):
T t(N ),
cu
(21.19)
ca n relaia (19.4). Regiunea critic este complementara intervalului de ncredere pentru diferena
mediilor, adic:

U = R \ t1 2 ; N , t1 2 ; N .
Cazul II
Presupunem c
1 = 2
i sunt necunoscute. Pentru a testa aceast ipotez, alegem statistica
(X1 X2 ) (1 2 )
T =q
(n1 1)d21 + (n2 1)d22
Dac
(H0 )
este admis (adic admitem c
1 = 2 ),
n1 + n2 2
.
1
1
n1 + n2
(21.20)
atunci (vezi relaia (19.2)):
T t (n1 + n2 2).
(21.21)
Regiunea critic este complementara intervalului de ncredere pentru diferena mediilor, adic:

U = R \ t1 2 ; n1 +n2 2 , t1 2 ; n1 +n2 2 .
Etapele testul t pentru diferena mediilor

(1)
(2)
funcia de
{x1 1 , x1 2 , . . . , x1 n1 }, {x2 1 , x2 2 , . . . , x2 n2 } (date normale), 0 , ;

Determinm valoarea t1 ; m (unde m = N sau m = n1 + n2 2, dup caz) astfel
2
repartiie pentru repartiia Student t(m),

Fm t1 2 ; m = 1 .
2
Se dau:
nct
145

(3)
Calculez valoarea
t0 =
(4)
x x2
q 12
d1 + d22
n1
n2
x1 x2
p(n 1)d2 + (n 1)d2

2
1
2
1
n1 + n2 2
1
1
n1 + n2
, dac
1 6= 2
, dac
1 = 2
Dac:
(i)
(ii)
Observaia 21.5
|t0 | < t1 2 ; m , atunci 1 = 2 ;

|t0 | t1 2 ; m , atunci 1 6= 2 .
(1) n practic, nu putem ti
a priori dac dispersiile teoretice a celor dou populaii
ce urmeaz a testate sunt egale sau nu. De aceea, pentru a ti ce test s folosim, va trebui s testm
mai nti ipoteza c cele dou dispersii sunt egale, vs. ipoteza ca ele difer. Pentru aceasta, va trebui s
utilizm un test pentru raportul dispersiilor. Dup ce acest prim test a fost realizat, putem decide dac
n testarea egalitii mediilor folosim statistica (21.18) sau statistica (21.20).
(2)
Z pentru diferena mediilor,

t pentru diferena mediilor, cu diferena c statistica ce se consider este dat
dup acceptarea ipotezei nule, urmeaz repartiia N (, ).
n cazul n care dispersiile sunt cunoscute, atunci se utilizeaz testul
care urmeaz paii testului

de relaia (19.1) care,
(3) Testul
pentru dou selecii, bilateral sau unilateral, poate aplicat cu succes i pentru populaii
non-normale, dac volumele seleciilor observate sunt
Z , P valoarea
(4) Pentru testul
n1 30, n2 30.
se poate calcula dup urmtoarele formule:
Pv = P (|T | > |t0 |) = 1 Fm (|t0 |) + Fm (|t0 |)

Pv = P (T < t0 ) = Fm (t0 )
(pentru testul
Pv = P (T > t0 ) = 1 Fm (t0 )
unde
m=N
sau
m = n1 + n2 2,
Ali parametri
1 , 2
1 6= 2
cunoscute
1 < 2
1 > 2
1 6= 2
1 6= 2
necunoscute
1 < 2
1 > 2
bilateral);
unilateral stnga);
(pentru testul
(21.22)
(21.23)
unilateral dreapta).
(21.24)
dup caz.
(H0 ) :
(H1 )
(pentru testul
1 = 2
Tipul testului
Regiunea critic
|X1 X2 | z1 2 n11 + n22

q 2
2
X1 X2 < z1 n11 + n22
q 2
2
X1 X2 > z1 n11 + n22
q
2
2
|X1 X2 | t1 2 ; N d n(X1 1 ) + d n(X2 2 )

q
2
2
X1 X2 < t1; N d n(X1 1 ) + d n(X2 2 )
q
2
2
X1 X2 > t1; N d n(X1 1 ) + d n(X2 2 )
Testul
Testul
Testul
Testul
Tabela 21.2: Teste pentru egalitatea a dou medii.
bilateral
unilateral stnga
unilateral dreapta
Testul
Testul
bilateral
unilateral stnga
unilateral dreapta
146
Testul 2 pentru dispersie

Fie caracteristica
N (, )
X , x1 , x2 , . . . , xn .
selecie (observaiile) asupra lui
cu
>0
necunoscute. Considerm datele de
Vrem s vericm
2 = 02
(H0 ) :
2 6= 02 ,
(H1 ) :
2 =
n1 2
d (X),
2
(21.25)
(H0 ) (adic 2 ia valoarea 02 ), atunci 2 2 (n 1), (conform Propoziiei

2
ncredere pentru este

2 ; n1 , 21 ; n1 ,
care, dup acceptarea ipotezei

(13.6). Intervalului de
unde
2; n1
Regiunea critic
2
S notm prin 0
urmtoarea:
2 (n).
pentru repartiia
va complementara acestui intervalul de ncredere.
n1 2
d (x) valoarea statisticii 2
02
dac

20 2 ; n1 , 21 ; n1 ,
dac

20 6 2 ; n1 , 21 ; n1 ,
Observaia 21.6
pentru selecia dat. Atunci, regula de decizie este
atunci admitem
(H0 )
atunci respingem
(i.e.,
(H0 )
2 = 02 );
(i.e.,
2 6= 02 ).
Se pot considera, dup caz, i ipotezele alternative unilaterale
(H1 )s :
2 < 02
2 > 02 .
(H1 )d :
Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.3.
(H0 ) :
(H1 )
2 6= 02
necunoscut
2 < 02
2 > 02
2 = 02
Tipul testului
Regiunea critic
iSh

, 2 ; n1
21 ; n1 , +
2
2
, 21; n1
2; n1 , +
Testul
Testul
Testul
bilateral
2 unilateral stnga
2 unilateral dreapta
Tabela 21.3: Teste pentru dispersie.

Testul F pentru raportului dispersiilor
Fie
X1
X2
N (1 , 1 ),
respectiv,
N (2 , 2 ),
n1 ,
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum
147
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie
1
. Dorim s testm ipoteza nul c dispersiile sunt egale
(H0 ) :
12 = 22
(H1 ) :
12 6= 22 .
Pentru a testa aceast ipotez, alegem statistica
F =
Dac
(H0 )
este admis (adic
12 = 22 ),
22 d2 (X1 )
.
12 d2 (X2 )
(21.26)
atunci:
F F(n1 1, n2 1)
(repartiia
Fisher).
(21.27)
Intervalul de ncredere pentru raportul dispersiilor este
;
2
n1 1, n2 1 ,
1
;
2
n1 1, n2 1
i se determin astfel nct

P f 2 ; n1 1, n2 1 F f1 2 ; n1 1, n2 1 = 1 .
Extremitile intervalului se determin din relaiile

Fn1 1; n2 1 f 2 ; n1 1, n2 1 =
2
(f; n1 1, n2 1 este cuantila de ordin
Regiunea critic
Notm prin
f0

Fn1 1; n2 1 f1 2 ; n1 1, n2 1 = 1 .
2
pentru repartiia Fisher
F(n1 1, n2 1)).
este complementara intervalului de ncredere pentru raportul dispersiilor.
valoarea lui
pentru observaiile date,
f0 =
x1
x2 .
Avem:
d2 (x1 )
.
d2 (x2 )
Regula de decizie este:
dac

f0 f 2 ; n1 1, n2 1 , f1 2 ; n1 1, n2 1 ,
dac

f0 6 f 2 ; n1 1, n2 1 , f1 2 ; n1 1, n2 1 ,
Observaia 21.7
atunci admitem
(H0 )
atunci respingem
(i.e.,
(H0 )
1 = 2 );
(i.e.,
1 6= 2 ).
Se pot considera, dup caz, i ipotezele alternative unilaterale
(H1 )s :
12 < 22 ,
(H1 )d :
12 > 22 .
Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.4.
148

(H0 ) :
1 , 2
necunoscute
(H1 )
2
1 6= 22
12 < 22
12 > 22
12 = 22
Tipul testului
Regiunea
S critic
Testul F bilateral
Testul F unilateral stnga
Testul F unilateral dreapta

, f 2 ; n1 1, n2 1
f1 2 ; n1 1, n2 1 , +
(, f1; n1 1, n2 1 )
(f1; n1 1, n2 1 , +)
Tabela 21.4: Teste pentru raportul dispersiilor.
Teste pentru proporii ntr-o populaie binomial

O singur populaie
Fie
o caracteristic binomial a unei colectiviti, cu probabilitatea de succes
ale populaiei, dorim s testm urmtoarea ipotez asupra lui
(H0 ) : p = p0
p.
Pe baza unor selecii
p:
(H1 ) : p 6= p0 .
vs.
De asemenea, putem considera i ipoteze alternative unilaterale:
(H1 )s : p < p0
(H1 )d : p > p0 .
sau
Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem
c volumul populaiei (N ) este mult mai mare posibil innit) dect volumul
Fixm un nivel de semnicaie
al seleciilor considerate.
Vom construi testul pentru proporia populaiei pe baza intervalului
de ncredere (17.18).
Etapele testului sunt:
Pe baza seleciei, calculm proporia de selecie
Calculm valoarea
P0 = r
Calculm cuantila
Dac
pb,
care este o estimare a proporiei populaiei,
pb p0
p0 (1 p0 )
n
p;
z1 2 ;

P0 z1 2 , z1 2 ,
atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic
este complementara intervalului de ncredere.
Observaia 21.8
Pentru testul unilateral stnga regiunea critic pentru
testul unilateral dreapta este
(z1 , ).
P0
este
(, z1 ),
iar pentru
149
Testul proporiilor pentru dou populaii

X2 dou caracteristici binomiale independente ale unei populaii, cu volumele
succes n1 , p1 i, respectiv, n2 , p2 . Pe baza unor selecii, dorim s testm ipotezele:
Fie
de
X1
(H0 ) : p1 = p2
vs.
i probabilitile
(H1 ) : p1 6= p2 .
De asemenea, putem considera i ipoteze alternative unilaterale:
(H1 )s : p1 < p2
sau
(H1 )d : p1 > p2 .
Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c
volumul populaiei (N ) este mult mai mare (posibil innit) dect volumele seleciilor considerate. Fixm
un nivel de semnicaie
Dac ipoteza nul este admis, atunci
p1 = p2 = p.
Un estimator pentru
este frecvena relativ a numrului de succese cumulate n cele dou selecii, i.e.,
p =
n1 pb1 + n2 pb2
.
n1 + n2
Etapele testului sunt:
Calculm proporiile de selecie
Calculm valoarea
Calculm cuantila
Dac
pb1
pb2 ,
care sunt estimri pentru
pb1 pb2
P0 = r

p (1 p ) n11 +
1
n2
p1 ,
respectiv,
p2 ;
;
z1 2 ;

P0 z1 2 , z1 2 ,
atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic
este complementara intervalului de ncredere.
150

Teste parametrice rezolvate n Matlab
Testul Z n
Testul
Matlab
pentru o selecie poate simulat n
Matlab utiliznd comanda
[h, p, ci, zval] = ztest(X,m0,sigma,alpha,tail)

unde:
h = 1,
este rezultatul testului. Dac
atunci ipoteza nul se respinge, dac
h = 0,
atunci ipoteza
nul nu poate respins pe baza observaiilor facute (adic, se admite, pn la un test mai puternic);
este valoarea
ci
value);
este un interval de ncredere pentru
zval
X
P (P
este valoarea statisticii
pentru observaia considerat;
este un vector sau o matrice, coninnd observaiile culese.
multe teste
m0 = 0 ,
sunt efectuate, de-alungul ecrei coloane a lui
Dac
este matrice, atunci mai
X;
valoarea testat;
sigma
este deviaia standard teoretic a lui
alpha
este nivelul de semnicaie;
tail
X , a priori
cunoscut;
poate unul dintre urmtoarele iruri de caractere:
'both', pentru un test bilateral (poate s nu e specicat, se subnelege implicit);

'left', pentru un test unilateral stnga ( < 0 );
'right', pentru un test unilateral dreapta ( > 0 );
Exemplu 22.1
Spre exemplicare, s presupunem c datele discrete din Tabelul 1.1 sunt obinute n
urma unui sondaj care contabilizeaz notele la Matematic obinute de elevii unei anumite coli. Dorim
s testm, la nivelul de semnicaie
este
= 6.8
Soluie:
dac media tuturor notelor la Matematic a elevilor colii
sau mai mare. Se tie c deviaia standard este
= 2.5.
Aadar, avem de testat
(H0 )
Vectorul
= 0.05,
= 6.8
vs.
(H1 )
> 6.8.
de mai jos cuprinde toate notele obinute n urma sondajului.
151

X = [2*ones(2,1); 3*ones(4,1); 4*ones(8,1); 5*ones(15,1); 6*ones(18,1); ...
7*ones(17,1); 8*ones(15,1); 9*ones(7,1); 10*ones(4,1)];
[h, p, ci, zval] = ztest(X, 6.8, 2.5, 0.05, 'right')
Acest cod aeaz
h =
0
p =
0.9500
ci =
stats =
5.9332
Inf
-1.6444
Aceasta nseamn faptul c ipoteza nul este admis la acest nivel de semnicaie.
Observaia 22.2
(1) Dac ipoteza alternativ este bilateral ((H1 )
: 6= 6.8),
atunci comanda ar :
[h, p, ci, zval] = ztest(X, 6.8, 2.5)

n acest caz, gsim c ipoteza nul este respins (i.e., rezultatul este
(2) Decizia testului putea luat i pe baza
P valorii.
h = 1).
Aceasta este:
Pv = P (Z > z0 ) = 1 P (Z z0 ) = 1 (z0 ) = 0.95 > 0.05 = .

n
Matlab, aceast valoare poate calculat astfel:

m0 = 6.8; sigma = 2.5; n = 90; z0 = (mean(X) - m0)/(sigma/sqrt(n));
Pv = 1 - normcdf(z0, 0, 1)
(3) Pentru efectuarea testului, nu este neaprat necesar s am toate cele patru variabile din membrul
stng. Putem aa, dup preferin, doar trei, dou, sau numai o variabil, dar doar n ordinea precizat.
De exemplu, comanda
h = ztest(X, m0, sigma, alpha, tail)

ne va furniza doar rezultatul testului (h
(4) Nu exist o funcie n
Testul t n
=0
sau
h = 1),
fr a aa alte variabile.
Matlab care s simuleze testul Z pentru dou selecii.
Matlab
Testul t pentru o selecie

Testul
poate simulat n
Matlab utiliznd comanda general
152

[h, p, ci, stats] = ttest(X,m0,alpha,tail)
unde:
h, p, ci, m0, alpha, tail
variabila
stats
sunt la fel ca n funcia
ztest;
nmagazineaz urmtoarele date:
tstat - este valoarea statisticii T pentru observaia considerat;

df - numrul gradelor de libertate ale testului;
sd - deviaia standard de selecie;
Exemplu 22.3
Dorim s testm dac o anumit moned este corect, adic ansele ecrei fee de a
apare la orice aruncare sunt
59
de exact
50% 50%.
Aruncm moneda n caza de
100
de ori i obinem faa cu stema
de ori. Pe baza acestei experiene, cutm s testm ipoteza nul
(H0 ) :
moneda este corect
(H1 ) :
la un prag de semnicaie
Soluie:
= 0.05.
X variabila aleatoare
X = 1, dac apare faa cu
E(X) = 0.5, D2 (X) = 0.25.
Fie
spunem c
de unde
monedal este msluit,
ce reprezint faa ce apare la o singur aruncare a monedei.

stema i
X = 0,
dac apare faa cu banul. Teoretic,
X B(1, 0.5),
n = 100 i scriem observaiile fcute ntr-un vector x ce conine

41 de valori 0. Deoarece n = 100 > 30, putem utiliza testul t pentru o selecie. Rescriem
(H0 ) i (H1 ) astfel:
(H0 ) : = 0.5
Prin ipotez, ni se d o selecie de volum
59
de
ipotezele
6= 0.5.
(H1 ) :
Dac
{X1 , X2 , . . . , Xn }
sunt variabilele aleatoare de selecie, atunci alegem statistica
T =
Dac ipoteza
(H0 )
se admite, atunci
este xat,
statistici pentru selecia dat este:
t0 =
Din t1 ; n1
2
= t0.975; 99 = 1.9842,
P valoarea
d (X)
= 0.5
x
d (X)
i statistica
T t(n 1).
Valoarea acestei
= 1.8207.
|t0 | < t1 2 ; n1 ,
).
rezult c
poate respins la nivelul de semnicaie
i decidem c ipoteza
(H0 ) este admis (nu
este
Pv = 1 Fn1 (t0 ) + Fn1 (t0 ) = 1 F99 (1.8207) + F99 (1.8207) = 0.0717.

Codul
Matlab pentru calculul analitic de mai sus este urmtorul:
153

n=100; mu = 0.5; alpha = 0.05; x = [ones(59,1); zeros(41,1)];
t0 = (mean(x) - mu)/(std(x)/sqrt(n));
tc = tinv(1-alpha/2, n-1);
% cuantila
if (abs(t0) < tc)
disp('moneda este corecta')
else disp('moneda este masluita')
end
Pv= 1 - tcdf(t0,n-1) + tcdf(-t0,n-1)
% P-valoarea
Rulnd codul, obinem rezultatul:
moneda este corecta

n loc s folosim codul de mai sus, am putea folosi funcia
ttest
din
Matlab, dup cum urmeaz:
[h, p, ci, stats] = ttest(X,0.5,0.05,'both')

i obinem
h =
0
p =
0.0717
Observaia 22.4
0.08,
(1)
ci =
Deoarece
P valoarea
stats =
0.4919
0.6881
este
p = 0.0717,
tstat: 1.8207
df: 99
sd: 0.4943
deducem c la un prag de semnicaie
ipoteza nul ar fost respins.
(2) Dac dintre cele
100 de observri aveam o apariie n plus a stemei,
atunci ipoteza nul ar respins,
adic moneda ar fost catalogat a msluit.
Testul t pentru dou selecii

Testul
pentru egalitatea a dou medii poate simulat n
[h, p, ci, stats] = ttest2(X, Y, alpha, tail, vartype)

unde:
h, p, ci, alpha, stats

X
tail
sunt la fel ca mai sus;
sunt vectori sau o matrice, coninnd observaiile culese. Dac ele sunt matrice, atunci mai
multe teste
sunt efectuate, de-alungul ecrei coloane;
vartype ia valoarea equal dac dispersiile teoretice sunt egale sau unequal pentru dispersii inegale.
154
Exemplu 22.5
0
Caracteristicile X1 i X2 reprezint notele obinute de studenii de la Master M F 08,
0
respectiv, M F 09 la examenul de Statistic Aplicat. Conducerea universitii recomand ca aceste note s
urmeze repartiia normal i examinatorul se conformeaz dorinei de sus. Presupunem c
i
X2 N (2 , 2 ), cu 1 6= 2 , necunoscute a priori.
X1 N (1 , 1 )
Pentru a verica modul cum s-au prezentat studenii
la acest examen n doi ani consecutivi, selectm aleator notele a
25
de studeni din prima grup i
note din a doua grup. distribuctii de frecvene ale notelor sunt cele din Tabelul 22.1.
(i)
(ii)
(ii)
Vericai dac ambele seturi de date provin dintr-o repartiie normal;

Gsii un interval de ncredere pentru diferena mediilor, la nivelul de semnicaie
S se testeze (cu
(H0 ) :
= 0.01)
= 0.05;
ipoteza nul
(n medie, studenii sunt la fel de buni)
1 = 2 ,
versus ipoteza alternativ
(H1 ) :
(n medie, studenii au note din ce n ce mai mari)
1 < 2 ,
Frecvena absolut
Nota obinut
Grupa
5
6
7
8
9
10
M F 0 08
3
4
9
7
2
0
Grupa
M F 0 09
5
6
8
6
3
2
Tabela 22.1: Tabel cu note.

Soluie:
(i)
h = chi2gof(u)
k = chi2gof(v)
%
%
h = 0, deci u N
k = 0, deci v N
Matlab de mai jos)
(u i
(ii)
Un interval de ncredere la acest nivel de semnicaie se obine apelnd funcia
sunt vectorii din codul
Matlab
[h, p, ci, stats] = ttest2(u, v, 0.05, 'both', 'unequal')

Acesta este:
(-0.7294, 0.6760)
Altfel, se calculeaz intervalul de ncredere (vezi Tabelul 18.1)
x1 x2 t1 ; N
2
Codul
Matlab:
d21
n1
d22
n2
s
,
x1 x2 + t1 2 ; N
d21
n1
d22
n2
30
de
155
n1=25; n2=30; alpha = 0.05;

u = [5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)];
v = [5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)];
d1 = var(u); d2 = var(v); N = (d1/n1+d2/n2)^2/((d1/n1)^2/(n1-1)+(d2/n2)^2/(n2-1))-2;
t = tinv(1-alpha/2,N);
m1 = mean(u)-mean(v)-t*sqrt(d1/n1+d2/n2); m2 = mean(u)-mean(v)+t*sqrt(d1/n1+d2/n2);
fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
(iii)
Comanda
Matlab este:
[h,p,ci,stats] = ttest2(u, v, 0.01, 'left', 'unequal')

n urma rulrii comenzii, obinem:
h =
0
p =
0.4698
Observaia 22.6
Valoarea
ci =
-Inf
0.8137
stats =
tstat: -0.0761
df: 52.7774
sd: 2x1 double
poate calculat i cu formula:
Pv = P (T < t0 ) = FN 1 (t0 ) = 0.4698.

n
Matlab,
t0 = (mean(u)-mean(v))/sqrt(d1/n1+d2/n2);
Testul 2 pentru dispersie n

Exemplu 22.7
strung.
tim c
Pv = tcdf(t0, N-1)
Matlab
Se cerceteaz caracteristica X, ce reprezint diametrul pieselor (n mm) produse de un
urmeaz legea normal
N (, ).
Alegem o selecie de volum
n = 11
i obinem
distribuia empiric:
S se testeze (cu
= 0.1)
10.50
10.55
10.60
10.65

.
ipoteza nul
(H0 ) :
2 = 0.003,
(H1 ) :
2 6= 0.003.
Soluie:
Intervalul de ncredere pentru
este
(0.0012, 0.0055)
iar valoarea critic este
20 = 7.2727.
Deoarece aceasta aparine intervalului de ncredere, concluzionm c ipoteza nul nu poate respins la
156

acest nivel de semnicaie.
Aceeai concluzie poate luat n urma inspeciei valorii
P,
care este mai mare dect nivelul
Pv = P (|2 | > |20 |) = P (2 > 20 ) = 1 Fn1 (7.2727) = 0.6995.
Testul
poate simulat n
Avem:
[h, p, ci, stats] = vartest(X,var,alpha,tail)

unde:
h, p, ci, m0, alpha, stats, tail

var
sunt la fel ca n funcia
ttest;
este valoarea testat a dispersiei;
Spre exemplicare, codul
Matlab pentru exerciiul anterior este:
X = [10.50*ones(2,1); 10.55*ones(3,1); 10.60*ones(5,1); 10.65];

[h, p, ci, stats] = vartest(X,0.003,0.1,'both')
Rularea acestuia ne d:
h =
0
p =
0.6011
ci =
0.0012
0.0055
stats =
chisqstat: 7.2727
df: 10
adic ipoteza nul este acceptat la acest nivel de semnicaie.

Folosind
Matlab, putem calcula P valoarea astfel:

c0 = (n-1)/0.003*var(X);
Testul F n
Pv = 1 - chi2cdf(c0,10)
Matlab
Testul raportului dispersiilor poate simulat n
[h, p, ci, stats] = vartest2(X, Y, alpha, tail)

unde variabilele sunt la fel ca n funcia
Exemplu 22.8
ttest2.
Revenim la Exerciiul 22.5 i vericm dac cele dou selecii de note (Tabelul 22.1)
157

provin din populaii cu dispersii egale. Aadar, avem de testat (la nivelul de semnicaie
12 = 22
(H0 )
Soluie:
12 6= 22 .
(H1 )
vs.
Utiliznd notaiile din Exerciiul 22.5, comanda
= 0.01)
Matlab care rezolv acest test este:
[h, p, CI, stats] = vartest2(u, v , 0.01 , 'both')

(pentru teste unilaterale, folosim
'left'
sau
'right'
n locul lui
'both'.)
Rezultatul comenzii anterioare este:
h =
0
Deoarece
p =
0.2119
h = 0,
stats =
fstat: 0.6047
df1: 24
df2: 29
0.2191
1.7426
decidem c dispersiile teoretice ale celor dou populaii pot considerate a egale la
nivelul de semnicaie
Observaia 22.9
mai mare dect
CI =
= 0.01.
Decizia testului poate luat i pe baza inspeciei valorii
P,
observnd c aceasta este
Aceasta este:
Pv = 1 Fn1 1, n2 1 (|f0 |) + Fn1 1, n2 1 (|f0 |) = 1 Fn1 1, n2 1 (|f0 |).

n
Matlab, calculm astfel:

f0 = var(u)/var(v); Pv = 1 - fcdf(abs(f0),n1-1,n2-1)
Teste parametrice pentru proporii

Exemplu 22.10
ntr-un sondaj naional de opinie,
5000
de persoane au fost rugate s rspund la o
ntrebare legat de apartenena religioas. La ntrebarea "Suntei cretini?", rspunsul a fost armativ n
4893
dintre cazuri. Rezultatul acestui sondaj este utilizat n estimarea procentului de cretini din ar.
S notm cu
Soluie:
p acest procent.
La nivelul de semnicaie
= 0.05, testai dac p este de 95% sau mai mare.
Avem de testat ipoteza
(H0 ) : p = 0.95
Procentul de selecie este
pb =
4893
5000
= 0.9786,
vs.
(H1 ) : p > 0.95.
cuantila este
z1 = 1.6449
i valoarea statisticii este
0.9786 0.95
P0 = r
= 9.2791 [1.6449, ),
0.95 (1 0.95)
5000
158

aadar ipoteza nul este respins la acest nivel de semnicaie. Admitem c
Aceeai concluzie poate dedus i prin inspecia
P valorii.
p > 0.95.
Aceasta este
Pv = P (Z > P0 ) = 1 P (Z P0 ) = 1 (9.2791) 0 < = 0.05.
Aadar, ipoteza nul va respins la toate nivele de semnicaie practice.
Exemplu 22.11
Revenim la Exemplul 20.2. S se testeze, la nivelul de semnicaie
= 0.02 dac exist
diferene semnicative ntre proporiile de baiei i fete din respectiva coal crora le place Matematica.
Soluie:
Avem:
pb1 =
23
45 ,
pb2 =
P0 = q
37
65 ,
6
11 (1
p =
23
45
6
11 )
23+37
45+65
37
65
1
45
1
65
6
11 i
z0.99 2.33.
Valoarea statisticii este:
= 0.6019 [2.3263, 2.3263],
deci ipoteza nul nu poate respins la acest nivel de semnicaie.

Aceeai concluzie o putem lua dac vericm
P valoarea.
Aceasta este:
Pv = P (|Z| > |P0 |) = 1 P (Z < |P0 |) + P (Z < |P0 |) = 0.5472 > 0.02 = .
159
160

Teste de concordan
Testele de concordan (en., goodness-of-t tests) realizeaz concordana ntre repartiia empiric (repartiia datelor observate) i repartiia teoretic.
sunt testul
Dou dintre cele mai des utilizate teste de concordan
de concordan i testul Kolmogorov-Smirnov.
Testul 2 de concordan
Acest test de concordan poate utilizat ca un criteriu de vericare a ipotezei potrivit creia un ansamblu de observaii urmeaz o repartiie dat. Se aplic la vericarea normalitii, a exponenialitii,
a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit i
testul
al celei mai bune potriviri (en., goodness of t test).
testul 2 al lui Pearson
sau
Acest test poate aplicat pentru orice tip
de date pentru care funcia de repartiie empiric poate calculat.
Cazul neparametric
S considerm o caracteristic
necunoscut
a priori,
a unei populaii statistice
1
2
Repartiia variabilei aleatoare
este
ns intuim (sau avem anumite informaii) cum c aceasta ar dat de legea
de probabilitate complet specicat

(x5)2
18
f (x, )
(e.g.,
f (x) =
e2 2x
x! ,
x N
( X P(2) )
sau
f (x) =
( X N (5, 3) )).
Deoarece legea de probabilitate ipotetic este complet specicat,

punem n eviden dependena lui
este cunoscut i vom omite s mai
de acesta n decursul aceste seciuni.
Pentru a verica ipoteza fcut asupra repartiiei lui
X,
x1 , x2 , . . . , xn
setul de date observate. S notm cu
X i
f (x). Fie
F 0 = f . n
considerm un set de observaii asupra lui
testm concordana dintre repartiia empiric a datelor observate cu legea teoretic dat de
F (x)
funcia de repartiie teoretic, i.e.,
2
cele ce urmeaz, urmrim s aplicm testul de concordan, ale crui etape sunt:
Descompunem n clase mulimea observaiilor fcute asupra lui
X,
astfel nct ecare element al
mulimii aparine unei singure clase. Scriem aadar,
{x1 , x2 , . . . , xn } =
k
[
Oi ,
Oi
Oj = , i 6= j.
i=1
Determinm frecvenele empirice absolute, i.e., numerele
Oi .
n mod evident, va trebui s avem c
k
X
ni
de observaii ce aparin ecrei clase
ni = n.
i=1
n general, se dorete ca
n 30
ni 5,
pentru ca testul s e concludent.
numrul de apariii ntr-o anumit clas nu depete valoarea
5,
n cazul n care
atunci se vor cumula dou sau
mai multe clase, astfel nct n noua clas s e respectat condiia. Dei, dac avem cel puin
clase, atunci sunt suciente cel puin
de modicarea numrului de clase, iar numrul

noul numr, notat aici tot cu
k ).
valori n ecare clas. n ambele cazuri, trebuie inut cont
trebuie modicat corespunztor (l nlocuim cu
161
i {1, 2, . . . , k}, determinm probabilitatea teoretic pi ca un element al populaiei

Oi . Aceast probabilitate este obinut cu ajutorul funciei f (x). Astfel, frecvenele teoretice absolute sunt n pi , i {1, 2, . . . , k}. Altfel spus, n pi este numrul estimat de valori
ale repartiiei cercetate ce ar cdea n clasa Oi .
Pentru ecare
s se ae n clasa
Formulm ipoteza nul,
(H0 ) :
este
F (x).
Oi
este
pi .
Funcia de repartiie a lui
Aceasta este echivalent cu
(H0 ) :
probabilitatea unei observaii de a aparine clasei
(i = 1, 2, . . . , k).
Ipoteza alternativ este negaia ipotezei nule.
Deviaia ntre cele dou situaii (empiric i teoretic) este msurat de statistica
2 =
k
X
(ni n pi )2
i=1
(Fiecare dintre termenii
(ni n pi )2
n pi
n pi
(23.1)
poate privit ca ind o eroare relativ de aproximare a valorilor
ateptate ale repartiiei cu valorile observate.)

Statistica
urmeaz repartiia
2 (k 1).
Uneori, statistica
Alegem nivelul de semnicaie
Alegem regiunea critic, ca ind regiunea pentru care valoarea
p
2
se numete
discrepan.
de regul, foarte apropiat de zero.
20
a acestei statistici pentru obser-
vaiile date satisface
20 > 21; k1 ,
unde
21; k1
pentru repartiia
2 (k 1).
Dac ne am n regiunea critic, atunci datele observate sunt semnicativ diferite de datele ateptate (calculate teoretic). n consecin, ipoteza nul
(H0 )
se respinge la nivelul de semnicaie
Altfel, nu sunt dovezi statistice suciente s se resping.
Cazul parametric
pi nu sunt a priori cunoscute, atunci ele vor trebui estimate. Acest caz apare
probabilitate f (x, ) nu este complet specicat, ci doar specicat (tim forma lui
Cnd probabilitile teoretice

atunci cnd legea de
f,
dar nu tim unul sau, eventual, mai muli parametri ai si). Folosind datele observate, va trebui s
estimm parametrii necunoscui ai repartiiei ipotetice. Fiecare estimare ne va costa un grad de libertate.
Cu alte cuvinte, dac avem de estimat un singur parametru, atunci pierdem un grad de libertate, pentru
doi parametri, pierdem dou grade etc.
S presupunem c legea de probabilitate a lui
p ) R p
sunt parametri necunoscui.
culese asupra lui
X.
de mai sus este
f (x, ),
unde
= (1 , 2 , . . . ,
Pentru a aproxima aceti parametri, folosim observaiile
O metod la ndemn pentru estimri parametrice este metoda verosimilitii ma-
xime.
Dup ce am estimat parametrii repartiiei teoretice ipotetice, determinm probabilitile estimate. Stabilim apoi ipoteza nul:
(H0 ) :
pi = pi ,
(i = 1, 2, . . . , k),
162

unde
pi
este probabilitatea unei observaii de a aparine clasei
Din acest moment, etapele testului

tric, cu deosebirea c statistica
2 cazul parametric
pi
dat prin (23.1) urmeaz repartiia
sunt valorile estimate.
cu
(k p 1) grade de libertate.
p grade de libertate din cauza folosirii observaiilor date pentru
Aceasta este urmare a faptului c se pierd

estimarea celor
sunt asemntoare cu cele din cazul neparame-
parametri necunoscui.
Etapele aplicrii testului 2 de concordan (neparametric sau parametric)
Se dau:
Formulm ipotezele statistice:
x1 , x2 , . . . , xn .
(H0 )
(H1 )
Dac
Intuim
F (x; 1 , 2 , . . . , p );
funcia de repartiie teoretic a variabilei aleatoare
este
F (x; 1 , 2 , . . . , p )
ipoteza nul nu este adevrat.
1 , 2 , . . . , k (k p) nu
1 , 2 , . . . , k
sunt parametri cunoscui, atunci determinm estimrile de vero-
similitate maxim
pentru acetia (doar n
cazul parametric;
altfel srim peste acest
pas);
Scriem distribuia empiric de selecie (tabloul de frecvene),
clasa
ni
Se calculeaz probabilitatea
Oi = [ai1 , ai ),
pi ,
Oi

,
i=1, n
n
X
ni = n, ni 5;
i=1
ca un element luat la ntmplare s se ae n clasa
Oi .
Dac
atunci
pi = F (ai ; ) F (ai1 ; ), n cazul neparametric;

F (ai1 ; )
, n cazul parametric.
pi = F (ai ; )
2
Se calculeaz 0
k
X
(ni n pi )2
i=1
Determinm valoarea
n pi
care este
(
21; k1
=
21; kp1
unde
2; n
Dac
20 < ,

atunci acceptm
, n cazul neparametric,
, n cazul parametric,
pentru repartiia
(H0 ),
2 (n);
altfel o respingem.
Test de independen folosind tabele de contingen

n aceast seciune, vom prezenta un test de independen ntre dou criterii dup care se face mprirea
datelor observate. S presupunem c avem un set de observaii ce sunt mprite n categorii determinate
de dou criterii diferite. De exemplu, conducerea unui liceu este indecis n ce privete alegerea unui curs
de limbi strine potrivit pentru introducerea n programa colar. Pentru aceasta, s-a realizat un sondaj
de opinie la care au participat
350
de elevii, n care acetia au avut de precizat cursul de limbi strine
163
preferat i nivelul de studiu ce consider c li s-ar potrivi. Identicm aici dou caracteristici (atribute):
este limba strin (e.g., Englez, Francez, German, Italian, Spaniol i Rus) i
reprezint nivelul
de studiu (e.g., nceptor, mediu i avansat). Numrul de elevi ce intr n ecare categorie este aat n
Tabelul 23.1.
Nivel @
@Limba
Englez
Francez
German
Italian
Spaniol
Rus
Total
nceptor
33
65
43
141
19
37
15
71
11
10
7
28
12
14
17
43
11
24
12
47
6
7
7
20
92
157
101
350
mediu
avansat
Total
Tabela 23.1: Tabel cu repartizarea elevilor la cursurile de limbi strine.

n general, dac datele observate sunt clasicate n categorii ce depind de dou atribute diferite, atunci
putem forma un tabel de genul Tabelului 23.2, numit
Xi , i = 1, r, Yj , j = 1, s,
tabel de contingen.
Aici
sunt atributele i
sunt diverse categorii n care ecare atribut n parte poate mprit.
@
@Y
Y1 Y2 . . .
n11 n12 . . .
n21 n22 . . .
..
..
.
.
.
..
ni1 ni2 . . .
.
..
..
..
.
.
nr1 nr2 . . .
n1 n2 . . .
X1
X2
..
.
Xi
..
.
Xr
Suma pe coloan
Yj . . .
n1j . . .
n2j . . .
..
.
.
..
nij . . .
.
..
..
.
nrj . . .
nj . . .
Ys
n1s
n2s
Suma pe linie
nis
ni
nrs
ns
nr
n1
n2
..
.
..
.
..
.
..
.
(suma total)
Tabela 23.2: Tabel de contingen.

nij pentru numrul (frecvena absolut) de observaii ce
Yj pentru atributul Y (i = 1, r, j = 1, s), iar nj , ni i n
n Tabelul 23.2 am folosit urmtoarele notaii:

au valoarea
Xi
pentru atributul
sunt
nj =
i valoarea
r
X
nij ,
ni =
i=1
s
X
j=1
nij ,
n=
r X
s
X
nij .
i=1 j=1
Fiecare individ din selecia aleas aparine unei singure categorii caracterizat de atributul
gure categorii caracterizat de atributul
cele
rs
Y.
i unei sin-
n concluzie, ecare individ poate aparine doar uneia dintre
celule.
Dorim acum s testm dac atributele
sunt independente (n exemplul de mai sus, aceasta ar
nsemna determinarea faptului dac alegerea cursului de limba strin este independent de nivelul de
studiu).
164

pij
S notm prin
Xi , Yj ,
probabilitatea ca o dat observat s cad n categoriile
probabilitile marginale,
pi =
s
X
pij ,
pj =
j=1
Avem c
r X
s
X
pij , pi
pij =
r
X
pi =
i=1
pj
pj
pij .
i=1
i=1 j=1
n general, valorile reale pentru
r
X
pi
i prin
s
X
pj = 1.
j=1
nu sunt cunoscute (specicate)
folosind datele din tabelul de contingen. Vom nota prin
pbij , pbi
i, respectiv,
nj
n
(j = 1, s).
a priori
pbj
i se vor estima
estimaiile lor. Valorile
probabilitilor marginale le estimm prin:
pbi =
ni
n
(i = 1, r)
pbj =
(23.2)
Ipoteza nul este:
(H0 ) :
pbij = pbi pbj ,
(H1 ) :
(H0 )
Astfel, pentru
i = 1, r, j = 1, s
(i.e.,
nu exist nicio asociere ntre atributele
Y ).
nu este adevrat.
xai, valoarea ateptat n celula
Eij = n pbij =
ni nj
,
n
(i, j)
este
i = 1, r, j = 1, s.
(23.3)
Calculm valoarea statisticii
ni nj 2
n
X ij
n
H2 =
ni nj
i, j
n

unde, n parantez,
Oij = nij
X (Oij Eij )2
=
,
Eij
(23.4)
i, j
este numrul de valori observate n celula
en., expected) n celula (i, j).
(i, j)
iar
Eij
numrul de valori
ateptate (
Dac n ecare celul numrul de valori ce i apain este de cel puin
2
repartiia cu
(r 1)(s 1)
5,
atunci statistica
H2
urmeaz
grade de libertate.
Etapele testului de independen sunt urmtoarele:
Se dau
Pe baza observaiilor
Calculm
Dac
nij ,
H2
i = 1, r, j = 1, s
nij ,
i pragul de semnicaie
calculm estimaiile (23.2);
cu formula (23.4);
Eij 5, i, j i H 2 2; (r1)(s1) , atunci se admite (H0 )

Altfel, respingem (H0 ) la acest prag de semnicaie.
Exemplu 23.1
= 0.05,
estimaiile
Revenim la datele din Tabelul 23.1.
la pragul de semnicaie
Pentru a stabili dac, la un nivel de semnicaie
alegerea cursului de limba strin este independent de nivelul de studiu, calculm mai nti
Eij .
Acestea sunt scrise n paranteze n Tabelul 23.3.
165

Calculm
H 2:
H2 =
3 X
6
X
(nij Eij )2
(33 37.06)2
(7 5.77)2
=
+ +
Eij
37.06
5.77
i=1 j=1
= 10.1228 > 3.9403 = 20.05, 10

deci respingem ipoteza nul conform creia tipul cursului i nivelul su sunt atribute independente.
Pentru calculul acestor valori n
Matlab, putem proceda astfel:
n = [33 19 11 12 11 6; 65 37 10 14 24 7; 43 15 7 17 12 7];
E = [37.06 18.66 7.36 11.30 12.35 5.26; 63.25 31.85 12.56...
19.29 21.08 8.97; 40.69 20.49 8.08 12.41 13.56 5.77];
H2 = sum(sum((n-E).^2./E)); crit = chi2inv(0.05,2*5);
Nivel @
@Limba
nceptor
mediu
avansat
Total
Englez
Francez
German
Italian
Spaniol
Rus
33
(37.06)
65
(63.25)
43
(40.69)
141
19
(18.66)
37
(31.85)
15
(20.49)
71
11
(7.36)
10
(12.56)
7
(8.08)
28
12
(11.30)
14
(19.29)
17
(12.41)
43
11
(12.35)
24
(21.08)
12
(13.56)
47
6
(5.26)
7
(8.97)
7
(5.77)
20
Total
92
157
101
350
Tabela 23.3: Tabel cu repartizarea i estimaia elevilor la cursurile de limbi strine.

Cazul tabelelor de contingen 2 2. Testul exact al lui Fisher
n cazul particular n care
r = s = 2,
tabelul de contingen este de forma:
@
@Y
X1
X2
Suma pe coloan
Y1
Y2
a
b
c
d
a+c b+d
Suma pe linie
a+b
c+d
a+b+c+d
Tabela 23.4: Tabel de contingen 2 2.
unde
a, b, c, d
sunt valorile observate pentru ecare celul n parte. Valorile ateptate
Eij
(vezi formula
(23.3)) sunt:
E11 =
(a + b)(a + c)
,
n
E12 =
(a + b)(b + d)
,
n
E21 =
(c + d)(a + c)
,
n
E22 =
(c + d)(b + d)
,
n
166

unde
n = a + b + c + d.
Statistica
H2

H =
i urmeaz repartiia
poate utiliza
2 (1).
dat de relaia (23.4) devine:
ad bc
n
Din faptul c
2
1
1
1
1
+
+
+
E11 E12 E21 E22
H 2 2 (1),
rezult c statistica
H =
H 2 N (0, 1),
pentru testul statistic de independen.
Dei acest test poate realizat, n cazul tabelelor de contingen
Fisher.
22
se utilizeaz
testul exact al lui
Acest test poate utilizat chiar i n cazul n care valorile observaiilor sunt mai mici dect
alegem un prag de semnicaie
i se
5.
Testm ipoteza nul
(H0 ) :
nu exist nicio asociere ntre atributele
Y.
(H1 ) :
(H0 )
nu este adevrat.
(test bilateral)
Rezultatele obinute le putem scrie sub forma unei matrice, pe care o vom numi
Aceasta este:
S presupunem acum c, pentru o matrice
priori.
a b
c d
M=
2 2,
matricea conguraiei.
sumele valorilor pe linii i pe coloane sunt xate
Atunci, putem alege elementele matricei ce satisface aceste condiii n mai multe moduri (este
greu de precizat n cte moduri, n cazul cel mai general). n cazul problemei de fa, s presupunem c
a + b, c + d, a + c i b + d sunt xate.
Atunci, dac ipoteza nul este adevrat, probabilitatea de a obine
exact valorile din Tabelul 23.4 este:
P =
a Cc
Ca+b
c+d
Cna+c
(23.5)
Aceast probabilitate se obine prin utilizarea schemei hipergeometrice.
2 2 care au o conguraie xat

a + b, c + d, a + c i b + d sunt xate). Pentru
Exist ns mai multe matrice de tip
a sumelor pe ecare linie i
pe ecare coloan (i.e.,
ecare matrice de acest tip,
putem calcula o probabilitate (condiionat de realizarea ipotezei nule) de genul celei de mai sus. n cazul
testului bilateral,
P valoarea
testului (notat prin
Pv )
este suma tuturor probabilitilor condiionate
astfel calculate, care sunt mai mici sau egale cu probabilitatea obinut pentru conguraia dat (inclusiv
probabilitatea conguraiei date).
Dac
Dac
P valoarea este mai mare dect ,

Pv , atunci respingem (H0 ).
atunci ipoteza nul este admis la acest prag de semnicaie.
n cazul n care ipoteza alternativ este una specic (e.g., unul dintre atribute este preferat celuilalt),
atunci
P valoarea este doar jumtate din suma anterioar.
Exemplu 23.2
Spunem n acest caz c avem un test unilateral.
Se testeaz efectele unui anumit tip de medicamente pe un grup de voluntari ce prezint
simptome de rceal. Acetia sunt n numr de

Pacienilor din primul grup,
G1 ,
14
administrat nimic. Dup o sptmn, s-a testat starea sntii celor

din Tabelul 23.5.
7 persoane.
G2 nu li s-au
i au fost mprii n dou grupuri de
li s-au administrat medicamentul iar pacienilor din grupul
14
pacieni, rezultatele ind cele
S se determine dac administrarea medicamentului are vreun efect asupra strii de
sntate a voluntarilor. Se va folosi nivelul de semnicaie
= 0.05.
167
@
@Y
sntos
bolnav
Suma pe linie
6
4
10
1
3
4
7
7
14
G1
G2
Suma pe coloan
Tabela 23.5: Tabel de contingen pentru testarea unui medicament.
Ipoteza nul este:
(H0 ) :
Starea de sntate a voluntarilor este independent de administrarea medicamentului.
Ipoteza alternativ (bilateral) este:
(H1 ) :
Ipoteza
(H0 )
este fals.
Matricea conguraiei este

M1 =
6 1
4 3
Folosind relaia (23.5), probabilitatea apariiei acestei conguraii, tiind c sumele pe linii i pe coloane
sunt xate, este
P1 =
Alte conguraii cu suma

M2 =
4 3
6 1
10 pe prima coloan i 4 pe a doua

7 0
3 4
.
,
M5 =
M4 =
3 4
7 0
pe ecare linie i sumele

,
C76 C74
10 = 0.2448.
C14
M3 =
5 2
5 2

,
coloan sunt:
Probabilitile condiionate corespunztoare acestora sunt:
P2 = 0.2448;
P valoarea
P3 = 0.4404,
P4 = 0.0350,
este suma tuturor probabilitilor mai mici sau egale cu
P5 = 0.0350.
P1 :
Pv = P1 + P2 + P4 + P5 = 0.2448 + 0.2448 + 0.0350 + 0.0350 = 0.5596 > 0.05 = .
Aadar, la acest prag de semnicaie admitem ipoteza nul.
Observaia 23.3
P1 + P2 + P3 + P4 + P5 = 1, ceea ce
matricea M5 i ipoteza alternativ este
(1) A se observa c suma
(2) Dac rezultatul experimentului ar
(H1 ) :
era de ateptat.
exist evidene c medicamentul are efecte benece,
atunci avem un test unilateral. n acest caz,
P valoarea
este
Pv = P5 /2 = 0.0152 < ,
la respingerea ipotezei nule i, deci, exist evidene c medicamentul are efecte benece.
ceea ce conduce
168

Teste de concordan (probleme)
Exemplu 24.1
Se arunc un zar de
= 0.02,
60
de ori i se obin rezultatele din Tabelul 24.1. S se decid, la
dac zarul este corect sau fals.
Faa (clasa
Oi )
Frecvena absolut (ni )
1
2
3
4
5
6
15
7
4
11
6
17
Tabela 24.1: Tabel cu numrul de puncte obinute la aruncarea zarului.
Soluie:
(aplicm testul
de concordan, cazul neparametric)
Zarul este corect doar dac ecare fa a sa are aceeai ans de a aparea, adic probabilitile ca ecare
fa n parte s apar sunt:
1
pi = ,
6
(H0 ) :
Altfel, notm cu
(i = 1, 2, . . . , 6).
variabila aleatoare ce are valori numrul punctelor ce apar la aruncarea zarului. Un
X urmeaz repartiia uniform discret U(6).

60 de rezultate obinute n urma aruncrii zarului pot mprite
Oi = {i}, i {1, 2, . . . , 6}. Ipoteza nul este (H0 ) sau, echivalent,
zar corect ar nsemna c

Toate cele
sunt:
(H0 ) :
este
n ase clase. Aceste clase
U(6).
Ipoteza alternativ este "(H0 ) nu are loc", adic:
(H1 ) :
Calculez valoarea statisticii
Exist un
j,
cu
1
pj 6= ,
6
(j {1, 2, . . . , 6}).
dat de (23.1) pentru observaiile date:
(15 10)2 (7 10)2 (4 10)2 (11 10)2 (6 10)2 (17 10)2

+
+
+
+
+
10
10
10
10
10
10
= 13.6.
20 =
Repartiia statisticii
dat de (23.1) este
cu
k1=5
grade de libertate. Regiunea critic este:
U = (20.98; 5 ; +) = (13.3882, +).

Deoarece
Codul
20
se a n regiunea critic, ipoteza nul se respinge la nivelul
Matlab:
= 0.02,
aadar zarul este fals.
169

n = 60; k=6; alpha = 0.02; x = 1:6;
chi2 = sum((f-n*p).^2)./(n*p));
val = chi2inv(1-alpha,k-1);
H = (chi2 > val)
Observaia 24.2
f
%
%
%
= [15,7,4,11,6,17]; p = 1/6*ones(1,6);
valoarea 20
cuantila 20.99; 5
afiseaza 0 daca zarul e corect si 1 daca nu
Dac nivelul de semnicaie este ales
= 0.01,
atunci
20.99; 5 = 15.0863,
ceea ce de-
termin acceptarea ipotezei nule (adic zarul este corect) la acest nivel.
Teste de concordan n
Am vzut deja c funcia
Matlab
chi2gof(x)
testeaz (folosind testul
dintr-o repartiie normal, cu media i dispersia estimate folosind

Pentru testul
2 ,
forma general a funciei
al lui Pearson) dac vectorul
provine
x.
Matlab este:
[h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)
unde:
h, p
sunt la fel ca n exemplele anterioare;
namei pot : numrul de clase, 'nbins', un vector

'ctrs', sau un vector cu capetele claselor, 'edges'.
Alte variabile ce pot utilizate: 'cdf', 'expected', 'nparams', 'emin', 'frequency', 'alpha'.
variabila de memorie stats aeaz: chi2stat - statistica 2 , df - gradele de libertate, edges - un
vector cu capetele intervalelor claselor dup triere, O - numrul de valori observate n ecare clas, E perechile
namei/valuei sunt opionale.
Variabilele
de valori centrale ale intervalelor ce denesc clasele,
numrul de valori ateptate n ecare clas.
Exemplu 24.3
Spre exemplicare, revenim la Exerciiul 24.1, dar cu valoarea nivelului de ncredere din
Observaia 24.2. Codul
Matlab ce folosete funcia de mai sus este:
x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01;

[h, p, stats] = chi2gof(x,'ctrs', x,'frequency', f,'expected',e, 'alpha',alpha)
Acest cod returneaz:
h =
0
p =
0.0184
stats =
chi2stat:
df:
edges:
O:
E:
13.6000
5
[0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000]
[15 7 4 11 6 17]
[10 10 10 10 10 10]
Acest rezultat conrm c ipoteza nul (zarul este corect) este acceptat la nivelul
Exemplu 24.4
(din [3]) La campionatul mondial de fotbal din
= 0.01.
2006 au fost jucate n total 64 de meciuri,
iar repartiia numrului de goluri nscrise ntr-un meci are tabelul de distribuie ca n Tabelul 24.2.
170

Determinai (la nivelul de semnicaie
= 0.05)
dac numrul de goluri pe meci urmeaz o distribuie
Poisson.
Nr. de goluri pe meci
Nr. de meciuri
0
1
2
3
4
5
6
8
13
18
11
10
2
2
Tabela 24.2: Tabel cu numrul de goluri pe meci la FIFA WC 2006.

Soluie:
2 parametric) Fie X variabila aleatoare ce reprezint numrul

de goluri nscrise ntr-un meci. Teoretic, X poate lua orice valoare din mulimea N. Mulimea observaiilor
fcute asupra lui X este {1, 2, 3, 4, 5, 6}, cu frecvenele respective din tabel. n total, au fost inscrise 144
= x = 144 = 2.25. Pe baza datelor
de goluri. Estimm numrul de goluri pe meci prin media lor, adic
64
observate, dorim s testm dac X urmeaz o repartiie Poisson.
Avem astfel de testat ipoteza nul:
(aplicm testul de concordan
(H0 ) :
urmeaz o lege Poisson
P().
(H1 ) :
Dac admitem ipoteza
(H0 )
(adic
nu urmeaz o lege Poisson
X P(2.25),
atunci
pi = pi ()
Clasa
ni
pi
n pi
0
1
2
3
4
5
6
5
8
13
18
11
10
2
2
4
0.1054
0.2371
0.2668
0.2001
0.1126
0.0506
0.0274
0.0780
6.7456
15.1775
17.0747
12.8060
7.2034
3.2415
1.7514
4.9926
P().
i distribuia valorilor variabilei este
(ni n pi )2
n pi
0.2333
0.3124
0.0501
0.2547
1.0857
0.1973
Tabela 24.3: Tablou de distribuie pentru P(2.25).

pi este P (X = i), adic probabilitatea ca variabila aleatoare X P(2.25)
i (i = 0, 1, 2, 3, 4). Am putea forma 7 clase. Deoarece pentru ultimele dou clase din
Tabelul 24.3, anume {X = 5} i {X 6}, numerele ni nu depec valoarea 3, le tergem din tabel i le
unim ntr-o singur clas, n care {X 5}, cu ni = 4 > 3. Vom nota prin p5 probabilitatea
dat de Tabelul 24.3. Valoarea
s ia valoarea
p5 = P (X 5) = 1 P (X < 5) = 1 P (X 4) = 1
4
X
i=0
P (X = i).
171

Rmnem aadar cu
(H0 ) :
clase. Ipoteza nul
(H0 )
se poate rescrie astfel:
p0 = 0.1054, p1 = 0.2371, p2 = 0.2668, p3 = 0.2001, p4 = 0.1126, p5 = 0.0780.
Ipoteza alternativ este
(H1 ) :
ipoteza
(H0 )
nu este adevrat.
Calculm acum valoarea statisticii (23.1) pentru observaiile date:
(8 6.7456)2 (13 15.1775)2 (18 17.0747)2 (11 12.8060)2

+
+
+
+ ...
6.7456
15.1775
17.0747
12.8060
(10 7.2034)2 (4 4.9926)2
+
= 2.1337.
7.2034
4.9926
20 =
+
Deoarece avem 6 clase i am estimat parametrul , deducem c numrul gradelor de libertate este
6 1 1 = 4. Cuantila de referin (valoarea critic) este 20.95; 4 = 9.4877. Regiunea critic pentru
2 este intervalul (20.95; 4 , +). Deoarece 20 < 20.95; 4 , urmeaz c ipoteza nul (H0 ) nu poate
respins la nivelul de semnicaie . Aadar, este rezonabil s armm c numrul de goluri marcate
urmeaz o repartiie Poisson.
Prezentm mai jos un cod
Matlab ce rezolv aceast problem.
X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);...
5*ones(2,1);6*ones(2,1)];
f = [8 13 18 11 10 4];
% vectorul de frecvente absolute
n = 64;
alpha = 0.05; lambda = mean(X);
for i=1:5
% probabilitatile P(X=i), i=0,1,2,3,4
p(i) = poisspdf(i-1,lambda);
end
p(6)= 1 - poisscdf(4,lambda);
% probabilitatea P(X5)
H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4);
if (H2 < Hstar)
disp('X urmeaza repartitia Poisson');
else
disp('X nu urmeaza repartitia Poisson');
end
Observaia 24.5
Dac ipoteza nul este respins, atunci motivul poate acela c unele valori observate
au deviat prea mult de la valorile ateptate.
n acest caz, este interesant de observat care valori sunt
extreme, cauznd respingerea ipotezei nule. Putem deni astfel
reziduurile standardizate:
Oi n pi
Oi Ei
ri = p
=p
,
n pi (1 pi )
Ei (1 pi )
Oi am notat valorile observate i prin Ei valorile ateptate. Dac ipoteza nul ar adevrat,
ri N (0, 1). n general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observate
unde prin
atunci
extreme.
Exemplu 24.6
ntr-o anumit zi de lucru, urmrim timpii de ateptare ntr-o staie de tramvai, pn la
ncheierea zilei de lucru (adic, pn trece ultimul tramvai). Fie
caracteristica ce reprezint numrul de
minute ateptate n staie, pn sosete tramvaiul. Rezultatele observaiilor sunt sumarizate n Tabelul
24.4. Se cere s se cerceteze (
= 0.05)
dac timpii de ateptare sunt repartizai exponenial.
172

Durata
ni
05
39
5 10
35
10 15
14
15 20
7
20 25
5
Tabela 24.4: Timpi de ateptare n staia de tramvai.

Soluie:
(folosim testul
de concordan, parametric)
(H0 )
Avem de testat ipoteza nul
F (x)
= F0 (x) = 1 e x , x > 0
(H1 )
Deoarece parametrul
ipoteza
(H0 )
este fals.
este necunoscut, va trebui estimat pe baza seleciei date. Pentru aceasta, folosim
metoda verosimilitii maxime. Funcia de verosimilitate pentru
L(t1 , t2 , . . . , tn ; ) =
n
Y
exp()
este
e ti = n e n t .
k=1
Mai sus, am notat prin
Punctele critice pentru
t1 , t2 , . . . , tn valorile de selecie
L() sunt date de ecuaia
pentru variabila aleatoare
T.

ln L
= 1.
= 0 =
n ln n t =
t
de unde concluzionm c
2 ln L
2
|= = n t < 0,
2
este punct de maxim pentru funcia de verosimilitate.
Tabelul de distribuie pentru caracteristica
Calculm media de selecie,

Dac variabila
t=
2.5
39
este:
7.5
35
12.5
14
17.5
7
22.5
5

.
= 0.1299.
= 7.7, adic
ca T s ia valori n ecare
1
100 (2.5 39 + 7.5 35 + 12.5 14 + 17.5 7 + 22.4 5)
ar urma repartiia exponenial
,
exp()
atunci probabilitile
clas sunt, n mod corespunztor:
= P (X (ai , ai+1 ] | F = F0 ) = F0 (ai+1 ; )

F0 (ai ; ),
pi = pi ()
unde
i = 1, 2, 3, 4, 5.
a6 = +.
n Tabelul 24.5 am nregistrat urmtoarele date:
clasele (de notat c ultima clas este (20, +), deoarece se dorete o concordan a datelor observate
cu date repartizate exponenial, iar mulimea valorilor pentru repartiia exponenial este R+ ),
extremitile
din stnga ale claselor (ai ),
frecvenele absolute ni
probabilitile
erorile relative
(sau valorile observate n ecare clas),
pi , valorile ateptate
n ecare clas (n pi ),
de aproximare ale datelor ateptate cu cele observate.
173

Numrul gradelor de libertate este
k p 1 = 3.
Calculm valoarea critic
20.95; 3 = 7.8147
i, de
asemenea, valoarea
H0 =
k
X
(ni n pi )2
i=1
Deoarece
Codul
20 < 20.95; 3 ,
ipoteza
(H0 )
n pi
= 6.5365.
nu poate respins la acest nivel de semnicaie.
T =
% sau
% T =
n =
a =
for
[2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)];
[5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)];
100; alpha = 0.05; m = mean(T); lambda = 1/m;
[0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5];
i =1:5
p(i) = expcdf(a(i+1),m)-expcdf(a(i),m);
end
H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3);
if (H2 < cuant)
disp('Timpii de asteptare sunt exponential repartizati');
else
disp('ipoteza (H0) se respinge');
end
Clasa
(0, 5]
(5, 10]
(10, 15]
(15, 20]
(20, +)
(0, +)
ai
ni
0 39
5 35
10 14
15 7
20 5
100
pi
n pi
0.4776 47.7615
0.2495 24.9499
0.1303 13.0334
0.0681 6.8085
0.0745 7.4467
1
100
(ni n pi )2
n pi
1.6072
4.0483
0.0717
0.0054
0.8039
6.5365
Tabela 24.5: Tabel de distribuie pentru timpii de ateptare.
174

Teste neparametrice
Multe dintre testele discutate anterior au ca cerin condiia ca datele selectate s urmeze o repartiie
normal (dac selecia este mic).
Se pune problema urmtoare: Ce se ntmpl dac aceast cerin
(posibil i altele) nu este vericat i nu tim nimic despre repartiia datelor sau despre parametrii variabilei? Testele neparametrice sunt cele n cadrul crora nu se fac presupuneri asupra formei repartiiei.
Aceste teste nu estimeaz parametrii necunoscui, de aceea mai sunt cunoscute i sub titulatura de
fr parametri (en.,
parameter-free methods) sau
metode fr repartiie (en.,
metode
distribution-free methods).
Se pot construi teste neparametrice corespunztoare ecrui test parametric studiat mai sus, ns aceste
teste neparametrice sunt, n general, grupate n urmtoarele categorii:
teste pentru diferena dintre grupuri (pentru selecii independente). Este cazul comparrii mediilor
a dou selecii ce provin din populaii independente. De regul, se utilizeaz testul
acestuia sunt ndeplinite.
Variante neparametrice ale acestui test sunt:
t dac ipotezele
testul Wald-Wolfowitz,
testul Mann-Whitney sau testul Kolmogorov-Smirnov pentru dou selecii;
teste pentru diferena dintre variabile (pentru selecii dependente). Utilizat la compararea a dou
variabile ce caracterizeaz populaia din care s-a luat selecia. Teste neparametrice utilizate: testul
semnelor, testul Wilcoxon.
teste pentru relaii ntre variabile. Pentru a gsi corelaia ntre variabile, se utilizeaz coecientul de
corelaie. Exist variante neparametrice ale coecientului de corelaie standard, e.g., coecientul
(Spearman), coecientul
coecientul de corelaie:
(Kendall) sau coecientul Gamma.

2 sau testul Fisher exact.
Exist, de asemenea, i teste privind
Testul semnelor
Este un test neparametric bazat pe semnele anumitor caracteristici i nu pe valorile lor. Este unul dintre
cele mai simple teste statistice neparametrice.
x1 , x2 , . . . , xn asupra unei caracteristici continue ce are

M e valoarea median observaiilor (i.e., acea valoare pentru
F (M e) = 0.5). Suntem interesai n a testa ipoteza c mediana M e
Presupunem c avem observaiile independente

funcia de repartiie teoretic
F.
Notm cu
care funcia de repartiie satisface

are o valoare dat
m0 .
Aadar, ipoteza nul este
(H0 ) :
M e = m0 .
(H1 ) :
M e 6= m0 .
Ipoteza alternativ bilateral este
Pentru a testa ipotez nul, inem cont de faptul c ecare observaie n parte va mai mic dect
cu probabilitatea
p = F (m0 ).
Astfel, putem considera c
(
1,
yi =
0,
dac
dac
xi < m0
xi m0 ,
i = 1, n,
m0
175

sunt valorile observate ale unei variabile aleatoare ce urmeaz repartiia
B(n, p).
Ipoteza nul devine
echivalent cu ipoteza
1
p= .
2
(H0 ) :
Notm prin
y0 =
n
X
yi
i e
o variabil aleatoare
B(n, 0.5).
Valoarea critic
Pv
utilizat n luarea
i=1
deciziei este
Pv = 2 min{P (Y y0 ), P (Y y0 )}.
Dac
< Pv ,
atunci ipoteza nul
(H0 )
este admis la nivelul de semnicaie
Altfel, respingem ipoteza
nul.
Testul se numete
Exemplu 25.1
testul semnelor deoarece se ine cont de semnele valorilor xi m0 .
Dorim s testm preferinele clienilor dintr-o anumit pizzerie pentru pizza cu blat
subire sau gros. S spunem c aceste preferine sunt reprezentate n Tabelul 25.1. n acest tabel, ecrei
mrime
subire
gros
gros
gros
subire
gros
gros
subire
gros
gros
semn
Tabela 25.1: Tabel cu preferine pentru blatul de pizza.

preferine i se atribuie un semn,
pentru "blat gros" i
pentru "blat subire". Dintr-o privire n tabel,
se pare c marea parte (70%) a clienilor prefer blatul gros. Dorim s testm semnicaia acestor date.
Cu alte cuvinte, care este ansa obinerii acestor rezultate dac, de fapt, nu exist vreo diferen ntre
preferine? Sau, dac am presupune c preferinele pentru cele dou tipuri sunt mprite n mod egal,
care sunt ansele de a obine un rezultat de genul prezentat n tabelul de mai sus? Presupunem c pragul
de semnicaie
Soluie:
= 0.05
Stabilim ipoteza nul
(H0 ) :
preferinele pentru cele dou blaturi sunt
50% 50%;
versus ipoteza alternativ bilateral
(H1 ) :
exist diferene semnicative n preferinele pentru cele dou blaturi;
p = 0.5.
Y variabila aleatoare ce reprezint alegerea blatului de ctre clienii care au comandat
Y B(10, 0.5) (aici avem o selecie de n = 10). Calculm valoarea critic Pv , adic
Presupunem c ipoteza nul este adevrat, deci ansa ca cineva s aleag un blat subire este
Dac notm cu
pizza, atunci
valoarea maxim pentru pragul de semnicaie pentru care ipoteza nul nu poate respins.
valoare este de dou ori probabilitatea
P (Y 3)
Aceasta
(de dou ori, pentru ca testul este bilateral), adic
probabilitatea de a obine un rezultat ca cel din tabel. Putem interpreta aceast probabilitate ca ind
probabilitatea de a obine un rezultat cel puin la fel de extrem ca cel observat. Gsim c
este
Pv = 2 min{P (Y 3), P (Y 3)} = 2 P (Y 3) = 0.3438.
ipoteza nul nu poate respins la acest nivel de semnicaie.
Deoarece
< Pv ,
P valoarea
concluzionm c
176
Observaia 25.2
Putem testa i ipoteze unilaterale. De exemplu, presupunem c avem de testat
(H0 ) :
Ca mai sus, notm prin
y0 ) .
< Pv ,
Dac
M e m0
p = F (m0 ).
Y
(H0 )
Pentru
atunci ipoteza nul
(H1 ) :
vs.
i
y0
M e > m0 .
ca mai sus, valoarea critic a testului este
Pv = P (Y
Altfel, respingem
ipoteza nul.
Revenind la exemplul prezentat, dac ipoteza alternativ ar fost
(H0 ) :
clienii prefer pizza cu blat subire,
(H1 ) :
clienii prefer pizza cu blat gros,
Pv = P (Y 3) = 1 - binocdf(3,10,0.5) = 0.1719.
nivelul de semnicaie = 0.05.
atunci valoarea critic a testului va

Aadar, ipoteza
(H0 )
este admis la
Testul seriilor pentru caracterul aleator

en., runs test) este un test neparametric ce veric ipoteza c un ir de date bivariate este
Testul seriilor (
aleator generat.
Dac o anumit valoare a unui anumit ir de caractere este inuenat de poziia sa sau de valorile ce o
preced, atunci selecia generat nu poate aleatoare.
Denim noiunea de
serie
sau
faz (en.,
run) ca ind o succesiune a unuia sau mai multe simboluri de
acelai tip, care sunt precedate i urmate de simboluri de alt tip sau de niciun simbol. De exemplu:
001111010010
sau
MFFFFFMMMF
++-+---++++--+--++-
sau
Numrul de faze i lungimea lor pot folosite n determinarea gradului de stochasticitate a unui ir de
simboluri. Prea puine sau prea multe faze, sau de lungimi excesiv de mari sunt rare n serii cu adevrat
aleatoare, de aceea ele pot servi drept criterii statistice pentru testarea stochasticitii.
Aceste criterii
sunt adiacente: prea puine faze implic faptul c unele faze sunt prea lungi, prea multe faze implic
prea multe secvene.
Aadar, ne vom preocupa doar de numrul total de faze.
Fiecare numr din ir
+ pentru numere mai mari dect

pentru cele mai mici. Numerele egale cu mediana nu sunt considerate n calcul. Fie n1 i n2
numrul de semne +, respectiv, din ir, i e n = n1 + n2 . Fie R1 i R2 numrul de faze ce corespund
semnului +, respectiv, din ir. Numrul total de faze este R = R1 + R2 .
este comparat cu mediana sau valoarea medie a irului, scriind astfel
mediana i
Alegem ipoteza nul:
(H0 ) :
observaiile din ir sunt aleatoare (ecare aranjament de
este echiprobabil).
(H1 ) :
Putem gsi repartiiile vectorilor aleatori
atunci secvena datele observate,
Pentru
observaiile din ir nu sunt aleatoare.
(R1 , R2 ), R1 , R2
x1 , x2 , . . . , xn ,
sau
R.
va una dintre cele
avem funcia de probabilitate:
f (r) =
numrul de permutri ce au ca rezultat
Cnn1
Dac ipoteza nul ar adevrat,
n1 !n2 !
n!
k faze
permutri echiprobabile.
r = 0, n.
177

Explicit, putem scrie:
k1 k1
C
C
2 n1 1 n1 n2 1
Cn
f (r) = h
i
k1
k1
k
k
C
C
+
C
C
n1 1 n2 1
n1 1 n2 1
n1
Cn
Cnd
n1
n2
sunt mari, atunci
R N (, ),
Aadar,
Aceast statistic poate utilizat n
r = 2k;
, dac
r = 2k + 1.
unde
n1 n2
=2
+ 1,
n
, dac
2 n1 n2 (2 n1 n2 n)
.
n2 (n 1)
R
N (0, 1).
testarea ipotezei nule (H0 ).
Altfel, dac numrul observat de faze este
r0 ,
atunci valoarea critic
Pv
a testului este
Pv = 2 min{P (R r0 ), P (R r0 )}.
Dac
< Pv ,
atunci ipoteza nul
(H0 )
Altfel, respingem ipoteza
nul.
Corelaie i regresie
Introducere
n acest capitol vom discuta msuri i tehnici de determinare a legturii ntre dou sau mai multe variabile
aleatoare. Pentru lecturi suplimentare, se pot consulta materialele [13], [14], [15].
Primele metode utilizate n studiul relaiilor dintre dou sau mai multe variabile au aprut de la nceputul
20 i Gauss21 , n ce privete metoda celor mai mici ptrate
secolului al XIX-lea, n lucrrile lui Legendre
pentru aproximarea orbitelor astrelor n jurul Soarelui. Un alt mare om de tiin al timpului, Francis
22 , a studiat gradul de asemnare ntre copii i prini, att la oameni, ct i la plante, observnd c
Galton
nlimea medie a descendenilor este legat liniar de nlimea ascendenilor. Este primul care a utilizat
conceptele de
corelaie
regresie (
(lat.)
regressio
- ntoarcere). Astfel, a descoperit c din prini a
cror nlime este mai mic dect media colectivitii provin copii cu o nlime superioar lor i viceversa. Astfel, a concluzionat c nlimea copiilor ce provin din prini nali tinde s "regreseze" spre
nlimea medie a populaiei. Din lucrrile lui Galton s-a inspirat un student de-al su, Karl Pearson, care
a continuat ideile lui Galton i a introdus coecientul (empiric) de corelaie ce i poart numele. Acest
coecient a fost prima msur important introdus ce cuantica tria legturii dintre dou variabile ale
unei populaii statistice.
20 Adrien-Marie
Legendre (1752 1833), matematician francez

Carl Friedrich Gauss (1777 1855), matematician i zician german
22 Sir Francis Galton (1822 1911), om de tiin britanic
21 Johann
178

Un ingredient fundamental n studiul acestor dou concepte este diagrama prin puncte, aa-numita
plot.
scatter
n probleme de regresie n care apare o singur variabila rspuns i o singur variabil observat,
diagrama scatter plot (rspuns vs. predictor) este punctul de plecare pentru studiul regresiei. O diagram
scatter plot
ar trebui reprezentat pentru orice problem de analiz regresional, deoarece aceasta ne va
da o prim idee despre ce tip de regresie vom folosi. Un exemplu de astfel de diagram este reprezentat
n Figura 25.1, n care am reprezentat coecientul de inteligen (IQ) a
200
de perechi so-soie. Fiecare
cruciuli din diagram reprezint IQ-ul pentru o pereche so-soie.
Figura 25.1: Scatter plot pentru IQ n familie.

Corelaie
Corelaie i coecient de corelaie
Corelaia
este un termen statistic folosit pentru a deni interdependena sau legtura ntre dou sau
mai multe variabile aleatoare.
Totodat, corelaia este i o metod statistic de descriere i analiz a
legturilor de tip statistic ntre dou sau mai multe variabile.

Dac
X, Y sunt dou variabile aleatoare ce admit medie, atunci corelaia

Y se denete prin:
cov(X,
Observaia 25.3
atunci cov(X,
sau
covariana (teoretic) dintre
Y ) = E [(X E(X)) (Y E(Y ))] = E(X Y ) E(X) E(Y ).
(i) Din punct de vedere teoretic, dac
sunt variabile aleatoare independente,
Y ) = 0.
X U(1, 1) i Y = X 2 , atunci cov(X, Y ) =
asemenea, c E(X Y ) = E(X) E(Y )).
Reciproca nu este, n general, adevrat. De exemplu, dac
0,
ns
sunt dependente. (se poate verica, de
X i Y
aleatoare X i Y
(ii) n cazul n care
sunt, n plus, variabile aleatoare normal repartizate, atunci independena
variabilelor
este echivalent cu cov(X,
Y ) = 0.
179

O
relaie liniar
ntre dou variabile este acea relaie ce poate reprezentat cel mai bine printr-o linie.
corelaie pozicorelaie negativ, nsemnnd c X i Y se
Corelaia detecteaz doar dependene liniare ntre dou variabile aleatoare. Putem avea o
tiv, nsemnnd c X
cresc sau descresc mpreun, sau o
modic n direcii opuse.

O msur a corelaiei dintre dou variabile este coecientul de corelaie.
Acesta este foarte utilizat n
tiine ca ind o msur a dependenei liniare ntre dou variabile. Din punct de vedere teoretic, denim
coecientul de corelaie a dou variabile aleatoare X

cov(X,
X,Y =
Y)
X Y
prin:
= cov(X, Y ),
1/2

2 1/2
X = E(X X)2
i Y = E(Y Y )
sunt deviaiile standard corespunztoare variabilelor aleatoare X , respectiv Y . Proprietile coecientului
unde
sunt variabilele aleatoare standardizate iar
de corelaie au fost prezentate anterior.

n practic, pentru a stabili dac exist sau nu vreo legtura ntre dou variabile aleatoare, se fac observaii
asupra acestora, urmnd apoi a cuantica relaia dintre observaii.
(xk , yk ), k {1, 2, . . . , n} un set de date bidimensionale, ce reprezint observaii asupra vectorului

(X, Y ). O msur a legturii dintre {xk }k i {yk }k este coecientul de corelaie empiric introdus
K. Pearson (n literatura de specialitate mai este cunoscut i sub denumirea de coecientul r ):
Fie
aleator
de
n
X
(xk x)(yk y)
r =
v k=1
v
u n
u n
uX
uX
t (xk x)2 t (yk y)2
k=1
cove (x,
sx sy
(25.1)
k=1
y)
(25.2)
unde
1
cove (x, y) =
n1
sunt
n
X
(xk x)(yk y),
k=1
v
u
u
sx = t
1
n1
n
X
(xk
x)2 ,
v
u
u
sy = t
k=1
n
1 X
(yk y)2
n1
k=1
covariana (corelaia) empiric i deviaiile standard empirice pentru X
Y.
Spre exemplu, pentru seleciile
x = [0.49
y = [1.31
coecientul
-0.45 0.39 0.05 -0.49

1.20 -2.58 -2.09 0.39
0.24
-0.86
0.72
-1.23
0.15
0.13 -1.01];
2.64 -0.90 -1.22];
al lui Pearson este
r = 0.0905.
X,Y , coecientul r al lui Pearson ia valori doar n intervalul
[1, 1]. Cazurile limit pentru r sunt r = 1 sau r = 1, cazuri n care putem trage concluzia c variabilele
X i Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 25.2). Pentru valori ale lui r ntre
1 i 1, nu putem vorbi de gradul de corelare ntre X i Y fr a efectua un test statistic asupra valorii
coecientulul teoretic de corelaie, . De multe ori ns, putem arma ca avem o corelaie pozitiv dac
Asemeni coecientului de corelaie teoretic,
180

r
este apropiat de valoarea
o corelaie negativ dac
(e.g.,
r = 0.85,
caz n care norul de date are panta ascendent) i avem
este apropiat de valoarea
(e.g.,
r = 0.98,
caz n care norul de date are
panta descendent).
r = 0.0905 de mai sus ar putea sugera faptul c cele dou selecii au fost obinute independent
= 0), fapt ce va trebui conrmat folosind un test statistic n care testm ipoteza
= 0, cu ipoteza alternativ 6= 0.
Rezultatul
una fa de cealalt (i.e.,

nul
Figura 25.2: Scatter plots i coecieni de corelaie.

Test statistic pentru coecientul de corelaie
(xk , yk ), k {1, 2, . . . , n} asupra variabilelor alea0. Plecnd doar de la acest informaie,
nu putem extrapola i decide gradul de corelare ntre X i Y . Pentru aceasta, vom construi un test statistic, care va decide dac valoarea real a lui (coecientul teoretic de corelaie) este 0 sau semnicativ
diferit de 0.
Presupunem c avem un set de date bidimensionale

toare
X, Y ,
i am calculat
r,
obinnd o valoare
r0
apropiat de
Considerm ipoteza nul
(H0 )
X,Y = 0
(variabilele aleatoare nu sunt corelate)
(H1 )
X,Y 6= 0
Alegem un nivel de semnicaie
(variabilele aleatoare sunt corelate)
<< 1
(e.g.,
r
T =r
Calculez valoarea statisticii
de ordin
2 a repartiiei
T
t
n2
1 r2
i considerm statistica
t(n 2).
r = r0 (o notm cu T0 ) i, de asemenea, calculm cuantila t1 2 ; n2 ,

(n 2) grade de libertate.
pentru
cu
= 0.05)
181

Decizia nal este urmtoarea:
|T0 | < t1 2 ; n2 ,
|T0 | t1 2 ; n2 ,
Observaia 25.4
(i)
(H0 )
(H0 )
atunci ipoteza
atunci ipoteza
Coecientul lui Pearson,
r,
este acceptat;
este respins.
este un numr adimensional ce stabilete doar dac
exist o legtura liniar ntre dou seturi de date statistice. Totodat, n denirea acestui coecient se
presupune c datele statistice urmeaz o repartiie normal. De multe ori, n practic, doar coecientul
sigur nu poate edicator asupra triei legturii ntre dou seturi de date statistice, ba chiar poate
genera informaii false n cazul n care cele dou seturi date nu depind liniar unul de cellalt. De aceea,
i ali coecieni pentru determinarea corelaiei sunt luai n consideraie, cum ar :
r2 , coecientul de determinare
(notat n Statistic prin
R2 ),
care stabilete care este procentul din
variaia uneia dintre datele statistice ce determina (sau explic) pe celelalte date. De exemplu, un
coecient de determinare
R2 = 0.42
semnic faptul c variabila independent explic doar
42%
din variaia variabilei dependente. n Statistic, acest coecient este denit n mai multe moduri,
unele nu tocmai ntr-un mod echivalent;
coecientul lui Spearman23 , coecientul lui Kendall24
etc. (acestea nu presupun c datele statistice
sunt normale)
(ii) Se poate testa, de asemenea, ipoteza nul
(H0 ) :
X, Y = 0 ,
cu
0 6= 0,
ns aceasta nu este foarte des ntlnit n practic.

n acest sens, se poate utiliza statistica
1
Z = ln
2
1+r
1r

N
1
ln
2
1 + 0
1 0
1
,
n3

.
(iii) Corelaia a dou variabile aleatoare nu implic o cauzare. Cu alte cuvinte, exist o corelaie ntre
vrst i nlime la copii, ns niciuna dintre aceastea nu o cauzeaz pe cealalt. Corelaia poate luat
n eviden pentru o posibil relaie cauzal, ns nu este determinant i nu poate preciza relaia cauzal,
dac aceast exist.
(iv)
Volumul seleciei este un factor foarte important n testarea ipotezei c dou variabile aleatoare
sunt necorelate. Spre exemplu, o relaie poate puternic (avnd un

semnicativ, dac valoarea lui
de
0),
nu foarte aproape de
0), ns nu
r aproape
nu este sucient de mare. Invers, o relaie poate slab (un
dar semnicativ. Exemplul (25.5) poate edicator.
Exemplu 25.5
S presupunem c dorim s stabilim dac exist vreo legtura ntre vrst unei persoane
i coecientul su de inteligen. Culegem astfel dou seturi de datele asupra acestor caracteristici, de
volum
n = 10,
i s presupunem c am gsit un coecient de corelaie empiric
(a) Este aceast legtur puternic?

(b) Este aceast legtur semnicativ?
23 Charles
24 Sir
Edward Spearman (1863 1945), psiholog britanic

Maurice George Kendall (1907 1983), statistician britanic
r = 0.62.
Se cere:
182
Soluie:
(a) Calculm coecientul de determinare,
R2 ,
R2 = 0.3844.
i gsim
Asta semnic faptul c
doar
38.44%
(b)
Aplicm testul pentru coecientul de corelaie la un nivel de semnicaie
din variaia coecientului de inteligen este explicat de vrst.
considerat va avea
grade de libertate,
concluzionm c ipoteza nul
=0
T0 = 0.62
8
0.3844
= 0.05.
= 2.2351 < 2.3060 = t0.975; 8 ,
de unde
este admis (i.e., nu sunt dovezi suciente pentru ca ipoteza s poate
respins la acest nivel de semnicaie).

(v)
Statistica
Se poate testa i ipoteza c doi coecieni de corelaie ce corespund a dou selecii diferite difer
semnicativ unul de cellalt. Presupunem c avem de testat ipoteza
(H0 ) :
1 = 2 ,
(H1 ) :
1 6= 2 .
n1
Presupunem c volumele seleciilor folosite n testare sunt
n2
i c
r1 , r2
sunt coecienii de corelaie
empirici calculai. Pentru a testa ipoteza de mai sus, considerm statistica
Z1 Z2 (Z1 Z2 )
q
N (0, 1) ,
1
1
+
n1 3
n2 3
Z=
unde
1
Zi = ln
2
1 + ri
1 ri

,
Zi
1
= ln
2
1 + i
1 i

,
i = 1, 2.
Coecientul de corelaie Spearman

n cazul datelor calitative, unde nu se pot asocia valori numerice pentru caracteristica de interes, coecientul de corelaie Pearson nu mai poate calculat. Pentru aceste date, este util de calculat
corelaie Spearman, sau coecientul de corelaie a rangurilor.
coecientul de
Acest coecient poate calculat att pentru
date calitative, ct i pentru date cantitative. Pentru a calcula acest coecient, ecrui atribut sau ecrei
valori a caracteristicii i se desemneaz un rang. Coecientul de corelaie Spearman este coecientul de
corelaie Pearson pentru aceste ranguri.
n general, dac
(xi , yi )i=1, n
este un set de date bidimensionale, reprezentnd rangurile corespunztoare
variabilelor cercetate, i notm cu
rS
coecientul de corelaie Spearman, atunci
n
X
(xk x)(yk y)
v
rS = v k=1
.
u n
u n
uX
uX
t (xk x)2 t (yk y)2
k=1
(25.3)
k=1
La fel ca i coecientul lui Pearson, coecientul Spearman ia valori reale n intervalul

nsemnnd corelaie pozitiv perfect a rangurilor, iar valoarea
[1, 1];
valoarea
nsemnnd corelaie negativ perfect
a rangurilor.
n cazul n care avem
perechi de observaii i nu exist valori egale pentru rangurile aceleiai variabile,
atunci formula alternativ pentru calcului lui
rS
este:
6
rS = 1
n
X
d2i
i=1
n(n2 1)
(25.4)
183

unde
di = xi yi ,
i.e., diferena dintre rangurile corespunztoare pentru poziia
i.
Vezi exemplele (25.6)
i (25.7).
Exemplu 25.6
Doi degusttori de vinuri (denumii
D1
D2)
au fost rugai s testeze
s le claseze n ordinea preferinelor. S notm mostrele testate cu
A, B , C , D , E , F
soiuri de vin i
G.
Preferinele
acestora sunt cele din Tabelul 25.2, n ordinea descresctoare a preferinelor. Tabelul 25.3 conine rangurile
preferinelor celor doi degusttori, iar Figura 25.3 reprezint grac rangurile (diagrama
Mostra
Mostra A B C D E F G H I
D1
E B A G C H F D I
D2
B E C G A H D I F
Tabela 25.2: Preferinele degusttorilor de
vin.
rang
D1
scatter plot).
rang
D2
Tabela 25.3: Tabel cu rangurile preferinelor.

Din diagrama
scatter plot
se observ o corelaie pozitiv ntre ranguri, ceea ce implic o oarecare con-
cordan ntre preferinele celor doi degusttori. Coecientul de corelaie Spearman va atribui o valoare
numeric acestei concordane, aceasta ind
Tem!
rS = 0.8667.
Utilizai testul semnelor pentru a testa ipoteza c preferinele celor doi degusttori nu sunt
semnicativ diferite (
= 0.05).
Figura 25.3: Scatter plot pentru ranguri.

Exist cazuri (n special pentru date cantitative) cnd valorile caracteristicii se repet, aa nct pentru
valori egale desemnm acelai rang. n aceste cazuri nu mai putem utiliza formula (25.4) pentru calculul
coecientului Spearman, ci va trebui s utilizm formula (25.3) (vezi exemplul urmtor).
184
Exemplu 25.7
Datele din Tabelul 25.4 reprezint numrul de accidente rutiere (A) i numrul de decese
(D) nregistrate ntr-un anumit ora, n primele
6 luni ale anului.
Rangurile corespunztoare valorilor sunt
prezentate n Tabelul 25.5. Datele au fost introduse n tabel n ordinea invers a numrului de accidente.
De notat c, deoarece numrul de decese nregistrate n luna Mai este egal cu numrul de decese din
Aprilie, rangul pentru ecare dintre cele dou luni este media celor dou poziii n care s-ar aa. Folosind
formula (25.3), calculm coecientul de corelaie Spearman. Acesta este
Luna
Ian.
Luna Ian. Feb. Mar. Apr. Mai Iun.

A
D
27
8
24
6
15
5
11
3
17
3
Feb.
12
2
Mai
Mar.
Tabela 25.4: Evenimente rutiere n primele 6 luni.
Iun.
Apr.
A
27
24
17
15
12
11
rS = 0.8117.
rang
6
5
4
3
2
1
D
8
6
3
5
2
3
rang
2+3
2
2+3
2
6
5
= 2.5
4
1
= 2.5
Tabela 25.5: Tabel cu rangurile pentru accidente.

Regresie
Punerea problemei
Regresia este o metod statistic utilizat pentru descrierea naturii relaiei ntre variabile. De fapt, regresia
stabilete modul prin care o variabil depinde de alt variabil, sau de alte variabile.
Analiza regresional
cuprinde tehnici de modelare i analiz a relaiei dintre o variabil dependent (variabila rspuns) i una
sau mai multe variabile independente. De asemenea, rspunde la ntrebri legate de predicia valorilor
viitoare ale variabilei rspuns pornind de la o variabil dat sau mai multe. n unele cazuri se poate preciza
variabil
independent o variabil ce poate manipulat (numit i variabil predictor, stimul sau comandat), iar
o variabil dependent (sau variabila prezis) este variabila care dorim s o prezicem, adic o variabil
care dintre variabilele de plecare sunt importante n prezicerea variabilei rspuns. Se numete
crei rezultat depinde de observaiile fcute asupra variabilelor independente. S lum exemplul unei cutii
black box) (vezi Figura 25.4).
negre (
n aceasta cutie intr (sunt nregistrate) informaiile
care sunt prelucrate (n timpul prelucrrii apar anumii parametri,

nregistrat ntr-o singur variabila rspuns,
y.
x1 , x2 , . . . , xm ,
1 , 2 , . . . , k ), iar rezultatul nal este
De exemplu, se dorete a se stabili o relaie ntre valoarea
pensiei (y ) n funcie de numrul de ani lucrai (x1 ) i salariul avut de-alungul carierei (x2 ). Variabilele
independente sunt msurate exact, fr erori. n timpul prelucrrii datelor sau dup aceasta pot apra
distorsiuni n sistem, de care putem ine cont dac introducem un parametru ce s cuantice eroarea ce
poate aprea la observarea variabilei
y.
Se stabilete astfel o legtur ntre o variabil dependent,
i una sau mai multe variabile independente,
x1 , x2 , . . . , xm ,
y,
care, n cele mai multe cazuri, are forma
matematic general
y = f (x1 , x2 , . . . , xm ; 1 , 2 , . . . , k ) + ,
unde
1 , 2 , . . . , k
(25.5)
a priori (denumii parametri de regresie) i este o

este o eroare de msur, considerat modelat printr-o
Funcia f se numete funcie de regresie. Dac aceasta nu este
sunt parametri reali necunoscui
perturbaie aleatoare. n cele mai multe aplicaii,

variabil aleatoare normal de medie zero.
cunoscut
a priori,
atunci poate greu de determinat iar utilizatorul analizei regresionale va trebui s o
trial and error (prin ncercri). Dac avem doar

spunem c avem o regresie simpl. Regresia multipl face
intuiasc sau s o aproximeze utiliznd metode de tip

o variabila independent (un singur
x),
atunci
referire la situaia n care avem multe variabile independente.
185
Figura 25.4: Black box.

Dac observarea variabilei dependente s-ar face fr vreo eroare, atunci relaia (25.5) ar deveni (cazul
ideal):
y = f (x1 , x2 , . . . .., xm ; 1 , 2 , . . . , k ).
(25.6)
Forma vectorial a dependenei (25.5) este:
y = f (x; ) + .
(25.7)
Pentru a o analiz complet a regresiei (25.5), va trebui sa intuim forma funciei
i apoi s determinm
(aproximm) valorile parametrilor de regresie. n acest scop, un experimentalist va face un numr sucient
de observaii (experimente statistice), n urma crora va aproxima aceste valori. Dac notm cu
n numrul
de experimente efectuate, atunci le putem contabiliza pe acestea n urmtorul sistem stochastic de ecuaii:
yi = f (x, ) + i ,
n ipoteze uzuale, erorile
dou cte dou (
i
> 0).
i = 1, 2, . . . , n.
sunt variabile aleatoare identic repartizate
Astfel, sistemul (25.8) cu
(25.8)
N (0, ),
independente stochastic
ecuaii stochastice algebrice are necunoscutele
{j }j
n cazul n care numrul de experimente este mai mic dect numrul parametrilor ce trebuie aproximai
(n
< k ),
atunci nu avem suciente informaii pentru a determina aproximrile.
problema se reduce la a rezolva
ecuaii cu
avem un sistem cu valori nedeterminate.

n funcie de forma funciei de regresie
regresie liniar simpl,
f,
putem avea:
n cazul n care avem doar o variabil independent i
f (x; ) = 0 + 1 x.
regresie liniar multipl,
dac
f (x; ) = 0 + 1 x1 + 2 x2 + + m xm .
regresie ptratic multipl
(cu dou variabile), dac
f (x; ) = 0 + 1 x1 + 2 x2 + 11 x21 + 12 x1 x2 + 22 x22 .

regresie polinomial,
dac
f (x; ) = 0 + 1 x + 2 x2 + 3 x3 + + k xk .
Vom avea
Dac
n = k,
n > k,
necunoscute. n cel de-al treilea caz posibil,
regresie ptratic pentru k = 2, regresie cubic pentru k = 3 etc.
atunci
atunci
186

regresie exponenial,
regresie logaritmic,
cnd
f (x; ) = 0 e1 x .
dac
f (x; ) = 0 log1 x.
i altele.
De remarcat faptul c primele patru modele sunt liniare n parametri, pe cnd ultimele dou nu sunt liniare
n parametri. Modelele determinate de aceste funcii se vor numi
n cadrul analizei regresionale, se cunosc datele de intrare,
regresie
{j }j
i deviaia standard a erorilor,
modele de regresie (curbe, suprafee etc).
{xi }i ,
i cutm s estimm parametrii de
Dac funcia de regresie
atunci metode statistice folosite pentru estimarea necunoscutelor sunt:
este cunoscut (intuit),
metoda verosimilitii maxime,
metoda celor mai mici ptrate i metoda lui Bayes. Dac f este necunoscut, metode ce duc la estimarea
necunoscutelor sunt: metoda celor mai mici ptrate sau metoda minimax.
187

Teste neparametrice (probleme)
Testul semnelor n
n
Matlab
Matlab, testul semnelor poate realizat cu ajutorul funciei

[p, h] = signtest(x, m)
unde:
este un numr real;
este un ir de caractere sau vector, asupra cruia facem testul semnelor;
h este rezultatul testului. Dac rezultatul aat este h = 0, atunci ipoteza

(H0 ): setul de date x provine dintr-o distribuie continu de median egal cu m, este admis
la acest nivel de semnicaie. Dac rezultatul aat este h = 1, atunci ipoteza nul este respins.
Se va admite astfel ipoteza alternativ (H1 ): setul de date x provine dintr-o distribuie continu
care nu are median egal cu m. Dac m nu apare, atunci se subnelege c m = 0.
variabila de memorie
nul,
variabila de memorie
este
P- valoarea,
adic valoarea maxim pentru pragul de semnicaie
pentru care ipoteza nul este admis. Deoarece aici

aeaz
h = 0.
Altfel, se aeaz
= 0.05
este subneles, pentru un
p > 0.05
se
h = 1.
O variant mbuntit a comenzii anterioare este urmtoarea:
[p, h, stats] = signtest(x, y,'alpha',alpha,'method',method)

Aici, n plus fa de precizrile de mai sus, mai adugm c:
Ipoteza nul este
0,
(H0 ):
variabila
stats
x y provine dintr-o distribuie continu de median egal cu

mediana lui x y nu este 0;
setul de date
cu ipoteza alternativ c
nmagazineaz urmtoarele date:
zval - este valoarea statisticii Z

volum mare,
pentru observaia considerat (apare doar pentru selecii de
n 30);
sign - este valoarea statisticii test;

alpha
method
este metoda folosit n testare. Putem avea o metod exact, cnd
sau aproximativ pentru
'approximate';
method
este
'exact',
188
Exemplu 26.1
Pentru problema cu pizza, de mai sus, codul
Matlab ce genereaz testul semnelor este:
x = [-1 1 1 1 -1 1 1 -1 1 1];
[p, h, stats] = signtest(x, 0)
Rezultatul testului este:
p =
0.3438
h =
0
stats =
sign: 3
Observaia 26.2
Revenim la Exerciiul 24.1 i urmrim testarea ipotezei nule folosind funcia
Soluie:
Matlab este simplu:
Codul
signtest.
x = [ones(59,1); zeros(41,1)];
[p, h, stats] = signtest(x,.5)
Obinem rezultatele:
p =
0.0891
h =
0
stats =
zval: 1.7000
sign: 41
ceea ce conrm c ipoteza nul este admis la nivelul de semnicaie
Testul seriilor n
Funcia
= 0.05.
Matlab
Matlab ce simuleaz testul de vericare a stochasticitii unui ir de caractere este

[h, p, stats] = runstest(x)
Acesta este un test ce veric dac valorile ce compun irul de caractere

abilele
h, p
sunt ca n testul
signtest.
Aici, variabila
stats
apar n ordine aleatoare. Vari-
aeaz urmtoarele: numrul de faze,
lungimile ecrei faze i valoarea statisticii pentru selecia considerat.

n urma rulrii comenzii, se va aa valoarea
h = 0
dac ipoteza c valorile apar n ordine aleatoare nu
poate respins (este acceptat la nivelul de semnicaie
= 0.05)
h = 1 n caz contrar.
De exemplu,
rularea codului
x = '011010100010001001010101110010101001010101010010111';
[h, p, stats] = runstest(x)
189

aeaz
h =
1
p =
0.0014
stats =
nruns:
n1:
n0:
z:
38
24
27
3.2899
Acest rezultat se traduce astfel: ipoteza c irul considerat este aleator generat este respins la nivelul
de semnicaie
= 0.05
(subneles),
nivel de semnicaie mai mic de
Pv
P valoarea
este
Pv = 0.0014
(asta nsemnnd c doar pentru un
irul poate considerat aleator). Variabila de memorie
stats aeaz
datele folosite n aplicarea testului.
Comanda urmtoare
[h, p, stats] = runstest(x, v, alpha, tail)

aeaz
decizia testului, ori
h = 0
ori
h = 1,
cu semnicaia de mai sus;
este valoarea de referin a irului de caractere. Sunt numrate valorile ce sunt mai mici sau mai
mari dect
alpha
tail
v,
cele care sunt exact egale cu
nu sunt contabilizate;
poate una dintre urm toarele ipoteze alternative:
'both',
irul nu este aleator (test bilateral).
Aceasta opiune poate s nu e specicat,
deoarece se subnelege implicit.
'left', dac valorile tind s se adune n ciorchine (test unilateral stnga);

'right', dac valorile tind s se separe (test unilateral dreapta);
De exemplu, s considerm urmtoarele comenzi:
y = 0:10;
y = 0:10;
y = 0:10;
[h, p] = runstest(y,median(y),0.02,'left')
[h, p] = runstest(y,median(y),0.02,'right')
[h, p] = runstest(y,median(y),0.02,'both')
Rezultatele rulrii lor sunt (n ordine):
h = 1
h = 0
h = 1
Ipoteza nul este aceea c valorile din irul
median(y) = 5.
p = 0.0043
p = 1
p = 0.0087
[0 1 2 3 4 5 6 7 8 9 10]
sunt aleatoare n jurul valorii mediane,
190
Observm mai sus c testul unilateral stnga respinge ipoteza nul i admite ipoteza c valorile irului se
strng ciorchine n jurul acestei valori. Testul unilateral dreapta admite ipoteza nul, iar testul bilateral
o respinge, admind ipoteza c numerele nu vin n ordine aleatoare, raportat la valoarea median.
Exerciiu 26.1
Se dau urmtoarele date:
x 3
y 9
(a) Testai dac
2 1 0 1 2
4
1 0 1 4
= 0 (coecientul de corelaie teoretic).

x i y sunt legate prin relaia y = x2
(b) Este faptul c
n contradicie cu rezultatul de la punctul (a)
(datele sunt perfect necorelate)?

(c) Calculai coecientul de corelaie Spearman.
Exerciiu 26.2
Tabelul 26.1 conine calicativele obinute de un elev de clasa I la cele
n ecare dintre cele dou semestre. (a)

Discipline
Sem. I
Sem. II
10
discipline,
Utilizai testul semnelor pentru a testa ipoteza c rezultatele
FB
FB
FB
FB
FB
FB
FB
FB
FB
Tabela 26.1: Calicative din anul I de studiu

elevului din cele dou semestre nu sunt semnicativ diferite (
(b)
= 0.05);
S se gseasc o msur a legturii dintre cele dou seturi de calicative (e.g., coecientul de corelaie
Spearman).
Exerciiu 26.3
Timpii de funcionare continu a
25 de baterii produse succesiv de o anumit rm sunt:
149 155 148 165 176 144 174 142 145 162 165 154
188 154 198 199 194 201 169 182 209 201 188 198 191.
Testai dac aceste valori sunt observaii aleatoare asupra unei caracteristici (
Exerciiu 26.4
= 0.05).
Numrul de accidente pe zi ce au loc ntr-un ora ntr-o anumit lun sunt :
8 1 0 1 3 4 0 2 10 5 1 7 0 2 0 1 11 3 4 5 3 2 4 7 4 0 2 3 1 2
La nivelul de semnicaie
= 0.05,
testai ipoteza c numrul de accidente pe zi n acel ora urmeaz o
repartiie Poisson.
Exerciiu 26.5
n concordan cu teoria lui Mendel din Genetic, o anumit specie de plant ar trebui
s produc doar ori albe, roz sau roii, cu probabilitile

au fost observate plantele dintr-o selecie de
purpurii, iar
vericat.
124
546
0.25, 0.5,
0.25. Pentru a testa teoria,

132 au ori albe, 290 au ori
= 0.05 dac teoria lui Mendel este
respectiv
de plante, observnd c
au ori roii. Testai la un nivel de semnicaie
191
Exerciiu 26.6
Datele urmtoare reprezint punctajele unor elevi dintr-o coal (din max.
puncte) obinute la un test de Matematic.

100 de
72 la
Testai ipoteza c mediana notelor studenilor este
= 0.05.
71 67 55 64 82 66 74 58 79 61 78 46 84 93 72 54 78 86 48 52 67 95 70 43 70 73 57 64 60
83 73 40 78 70 64 86 76 62 95 66
192

Regresie
Regresie liniar simpl
x,
Este cel mai simplu tip de regresie, n care avem o singur variabil independent,
i variabila depen-
{(xi , yi )}i=1, n . Reprezentm grac

(a)) i observm o dependen aproape
liniar a lui y de x. Dac valoarea coecientului de corelaie liniar, r , este aproape de 1 sau 1 (indicnd
o corelaie liniar strns), atunci se pune problema stabilirii unei relaii numerice exacte ntre x i y de
dent
y.
S presupunem c ni se d familia de date bidimensionale
aceste date ntr-un sistem
x0y
(de exemplu, vezi Figura 27.1
forma
y = 0 + 1 x.
O astfel de dreapt o vom numi
(27.1)
dreapta de regresie a lui y n raport cu x.
bidimensionale ca mai sus, putem reprezenta aceast dreapt ca n Figura 27.1
Pentru un set de date
(b).
Figura 27.1: Aproximarea unui nor de date prin dreapta de regresie.
Exemplu 27.1
Te hotrti s cumperi maina favorit, ce se vinde acum la preul de
semnarea contractului de vnzare-cumprare, plteti suma iniial de
650 RON, timp de 5 ani.
Dac notm cu
pe main, atunci ntre
15000 RON
numrul lunilor pn la ultima rat i cu
12500 EUR.
La
i apoi rate lunare de
suma total pltit
exist relaia:
Y = 15000 + 650 X.
n acest exemplu, relaia ntre
bidimensionale
{(xi , yi )}i=1, n
este una perfect liniar.
O relaie perfect liniar ntre datele
reprezentate n Figura 27.1 ar nsemna c toate acestea s-ar aa pe dreapta
de regresie, ceea ce nu se ntmpl.
De cele mai multe ori, datele reale nu urmeaz o astfel de relaie
perfect (spre exemplu, rata lunar poate una variabil, n funcie de rata de schimb
care parametrii din dependena liniar trebuie a estimai.
EUR-RON),
caz n
193

Aadar, va trebui s inem cont i de eventualele perturbaii din sistem.
dependena lui
de
Putem presupune astfel c
este de forma
y = 0 + 1 x + ,
cu
N (0, ).
o variabil aleatoare repartizat
Plecnd de la
{xi , yi }i ,
(27.2)
elul nostru este s gsim o dreapt ce se apropie cel mai mult (ntr-un sens bine
precizat) de aceste date statistice. Cu alte cuvinte, va trebui s estimm valorile parametrilor de regresie
1 .
Procedm dup cum urmeaz.
nlocuind datele bidimensionale n (27.2), avem urmtorul sistem:
y i = 0 + 1 x i + i ,
i = 1, n,
(27.3)
unde
i N (0, ), i
sunt independente stochastic.
Deoarece
i = yi (0 + 1 xi ),
putem interpreta
i = 1, n,
ca ind erorile de aproximare a valorilor observate (yi ) cu cele prezise de dreapta de
0 + 1 xi ).
i N (0, ) i 0 , 1
regresie (adic de valorile

innd cont c
sunt valori deterministe, din (27.3) rezult c:
yi N (0 + 1 xi , ),
pentru ecare
de unde, probabilitatea ca ntr-o singur msurtoare a
xi
i,
s obinem rspunsul
yi
este

1
(yi 0 1 xi )2
Pi = exp
.
2 2
2
{i }i sunt independente stochastic, probabilitatea ca n cele n observaii independente s obinem
de valori (y1 , y2 , , . . . , yn ) este (funcia de verosimilitate):
!
n
n
Y
X
1
(yi 0 1 xi )2
L(0 , 1 , ) =
.
Pi = n
exp
2 2
(2)n/2
Deoarece
vectorul
i=1
i=1
Avem de estimat urmtoarele cantiti:
maxime.
0 , 1
Pentru aceasta, vom folosi
Urmrim s gsim acele valori ale parametrilor
0 , 1
metoda verosimilitii
care maximizeaz funcia de verosi-
militate. Aadar, problema de maximizare este urmtoarea:
max L(0 , 1 , ).
0 , 1 ,
Condiiile de extrem (impuse pentru
ln L)
sunt:
n
1 X
(yi 0 1 xi )
2 2
ln L
0
ln L
1
ln L
1
2 2
i=1
n
X
xi (yi 0 1 xi )
0;
=
0;
i=1
n
n
1 X
+ 2
(yi 0 1 xi )2

0.
i=1
Rezolvnd primele dou ecuaii n raport cu
sxy
b1 = 2
sx
1 ,
obinem estimaiile:
b0 = y b1 x,
(27.4)
194
Figura 27.2: Estimarea dreptei de regresie.
unde,
1X
x=
xi ,
n
i=1
1X
y=
yi ,
n
s2x
i=1
1 X
=
(xi x)2 ,
n1
sxy
i=1
Astfel, gsim c dreapta de regresie a lui
n raport cu
1 X
=
(xi x)(yi y).
n1
i=1
este aproximat de dreapta:
sxy
y = y b1 x + 2 x,
sx
sau, altfel scris,
y=y+
(27.5)
sxy
(x x).
s2x
(27.6)
Din ultima condiie de extrem, gsim c o estimaie pentru dispersia
este:
1X
=
(yi b0 b1 xi )2 .
n
2
(27.7)
i=1
ns, estimaia pentru
2 dat prin formula (27.7) este una deplasat.
n practic, n locul acestei estimaii
se utilizeaz urmtoarea estimaie nedeplasat:
c2 =
1 X
(yi b0 b1 xi )2 .
n2
(27.8)
i=1
Observaia 27.2
(1) Terminologie:
dreapta de regresie, y = 0 + 1 x, este dreapta ce determin dependena

lui x, pentru ntreaga populaie de date (dac acasta exist);
liniar a lui
de valorile
195
aproximarea dreptei de regresie (sau
dreapta de tare, en., tting line), y = b0 + b1 x, este dreapta
care se apropie cel mai mult (n sensul metodei celor mai mici ptrate) de datele experimentale (de
selecie)
{xi , yi }i .
Valorile
yi
(i
Aceast dreapt este o aproximare a dreptei de regresie;
se numesc
= 1, n);
valorile
bi = yi ybi
valori observate, iar valorile ybi = b0 + b1 xi , i = 1, n se numesc valori prezise
se numesc
reziduuri.
Un reziduu msoar deviaia unui punct observat de la
valoarea prezis de estimarea dreptei de regresie (dreapta de tare);
suma ptratelor erorilor,
n
X
b2i ,
se noteaz de obicei prin
SSE (sum of squared errors);
i=1
eroarea medie ptratic
MSE
rdcina ptrat a
se poate demonstra c
sau
rezidual este
se numete
SSE
,
n2
notat
MSE (mean squared error);
eroarea standard a regresiei;
c2
SSE
= (n 2) 2 2 (n 2).
2
cu autorul acestei relaii se pot gsi intervale de ncredere pentru valoarea real a lui
n formula (27.8),
(2)
(n 2)
reprezint numrul gradelor de libertate ale variabilei
Estimaia dispersiei este o msur a gradului de mprtiere a punctelor
(x, y)
2.
SSE.
n jurul dreptei de
regresie. Mai subliniem faptul c valorile din formulele (27.4) i (27.8) sunt doar estimaii ale parametrilor
necunoscui, i nu valorile lor exacte. Formula pentru
b1
mai poate scris sub forma:
sy
b1 = xy .
sx
(3) Dac deviaia standard
ar cunoscut a priori, atunci putem estima parametrii 0 i 1 n urmtorul
mod. Estimm aceti doi parametri prin acele valori ce realizeaz minimumul sumei ptratelor erorilor
SSE.
metoda celor mai mici ptrate):
Vom avea astfel problema de minimizare (
min
n
X
0 , 1
Notnd cu
F (0 , 1 ) =
n
X
(yi 0 1 xi )2 .
i=1
(yi 0 1 xi )2 ,
condiiile de extrem sunt:
i=1
F
0
= 2
F
1
= 2
n
X
(yi 0 1 xi )
i=1
n
X
xi (yi 0 1 xi )
0;
=
0.
i=1
Rezolvnd acest sistem de ecuaii algebrice n raport cu
1 ,
gsim soluiile
b0
i, respectiv,
b1
de
mai sus. Aceasta dovedete c, n cazul n care erorile sunt identic normal repartizate i independente
stochastic, metoda verosimilitii maxime este, n fapt, totuna cu metoda celor mai mici ptrate.
196
Caracteristici ale parametrilor de regresie

Estimaiile pentru parametrii de regresie
populaie, se vor utiliza testri statistice.
valorilor ambilor parametri,

dreptei de regresie,
1 ,
1 depind de observaiile folosite. Pentru a decide dac va{xi , yi }i pot considerate valorile potrivite pentru ntreaga
lorile calculate pe baza datelor experimentale
Mai jos, vom construi teste statistice cu privire la testarea
ns cel mai uzual test este testul pentru vericarea valorii pantei
1 .
Mai nti, vom calcula media i dispersia pentru ecare dintre

Avem succesiv,

E(b1 ) = E
sxy
s2x
b1
b0 .
n
X
(xi x)(yi y)
i=1
.
= E
n
(xi x)2
i=1
Aici,
xi
sunt valori deterministe, iar
yi
variabile aleatoare. Deoarece
y = 0 + 1 x +
1X
i ,
n
i=1
obinem c
E(y) = 0 + 1 x.
ns,
E(yi y) = 0 + 1 xi (0 + 1 x) = 1 (x1 x),

Aadar,
n
X
E(b1 ) =
(xi x)E[yi y]
i=1
n
X
n
X
i=1
Pentru
b0
(xi x)2
i=1
=
(xi x)
n
X
i.
= 1 .
(xi x)
i=1
avem:
E(b0 ) = E(y) x E(b1 ) = 0 + 1 x x1 = 0 .

Prin urmare, att
b0 ,
ct i
Calculm acum dispersiile
b1 ,
sunt estimatori nedeplasai pentru

D2 b1

D2 b0 .
Deoarece
n
X
i, respectiv,
(xi x)y = 0,
1 .
avem:
i=1
n
X
(xi x)yi

i=1
=
D2 b1 = D2
n
X
(xi x)2
i=1
n
X
(xi x)2 D2 (yi )
i=1
n
X
(xi x)2
!2 =
2 s2x
2
=
.
s4x
s2x
(27.9)
i=1
Utiliznd urmtoarea proprietate,
D2 (X + Y ) = D2 (X) + 2 cov(X, Y ) + D2 (Y ),
putem scrie:

D2 b0 = D2 (y b1 x) = D2 (y) 2 x cov(y, b1 ) + x2 D2 b1 .
(27.10)
197

Dar,
D2 (y) = D2
1X
i
n
!
=
i=1
1
2
2
n
=
n2
n
cov
y, b1
n
X
n
1 X
i ,
cov
n
i=1
i=1
(xi x)(0 + 1 xi + i )
2
(xi x)
i=1
n
X
(xi x)i
X
1 n
cov
i , i=1
n
n
X
i=1
(xi x)2
i=1
=
n
n
X
n
X
cov
i=1
(xi x)
n
X
i ,
(xi x)i
i=1
i=1
n
X
(xi x) 2
i=1
n
X
= 0.
2
(xi x)
i=1
nlocuind n (27.10), gsim c

2
2
1 x2
2
2
b
D 0 = x 2 +
=
+
.
sx
n
n s2x
2
innd cont c estimatorii

pentru
2,
b0
b1
(27.11)
sunt nedeplasai, de relaiile (27.11) i (27.9), i de estimatorul
c2
se poate demonstra c:
b 0
q0
t(n 2)
2
b n1 + xs2
(27.12)
b1 1
b
sx
Aici, am notat prin
t(n 2).
(27.13)
cantitatea:
b=
1 X
(yi b0 b1 xi )2
n2
!1
2
i=1
Putem folosi aceste statistici pentru a determina intervale de ncredere pentru

ncredere pentru
"
b0 t1 2 ; n2
b
1 .
Un interval de
este:
1 x2
+ ,
n s2x
s
b0 + t1 2 ; n2
b
#
1 x2
+
.
n s2x
(27.14)
198

Un interval de ncredere pentru
Observaia 27.3
1 la nivelul de semnicaie este:

b
b
b
.
1 t1 2 ; n2 , 1 + t1 2 ; n2
sx
sx
(1) n general, dispersia
(27.15)
a erorilor de regresie nu este cunoscut
a priori.
n cazul
n care aceasta este cunoscut, atunci n loc de (27.12) i (27.13) am avea:
b 0
q0
N (0, 1),
2
n1 + xs2
b1 1
sx
N (0, 1).
(27.16)
n acest caz, intervalele de ncredere pentru

cu diferena c
i
z1 2
1
; n2
2
este nlocuit prin
0 i 1 vor similare cu cele din relaiile (27.14) i (27.15),

z1 2 . Oricum, pentru n sucient de mare, valorile t1 2 ; n2
sunt foarte apropiate.
(2) Coecientul de determinare
R2 (= r2 )
se poate calcula i folosind urmtoarea formul:
R2 = 1
unde
s2y/x
s2y
s2y/x
(27.17)
1 X
=
(yi b0 b1 xi )2 ,
n1
s2y
i=1
1 X
=
(yi y)2 .
n1
i=1
2
n analiza regresional, coecientul R este folosit pentru a determina ct de bine poate construit o
valoare prezis pe baza valorilor independente.
Test statistic pentru 1

Mai jos prezentm testul ce veric dac
10
ia o valoare dat
sau nu, la un nivel de semnicaie
Dispersia erorilor de regresie este necunoscut.

Testm
(H0 ) :
1 = 10
(H1 ) :
versus
1 6= 10 .
Considerm statistica
T =
care urmeaz repartiia
t(n 2).
b1 1
b
sx
Etapele testului sunt urmtoarele:
T0 =
Calculm cuantila de ordin
Dac
b1 10
b
sx
2 pentru repartiia
cu
.
(n 2)
grade de libertate,
|T0 | < t1 2 ; n2 ,
atunci acceptm ipoteza
(H0 );
|T0 | t1 2 ; n2 ,
(H1 );
Dac
t1 2 ; n2 ;
199
Observaia 27.4
(1) O ipotez alternativ poate considerat i una dintre urmtoarele:
(H1 )s :
(2)
Dac
10 = 0,
1 < 10 ,
(H1 )d :
1 6= 0
atunci ipoteza alternativ
1 > 10 .
x
este ipoteza c ntre
exist o dependen
liniar.
Test statistic pentru 0

Mai jos prezentm testul ce veric dac
ia o valoare dat
sau nu, la un nivel de semnicaie
Dispersia erorilor de regresie este necunoscut.

Testm
(H0 ) :
0 = 0
(H1 ) :
versus
0 6= 0 .
b0 0
T = q
t(n 2),
2
b n1 + xs2
x
care urmeaz repartiia
t(n 2).
b0 0
t(n 2).
T0 = q
2
b n1 + xs2
x
Calculm cuantila de ordin
Dac
2 pentru repartiia
cu
(n 2)
grade de libertate,
|T0 | < t1 2 ; n2 ,
(H0 );
|T0 | t1 2 ; n2 ,
(H1 );
t1 2 ; n2 ;
Dac
Observaia 27.5
n cazul n care
De asemenea, teste unilaterale pot considerate i n cazul testrii valorii lui

este cunoscut
a priori
atunci, graie relaiilor (27.16), putem utiliza testul
testarea ipotezelor de mai sus, att pentru
0 ,
ct i pentru
0 .
pentru
1 .
Predicie prin regresie

[Pe scurt, predicia prin regresie este precum ai conduce maina legat la ochi,
ghidat de un copilot care privete doar n lunet]
n anumite cazuri, putem folosi regresia n predicia unor valori ale variabilei dependente. De exemplu,
putem prezice temperatura ntr-un anumit ora plecnd de la observaiile temperaturilor din oraele
nvecinate. Regresia poate utilizat pentru predicie dup cum urmeaz. S presupunem ca datele pe
care le deinem,
valoarea
xp
{(xi , yi }i=1, n ,
pot modelate de o dreapt de regresie de forma (27.1).
ce nu se a printre valorile
independente,
xmin
xmax ,
xi ,
Dat ind o
dar este o valoare cuprins ntre valorile extreme ale variabilei
dorim s prezicem valoarea rspuns,
y p = 0 + 1 x p + p .
200

b0 i b1 sunt estimaiile pentru parametrii
pentru yp pentru un xp observat va o valoare y
bp
Dac
de regresie
0 ,
respectiv,
1 ,
atunci
valoarea prezis
de pe dreapta de regresie, dat de formula:
ybp = b0 + b1 xp .
"
ybp t1 2 ; n2
b
Observaia 27.6
i
xmax .
pentru
1+
pentru un
xp
(xp [xmin , xmax ])

s
#
1 (xp x)2
.
b 1+ +
n
s2x
dat, la nivelul de senicaie
1 (xp x)2
+
,
n
s2x
ybp + t1 2 ; n2
(1) De notat faptul c este foarte important ca
Dac se folosete formula (27.18) i pentru valori ale lui
x,
(27.18)
atunci erorile de de aproximarea a lui
27.3 (a) am folosi doar primele
cu
ybp
(27.19)
s e o valoare cuprins ntre
xmin
n afara range-ului valorilor predictor
pot foarte mari. De exemplu, dac n Figura
pentru a construi un model de regresie, atunci acesta poate utilizat
doar pentru predicia valorilor variabilei
pentru orice
n acest range, i.e.
dreapta de regresie gsit anterior, am ncerca o predicie pentru

pe cnd valoarea observat este
xp
este:
y(19) 6.5,
x = 19,
x [0, 10].
Dac, folosind
atunci am gsi c
yb(19) 10,
ceea ce determin o eroare foarte mare de aproximare. Mai
mult, dac inem cont i de urmtoarele valori observate (vezi Figura 27.3(b)), atunci curba de regresie
pare s nu e o dreapt. Pentru estimarea de valori viitoare ale variabilei dependente folosind valori ale
Figura 27.3: Predicie prin extrapolare.

variabilelor independente ce ies din range se utilizeaz termenul de
prognoz (en., forecasting).
Aceasta
este folosit des n analiza seriitor de timp.

(2)
lui
Valoarea prezis
pentru un
xp
ybp
dat.
nu este una stabilit cu exactitate, ci este doar o medie ateptat a valorilor

n cazul n care
R2 = 1
(coecientul de determinare), atunci valoarea pentru
va prezis fr eroare, deoarece toate punctele se a pe dreapta de regresie. n general, punctele
(x, y)
ybp este
bidimensionale
se a mprtiate n jurul dreptei de regresie.
(3)
determinat doar pe baza seleciei date, de aceea, pentru a verica dac aceast
Valoarea
valoare poate extrapolat la ntreaga populaie este nevoie de inferen statistic (test statistic). Prezentm, n continuare, un test ce compar valoarea
ybp
cu o constant dat.
201

Testm
(H0 )
ybp = y0
ybp 6= y0 .
(H1 )
versus
Estimm
ybp
utiliznd formula (27.18).
ybp y
T =q
t(n 2);
2
p x)
MSE( n1 + P(x(x
)
2
i x)
i
Calculez valoarea
ybp y0
;
T0 = q
2
p x)
MSE( n1 + P(x(x
)
2
i x)
i
Dac
|T0 | < t1 2 ; n2 ,
(H0 );
|T0 | t1 2 ; n2 ,
(H1 );
Dac
(4) n concluzie, regresia este o unealt dibace pentru predicie. Economitii care o utilizeaz pot prezice
cu succes chiar
10
Exemplu 27.7
dintre ultimele
recesiuni!
ybp
la nivelul de ncredere
h
ybp S t1 2 ; n2 ,
unde
s
S=
este:
i
ybp + S t1 2 ; n2 ,
(27.20)

(xp x)2
1
MSE 1 + + P
.
2
n
i (xi x)

(de vericat!)
Observaia 27.8
Pn acum am vzut cum putem estima valoarea lui
putem inversa rolurile lui
y,
i putem vorbi astfel de
folosind pe
x.
n unele cazuri,
regresie a lui x n raport cu y .
De exemplu,
n Exerciiul 28.1 am putea estima notele la Probabiliti n funcie de notele la Statistic.

obinute pentru dreapta de regresie a lui
regresie a lui
n raport cu
x,
n raport cu
n care rolurile lui
Formulele
sunt cele gsite anterior pentru dreapta de
sunt inversate.
202

Regresie (exerciii rezolvate)
Fie
doi vectori de acelai tip. Urmtoarele funcii din
Matlab sunt utile pentru analiza corelaiei
i regresiei:
scatter(X,Y)
reprezint grac valorile lui
vs. valorile lui
X;
R = corrcoef(X,Y) calculeaz coecientul de corelaie ntre X i Y. Rezultatul este aat sub forma:
>> ans =
1.0000
1.0000
unde
1.0000 este coecientul de corelaie dintre X i X, respectiv Y i Y, iar este coecientul cutat.
cov(X,Y) pentru matricea de covarian empiric dintre X i Y (formula (9.2));

Funcia cov(X,Y,1) este tot matrice de covarian, ns n acest caz formula folosit
este (9.3).
b = regress(Y,X) aeaz estimarea coecienilor pentru care Y = b X . Aici, X este o matrice

n k i Y un vector coloana n 1. Coloanele vectorului X corespund observaiilor (i.e., variabilelor
independente).
Dac
Dac
X este un vector coloan de aceeai dimensiune cu Y, atunci b este doar un scalar.

X este matrice, atunci putem folosi aceast comand pentru a estima coecienii de
liniar multipl.
regresie
Spre exemplu, s presupunem c se dorete estimarea coecienilor de regresie
liniar simpl, i.e.,
observaii. n acest caz,
1 pentru care y = 0 + 1 x, unde pentru ecare

k = 2. Fie X, respectiv, Y vectorii ce conin aceste
Matlab care estimeaz cei doi coecieni este
dintre
avem
observaii. Comanda
B = regress(Y', [ones(n,1)'; X]')

0 i 1 ce fac urmtoarea
1
x1
x2
1
.
. + 1 .
.
.
.
.
1
xn
Comanda furnizeaz aproximri pentru parametrii

bun:
y1
y2
..
.
yn
aproximare ct mai
p = polyfit(X,Y,n) gsete coecienii unui polinom p(x) de grad n ale crui valori p(xi ) se apropie
cel mai mult de datele observate yi , n sensul celor mai mici ptrate.
va aa n acest
caz un vector linie de lungime n + 1, coninnd coecienii polinomiali n ordinea descresctoare a
Matlab
puterilor. Spre exemplu, dac
p(x) = 0 + 1 x + 2 x2 + + n xn ,
atunci
Matlab va aa
n , . . . , 1 , 0 .
203
Y = polyval(p,X) aeaz valorile unui polinom p(x) pentru valorile din vectorul X . Polinomul
p(x) este dat prin coecienii si, ordonai n ordine descresctoare a puterilor. De exemplu, dac
p(x) = 3x2 + 2x + 4 i dorim s evalum acest polinom pentru trei valori, 3, 1 i 5, atunci scriem
n
Matlab:
p = [3
2 4];
polyval(p,[-3 1 5])
obinnd rezultatul:
ans =
Exerciiu 28.1
37
Dorim s determinm dac exist vreo corelaie ntre notele la examenul de Probabiliti
i cele de la Statistic obinute de studenii unui an de studiu.

obinute de
10
n acest sens, au fost observate notele
studeni la aceste dou discipline i au fost trecute n Tabelul 28.1 de mai jos. Se cere:
(a) Stabilii dac exist o legtur puternic ntre aceste note (r i

(b)
69
r2 );
Determinai dreapta de regresie a notelor de la Statistic n raport cu notele la Probabiliti i
desenai-o n acelai sistem de axe ca i notele obinute (
scatter plot).
(c) Testai dac exist sau nu vreo corelaie ntre notele de la Statistic i Probabiliti.
Student
Probabiliti
82
84
36
42
72
50
58
64
70
68
48
54
44
46
94
80
60
60
40
32
Statistic
Tabela 28.1: Notele la Statistic i Probabiliti.

Soluie:
n codul
(a) Calculm r cu formula (25.1). Funcia Matlab pentru coecientul Pearson este corrcoef.
Matlab de mai jos l-am calculat pe r folosind aceast funcie, dar i n dou alte modaliti,
folosind formula (25.2) sau scriind desfurat expresia lui

(b) Coecienii de regresie se pot obine n
r.
Matlab
3 moduri, e folosind funcia

polyfit, care realizeaz
S(P ) = 0 + 1 P . O alt variant
tarea datelor cu un polinom, n cazul liniar ind un polinom de forma

de calcul a coecienilor
este simpla implementare n
treia variant este folosirea funciei
regress
din
Matlab.
Matlab a formulelor pentru acetia.
Reprezentarea grac a datelor poate realizat folosind ori funcia

funcii predenite din
Matlab. Gracul este cel din Figura 28.1.
plot,
ori funcia "scatter", ambele
P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32];
mp = mean(P); ms = mean(S);
%%%~~~~~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~~~~
CC = corrcoef(P,S); r = CC(1,2)
%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
% C = cov(P,S)/(std(P)*std(S)); r = C(1,2);
% r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2));
%%%~~~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~
B = polyfit(P,S,1)
%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
% b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms - b1*mp;
204
% B = regress(S',[P;ones(10,1)']');
%%%~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-')
% scatter(P,S)
% varianta pentru scatter plot
%%%~~~~~~~~~~~~~~~~~~~~~~~ Testul pentru = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2)); quant = tinv(1-alpha/2,n-2);
if (abs(T0) < quant)
disp('P si S nu sunt corelate')
else
disp('P si S sunt corelate')
end
Rulnd codul de mai sus, obinem:
r =
0.8247
B =
0.7553
P si S sunt corelate
10.3816
Figura 28.1: Notele i dreapta de regresie.
Exerciiu 28.2
Fie irul de date:
x =
y =
0.3
3.52
0.8
4.53
S se studieze existena unei dependene ntre
Soluie:
Calculm
ln y =
ln y .
1.2
5.58
x
1.6
6.62
de forma
2.1
8.27
2.4
10.18
2.7
11.80
y = a eb x .
Obinem:
1.2585
1.5107
1.7192
1.8901
2.1126
2.3204
2.4681
205

Se observ c
r = 0.9988 1
(coecientul de corelaie ntre
avem o regresie liniar ntre variabilele

gsim:
0 = 1.1074,
1 = 0.4980.
ln y .
ln y ),
de unde bnuim c e posibil s
Estimm coecienii de regresie ai lui
Aceasta poate realizat n
Matlab prin comanda
ln y
fa de
regress(log(y)',[x',ones(7,1)])
Aadar,
ln y = 0.4980 x + 1.1074,
de unde
y = e1.1074 e0.4980 x 3 ex/2 .
n Figura 28.2 am reprezentat
grac datele observate i aproximrile lor.
Figura 28.2: Aproximarea datelor din Exerciiul 28.2
Exerciiu 28.3
la ecare
1km
Prognoza spune c temperatura ntr-o anumit zon muntoas descrete cu cca.
ctigat n nlime.
Pentru o vericare, au fost msurate simultan temperaturile
6 C
n 10
localiti diferite din acea zon, acestea ind nregistrate n Tabelul 28.2. Dac temperatura se presupune
hi
Ti
500
15
1000
14
1500
11
2000
6
2500
1
3000
2
3500
0
4000
4
4500
8
5000
14
Tabela 28.2: Tabel cu temperaturi (Ti ) la diverse altitudini (hi ).

a o funcie liniar (regresie liniar) de altitudine, se cere:
(i) S se estimeze parametrii
(ii) S se testeze (
= 0.05)
1 ;
dac prognoza din enun este adevarat (i.e.,
1 = 0.006);
1 ;
(iii) S se gseasc un interval de ncredere pentru panta dreptei de regresie,
(iv) Ct de bun este aproximarea temperaturii cu o funcie liniar de altitudine?

(v) Estimai temperatura la altitudinea
h = 2544.
Gsii, de asemenea, un interval de ncredere pentru
aceasta temperatur.
Soluie:
polyfit
(i)
Estimm parametrii necunoscui folosind formulele (27.4) sau folosind funcia
(vezi codul de mai jos).
(ii) Pentru testarea ipotezei nule
(H0 ) : 1 = 0.006
utilizm testul din Seciunea .
Matlab
206

(iii) Un interval de ncredere pentru
se poate calcula folosind formula (27.15).
(iv) Pentru a decide ct de bun este aproximarea, calculm coecientul de determinare,
R2
= 94.83,
Codul
Acesta este
ceea ce nseamn c temperatura real este foarte aproape de cea prognozat.
(v) Utilizm formulele (27.18) i (27.19), pentru

jos)
R2 .
xp = 2544.
(vezi rezultatele generate de codul de mai
h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000];
T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T);
%%%~~~~~~ Calculez coeficientul de corelatie empiric si coeficientul de determinare ~~~
CC = corrcoef(h,T); r = CC(1,2)
R2 = r^2
%%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
B = polyfit(h,T,1)
%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
% B = regress(T',[h;ones(10,1)']');
% b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT - b1*mh;
%%%~~~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~
x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-')
%%%~~~~~~ Testul pentru panta dreptei de regresie, (H0 ) : 1 = 0.006 ~~~~~~~~~~~~~~~~
alpha = 0.05; n = 10;
sigmahat = sqrt(sum((T-B(2) - B(1)*h).^2)/(n-2));
sigmax = std(h);
T0 = (B(1)+0.006)*sigmax/sigmahat; quant = tinv(1-alpha/2,n-2);
if (abs(T0) < quant)
disp('ipoteza (H0 ) se accepta')
else
disp('ipoteza (H0 ) se respinge')
end
%%%~~~~~~~~~~~~~~~
Interval de incredere pentru 1 ~~~~~~~~~~~~~~~~~~~~~~~
CI = [B(1) - quant*sigmahat/sigmax,\;B(1) + quant*sigmahat/sigmax]
hp = 2544; Tp = B(2) + B(1)*hp
CI_T = [Tp - quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}, ...
Tp + quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}]
Rulnd codul de mai sus, obinem:
r =
-0.9738
R2 =
94.83
Tp =
3.3610
B =
[-0.0061, 18.9333]
CI_T =
CI =
[-0.0096, -0.0026]
[-2.2335, 8.9555]
ipoteza nula se accepta

Alte funcii utile n
Statistics Toolbox):
Matlab pentru analiza regresional (unele disponibile doar n pachetul de programe
polytool(x, y) - determin o dreapt de regresie pentru datele coninut n vectorii x i y .
Desenul
aat este interactiv i apare ntr-o interfa grac.
polytool(x, y, n, alpha, xname, yname)
- aproximeaz datele bivariate
(x, y)
cu un polinom
207
Figura 28.3: Diagrama de temperaturi n funcie de altitudine, i dreapta de regresie.
de grad
i deseneaz intervale de ncredere (la nivelul
sunt denumite prin
Exemplu 28.4
xname,
respectiv
pentru valorile prezise. Valorile lui
yname.
Urmtoarele comenzi aeaz gracul din Figura 28.4.
x = [-3 -2 -1 0 1 2]; y = [8.75 3.8 1.2 0.05 1.01 4.02];

polytool(x,y,2,0.05,'observatii pt X','observatii pt Y')
rstool(x, y, model, alpha, xname, yname)
- deschide o interfa interactiv pentru a deter-
(x, y), dup modelul precizat. Aici, model

linear, pure quadratic, interaction sau full quadratic.
mina suprafeele de rspuns pentru datele din vectorii

poate una dintre urmtoarele:
Exemplu 28.5
Urmtoarele comenzi aeaz gracul din Figura 28.5.
X = [2 2 2; 2.5 2 2; 2 4.5 2; 2.5 4.5 2; 2 7 2; 2.5 7 2;...

2 2 5; 2.5 2 5; 2 4.5 5; 2.5 4.5 5; 2 7 5; 2.5 7 5];
Y = [291 353 400 400 504
442
273 304
397 424
402 431]';
xn = {'x1', 'x2', 'x3'}; yn = {'Y'};
rstool(X,Y, 'interaction', 0.05, xn, yn)
Figura 28.4: Curba de ordinul al doilea care aproximeaz datele (x, y).
Figura 28.5: Suprafee de rspuns pentru datele (x, y).
208
209
Anexa 1 [Dr. Iulian Stoleriu]
29
Anexa 1
Scurt introducere n
Matlab
Matlab este un pachet comercial de programe de nalt performan produs de The MathWorks, Inc.,
dedicat calculului numeric i reprezentrilor grace n domeniul tiinelor i ingineriei. Elementul de baz
cu care opereaz
Matlab-ul este matricea (Matlab este acronim de la MATrix LABoratory). Matlab
este un software standard n mediile universitare, precum i n domeniul cercetrii i rezolvrii practice a
problemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea datelor
experimentale, matematici nanciare, matematici aplicate n diverse domenii etc. Cea mai important
caracteristic a
Matlab-ului
este uurina cu care poate extins.
La programele deja existente n
Matlab, utilizatorul poate aduga propriile sale coduri, dezvoltnd aplicaii specice domeniului n care
lucreaz. Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de
funcii Matlab (iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva
probleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz, cu
interpretor propriu, n jurul cruia sunt construite toolbox-urile.
Prezentm mai jos o scurt introducere n
Matlab a principalelor funcii i comenzi folosite n aceast
lucrare. Pentru o tratare mai detaliat, putei consulta un manual de utilizare sau [9]. Mai menionm
aici i lucrarea [1], unde putei gsi diverse modaliti de implementare n
Matlab ale unor noiuni de
Teoria Probabilitilor i Statistic matematic.

Folosind comanda
demo din Matlab, putei urmri o demonstraie a principalelor faciliti din Matlab,
toolbox)
ct i a pachetelor de funcii (
Toolbox,
de care ai putea interesai. Dintre acestea, amintim
Statistics
care este o colecie de funcii folosite pentru analiza, modelarea i simularea datelor. Conine:
analiza gracelor (GUI), diverse repartiii probabilistice (beta, binomial, Poisson,
2 ),
generarea nume-
relor aleatoare, analiza regresional, descrieri statistice.
Comenzile
Matlab pot scrise n iere cu extensia .m, ce urmeaz apoi a compilate. Un ier-m
const dintr-o succesiune de instruciuni, cu posibilitatea apelrii altor iere-M precum i a apelrii
recursive. De asemenea,
Matlab poate folosit ca pe un mediu computaional interactiv, caz n
care ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot vizualizate sau
evaluate imediat. De exemplu, introducnd la linia de comand
>> a = sqrt((sqrt(5)+1)/2)
Matlab denete o variabil de memorie a, creia i atribuie valoarea

a =
1.2720
Variabilele sunt denite cu ajutorul operatorului de atribuire,
=,
i pot utilizate fr a declara
de ce tip sunt. Valoarea unei variabile poate : o constant, un ir de caractere, poate reiei din
calculul unei expresii sau al unei funcii.
Pentru a gsi informaii imediate despre vreo funcie predenit, comanda

De exemplu,
help
va vine n ajutor.
210

>> help length
aeaz urmtoarele:
LENGTH Length of vector.

LENGTH(X) returns the length of vector X. It is equivalent
to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones.
See also numel.
help poate utilizat doar dac se cunoate exact

lookfor este recomandat. De exemplu, comanda
Comanda
menzii
numele funciei. Altfel, folosirea co-
>> lookfor length

produce:
NAMELENGTHMAX Maximum length of MATLAB function or variable name.

VARARGIN Variable length input argument list.
VARARGOUT Variable length output argument list.
LENGTH Length of vector.
Matlab este un mediu computaional orientat pe lucru cu vectori i matrice.
O linie de cod de
forma
>> v = [1,3,5,7,9]
% sau
v = [1 3 5 7 9]
1, 3, 5, 7, 9. Aceasta poate realizat i folosind
de la 1 la 9, cu pasul 2. Pentru un vector coloan,
denete un vector linie ce are componentele

comanda
v = 1:2:9
adic aeaz numerele
folosim punct-virgul ntre elemente, adic
>> v = [1;3;5;7;9]
% vector coloana
O alt variant de a deni un vector este
>> v = linspace(x1,x2,n)
adic
este un vector linie cu
componente, la intervale egale ntre
x1
x2.
Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instruciuni i funcii. La denirea explicit, trebuie inut cont de urmtoarele: elementele matricei sunt
cuprinse ntre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaii libere sau
virgule, liniile se separ prin semnul punct-virgul. De exemplu, comanda
>> A = [1 2 3; 4, 5, 6]
211

denete matricea
A =
2
5
3
6
Apelul elementelor unei matrice se poate face prin comenzile
A(i,:)
coloan
j)
Funcia
Matlab ones(m,n)
zeros(m,n) denete
Funcia
ordin
1
4
sau
(elementele de linia
A(i,j)
sau
A(:,j)
(elementele de
i);
m n, avnd toate componentele egale cu 1.
m n. Funcia eye(n) denete matricea unitate de
denete o matrice
o matrice zero
n.
Dup cum vom vedea mai jos,
Matlab permite denirea unor funcii foarte complicate prin scri-
erea unui cod. Dac funcia ce o avem de denit este una simpl, atunci avem varianta utilizrii
comenzii
inline.
Spre exemplu, denim funcia
f (x, y) = e5x sin 3y :
>> f = inline('exp(5*x).*sin(3*y)')
f =
Inline function:
f(x,y) = exp(5*x).*sin(3*y)
Putem apoi calcula
>> f(7,pi)
f (7, )
prin
0.5827
Un program
Matlab poate scris sub forma ierelor script sau a ierelor de tip funcie. Ambele
tipuri de iere sunt scrise n format ASCII. Aceste tipuri de iere permit crearea unor noi funcii,
care le pot completa pe cele deja existente. Un ier
ven de comenzi
script este un ier extern care conine o sec-
Matlab. Prin apelarea numelui ierului, se execut secvena Matlab coninut
n acesta. Dup execuia complet a unui ier script, variabilele cu care acesta a operat rmn
n zona de memorie a aplicaiei. Fiierele script sunt folosite pentru rezolvarea unor probleme care
cer comenzi succesive att de lungi, nct ar putea deveni greoaie pentru lucrul n mod interactiv,
adic n modul linie de comand.
Pentru a introduce date n
Matlab, putem copia datele direct ntr-un ier Matlab, prin denirea unui
vector sau a unei matrice de date. De exemplu, urmtoarele date au fost introduse prin "copy-paste" n
matricea
data:
>> data =
21.3 24.1
18.4 20.5
22.1 16.6
];
Datele din
[
19.9 21.0
17.5 23.2
23.5 19.7
Matlab pot salvate astfel:
% atribuirea valorilor matricei data

% prima linie a datelor copiate
% ultima linie a datelor copiate
% inchidem paranteza ce defineste matricea de date
212

>> cd('c:\fisierul_de_lucru');
>> save Timpi_de_reactie data;
% alegem fisierul unde salvam datele

% salveaza in fisierul Timpi_de_reactie.mat
Datele pot rencrcate folosind comanda
load Timpi_de_reactie
Timpi_de_reactie
% incarca datele din fisier

% afiseaza datele incarcate
Fiierele funcie
Matlab creaz cadrul propice extinderii funciilor sale, prin posibilitatea crerii de noi iere.
dac prima linie a ierului
ier funcie.
acesteia.
.m
conine cuvntul
function,
Astfel,
atunci ierul respectiv este declarat ca ind
Variabilele denite i manipulate n interiorul ierului funcie sunt localizate la nivelul
Prin urmare, la terminarea execuiei unei funcii, n memoria calculatorului nu rmn dect
variabilele de ieire ale acesteia. Forma general a primei linii a unui ier este:
function[param_iesire] = nume_functie(param_intrare)
unde:
function
este este cuvntul care declar ierul ca ier funcie;
nume_functie
este numele funciei, care este totuna cu numele sub care se salveaz ierul;
param_iesire
sunt parametrii de ieire;
param_intrare
sunt parametrii de intrare.
Comenzile i funciile care sunt utilizate de nou funcie sunt nregistrate ntr-un ier cu extensia
Exemplu 29.1
tor
Fisierul
.m.
medie.m calculeaz media aritmetic a sumei ptratelor componentelor unui vecmean(X.^2)):
(alternativ, aceast lucru poate realizat prin comanda
function m2 = medie(X)
n = length(X); m2 = sum(X.^2)/n;
Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab
(iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din
domenii variate.
Statistics Toolbox
reprezint o colecie de funcii folosite pentru analiza, modelarea i
simularea datelor i conine: generarea de numere aleatoare; distribuii, analiza grac interactiv (GUI),
analiza regresional, descrieri statistice, teste statistice.
n Tabelul 29.1 am adunat cteva comenzi utile n
Matlab.
213

%
help rand
lookfor normal
X=[2 4 6 5 2 7 10]
X=[3; 1; 6.5 ;0 ;77]
X = -10:2:10
length(X)
t=0:0.01:3*pi
X.^2
X.*Y
cumsum(X)
cumprod(X)
min(X)
max(X)
sort(X)
sort(X, 'descend')
erf(X)
exp(x)
log(x)
sqrt(x)
num2str(x)
factorial(n)
A = ones(m,n)
B = zeros(m,n)
I = eye(n)
A = [3/2 1 3 7; 6 5 8 8; 3 6 9 12]
size(A)
det(A)
inv(A)
A'
A(:,7)
A(1:20,1)
nchoosek(n,k)
1e5
exp(1)
bar(X) sau barh(X)
hist(X)
hist3(x,y,z)
plot(X(1:5),'*m')
plot(t,X,'-')
plot3(X,Y,Z)
stairs(X)
subplot(m,n,z)
semilogx i semilogy
hold on
clf
clear all
title('Graficul functiei')
find
legend
%
%
%
permite adaugarea de comentarii in cod
rand
normal
help specic pentru funcia
cauta intrarile n
Matlab pentru
vector linie cu
vector coloan cu
10
7
5
elemente
2 n 2
% lungimea vectorului X
% denete o diviziune a [0, 3] cu diviziunea 0.01
% ridic toate componentele vectorului X la puterea a doua
% produsul a doi vectori
% suma cumulat a elementelor vectorului X
% produsul cumulativ al elementelor vectorului X
% realizeaz minimum dintre componentele lui X
% realizeaz maximum dintre componentele lu X
% ordoneaz componentele lui X n ordine crescatoare
% ordoneaz componentele lui X n ordine descrescatoare
% funcia eroare
% calculeaz exponenial ex
% calculeaz logaritmul natural ln(x)
% calculeaz radicalul ordinului doi dintr-un numr
% furnizeaz valoarea numeric a lui x
% n!
% A e matrice m n, cu toate elementele 1
% matrice m n zero
% matrice unitate, n n
% matrice 3 3
% dimensiunea matricei A
% determinantul matricei A
% inversa matricei A
% transpusa matricei A
% coloana a 7-a a matricei A
% scoate primele 20 de linii ale lui A
% combinri de n luate cte k
% numarul 105
% numarul e
% reprezentarea prin bare
% reprezentarea prin histograme
% reprezentarea prin histograme 3-D
% deseneaz primele 5 componente ale lui X , cu * magenta
% deseneaz gracul lui X versus t, cu linie continua
% deseneaz un grac n 3-D
% deseneaz o funcie scara
% mparte gracul n m n zone & deseneaz n zona z
% logaritmeaz valorile de pe absci, resp., ordonata
% reine gracul pentru a realiza o nou gura
% terge gura
% terge toate variabilele denite
% adaug titlu gurii
% gsete indicii elementelor nenule ale unui vector
% ataeaz o legend la un grac
vector cu numerele intregi de la
Tabela 29.1: Funcii
Matlab utile
la
10,
elemente
din
214
Anexa 2
30
Exemple de repartiii discrete

n dreptul ecrei repartiii, n parantez, apare numele cu care aceasta care poate apelat n
(1)
Repartiia uniform discret, U(n)
Scriem c
X U(n),
dac valorile lui
sunt
(unid)
{1, 2, . . . , n},
P (X = k) =
Media i dispersia sunt:
Exemplu:
(2)
E(X) =
n+1
2 ,
1
,
n
cu probabilitile
k = 1, 2, . . . , n.
n2 1
12 .
D2 (X) =
numrul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat
Repartiia Bernoulli25 , B(1, p)
Scriem
Matlab.
X B(1, p).
V.a.
U(6).
(bino)
de tip Bernoulli poate lua doar dou valori,
X = 1
(succes) sau
X = 0
P (X = 1) = p; P (X = 0) = 1 p.
E(X) = p; D2 (X) = p(1 p).
(insucces), cu probabilitile
Exemplu:
(3)
aruncarea o singur dat a unei monede ideale poate modelat ca ind o v.a.
Repartiia binomial, B(n, p):
Scriem
B(1, 0.5).
(bino)
X B(n, p) (schema bilei revenite sau schema

X sunt {0, 1, . . . , n}, cu probabilitile
extragerilor cu repetiie)
(n > 0, p (0, 1)),
dac valorile lui
P (X = k) = Cnk pk (1 p)nk , k = 0, 1, . . . , n.
Dac
(Xk )k=1,n B(1, p)
Exemplu:
(4)
E(X) = np; D2 (X) = np(1 p).

i
(Xk )k
independente stochastic, atunci
Xk B(n, p).
k=1
aruncarea de
15 ori a unei monede ideale poate modelat ca ind o v.a.
Repartiia hipergeometric, H(n, a, b)
X H(n, a, b)
Cak Cbnk
,
n
Ca+b
pentru orice
binomial
B(15, 0.5).
(hyge)
(schema bilei nerevenite sau schema extragerilor fr repetiie)
P (X = k) =
25 Jacob
X=
n
X
ce satisface
Bernoulli (1654 1705), matematician elveian
(n, a, b > 0)
dac
max(0, n b) k min(a, n).
215

EX =
n
X
E(Xi ) = np; D2 (X) = np(1 p)
i=0
Observaia 30.1
(i)
Dac
(Xk )k=0,n B(1, n),

n
X
X=
cu
p=
a+bn
.
a+b1
a
a+b (v.a. dependente stochastic), atunci
Xi H(n, a, b).
i=1
n cazul schemei bilei nerevenite, nu mai putem scrie egalitate ntre
D2 (X)
n
X
D2 (Xi ),
deoarece
(Xi )i
i=0
nu sunt independente stochastic.
(ii)
Pentru
N = a + b n,
putem face aproximarea
a+bn
a+b1
a+bn
a+b
=1
n
N , de unde

n
.
D2 (X) np(1 p) 1
N
(30.1)
Observm c repartiiile binomial i hipergeometric au aceeai medie, ns dispersiile difer prin terme-
N n
N 1 . n cazul n care numrul de bileeste mult mai mare dect numrul de extrageri (N n), atunci
n
acest termen devine aproximativ 1
N . n plus, dac N este foarte mare, atunci trecnd N n
nul
(30.1), gsim c i dispersiile celor dou repartiii coincid. Cu alte cuvinte, cnd numrul de bile din urn
este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiie sau nu. Acest fapt l vom
utiliza n Teoria seleciei, cnd extragerile se fac dintr-o colectivitate de volum foarte mare.
(5)
Repartiia Poisson26 , P()
(poiss)
) realizate ntr-un anumit interevenimentelor rare) dac X ia valori naturale,
Valorile sale reprezint numrul evenimentelor spontane (cu intensitatea

val de timp. Pentru un
> 0,
spunem c
X P()
(legea
cu probabilitile
P (X = k) = e
k
, k N.
k!
E(X) = ; D2 (x) = .
(6)
Repartiia geometric, Geo(p)
(geo)
Valorile sale reprezint numrul de insuccese avute pn la obinerea primului succes,

stiind probabilitatea de obinere a unui succes,
Spunem c
X Geo(p),
(p (0, 1))
dac
P (X = k) = p(1 p)k ,
E(X) =
p.
ia valori n
N,
pentru orice
cu probabilitile
k N,
unde
p 0.
1p
1p
; D2 (X) =
.
p
p2
Observaia 30.2
primul succes.
26 Simon-Denis
Dac
X Geo(p),
Y =X +1
reprezint
ateptarea pn la
Poisson (1781 1840), matematician i zician francez, student al lui Laplace
216

(7)
Repartiia binomial cu exponent negativ, BN (m, p)
(nbin)
Valorile sale reprezint numrul de insuccese obinute nainte de a se realiza succesul de rang
n cazul particular
Pentru
m = 1,
m.
obinem repartiia geometric.
m 1, p (0, 1),
spunem c
X BN (m, p)
dac
ia valorile
{m, m + 1, m + 2, . . . },
cu
probabilitile
m1
P (X = k) = Cm+k1
pm (1 p)k , k m, p 0.
E(X) =
m(1 p)
m(1 p)
; D2 (X) =
.
p
p2
Exemple de repartiii continue

(1)
Repartiia uniform, U(a, b)
V.a.
X U(a, b) (a < b)
(unif)
dac funcia sa de densitate este
1
ba

f (x; a, b) =
E(X) =
, dac x (a, b)
, altfel.
(b a)2
a+b
, D2 (X) =
.
2
12
Exemplu:
Alegerea la ntmplare a unei valori din intervalul
aceeai ans de a aleas, urmeaz o repartiie
U(0, 1).
(0, 1),
Comanda
n cazul n care orice valoare are
rand
din
Matlab realizeaz acest
experiment (vezi capitolul urmtor).
(2)
Repartiia normal, N (, )
Spunem c
X N (, ),
dac
(norm)
are densitatea:
(x)2
1
f (x; , ) = e 22 , x R.
2
E(X) = i D2 (X) = 2 .
Se mai numete i repartiia gaussian. n cazul
= 0, 2 = 1
densitatea de repartiie devine:
x2
1
f (x) = e 2 , x R.
2
n acest caz spunem c
urmeaz
repartiia normal standard, N (0, 1).

clopotul lui Gauss
Gracul densitii de repartiie pentru repartiia normal este
(30.2)
(vezi Figura 30.1). Din
= 1), se observ c majoritatea valorilor nenule ale repartiiei normale standard

( 3, + 3) = (3, 3). Aceast armaie se poate demonstra cu ajutorul relaiei
grac (pentru
se a
n intervalul
(5.5).
Z N (0, 1), atunci X = Z + N (, ). n mod similar, dac X N (, ), atunci Z =

N (0, 1). Pentru o v.a. N (0, 1) funcia de repartiie este tabelat (valorile ei se gsesc n tabele)
are o notaie special, (x). Ea e denit prin:
Z x
y2
1
(x) =
e 2 dy.
(30.3)
2
Dac
217
Figura 30.1: Clopotul lui Gauss pentru X N (0, ), ( = 1, 2, 3)
X N (, )
este dat prin
F (x) = (
(3)
x
),
Repartiia log-normal, logN (, )
x R.
(30.4)
(logn)
Repartiia log-normal este foarte util n Matematicile Financiare, reprezentnd o repartiie de preuri
viitoare pentru un activ nanciar.
Dac
X N (, ),
atunci
Y = eX
este o v.a.
nenegativ, avnd
densitatea de repartiie
(
f (x; , ) =
e
2
(ln x)2
2 2
0
Aadar,
Y logN (, )
dac
ln Y N (, ).
2
E(X) = e+ /2 ,
Media i dispersia sunt date de
(4)
, dac x > 0
, dac x 0
2
D2 (X) = e2+ (e 1).
Repartiia exponenial, exp()
(exp)
Valorile sale sunt timpi realizai ntre dou valori spontane repartizate
Spunem c
X exp() ( > 0)
dac are densitatea de repartiie

f (x; ) =
Observaia 30.3
E(X) =
P().
D2 (X) =
ex , dac x > 0
0
, dac x 0
1
.
2
Repartiia exponenial satisface proprietatea aa-numitei
lips de memorie, i.e.,
P ({X > x + y}|{X > y}) = P ({X > x}), x, y 0.
218
Este unica distribuie continu cu aceast proprietate. Distribuia geometric satisface o variant discret
a acestei proprieti. [
(5)
Vericai!]
Repartiia Gamma, (a, )
O v.a.
X (a, ), a, > 0,
(gam)
dac densitatea sa de repartiie este:
a a1 x
e
(a) x
, dac
x > 0,
, dac
x 0.
(
f (x; a, ) =
unde
este funcia lui Euler,
Z
: (0, ) (0, ),
(a) =
xa1 ex dx.
0
Observaia 30.4
(ii) Dac v.a.
(i)
E(X) =
a
a
, D2 (X) = 2 .
(1, ) exp().
{Xk }k=1,n exp()
sunt independente stochastic, atunci suma lor
n
X
Xk (n, ).
k=1
(6)
Repartiia Weibull27 , W bl(k, )
(wbl)
Aceast repartiie este asemntoare cu repartiia exponenial (aceast obinndu-se n cazul particular
k = 1)
k = 3.4, distribuia Weibull

k , aceast repartiie se apropie de funcia lui Dirac.
Vom spune c X W bl(k, ) (k > 0, > 0) dac are densitatea de repartiie
(

x k
k x k1 (
) , dac x 0
e

f (x; k, ) =
0
, dac x < 0.

1
Media pentru repartiia X W bl(k, ) este E(X) = 1 +
.
k
i poate modela repartiia mrimii particulelor. Cnd
este asemn-
toare cu cea normal. Cnd
(7)
Repartiia 2 , 2 (n)
O v.a.
X 2 (n)
(se citete
(chi2)
repartiia hi-ptrat cu n grade de libertate)
este:
f (x; n) =
n
( n
)2 2
2
0
unde
x 2 1 e 2
dac densitatea sa de repartiie
, dac
x > 0,
, dac
x 0.
este funcia lui Euler. Gracul acestei repartiii (pentru diverse valori ale lui
n Figura 30.2.
27 Ernst
E(2 ) = n, D2 (2 ) = 2n.
Hjalmar Waloddi Weibull (1887 1979), matematician i inginer suedez
n)
este reprezentat
219
Observaia 30.5
(b)
(a)
2 (n) este, de fapt, repartiia ( n2 , 21 ).

Xk N (0, 1) pentru k = 1, 2, . . . , n, atunci
Repartiia
Dac v.a. independente
X12 + X22 + + Xn2 2 (n).

n particular, dac
X N (0, 1),
atunci
X 2 2 (1).
Figura 30.2: Repartiia 2 (n) pentru patru valori ale lui n.
(8)
Repartiia Student (W. S. Gosset28 ), t(n)
Spunem c
X t(n)
(cu
(t)
grade de libertate) dac densitatea de repartiie este:

n+1
2 2
n+1
x
2
1+
f (x; n) =
,
n
n n2
E(X) = 0, D2 (X) =
(9)
n
.
n2
Repartiia Fisher29 , F(m, n)
Spunem c
E(X) =
X F(m, n)
(f)
m, n grade de libertate) dac densitatea de repartiie

m m m+n
m+n
( n ) 2 ( 2 ) m2 1
m
2
x
1
+
x
, x > 0;
m
n
n
( 2 )( 2 )
f (x) =
0
, x 0.
(cu
este:
n
2n2 (n + m 2)
, D2 (X) =
.
n2
m(n 2)2 (n 4)
28 William
29 Sir
x R.
Sealy Gosset (1876 1937), statistician britanic, care a publicat sub pseudonimul Student
Ronald Aylmer Fisher (1890 1962), statistician, eugenist, biolog i genetician britanic
220

(10)
Repartiia Cauchy30 , C(, )
Spunem c
X C(, )
(fr corespondent n
dac densitatea de repartiie este:
f (x; , ) =
,
[(x )2 + 2 ]
NU admite medie, dispersie sau momente!!!
30 Augustin
Matlab)
Louis Cauchy (1789 1857), matematician francez
x R.
221
Bibliografie [Dr. Iulian Stoleriu]
Bibliograe
[1] Petru Blaga,
Statistic. . . prin Matlab, Presa universitar clujean, Cluj-Napoca, 2002.
[2] David Brink,
Statistics compendium, David Brink & Ventus Publishing ApS, 2008.
[3] David Brink,
Statistics exercises, David Brink & Ventus Publishing ApS, 2008.
[4] Gheorghe Ciucu, Virgil Craiu,

i Pedagogic, Bucureti,
[5] Steve Dobbs, Jane Miller,
Teoria estimaiei i vericarea ipotezelor statistice, Editura Didactic
1968.
Statistics 1, Cambridge University Press, Cambridge 2000.
[6] Jay L. DeVore, Kenneth N. Berk,
Modern Mathematical Statistics with Applications (with CD-ROM),
2006.
Duxbury Press,
[7] Robert V. Hogg, Allen Craig, Joseph W. McKean,

Hall, 6th edition,
Introduction to Mathematical Statistics, Prentice
2004.
[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu,
tistic, Editura tiinic i enciclopedic, Bucureti, 1985.
[9]
Mic enciclopedie de sta-
http://www.mathworks.com
[10] Gheorghe Mihoc, N. Micu,

[11] Elena Nenciu,
Teoria probabilitilor i statistica matematic, Bucuresti, 1980.
Lecii de statistic matematic, Universitatea A. I. Cuza, Iai, 1976.
[12] Octavian Petru,
Probabiliti i Statistica matematic - Computer Applications, Iai, 2000.
[13] Sanford Weisberg,
Applied Linear Regression,
Wiley series in Probability and Statistics,
3rd
ed.,
2nd
ed.,
2005.
[14] Larry J. Stephens,
Theory and problems of Beginning Statistics,
The McGraw-Hill Companies, Inc.,
[15] Dominick Salvatore, Derrick Reagle,

Outline Series,
2nd
Schaum's Outline Series,
1998.
Theory and problems of Statistics and Econometrics, Schaum's
ed., The McGraw-Hill Companies, Inc.,
2002.
Matlab. MatrixRom, Bucureti, 2010.
[16] Iulian Stoleriu,
Statistic prin
[17] Gbor Szkely,
Paradoxes in Probability Theory and Mathematical Statistics,
Applications), Springer Verlag,

[18] David Williams,
Press,
2001.
(Mathematics and its
1987.
Weighing the Odds: A Course in Probability and Statistics,
Cambridge University

Curs

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs

Încărcat de

Drepturi de autor:

Formate disponibile

Iulian STOLERIU

1 Statistic Aplicat (C1)

C1 & L1 [Dr. Iulian Stoleriu]

pe un anumit teren arabil;

pentru selectarea unor noi specii;

sau pentru a studia efectele nclzirii globale;

n Medicin, pentru testarea unor noi medicamente sau vaccinuri;

C1 & L1 [Dr. Iulian Stoleriu]

informaii i s le interpreteze. Un cercettor ntr-un domeniul teoretic al Statisticii, cum este i

C1 & L1 [Dr. Iulian Stoleriu]

ans de a  alei. Aceast metod mininimizeaz riscul de a  prtinitor sau favorabil

anumite straturi (nu din toate).

C1 & L1 [Dr. Iulian Stoleriu]

Organizarea i descrierea datelor

C1 & L1 [Dr. Iulian Stoleriu]

Tabela 1.1: Tabel cu frecvene pentru date discrete.

Plya (1887 1985), matematician ungur

C1 & L1 [Dr. Iulian Stoleriu]

Tabela 1.2: Date statistice negrupate

Tabela 1.3: Tabel cu frecvene pentru date continue.

fi este frecvena apariiei valorilor din [ai1 , ai ), (i = 1, 2, . . . , r),

C1 & L1 [Dr. Iulian Stoleriu]

Tabela 1.4: Tabel cu frecvene pentru rata somajului.

Motive serioase pentru care merit s devii statistician

(10) Pentru statisticienii, deviaiile sunt considerate a  normale.

Laborator 1 [Dr. Iulian Stoleriu]

2 Statistic Aplicat (L1)

Figura 2.1: Reprezentarea cu puncte.

Reprezentare prin puncte

Laborator 1 [Dr. Iulian Stoleriu]

produce Figura 2.2.

Figura 2.2: Reprezentarea datelor discrete.

Tabela 2.1: Tabel stem-and-leaf reprezentnd punctajele studenilor.

Laborator 1 [Dr. Iulian Stoleriu]

Figura 2.3: Reprezentrile cu bare.

prezenta o scurt introducere n

deseneaza vectorul Y vs. vectorul X

Comanda care produce primul grac din Figura 2.3 este:

bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)

scris prescurtat prin

Laborator 1 [Dr. Iulian Stoleriu]

barh(5:9, [3 5 6 4 2], 0.5)

n Figura 2.4, am reprezentat prin bare

este generat de codul urmtor:

X = 1:7; Y = randperm(7); Z = 14:-2:2; M = [X'; Y'; Z'];

Figura 2.4: Reprezentare 3D prin bare.

Acesta deriv din

Pearson (1857 1936), statistician, avocat i eugenist britanic

Laborator 1 [Dr. Iulian Stoleriu]

nlimea (n cm) frecvena

Tabela 2.2: Tabel cu nlimile plantelor.

Matlab uzuale pentru crearea histogramelor sunt:

unde X este un vector, n este numarul de bare

Matlab care produce acest grac este:

X = [5*rand(5,1); 5*rand(13,1)+5; 5*rand(23,1)+10; 5*rand(17,1)+15; ...

n Tabelul 2.4, datele din ultimele dou clase au fost cumulate

Laborator 1 [Dr. Iulian Stoleriu]

datele vor  mprite (unde este posibil) n clase de lungimi egale.

Uneori aceste divizri sunt naturale,

alteori va trebui s le fabricm.

numrul de clase este, n general, ntre

nregistrai numrul de date ce cad n ecare clas (numite

gura ce conine histograma va avea clasele pe orizontal i frecvenele pe vertical.

ans de a alei. Aceast metod mininimizeaz riscul de a prtinitor sau favorabil

(10) Pentru statisticienii, deviaiile sunt considerate a normale.

Comanda care produce primul grac din Figura 2.3 este:

Matlab care produce acest grac este:

X = [5rand(5,1); 5rand(13,1)+5; 5rand(23,1)+10; 5rand(17,1)+15; ...

datele vor mprite (unde este posibil) n clase de lungimi egale.

nregistrai numrul de date ce cad n ecare clas (numite

gura ce conine histograma va avea clasele pe orizontal i frecvenele pe vertical.

Pentru exemplicare, n Tabelul 2.6 am prezentat frontierele claselor, limile lor i

orice act cu rezultat incert, care poate repetat n

nu inueneze rezultatul alteia (

lim fN (A) i aceasta este denit ca ind probabilitatea de realizare a evenimentului A,

Deniia axiomatic a probabilitii

Aceasta este deniia axiomatic dat de A. N. Kolmogorov. Un cmp de evenimente