Sunteți pe pagina 1din 222

Iulian STOLERIU

Statistic Aplicat

1 Statistic Aplicat (C1)


Introducere n Statistic
Scurt istoric
Statistica este o ramur a tiinelor ce se preocup de procesul de colectare de date i informaii,
de organizarea i interpretarea lor, n vederea explicrii unor fenomene reale. n general, prin date
(sau date statistice) nelegem o mulime de numere ce au o anumit nsemntate. Aceste numere
pot  legate ntre ele sau nu. Suntem interesai de studiul acestor date, cu scopul de a nelege
anumite relaii ntre diverse trsturi ce msoar datele culese. De regul, oamenii au anumite
intuiii despre realitatea ce ne nconjoar, pe care le doresc a  conrmate ntr-un mod ct mai
exact. De exemplu, dac ntr-o anumit zon a rii rata somajului este ridicat, este de ateptat
ca n acea zon calitatea vieii persoanelor de acolo s nu e la standarde ridicate. Totui, ne-am
dori s m ct mai precii n evaluarea legturii dintre rata somajului i calitatea vieii, de aceea
ne-am dori s construim un model matematic ce s ne conrme intuiia. Un alt gen de problem:
ardem de nerbdare s am cine va  noul preedinte, imediat ce seciile de votare au nchis porile
(exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea i unicarea tuturor datelor
ntr-un timp record nu este o msur deloc practic. n ambele probleme menionate, observaiile
i culegerea de date au devenit prima treapt spre nelegerea fenomenului studiat. De cele mai
multe ori, realitatea nu poate  complet descris de un astfel de model, dar scopul este de a oferi
o aproximare ct mai del i cu costuri limitate. n ambele situaii menionate apar erori n
aproximare, erori care in de ntmplare. De aceea, ne-am dori s putem descrie aceste fenomene
cu ajutorul variabilelor aleatoare. Plecnd de la coleciile de date obinute dintr-o colectivitate,
Statistica introduce metode de predicie i prognoz pentru descrierea i analiza proprietilor
ntregii colectiviti. Aria de aplicabilitate a Statisticii este foarte mare: tiine exacte sau sociale,
umanistic sau afaceri etc. O disciplin strns legat de Statistic este Econometria. Aceasta
ramur a Economiei se preocup de aplicaii ale teoriilor economice, ale Matematicii i Statisticii
n estimarea i testarea unor parametri economici, sau n prezicerea unor fenomene economice.
Statistica a aprut n secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre
populaiile pe care le reprezentau sau de a studia mersul economiei locale, n vederea unei mai
bune administrri. Datorit originii sale, Statistica este considerat de unii ca ind o tiin de
sine stttoare, ce utilizeaz aparatul matematic, i nu este privit ca o subramur a Matematicii.
Dar nu numai originile sale au fost motivele pentru care Statistica tinde s devin o tiin separat
de Teoria Probabilitilor. Datorit revoluiei computerelor, Statistica a evoluat foarte mult n
direcia computaional, pe cnd Teoria Probabilitilor foarte puin. Aa cum David Williams
scria n [18], "Teoria Probabilitilor i Statistica au fost odat cstorite; apoi s-au separat; n
cele din urm au divorat. Acum abia c se mai ntlnesc".
Din punct de vedere etimologic, cuvntului statistic i are originile n expresia latin statisticum
collegium (nsemnnd consiliul statului) i cuvntul italian statista, nsemnnd om de stat sau
politician. n 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat
pentru a analiza datele referitoare la stat. Mai trziu, n secolul al XIX-lea, Sir John Sinclair a
extrapolat termenul la colecii i clasicri de date.
Metodele statistice sunt astzi aplicate ntr-o gam larg de discipline. Amintim aici doar cteva

C1 & L1 [Dr. Iulian Stoleriu]

exemple:
n Agricultur, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a  folosite

pe un anumit teren arabil;

n Economie, pentru studiul rentabilitii unor noi produse introduse pe pia, pentru core-

larea cererii cu ofert, sau pentru a analiza cum se schimb standardele de via;

n Biologie, pentru clasicarea din punct de vedere tiinic a unor specii de plante sau

pentru selectarea unor noi specii;

n tiinele educaiei, pentru a gsi cel mai ecient mod de lucru pentru elevi sau pentru a

studia impactul unor teste naionale asupra diverselor caregorii de persoane ce lucreaz n
nvmnt;

n Meteorologie, pentru a prognoza vremea ntr-un anumit inut pentru o perioad de timp,

sau pentru a studia efectele nclzirii globale;

n Medicin, pentru testarea unor noi medicamente sau vaccinuri;


n Psihologie, n vederea stabilirii gradului de corelaie ntre timiditate i singurtate;
n Politologie, pentru a verica dac un anumit partid politic mai are sprijinul populaiei;
n tiinele sociale, pentru a studia impactul crizei economice asupra unor anumite clase

sociale;

etc.

Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai nti
care este colectivitatea asupra creia se dorete studiul. Aceast colectivitate (sau populaie)
poate  populaia unei ri, sau numai elevii dintr-o coal, sau totalitatea produselor agricole
cultivate ntr-un anumit inut, sau toate bunurile produse ntr-o uzin. Dac se dorete studiul
unei trsturi comune a tuturor membrilor colectivitii, este de multe ori aproape imposibil de
a observa aceast trstur la ecare membru n parte, de aceea este mult mai practic de a
strnge date doar despre o submulime a ntregii populaii i de a cuta metode eciente de a
extrapola aceste observaii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cu
descrierea acestei colecii de date, numit Statistic descriptiv. Aceast descriere a trsturilor
unei colectiviti poate  fcut att numeric (media, dispersia, mediana, cuantile, tendine etc),
ct i grac (prin puncte, bare, histograme etc). De asemenea, datele culese pot  procesate ntrun anumit fel, nct s putem trage concluzii foarte precise despre anumite trsturi ale ntregii
colectiviti. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale ntregii
colectiviti, studiind doar o parte din ea, se numete Statistic inferenial. n contul Statisticii
infereniale putem trece i urmtoarele: luarea de decizii asupra unor ipoteze statistice, descrierea
gradului de corelare ntre diverse tipuri de date, estimarea caracteristicilor numerice ale unor
trsturi comune ntregii colectiviti, descrierea legturii ntre diverse caracteristici etc.
Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract
a Statisticii. Din datele culese pe cale experimental, Statistica Matematic va cuta s extrag

C1 & L1 [Dr. Iulian Stoleriu]

informaii i s le interpreteze. Un cercettor ntr-un domeniul teoretic al Statisticii, cum este i


Statistica Matematic, va cuta s mbunteasc metodele teoretice existente sau s introduc
altele noi. Aceasta va utiliza noiuni din Teoria probabilitilor, dar i noiuni din alte ramuri ale
Matematicii, cum ar : Algebra liniar, Analiza matematic, Teoria optimizrii. De asemenea,
partea computaional este deosebit de util n studiul Statisticii moderne, fr de care cercetarea
ar  ngreunat sau, uneori, chiar imposibil de realizat. n aceast lucrare vom utiliza pachetele de
programe
pentru efectuarea calculelor, n versiunea
7.1. Acest software este
introdus i dezvoltat de compania The MathWorks (vezi [9]).

Matlab

Matlab

Modelare Statistic
De obicei, punctul de plecare este o problem din viaa real, e.g., care partid are o susinere
mai bun din partea populaiei unei ri, dac un anumit medicament este relevant pentru boal
pentru care a fost creat, dac este vreo corelaie ntre numrul de ore de lumina pe zi i depresie.
Apoi, trebuie s decidem de ce tipuri date avem nevoie s colectm, pentru a putea da un rspuns
la ntrebarea ridicat i cum le putem colecta. Modurile de colectare a datele pot  diverse: putem
face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este
nevoie de o metod bine stabilit de colectare a datelor i s construim un model statistic potrivit
pentru analiza acestora. n general, date culese de noi pot  potrivite ntr-un model statistic prin
care
Data observat = f (x, ) + eroare de aproximare,
(1.1)
unde f este o funcie ce veric anumite proprieti i este caracteristic modelului, x este vectorul
ce conine variabilele msurate i e un parametru (sau un vector de parametri), care poate 
determinat sau nedeterminat. Termenul de eroare apare deseori n pratic, deoarece unele date
culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, i eventual
revizuit, astfel nct s se potriveasc ntr-o msur ct mai precis datelor culese.
Denim o populaie (colectivitate) statistic ca ind o mulime de elemente ce posed o trasatur
comun. Aceasta poate  nit sau innit, real sau imaginar. Elementele ce constituie o colectivitate statistic se vor numi uniti statistice sau indivizi. Volumul unei colectiviti statistice
este dat de numrul indivizilor ce o constituie. Caracteristica (variabila) unei populaii statistice
este o anumit proprietate urmrit la indivizii ei n procesul prelucrrii statistice. Caracteristicile
pot : cantitative (msurabile sau variabile) (e.g., 2, 3, 5, 7, 11, . . . ) i calitative (nemsurabile sau
atribute) (e.g., rou, verde, albastru etc). La rndul lor, variabilele cantitative pot  discrete (numrul de sosiri ale unui tramvai n staie) sau continue (timpul de ateptare ntre dou sosiri ale
tramvaiului n staie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii
ind astfel caracteristici numerice ale colectivitii.
Suntem interesai n a msura una sau mai multe variabile relative la o populaie, ns aceasta s-ar
putea dovedi o munc extrem de costisitoare, att din punctul de vedere al timpului necesar, ct
i din punctul de vedere al depozitrii datelor culese, n cazul n care volumul colectivitii este
mare sau foarte mare (e.g., colectivitatea este populaia cu drept de vot a unei ri i caracteristica
urmrit este candidatul votat la alegerile prezideniale). De aceea, este foarte ntemeiat alegerea
unei selecii de date din ntreaga populaie i s urmrim ca pe baza datelor selectate s putem
trage o concluzie n ceea ce privete variabila colectivitii.
O selecie (sau eantion) este o colectivitate parial de elemente extrase (la ntmplare sau nu)

C1 & L1 [Dr. Iulian Stoleriu]

din colectivitatea general, n scopul cercetrii lor din punctul de vedere al unei caracteristici.
Dac extragerea se face la ntmplare, atunci spunem c am facut o selecie ntmpltoare. Numrul indivizilor din selecia aleas se va numi volumul seleciei. Dac se face o enumerare sau o
listare a ecrui element component al unei a populaii statistice, atunci spunem c am facut un
recensmnt. Selecia ar trebui s e reprezentativ pentru populaia din care face parte. Numim
o selecie repetat (sau cu repetiie) o selecie n urma creia individul ales a fost reintrodus din
nou n colectivitate. Altfel, avem o selecie nerepetat. Selecia nerepetat nu prezint interes
dac volumul colectivitii este nit, deoarece n acest caz probabilitatea ca un alt individ s e
ales ntr-o extragere nu este aceeai pentru toi indivizii colectivitii. Pe de alt parte, dac
volumul ntregii populaii statistice este mult mai mare dect cel al eantionului extras, atunci
putem presupune c selecia efectuat este repetat, chiar dac n mod practic ea este nerepetat.
Spre exemplu, dac dorim s facem o prognoz a cine va  noul preedinte la alegerile din toamn,
eantionul ales (de altfel, unul foarte mic comparativ cu volumul populaiei cu drept de vot) se
face, n general, fr repetiie, dar l putem considera a  o selecie repetat, n vederea aplicrii
testelor statistice.
Seleciile aleatoare se pot realiza prin diverse metode, n funcie de urmtorii factori: disponibilitatea informaiilor necesare, costul operaiunii, nivelul de precizie al informaiilor etc. Mai jos
prezentm cteva metode de selecie.
selecie simpl de un volum dat, prin care toi indivizii ce compun populaia au aceeai

ans de a  alei. Aceast metod mininimizeaz riscul de a  prtinitor sau favorabil


unuia dintre indivizi. Totui, aceast metod are neajunsul c, n anumite cazuri, nu reect
componena ntregii populaii. Se aplic doar pentru colectiviti omogene din punctul de
vedere al trsturii studiate.

selecie sistematic, ce presupune aranjarea populaiei studiate dup o anumit schem ordonat i selectnd apoi elementele la intervale regulate. (e.g., alegerea a ecrui al 10-lea

numr dintr-o carte de telefon, primul numr ind ales la ntmplare (simplu) dintre primele
10 din list).

selecie straticat, n care populaia este separat n categorii, iar alegerea se face la ntm-

plare din ecare categorie. Acest tip de selecie face ca ecare grup ce compune populaia s
poata  reprezentat n selecie. Alegerea poate  facut i n funcie de mrimea ecrui grup
ce compune colectivitatea total (e.g., aleg din ecare jude un anumit numr de persoane,
proporional cu numrul de persoane din ecare jude).

selecie ciorchine, care este un eantion straticat construit prin selectarea de indivizi din

anumite straturi (nu din toate).

selecia de tip experien, care ine cont de elementul temporal n selecie. (e.g., diveri timpi

de pe o encefalogram).

selecie de convenien: de exemplu, alegem dintre persoanele care trec prin faa universitii.
selecie de judecat: cine face selecia decide cine ramne sau nu n selecie.
selecie de cot: selecia ar trebui s e o copie a ntregii populaii, dar la o scar mult mai

mic. Aadar, putem selecta proporional cu numrul persoanelor din ecare ras, de ecare

C1 & L1 [Dr. Iulian Stoleriu]

gen, origine etnic etc) (e.g., persoanele din Parlament ar trebui s e o copie reprezentativ
a persoanelor ntregii ri, ntr-o scar mult mai mic).

Organizarea i descrierea datelor


Presupunem c avem o colectivitate statistic, creia i se urmrete o anumit caracteristic.
(e.g., colectivitatea este mulimea tuturor studenilor dintr-o universitate nrolai ntr-un anumit
an de studii, iar caracteristica este numrul de credite obinute de studeni n decursul acelui an).
Vom numi date informaiile obinute n urma observaiei valorilor acestei caracteristici. Datele
pot  calitative sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ
sau, respectiv, cantitativ. Aceste date pot  date discrete, dac sunt obinute n urma observrii
unei caracteristici discrete (o variabila aleatoare discret), sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu). n cazul din exemplu, datele vor 
cantitative i discrete.
Primul pas n analiza datelor proaspt culese este de a le ordona i reprezenta grac, dar i de a
calcula anumite caracteristici numerice pentru acestea. Datele nainte de prelucrare, adic exact
aa cum au fost culese, se numesc date negrupate. De exemplu, numrul de apeluri la 112 n luna
Iulie, specicat zilnic, este:
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948
598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmrete a se grupa datele, pentru o mai uoar gestionare. Imaginai-v c enumerm toate voturile
unei selecii ntmpltoare de 15000 de votani, abia ieii de la vot. Mai degrab, este util s
grupm datele dup numele candidailor, preciznd numrul de voturi ce l-a primit ecare.

Gruparea datelor
Datele prezentate sub form de distribuie (tabel) de frecvene se numesc date grupate. Datele
de selecie obinute pot  date discrete sau date continue, dup cum caracteristicile studiate sunt
variabile aleatoare discrete sau, respectiv, continue.
(1) Dac datele de selecie sunt discrete (e.g., {x1 , x2 , . . . , xn }) i au valorile distincte
x01 , x02 , . . . , x0r , r n, atunci ele pot  grupate ntr-un aa-numit tabel de frecvene (vezi exemplul
din Figura 1.1) sau ntr-un tablou de frecvene, dup cum urmeaz:
data :

x01
f1

x02
f2

...
...

x0r
fr

unde fi este frecvena apariiei valorii x0i , (i = 1, 2, . . . , r), i se va numi distribuia empiric de
selecie a lui X . Aceste frecvene pot  absolute sau de relative. Un tabel de frecvene (sau o
distribuie de frecvene) conine toate categoriile ce sunt observate din datele colectate i numrul
de elemente ce aparine ecrei categorii n parte, adic frecvena absolut. O frecven relativ
se obine prin mprirea frecvenei absolute a unei categorii la suma tuturor frecvenelor din tabel.

C1 & L1 [Dr. Iulian Stoleriu]


nota

frecvena

frecvena relativ

2.22%

4.44%

8.89%

15

16.67%

18

20.00%

17

18.89%

15

16.67%

7.78%

10

4.44%

Total

90

100%

Tabela 1.1: Tabel cu frecvene pentru date discrete.


Astfel, suma tuturor frecvenelor relative este egal cu 1. Elementele unui tabel sunt, de regul:
valori pentru variabile, frecvene sau frecvene relative.
n Tabelul 1.1, sunt prezentate notele studenilor din anul al III-lea la examenul de Statistic.
Acesta este exemplu de tabel ce reprezent o caracteristic discret.

Observaia 1.1 (o glum povestit de G. Plya,1 despre cum NU ar trebui interpretat frecvena

relativ)
Un individ suferind merge la medic. Medicul l examineaz ndelung i, balansnd dezamgit
capul, i spune pacientului:
"Of... drag domnule pacient, am dou veti: una foarte proast i una bun. Mai nti v aduc
la cunotin vestea proast: suferii de o boal groaznic. Statistic vorbind, din zece pacieni ce
contracteaz aceast boal, doar unul scap."
Pacientul, deja n culmea disperrii, este totui consolat de doctor cu vestea cea bun:
"Dar, i pe pace! Dumneavoastr ai venit la mine, i asta v face tare norocos", continu
optimist doctorul.
"Am avut deja nou pacieni ce au avut aceeai boal i toi au murit, aa c... vei supravieui!"
(2) Dac X este de tip continuu, atunci se obinuieste s se fac o grupare a datelor de selecie n
clase. De exemplu, ni se dau datele din Tabelul 1.2, reprezentnd timpi (n min.sec) de ateptare
pentru primii 100 de clieni care au ateptat la un ghieu pn au fost servii.
Putem grupa datele de tip continuu ntr-un tablou de distribuie de forma:
data :

[a0 , a1 )
f1

[a1 , a2 )
f2

...
...

[ar1 , ar )
fr


,

sau sub forma unui tabel de distribuie (vezi Tabelul 1.3). Aadar, putem grupa datele de tip
continuu de mai sus n tablou de distribuie:

1 Gyrgy

[0, 1)
14

[1, 2)
17

[2, 3)
21

Plya (1887 1985), matematician ungur

[3, 4)
18

[4, 5)
16

[5, 6)
14


.

(1.2)

C1 & L1 [Dr. Iulian Stoleriu]


1.02
0.13
2.98
0.94
1.12
3.79
3.12
5.36

2.01
5.32
4.33
3.44
4.75
1.48
0.71
1.32

2.08
3.97
5.08
1.35
2.88
2.65
2.76

3.78
3.36
4.67
3.64
4.30
1.55
1.95

2.03
4.31
0.79
2.92
4.55
3.95
0.10

0.92
3.58
3.14
2.67
5.87
5.88
4.22

4.08
5.64
0.99
2.86
0.70
1.58
5.69

2.35
1.95
0.78
2.41
5.04
5.49
5.41

1.30
0.91
2.34
3.19
5.33
0.48
1.68

4.50
1.26
4.51
5.41
2.40
2.77
2.46

4.06
0.74
3.53
5.14
1.50
3.20
1.40

3.55
3.64
4.55
2.75
0.83
2.51
2.16

2.63
4.77
1.89
1.67
3.74
5.80
4.98

1.76
2.14
3.28
3.89
4.85
4.12
0.88

Tabela 1.2: Date statistice negrupate


clasa

frecvena

valoare medie

[a0 , a1 )
[a1 , a2 )

f1
f2

.
.
.

.
.
.

x01
x02

[ar1 , ar )

fr

.
.
.

x0r

Tabela 1.3: Tabel cu frecvene pentru date continue.


Uneori, tabelul de distribuie pentru o caracteristic de tip continuu mai poate  scris i sub forma:
data :

x01
f1

x02
f2

...
...

x0r
fr

unde
x0i =

ai1 + ai
este elementul de mijloc al clasei [ai1 , ai );
2

fi este frecvena apariiei valorilor din [ai1 , ai ), (i = 1, 2, . . . , r),

r
X

f i = n.

i=1

Aadar, dac ne este dat o niruire de date ale unei caracteristici discrete sau continue, atunci
le putem grupa imediat n tabele sau tablouri de frecvene. Invers (avem tabelul sau tabloul de
repartiie i vrem s enumerm datele) nu este posibil, dect doar n cazul unei caracteristici de
tip discret. De exemplu, dac ni se d Tabelul 1.4, ce reprezint rata somajului ntr-o anumit
regiune a rii pe categorii de vrste, nu am putea ti cu exactitate vrsta exact a persoanelor
care au fost selecionate pentru studiu.
Observm c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare de mijloc pentru o clas, valoarea obinut prin media valorilor extreme ale clasei. n
cazul Tabelului 1.4, valorile de mijloc sunt scrise n coloana cu vrsta medie. Frecvena cumulat
a unei clase este suma frecvenelor tuturor claselor cu valori mai mici.
Vom numi o serie de timp (sau serie dinamic ori cronologic) un tablou de forma
data :

x1
t1

x2
t2

...
...

xn
tn


,

C1 & L1 [Dr. Iulian Stoleriu]


vrsta

frecvena

frecvena relativ

frecvena cumulat

vrsta medie

[18, 25)
[25, 35)
[35, 45)
[45, 55)
[55, 65)

34
76

8.83%

8.83%

21.5

19.74%

28.57%

124

32.21%

30

60.78%

40

87
64

22.60%

83.38%

50

16.62%

100.00%

60

Total

385

100%

Tabela 1.4: Tabel cu frecvene pentru rata somajului.


unde xi sunt variabile de rspuns, iar ti momente de timp (e.g., rspunsurile citite de un electrocardiograf).

Motive serioase pentru care merit s devii statistician


(top 10)

(10) Pentru statisticienii, deviaiile sunt considerate a  normale.


(9) Statisticienii lucreaz discret i continuu.
(8) Putem concluziona orice dorim, la un nivel de semnicaie potrivit.
(7) Nu trebuie s spunem niciodat ca suntem siguri; e sucient doar 95%.
(6) Normalitatea nu este o condiie sine qua non.
(5) Suntem semnicativ diferii.
(4) Putem testa, fr probleme i folosind o lege bine stabilit, distribuia posterioar a cuiva.
(3) Statistica este arta de a nu  nevoit s spui vreodat c ai greit.
(2) Un statistician poate sta cu capul ntr-un cuptor incandescent i cu picioarele npte n
ghea i s spun c, n medie, se simte bine.
(1) Aproape nimeni nu dorete jobul nostru important, deci nu vei avea emoii c vei rmne
omer.

Laborator 1 [Dr. Iulian Stoleriu]

2 Statistic Aplicat (L1)


Reprezentri grace
Un tabel de frecvene sau o distribuie de frecvene (absolute sau relative) sunt de cele mai multe
ori baza unor reprezentri grace, pentru o mai bun vizualizare a datelor. Aceste reprezentri
pot  fcute n diferite moduri, dintre care amintim pe cele mai uzuale.

0.6

0.4

0.2

10

Figura 2.1: Reprezentarea cu puncte.

Reprezentare prin puncte


Reprezentarea prin puncte (en., dot plot) este folosit pentru selecii de dimensiuni mici. Sunt
reprezentate puncte aezate unul peste celalalt, reprezentnd numrul de apariii ale unei valori
pentru caracteristica dat. Un astfel de grac este reprezentat n Figura 2.1. Aceste reprezentri
sunt utile atunci cnd se dorete scoaterea n eviden a anumitor plcuri de date (en., clusters) sau
chiar lipsa unor date (goluri). Au avantajul de a conserva valoarea numeric a datelor reprezentate.

Matlab

O funcie
util pentru reprezentarea datelor discrete este funcia stem. Aceast funcie
reprezint datele sub forma unor linii verticale terminate cu un un cercule gol (n mod implicit)
la extremitatea opus axei. Are formatul general:
stem(X, Y, 'fill', 'type')

% deseneaza pe Y vs. X

Opiunea 'fill' poate lipsi; dac ea apare, atunci coloreaz cercurile din grac. Opiunea 'type'
se refer la tipul de linie folosit; poate  linie continu (n mod implicit), punctat (:) sau de tip
linie-punct (.). Spre exemplu, linia de cod
x = -pi:pi/10:pi; stem(x, sin(x), 'fill', '--')

10

Laborator 1 [Dr. Iulian Stoleriu]

produce Figura 2.2.

Figura 2.2: Reprezentarea datelor discrete.

Reprezentarea stem-and-leaf
S presupunem c urmtoarele date sunt punctajele (din 100 de puncte) obinute de cei 20 de
elevi ai unei grupe la o testare semestrial:
50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 2.1 reprezint aceste date sub forma stem-and-leaf (ramur-frunz). Se observ c acest
tabel arat att cum sunt repartizate datele, ct i forma repartiiei lor (a se privi gracul c
avnd pe OY drept axa absciselor i OX pe cea a ordonatelor). Aadar, 7|5 semnic un punctaj
de 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod de
vizualizare a datelor. n seciunile urmtoare vom prezenta i alte metode utile.
stem

10
9
8
7
6
5
4
3
2
1
0

leaf

2
1
3
1
0
1
4

6
5
5
2
3
4
9

6
7
2
5
8

8
779
488
9

Tabela 2.1: Tabel stem-and-leaf reprezentnd punctajele studenilor.

11

Laborator 1 [Dr. Iulian Stoleriu]

Reprezentarea cu bare
Este util pentru reprezentarea variabilelor discrete cu un numr mic de valori diferite. Barele sunt
dreptunghiuri ce reprezint frecvenele i nu sunt unite ntre ele. Fiecare dreptunghi reprezint
o singur valoare. ntr-o reprezentare cu bare, categoriile sunt plasate, de regul, pe orizontal
iar frecvenele pe vertical. n Figura 2.31 sunt reprezentate datele din tabelul cu note. Se poate
schimba orientarea categoriilor i a claselor; n acest caz barele vor aprea pe orizontal (vezi
Figura 2.32 ). Pentru reprezentri grace vom folosi aplicaia
. n capitolul urmtor vom

Matlab

Figura 2.3: Reprezentrile cu bare.

Matlab

prezenta o scurt introducere n


. Pentru mai multe detalii, se poate consulta ghidul
online de utilizare [9].
Comenzile
uzuale pentru reprezentarea cu bare sunt:

Matlab

bar(X, Y, 'style');
barh(X, Y);
bar(X, w);
bar3(Y, w, 'style')

Mai sus,

%
%
%
%
%

deseneaza vectorul Y vs. vectorul X


deseneaza pe orizontala vectorul Y vs. vectorul X
deseneaza vectorul X vs. 1:N (N este lungimea lui X);
deseneaza vectorul Y prin bare 3D
w este latimea barelor, 'style' este modul reprezentarii

'style' poate  una dintre urmtoarele: 'detached' (bare separate), 'grouped' (bare grupate
'stacked' (bare suprapuse).

alturat), sau

Exemplu 2.1

(1)

Comanda care produce primul grac din Figura 2.3 este:

bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)


X este vectorul linie [2 3 4 5 6 7 8 9 10],
[2 4 8 15 18 17 15 7 4]. Limea barelor este 0.5.

Aici, vectorul
este

scris prescurtat prin

[2:10],

iar vectorul

12

Laborator 1 [Dr. Iulian Stoleriu]


(2)

Comanda

Matlab urmtoare realizeaz al doilea grac din Figura 2.3, corespunztor datelor din

Tabelul 2.1:

barh(5:9, [3 5 6 4 2], 0.5)


3D trei vectori: X (numerele naturale de la 1 la 7), Y
(permutare aleatoare a elementelor lui X ) i Z (numere naturale pare, de la 14 la 2). Cei trei vectori
formeaz coloanele matricei M . Comanda subplot(m,n,p) divizeaz fereastra grac n m n zone
dreptunghiulare i se poziioneaz pe zona de rang p, unde va executa comanda ce urmeaz. Figura 2.4
(3)

n Figura 2.4, am reprezentat prin bare

este generat de codul urmtor:

X = 1:7; Y = randperm(7); Z = 14:-2:2; M = [X'; Y'; Z'];


subplot(1,3,1); bar3(M, 0.75, 'detached')
subplot(1,3,2); bar3(M, 0.75, 'grouped')
subplot(1,3,3); bar3(M, 0.75, 'stacked')

Figura 2.4: Reprezentare 3D prin bare.

Histograme
Cuvntul "histogram" a fost introdus pentru prima oar de Karl Pearson
cuvintele greceti

histos (gr.,

ridicat n sus) i

gramma (gr.,

2 n

1895.

desen, nregistrare). O

Acesta deriv din

histogram

este o

form pictorial a unui tabel de frecvene, foarte util pentru selecii mari de date de tip continuu. Se
aseamn cu reprezentarea prin bare, cu urmtoarele dou diferene: nu exist spaii ntre bare (dei, pot
aprea bare de nalime zero ce arat a  spaiu liber) i ariile barelor sunt proporionale cu frecvenele
corespunztoare. Numrul de dreptunghiuri este egal cu numrul de clase, limea dreptunghiului este

2 Karl

Pearson (1857 1936), statistician, avocat i eugenist britanic

13

Laborator 1 [Dr. Iulian Stoleriu]

nlimea (n cm) frecvena


[0, 5)
[5, 10)
[10, 15)
[15, 20)
[20, 25)
[25, 30)

5
13
23
17
10
2

Tabela 2.2: Tabel cu nlimile plantelor.


Tabela 2.3: Histograme pentru datele din Tabelul 2.2.
intervalul clasei, iar nlimea este aa nct aria ecrui dreptunghi reprezint frecvena. Aria total a
tuturor dreptunghiurilor este egal cu numrul total de observaii. Dac barele unei histograme au toate
aceeai lime, atunci nlimile lor sunt proporionale cu frecvenele. nlimile barelor unei histogramei
se mai numesc i

densiti de frecven.

n cazul n care limile barelor nu sunt toate egale, atunci nlimile lor satisfac:

nlimea

Comenzile

=k

frecvena
limea clasei

k = factor

de proporionalitate.

Matlab uzuale pentru crearea histogramelor sunt:

hist(X, n);
hist(X, Y);
N = histc(X,E);
bar(E,N,'histc')
hist3(Y)

%
%
%
%
%
%
%

unde X este un vector, n este numarul de bare


deseneaza distributia vectorului X, cu numarul de bare egal cu
lungimea vectorului Y, centrate in elementele lui Y
returneaza numarul N de valori ale vectorului X, care se afla
intre elementele vectorului E
reprezinta grafic pe N determinat anterior
realizeaza o histogram 3D, unde Y este vector bidimensional

Datele din Tabelul 2.2 reprezint nlimile unui eantion de plante culese de un cercettor dintr-o anumit regiune a rii. Reprezentarea cu histograme asociat acestor date este cea din Figura 2.3. Codul

Matlab care produce acest grac este:

X = [5*rand(5,1); 5*rand(13,1)+5; 5*rand(23,1)+10; 5*rand(17,1)+15; ...


5*rand(10,1)+20; 5*rand(2,1)+25];
% genereaza un vector X ca in Tabelul
C = [2.5 7.5 12.5 17.5 22.5 27.5];
% mijloacele latimilor barelor
hist(X,C);
% deseneaza 6 histograme
axis([-1 31 0 30])
% fixeaza axele

2.2

S presupunem c altcineva ar  grupat datele din Tabelul 2.2 ntr-o alt manier, n care clasele nu
sunt echidistante (vezi Tabelul 2.4).

n Tabelul 2.4, datele din ultimele dou clase au fost cumulate

ntr-o singur clas, de lime mai mare dect celelalte, deoarece ultima clas din Tabelul 2.2 nu avea

14

Laborator 1 [Dr. Iulian Stoleriu]


suciente date.

Histograma ce reprezint datele din Tabelul 2.4 este cea din Figura 2.5.

Conform cu

regula proporionalitii ariilor cu frecvenele, se poate observa c primele patru bare au nlimi egale
cu frecvenele corespunztoare, pe cnd nlimea ultimei bare este jumtate din valoarea frecvenei
corespunztoare, deoarece limea acesteia este dublul limii celorlalte.
n general, pentru a construi o histogram, vom avea n vedere urmtoarele:

datele vor  mprite (unde este posibil) n clase de lungimi egale.

Uneori aceste divizri sunt naturale,

alteori va trebui s le fabricm.

numrul de clase este, n general, ntre

20.

nregistrai numrul de date ce cad n ecare clas (numite

frecvene).

gura ce conine histograma va avea clasele pe orizontal i frecvenele pe vertical.

Liniile de cod urmtoare simuleaz histograma reprezentat n Figura 2.5:

x = randn(1000, 2);
hist3(x)

% numere repartizate normal

Figura 2.5: Histogram 3D.

Observaia 2.2
[20, )),

(1)

Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 2.4 este

atunci se obinuiete ca limea ultimului interval s e luat drept dublul limii intervalu-

lui precedent.
(2) n multe situaii, capetele intervalelor claselor sunt nite aproximri, iar n locul acestora vom putea
utiliza alte valori. Spre exemplu, s considerm clasa
ce au nlimea cuprins ntre
i

20

15cm

20cm.

[15, 20).

Aceast clas reprezint clasa acelor plante

Deoarece valorile nlimilor sunt valori reale, valorile

15

sunt, de fapt, aproximrile acestor valori la cel mai apropiat ntreg. Aadar, este posibil ca aceast

clas s conin acele plante ce au nlimile situate ntre

14.5cm

(inclusiv) i

putea face referire la aceste valori ca ind valorile reale ale clasei, numite

20.5cm

(exclusiv).

frontierele clasei.

Am

n cazul n

care am determinat frontierele clasei, limea unei clase se denete ca ind diferena ntre frontierele ce-i

15

Laborator 1 [Dr. Iulian Stoleriu]


corespund. n concluzie, n cazul clasei
de frecven

17
6 .

[15, 20),

aceasta are frontierele

14.5 - 20.5,

limea

i densitatea

Pentru exemplicare, n Tabelul 2.6 am prezentat frontierele claselor, limile lor i

densitile de frecven pentru datele din Tabelul 1.4.

nlimea (n cm) frecvena


[0, 5)
[5, 10)
[10, 15)
[15, 20)
[20, 30)

5
13
23
17
12

Tabela 2.4: Tabel cu nlimile plantelor.


Tabela 2.5: Histograme pentru datele din Tabelul 2.4.
nlimea (n cm)

frontierele

[18, 25)
[25, 35)
[35, 45)
[45, 55)
[55, 65)

17.5 25.5
24.5 35.5
34.5 45.5
44.5 55.5
54.5 65.5

limea frecvena densitatea de frecven


8
11
11
11
11

34
76
124
87
64

4.25
6.91
11.27
7.91
5.82

Tabela 2.6: Tabel cu frontierele claselor.


Reprezentare prin sectoare de disc
Se poate reprezenta distribuia unei caracteristici i folosind sectoare de disc (diagrame circulare) (

pie charts),

ecare sector de disc reprezentnd cte o frecven relativ. Aceast variant este util n

special la reprezentarea datelor calitative. Comanda


este

pie(X).

en.,

Matlab pentru un pie chart pentru un vector X

De exemplu, comanda care produce Figura 2.6 este:

T = [10 11.11 15.56 25.55 22.22 15.56];


pie(T,{'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10'})
Exist i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale, folosind comanda

Matlab. n Figura 2.7 am reprezentat datele din Tabelul 1.4.


pie3([34 76 124 87 64])

pie3(x)

din

16

Laborator 1 [Dr. Iulian Stoleriu]


10%

Nota 5
Nota 6
Nota 7
Nota 8
Nota 9
Nota 10

16%

11%

22%
16%

26%

Figura 2.6: Reprezentarea pe disc a frecvenelor relative ale notelor din tabelul cu note

Figura 2.7: Reprezentare pe disc 3D

17

STATS 2 [Dr. Iulian Stoleriu]

3 Statistic Aplicat (C2)


Elemente de Teoria probabilitilor
Experiene aleatoare
Numim

experien aleatoare

(sau

experiment aleator)

orice act cu rezultat incert, care poate  repetat n

anumite condiii date. Opusul noiunii de experiment aleator este

experimentul determinist,

semnicnd

un experiment ale crui rezultate sunt complet determinate de condiiile n care acesta se desfoar. Rezultatul unui experiment aleator depinde de anumite circumstante ntmpltoare ce pot aparea. Exemple
de experiene aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de via a unui individ,
observarea vremii de a doua zi, observarea numrului de apeluri telefonice recepionate de o centrala

prob.

telefonic ntr-un timp dat. Aplicarea experienei asupra unei colectiviti date se numete
zultatul potenial al unei experiene aleatoare se numete
duble

(6, 6)

eveniment aleator.

Re-

De exemplu: apariia unei

la aruncarea a dou zaruri, extragerea unei bile albe dintr-o urn. Se numete

caz favorabil

pentru evenimentul aleator un caz n care respectivul eveniment se realizeaz. Un eveniment aleator poate
avea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz favorabil se numete

elementar.
Fie

al lui

eveniment

o mulime nevid, pe care o vom numi mulimea tuturor evenimentelor elementare. Un element

l vom nota cu

evenimentul sigur, acel eveniment care se poate realiza n urma


Evenimentul imposibil este acel eveniment ce nu se realizeaz n nicio prob.

Vom numi

oricrei experiene aleatoare.

Evenimentele aleatoare le vom nota cu


care se realizeaz atunci cnd

A, B, C, . . . .

Ac vom nota
Ac = \ A.

Prin

nu se realizeaz. Avem:

evenimentul complementar lui

Pentru a putea cuantica ansele de realizare a unui eveniment aleator, s-a introdus noiunea de

litate.

A,

probabi-

n literatura de specialitate, probabilitatea este denit n mai multe moduri: cu deniia clasic

(apare pentru prima oar n lucrrile lui P. S. Laplace ), folosind o abordare statistic (cu frecvene
relative) sau utiliznd deniia axiomatic (Kolmogorov).

Probabilitatea clasic

este denit doar pentru cazul n care experiena aleatoare are un numr nit de

cazuri posibile i echiprobabile (toate au aceeai ans de a se realiza). n acest caz, probabilitatea de
realizare a unui eveniment este raportul dintre numrul cazurilor favorabile realizrii evenimentului i
numrul cazurilor egal posibile ale experimentului aleator.

Exemplu 3.1

Se cere probabilitatea obinerii unei duble la o singur aruncare a unei perechi de zaruri

{(i, j); i, j = 1, 6}, care are 36 de


{(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}, adic 6
6
P = 36
= 61 .

ideale. Mulimea cazurilor posibile este mulimea tuturor perechilor


elemente. Cazurile favorabile sunt cele din mulimea
elemente. Probabilitatea apariiei unei duble este

Sunt ns foarte multe cazuri n care deniia clasic nu mai poate  utilizat. Spre exemplu, n cazul
n care se cere probabilitatea ca, alegnd la ntmplare un punct din ptratul

[0, 1] [0, 1],

acesta s se

situeze deasupra primei bisectoare. n acest caz, att numrul cazurilor posibile, ct i numrul cazurilor
favorabile este innit, fcnd deniia clasic a probabilitii inutilizabil.

Probabilitatea statistic exprim probabilitatea cu ajutorul frecvenelor de realizare a unui eveniment ntrun numr mare de experimente aleatoare realizate n aceleai condiii.

3 Pierre-Simon,

marquis de Laplace (1749 1827), matematician i astronom francez

18

STATS 2 [Dr. Iulian Stoleriu]

S considerm o experien aleatoare (e.g., aruncarea unui zar) al crei rezultat posibil este evenimentul
aleator

(e.g., apariia feei cu

puncte).

condiii identice (spunem c efectum

Aceste experiment aleator l putem efectua de

probe independente).

nu inueneze rezultatul alteia (


a lui

n cele

probe independente. Raportul

acest raport, ce are urmtoarele proprieti:

Mai mult, exist


notat

P (A).

N (A) frecven absolut

S notm cu

N (A)
N

se va numi

(a)

0 fN (A) 1;

(b)

fN () = 1;

(c)

fN (Ac ) = 1 fN (A), A;
[
fN (A B) = fN (A) + fN (B),

(d)

ori n

probe ale experimentului), astfel nct rezultatul unei probe s

dac

frecven relativ.

de realizare

Notm cu

fN (A)

B = .

lim fN (A) i aceasta este denit ca ind probabilitatea de realizare a evenimentului A,

Aadar, n cazul deniiei statistice a probabilitii, aceasta este limit irului frecvenelor

relative de producere a respectivului eveniment cnd numrul de probe tinde la innit (vezi Teorema 7.4).
n cele ce urmeaz, vom deni noiunea de probabilitate din punct de vedere axiomatic. Aceast axiomatic a fost introduse de matematicianul rus A. N. Kolmogorov

4 (1929) i are la baza teoria msurii.

Deniia axiomatic a probabilitii


Reamintim,

este o mulime abstract, nevid.

Deniia 3.2

Numim

algebr sau cmp o colecie F

de submulimi ale lui

F;
c
(b) dac A F , atunci A F;
(Ac = \ A)
S
(c) dac A, B F , atunci A
BF

astfel nct:

(a)

Propoziia 3.3

(nchidere la complementariere)
(nchidere la reuniune nit).

(c) implic

(c') dac

(Ai )i=1, n F,

atunci

n
[

Ai F.

(3.1)

i=1

Deniia 3.4

Numim

algebr

sau

cmp

(sau

corp borelian)

o colecie

de submulimi ale lui

astfel nct (a), (b) din deniia anterioar sunt satisfcute i, n plus, avem

(c') dac

(An )nN F,

atunci

An F;

(nchidere

la reuniune numrabil)

(3.2)

n=1

Exemplu 3.5

(1) = R i F = {A; A R} este o algebr;


F = {, } este o algebr;
c
(3) Dac A , F = {A, A , , } este o algebr;
(4) Dac A R, atunci mulimea tuturor prilor lui A, P(A), formeaz o -algebr.
(5) Dac e o mulime nevid i F este o algebr pe , atunci perechea (, F)
msurabil. Elementele unei -algebre se numesc mulimi msurabile.
(2)

4 Andrei

Nikolaevich Kolmogorov (1903 1987), matematician rus

se numete

spaiu

19

STATS 2 [Dr. Iulian Stoleriu]

Deniia 3.6
algebr

Fie

ce conine

o colecie de submulimi ale lui

F.

O notm prin

(F)

Numim

algebr generat de F

cea mai mic

i este, de fapt,

(F) =

A.

(3.3)

AF

Dac

-algebr Borel5 , notat B(E), -algebra


mic -algebr ce conine deschiii lui E .
este -algebra generat de cuburile deschise

e un spaiu topologic, vom numi

mulimilor deschise din

E , i.e., cea mai


B(Rd ) (sau B d )

E = Rd , atunci
A Bd se numete mulime borelian.
Dac

Deniia 3.7

O funcie

P : (, F) R,

care asociaz oricrui eveniment

AF

generat de familia
din

Rd .

O mulime

numrul real

P (A),

cu

proprietile:

(a)

P (A) 0, A F;

(b)

P () = 1;
[
\
P (A B) = P (A) + P (B), A, B F, A B = ,

(c)
se numete

probabilitate.

Aceasta este deniia axiomatic dat de A. N. Kolmogorov. Un cmp de evenimente


o probabilitate

Observaia 3.8
(c)0

dac

se numete

Dac n locul condiiei

(An )nN F

(, F)

nzestrat cu

cmp de probabilitate n sens Kolmogorov i l vom nota cu (, F, P ).


(c)

avem:

disjuncte dou cte dou (Ai

Aj = , i 6= j )

P(

An ) F

, atunci

nN

P(

An ) =

nN

P (An ).

( aditivitate)

atunci P se va numi probabilitate aditiv pe corpul borelian (, F),


borelian de probabilitate.

Observaia 3.9

(1) Fie

(3.4)

nN

o mulime cu

elemente,

P (A) =

F = P()

card
card

iar

A .

(, F, P )

se va numi

cmp

Atunci

(3.5)

F (probabilitatea n sens clasic).


(b) din deniia probabilitii lipsete, atunci spunem ca P denete o msur
pe spaiul msurabil (, F ), iar tripletul (, F, P ) se va numi spaiu cu msur. O probabilitate este
astfel un caz particular al noiunii de msur, n cazul n care msura ntregului spaiu este P () = 1.
denete o msur de probabilitate pe

(2) n cazul n care condiia

Spunem c o proprietate

are loc a.s.

O astfel de mulime se va numi mulime

pentru care

5 Flix

P (A) = 0.

(aproape sigur) dac are loc ntotdeauna, cu excepia unei mulimi

P -nul.

douard Justin mile Borel (1871 1956), matematician si politician francez

20

STATS 2 [Dr. Iulian Stoleriu]

Cmp de probabilitate
Principalul concept al teoriei probabilitilor este

spaiu probabilistic sau cmp de probabilitate.

urmeaz, cnd ne vom referi la cmp de probabilitate, vom nelege un triplet

(, F, P ),

n cele ce

cu urmtoarele

proprieti:

(i)

este o mulime abstract (mulimea tuturor evenimentelor elementare ale unui experiment

stochastic);

F P () este o -algebr, i.e., sunt


(1 ) F ;
c
(2 ) A F = A F ;
[
(3 ) (An )nN F =
An F ;

(ii)

ndeplinite urmtoarele condiii:

nN

P : F R e o funcie satisfcnd condiiile:


(P1 ) P () = 1;
(P2 ) A F , P (A) 0;
[
X
T
(P3 ) (An )nN , An
Am = , n 6= m, avem P (
An ) =
P (An ).

(iii)

nN

nN

Terminologie:

F se numesc evenimente iar sunt elemente de prob.


A F , cu A -algebr, o vom numi sub- -algebr a lui F .
(iii) A F , P (A) se va numi probabilitatea lui A.
(iv) Dac P (A) = 0, atunci A se va numi mulime P -nul.
(v) Dac P (A) = 1, atunci A este evenimentul sigur sau A se realizeaz aproape sigur (a.s.).
(i) Elementele lui

(ii) O mulime

Dat ind un ir

(An )nN

denim

lim inf An =
n

n general,

\
[

lim sup An =
n

n=1 mn

lim inf An lim sup An .


n

Am

[
\

n caz de egalitate vom spune c irul

(An )nN

lim An = lim inf An = lim sup An .

Observaia 3.10
toate

An

Din punct de vedere euristic,

lim inf An
n

are limit i vom scrie

(3.7)

reprezint evenimentul care se realizeaz cnd

se realizeaz, mai puin un numr nit. Pe de alt parte,

inniti de evenimente din irul

(3.6)

n=1 mn

Am .

lim sup An

nseamn realizarea unei

A1 , A2 , . . . .

Cmp de probabilitate geometric


S presupunem c am dispune de un procedeu prin care putem alege la ntmplare un punct dintr-un

[a, b]. n plus, vom presupune c acest procedeu ne asigur c nu exist poriuni privilegiate ale
intervalului [a, b], i.e., oricare ar  dou subintervale de aceeai lungime, este la fel de probabil ca punctul

interval

s cad n oricare dintre aceste intervale. Dac am folosi de mai multe ori procedeul pentru a alege un
numr mare de puncte, acestea vor  repartizate aproximativ uniform n

[a, b],

i.e., nu vor exist puncte

n vecintatea crora punctul ales s cad mai des, ori de cte ori este ales. De aici reiese c probabilitatea

21

STATS 2 [Dr. Iulian Stoleriu]


ca un punct s cad ntr-un subinterval al lui
poziia sa n interiorul lui

[a, b].

[a, b] este dependent de lungimea acelui subinterval i nu de

Mai mult, aceasta este chiar proporional cu lungimea subintervalului.

Se poate observa analogia cu experiena alegerii dintr-un numr de cazuri egal posibile.
Dac

[a, b]

e mulimea cazurilor egal posibile i

probabilitatea ca punctul ales s cad n

[c, d]

P (A) =
n particular, dac

x (c, d),

[c, d] [a, b]

este mulimea cazurilor favorabile, atunci

este

d])
dc
=
.
msura ([a, b])
ba
msura ([c,

atunci probabilitatea ca punctul ales aleator dintr-un interval s coincid

cu un punct dinainte stabilit este zero i, astfel, ntrezrim posibilitatea teoretic ca un eveniment s aib
probabilitatea nul, far ca el s e evenimentul imposibil

n mod cu totul analog, dac se ia la ntmplare un punct dintr-un domeniu planar

D, astfel ca s nu existe

puncte sau poriuni privilegiate n acest domeniu, atunci probabilitatea ca punctul s cad n subdomeniul
D0
.
D0 D este aria
aria D
n trei dimensiuni, o probabilitate similar este raportul a dou volume: volumul mulimii cazurilor favorabile i volumul mulimii cazurilor egal posibile.

Probabiliti condiionate
Fie spaiul probabilistic (, F, P ) i A, B F , cu P (B) > 0. Denim probabilitatea evenimentului A
condiionat de realizarea evenimentului B , notat P (A|B) sau PB (A), prin:

T
P (A B)
PB (A) =
.
P (B)

(3.8)

Observaia 3.11 PB (A) astfel denit va  o probabilitate pe F , iar tripletul (, F, PB ) este un cmp
de probabilitate.

Propoziia 3.12
P (Bi ) > 0, i I .

(a)

(formula probabilitilor totale) Fie (Bi )iI , (I N) o partiie a lui , astfel nct

Atunci

P (A) =

P (Bi ) PBi (A), A F.

(3.9)

iI
(b)

(formula lui

Bayes6 ) n condiiile de la (a) i, n plus,

P (A) > 0,

avem:

P (Bi ) PBi (A)


PA (Bi ) = X
, i I.
P (Bj ) PBJ (A)

(3.10)

jI
(c) Dac

T
T T
B1 , B2 , . . . , Bn F , astfel nct P (B1 B2 Bn ) > 0, atunci:
\
\
\
P (B1 B2 Bn ) = P (B1 ) PB1 (B2 ) . . . PB1 T T Bn1 (Bn ).

6 Thomas

Bayes, (1702 1761) matematician britanic

(3.11)

22

STATS 2 [Dr. Iulian Stoleriu]

Variabile aleatoare
Din punct de vedere euristic, o

variabil aleatoare

este o funcie ce ia valori ntmpltoare. n via de

zi cu zi ntlnim numeroase astfel de funcii, e.g., numerele ce apar la extragerea loto, numrul clienilor
deservii la un anumit ghieu ntr-o anumit perioad, timpul de ateptare a unei persoane ntr-o staie de
autobuz pn la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfritul alfabetului

X, Y, Z
Fie

sau

, ,

i altele.

(, F, P ) un cmp de probabilitate i (E, E) un spaiu msurabil.


X : (, F, P ) (E, E) se numete variabil aleatoare (v.a.)

O funcie

pentru orice
(mai spunem c

dac

B E, X 1 (B) F

(3.12)

Fmsurabil).

este o funcie

n particular, dac:

(E, E) (R, B(R)),

(E, E) (Rd , B(Rd )),

(E, E) (Rnm , B(Rnm ),

Deoarece mulimile

atunci

atunci

este o

este

atunci

{(, x], x R}

variabil aleatoare real;


vector aleator (sau v.a.) d-dimensional();
este o

genereaz

matrice aleatoare.

B(R),

pentru ca

X : (, F, P ) R

s e o v.a. real

este sucient ca

x R, { | X() x} F.
Vom utiliza notaiile

not

{X x} = { | X() x}

(3.13)

i, n general,

not

{X B} = { | X() B}
X : (, F, P ) Rd

Dac

este o v.a., atunci

F(X) = {X 1 (B), B Bd }
algebr, denumit algebra generat de v.a. X .
F astfel nct X este msurabil.

este o
a lui
Dac

(Xn )nN

este un ir de v.a. reale astfel nct

Astfel,

(X) este cea mai mic subalgebr

Xk () X(),

aproape pentru toi

atunci

este tot o v.a. real.

Xi : (, F, P ) (E, E), (i I) o familie de v.a.. Denim algebra generat de


notat (Xi , i I), cea mai mic algebr pentru care Xi , i I , sunt msurabile.
Fie

familia

{Xi , i N},

v.a. discrete) sau


vom numi (v.a. de tip

Variabilele aleatoare pot lua o mulime cel mult numrabil de valori (i le numim
poate lua o mulime continu de valori (un interval nit sau innit din

continuu).

R),

i le

Exemple de v.a. discrete: numrul feei aprute la aruncarea unui zar, numrul de apariii

ale unui tramvai ntr-o staie ntr-un anumit interval, numrul de insuccese aprute pn la primul succes
etc. Din clasa v.a. de tip continuu amintim: timpul de ateptare la un ghieu pn la servire, preul unui
activ nanciar ntr-o perioad bine determinat.
O v.a. discret

se poate scrie sub forma

X() =

X
iJ

xi Ai (), , J N.

(3.14)

23

STATS 2 [Dr. Iulian Stoleriu]


Aici

este funcia indicatoare a mulimii

n
[

A,

Ai =

iar

Ak = X 1 ({xk }).
Ai

Observm cu uurin c

Aj = , i 6= j.

i=1

tablou de repartiie:

Uneori, unei o v.a. discrete i se atribuie urmtorul


X:

unde

pi = P (X = xi ), i J N,

n
X

pi = 1.

xi
pi


,

(3.15)

Spre exemplu, tabloul de repartiie pentru v.a. ce reprezint

i=1
numrul de puncte ce apare la aruncarea unui zar ideal este:

O v.a.

real se numete

1
2
3
4
5
6
1/6 1/6 1/6 1/6 1/6 1/6

de tip continuu

dac exist


,

f : Rd R

msurabil Borel ce ndeplinete

condiiile:

f (x) 0, a.s.
Z
f (x) dx = 1
R
Z
PX (B) =
f (x) dx,

(a)
(b)
(c)

B F.

B
Funcia

se numete

densitatea de repartiie a lui X .

n urmtoarele dou seciuni, vom deni cele mai importante caracteristici funcionale i numerice ale
unei variabile aleatoare

X : (, F, P ) (Rd , B(Rd )).

Caracteristici funcionale ale variabilelor aleatoare

Repartiia
Repartiia

(sau

legea,

sau

distribuia)

lui

este o msur de probabilitate pe

Bd , PX : Bd [0, 1],

dat

prin

PX (B) = P (X B), B Bd .

(3.16)

Repartiia unei v.a. de tip discret (de forma 3.14) este astfel:

PX (B) =

P (Aj )xj (B),

(3.17)

jJ
unde

Repartiia unei v.a.

(
1,
a (B) =
0,
X

dac

aB

n rest

de tip continuu este:

Z
PX (B) =

f (x) dx,
B

B Bd ,

(3.18)

24

STATS 2 [Dr. Iulian Stoleriu]


unde

f (x)

este densitatea de repartiie a lui

distribution sau law.

X.

n limba englez, pentru repartiie se folosesc termenii:

Funcia de repartiie (sau funcia de repartiie cumulat)


Numim

funcie de repartiie

ataat v.a reale

o funcie

F : R [0, 1],

dat prin

F (x) = P (X x).
Astfel,

F (x) = PX ((, x]),

adic este repartiia mulimii

Termenul n englez pentru funcia de repartiie este

X = (X1 , X2 , . . . , Xd ) : (, F, P ) Rd
d
denete ca ind F : R [0, 1], dat prin

Dac

(, x].

cumulative distribution function (cdf ).

este un vector aleator, atunci funcia de repartiie se

F ((x1 , x2 , . . . , xd )) = P (X1 x1 ; X2 x2 ; . . . , Xd xd ).
Proprieti ale funciei de repartiie:

este cresctoare (F (x)

F (y), x, y R, x y );

este continu la dreapta ( lim

y&x

lim F (x) = 0

F (y) = F (x), x R);

lim F (x) = 1.

n cazul unei variabile aleatoare discrete, cu tabloul de repartiie dat de (3.15), funcia sa de repartiia
ntr-un punct

este:

F (x) =

pi .

(3.19)

{i; xi x}
Dac

este o variabil aleatoare continu i

este dat de formula:

este densitatea sa de repartiie, atunci funcia de repartiie

Zx
F (x) =

f (t) dt,

x R.

(3.20)

Observaia 3.13

P (X > x), pentru un


Fc : R [0, 1], dat prin F (x) = P (X >

Deseori n calcule probabilistice, avem de calculat evenimentul

x R dat. Numim funcie de repartiie complementar,


x) = 1 F (x), x R.

funcia

Funcia caracteristic
Numim

funcie caracteristic ataat v.a reale X


X (t) =

ei t xk pk ,

o funcie

dac

X=

kJ

Z
X (t) =

ei t x f (x) dx,

R
Aici,

este numrul imaginar,

(i2 = 1).

Proprieti ale funciei caracteristice:

X : R C,

dat prin:

xk Ak , (X =

discret)

kJ
dac

X=

variabil aleatoare continu.

25

STATS 2 [Dr. Iulian Stoleriu]

|X (t)| = 1, t R;

a X (t) = X (a t), t R, a R;

a X+b (t) = X (a t)eibt , t R, a R;

X (t) = X (t), t R;

X : R C

este uniform continu;

ti , tj R, zi , zj C

n
X

avem

X (ti tj )zi zj 0.

i, j=1

Funcia de probabilitate (sau de frecven)


Fie

o variabil aleatoare discret,

X() =

xi Ai (), , Ai F, J N.

Numim

funcie de

iJ

probabilitate (de frecven) ataat variabilei aleatoare discrete X


f (xi ) = pi ,
Funcia de probabilitate (

unde

o funcie

f : R R,

denit prin

pi = P (Ai ), i J.

en., probability distribution function) pentru o variabil aleatoare discret este

similara densitii de repartiie pentru o variabil aleatoare continu. ntr-adevar, proprietile pe care le
satisface funcia de probabilitate sunt:

f (xi ) 0, i J,
n
X

f (xi ) = 1.

i=1

Caracteristici numerice ale variabilelor aleatoare

Media
Deniia 3.14

Dac

este o v.a. de tip discret,

X() =

xi Ai (), , J N,

atunci

media

iJ
acestei v.a. se denete prin:

E(X) =

xi P (Ai ).

(3.21)

iJ

Deniia 3.15 Dac X este o v.a. de tip continuu, cu densitatea de repartiie f : R R, atunci media
(teoretic) acestei v.a., dac exist (!) (nu toate v.a. de tip continuu admit medie - vezi repartiia Cauchy),
se denete astfel:

Z
E(X) =

xf (x)dx,

(dac

aceast integral exist).

(3.22)

Observaia 3.16 Deniia mediei poate  dat ntr-un cadru mult mai general, folosind integrala Lebesque. Aceast integral este generalizarea integralei Riemann. Sumarizm mai jos, gradual i fr
demonstraiile aferente, construcia mediei unei v.a. reale.

26

STATS 2 [Dr. Iulian Stoleriu]

Pasul 1:

O v.a.

cu

X() =

n
X

xi Ai ()

v.a. simpl.

se numete

Pentru v.a. simpl

denim

i=1
media (notat cu

E(X))

astfel:

not

X() dP () =

E(X) =

Pasul 2:

Dac

X :R

X 0,

n
X

xi P (Ai ).

i=1

atunci exist un ir

Xn : R, (n N)

de v.a. simple astfel

nct

0 X1 () Xn () X(),
i

lim Xn () = X().

n
Denim

E(X) = lim E(Xn ).


n

Pasul 3:

Fie

X:R

o v.a.. Atunci

X=

media lui X ,

ori de cte ori mcar una dintre

este o

Dac

v.a. integrabil.

X = X1 + iX2 : C,

unde

X () = max{X(), 0} = (X)+ ().

X + () = max{X(), 0},
n acest caz denim

X ,

X+

E(X) = E(X + ) E(X ),

E(X + )

E(X )

este nit. Cnd ambele sunt nite, atunci spunem c

denim media v.a. complexe

prin

E(X) = E(X1 ) + iE(X2 ),


ori de cte ori ambele medii exist i sunt nite.
Dac

este un vector aleator,

X = (X1 , X2 , . . . , Xd )T : Rd ,

atunci denim media lui

prin

E(X) = (E(X1 ), E(X2 ), . . . , E(Xd ))T .

Propoziia 3.17

Fie

X : Rd

o v.a. cu densitatea de repartiie

Atunci

i o funcie msurabil

g : Rd R.

Z
E(g(X)) =

n particular, dac

g:RR

g(x)f (x) dx.


Rd

este funcia identic, atunci:

Z
E(X) =

Z
X() dP () =

xf (x) dx,
R

i astfel redescoperim deniia mediei unei v.a. de tip continuu din Deniia 3.15.
Relaia anterioar se mai numete i
pe mulimea

formula de transport

pentru integral, deoarece integrala abstract

este "transportat" ntr-o integrala Riemann pe

R.

Dispersia (sau variana) i abaterea standard


X este o variabil aleatoare i X = X E(X) (numit abaterea lui X de la media sa), atunci
E(X) = 0. Aadar, nu putem msur gradul de mprtiere a valorilor lui X n jurul mediei sale doar
calculnd X E(X). Avem nevoie de o alt msur. Aceasta este dispersia variabilei aleatoare.
Dac

27

STATS 2 [Dr. Iulian Stoleriu]

Deniia 3.18
denim

Dac

dispersia lui X

este o v.a. discret,

X() =

xi Ai (), , J N, cu media E(X) = m,

iJ
ca ind:

D2 (X) =

X
(xi m)2 pi ,

unde

pi = P (Ai ), i J.

(3.23)

iJ

Deniia 3.19
E(X) = m R).

Fie

X : R

o v.a.

Denim dispersia lui

de tip continuu pentru care media poate  denit (exist


(sau variana lui

D (X) = E[(X m) ] =

X)

cantitatea

(x m)2 f (x) dx.

Notaiile consacrate pentru dispersie sunt

Observaia 3.20

D2 (X)

sau

2.

Dispersia scris ca integral abstract (vezi propoziia anterioar) este:

(X() m)2 dP ().

Numim

abatere standard (sau deviaie standard) cantitatea = 2 .

(3.24)

28

Laborator 2 [Dr. Iulian Stoleriu]

4 Statistic Aplicat (L2)

Experiene aleatoare n Matlab


Generarea de numere (pseudo-)aleatoare
Numerele generate de
el vor 

Matlab sunt rezultatul compilrii unui program deja existent n Matlab, aadar

pseudo-aleatoare.

Putem face abstracie de modul programat de generare ale acestor numere i

s considerm c acestea sunt numere aleatoare.

Generarea de numere uniform repartizate ntr-un interval, U(a, b)


Funcia rand

Funcia

rand

genereaz un numr aleator repartizat uniform n

[0, 1].

De exemplu, comanda
X =

(rand < 0.5)

simuleaz aruncarea unei monede ideale. Mai putem spune ca numrul


numr aleator repartizat

astfel generat este un

B(1, 0.5).

De asemenea, numrul
Y =
urmeaz repartiia

rand(m, n)

B(10, 0.5)

sum(rand(10,1) < 0.5)

(simularea a

10

genereaz o matrice aleatoare cu

a + (b a) rand

Comanda

Folosind comanda

aruncri ale unei monede ideale).

mn

componente repartizate

U(0, 1).

genereaz un numr pseudo-aleator repartizat uniform n

[a, b].

s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-

zentnd starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimba
starea curent a generatorului sau iniializarea lui, putem folosi comanda

rand(method, s)
unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate  'state',
'seed' sau 'twister'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului. De exemplu,

rand('state', 125)
xeaz generatorul la starea

125.

29

Laborator 2 [Dr. Iulian Stoleriu]

Observaia 4.1

Printr-o generare de numere aleatoare uniform distribuite n intervalul

numere aleatoare care au aceeai ans de a  oriunde n

(a, b),

(a, b)

nelegem

i nu numere la intervale egale.

Figura 4.1 reprezint cu histograme date uniform distribuite n intervalul

Matlab:

[2, 3],

produse de comanda

hist(5*rand(1e4,1)-2,100)

Figura 4.1: Reprezentarea cu histograme a datelor uniforme.


Generarea de numere repartizate normal, N (, )
Funcia randn

Funcia

randn

randn(m, n)

genereaz un numr aleator repartizat normal

genereaz o matrice aleatoare cu

mn

N (0, 1).

componente repartizate

N (0, 1).

Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generatorului, folosim comanda:

randn(method, s)
method este metoda prin care numerele aleatoare sunt generate (aceasta poate  'state'
'seed'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului.

unde unde
sau

Comanda

m+ randn genereaz un numr aleator repartizat normal N (m, ).

De exemplu, codul

urmtor produce Figura 4.2:

x = 0:0.05:10;
y = 5 + 1.1*randn(1e5,1);
hist(y,x)

% date distribuite N (5, 1.1)

30

Laborator 2 [Dr. Iulian Stoleriu]


250

200

150

100

50

10

Figura 4.2: Reprezentarea cu histograme a datelor normale.


Generarea de numere aleatoare de o repartiie dat
Comenzile

Matlab
legernd(<param>, m, n)

random('lege',

<param>, m, n).

Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu


numere aleatoare ce urmeaz repartiia

lege.

n loc de

m linii i n coloane, avnd componente

lege putem scrie oricare dintre expresiile din tabelul

din Figura 6.1. De exemplu,

normrnd (5, 0.2,


genereaz o matrice aleatoare cu

100 10

100, 10);

componente repartizate

N (5, 0.2).

random ('poiss',0.01, 200, 50);


genereaz o matrice aleatoare cu

200 50

componente repartizate

P(0.01).

Utiliznd comanda

randtool
putem reprezenta interactiv selecii aleatoare pentru diverse repartiii.

Comanda deschide o interfa

grac ce reprezint prin histograme seleciile dorite, pentru parametrii dorii (vezi Figura 4.3). Datele
generate de

Matlab pot  exportate n ierul Workspace cu numele dorit. De exemplu, folosind datele

din Figura 4.3, am generat o selecie aleatoare de


parametri

=2

= 0.5

10000

de numere ce urmeaz repartiia lognormal de

i am salvat-o (folosind butonul

Export) ntr-un vector L.

31

Laborator 2 [Dr. Iulian Stoleriu]

Figura 4.3: Interfa pentru generarea de numere aleatoare de o repartiie dat.


Simularea aruncrii unei monede

Comanda
X = (rand < 0.5);
simuleaz aruncarea unei monede ideale. Vom mai spunem c numrul
numr aleator repartizat

B(1, 0.5)

astfel generat este un

(similar cu schema bilei revenite, n cazul n care o urn are bile

albe i negre n numr egal i extragem o bil la ntmplare)

Numrul
Y =
urmeaz repartiia

B(30, 0.5)

sum (rand(30,1)<0.5)

(simularea a

30

aruncri ale unei monede ideale).

Acelai experiment poate  modelat i prin comanda

round(rand(30,1))
Pentru a numra cte fee de un anumit tip au aprut, folosim

sum(round(rand(30,1)))

Exemplu 4.2

Dorim s scriem o funcie

MATLAB care s simuleze aruncarea repetat a unei monede

msluite, pentru care probabilitatea teoretic de a obine o anumit fa este

p (0, 1).

S se determine

32

Laborator 2 [Dr. Iulian Stoleriu]


probabilitatea ca la aruncarea monedei s obinem faa cu

stema

i s deseneze o gur care s justice

grac convergena irului frecvenelor relative la aceast probabilitate.

function moneda(N,p);
x = rand(1, N);
V = (x < p);
Sn = cumsum(V);
A = 1:N;
Fn = Sn./A;
semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:');
axis([0 N 0 1]);
title('moneda')
xlabel('aruncari');ylabel('probabilitatea')

%
%
%
%
%
%
%
%
%
%

functia moneda.m
aruncam moneda
valoarea de adevar a lui (x<p)
suma cumulata
vectorul nr de aruncari
frecventa relativa a stemei
reprezinta grafic Fn
axele
numele figurii
numele axelor

moneda

zar

1
5/6

probabilitatea

probabilitatea

3/4

0.5

0.5

1/4
1/6
0

10

10
10
aruncari

10

10

10

10
10
aruncari

10

10

Figura 4.4: Simularea aruncrii unei monede corecte (a) i a unui zar corect (b)
O rulare a funciei, e.g.,

moneda(1e5,0.5),

produce gracul din Figura 4.4(a). De asemenea, se poate

simula i aruncarea unei monede msluite, dac alegem ca parametrul

Simularea n

Matlab a unei v.a.

0.5, 0.2

i, respectiv,

0.3.

X:
Pentru a modela aceast variabil aleatoare n

din intervalul

[0, 1].

0.5.

rezultate posibile,

a, b

c,

cu probabilitile de

Tabloul de repartiie asociat este:

un numr

al funciei s e diferit de

de tip discret

S considerm o variabil aleatoare ce poate avea doar


realizare

Dac

a
b
c
0.5 0.2 0.3


,

Matlab, procedm astfel: alegem uniform la ntmplare

x < 0.5,

atunci convenim c rezultatul

s-a realizat, dac

33

Laborator 2 [Dr. Iulian Stoleriu]


0.5 < x < 0.7,

atunci rezultatul

s-a realizat. Altfel, rezultatul v.a.

este

c.

Dac acest experiment se

repet de multe ori, atunci rezultatele pot  folosite n estimarea probabilitilor de realizare a variabilei
aleatoare. Cu ct vom face mai multe experimente, cu att vom aproxima mai bine valorile teoretice ale
probabilitilor, deci putem spune c am aproximat variabila aleatoare
n

Matlab, scriem:

X.

syms a b c
% declaram a, b si c ca variabile simbolice
r = rand;
X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)
Folosind aceast metod, putem simula aruncarea unui zar ideal. Avem
apariia unei fee cu

1, 2, 3, 4, 5

sau

puncte.

[0, 1]

rezultate posibile, i anume,

Pentru a simula acest experiment, modicm n mod

convenabil problema. Vom considera c punctele din intervalul


posibile i mprim intervalul

[0, 1] formeaz mulimea tuturor cazurilor

subintervale de lungimi egale:


1
1 2
2 3
3 4
4 5
5
(0, ), ( , ), ( , ), ( , ), ( , ), ( , 1) .
6
6 6
6 6
6 6
6 6
6

corespunztoare, respectiv, celor ase fee, s zicem n ordinea cresctoare a punctelor de pe ele. Vom
vedea mai trziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete nchise, deschise
sau mixte nu are efect practic asupra calculului probabilitii dorite. Acum, dac dorim s simulm n

Matlab apariia feei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numr "la
ntmplare" din intervalul

Matlab

[0, 1]

i vericm dac acesta se a n intervalul

( 62 , 36 ).

Aadar, comanda

u = rand; (u < 3/6 & u > 2/6)

simuleaz aruncarea unui zar ideal. Ca o observaie, deoarece cele

fee sunt identice, putem simplica

aceast comanda i scrie

(rand < 1/6).

Exemplu 4.3

Dorim s simuleze n

Matlab aruncarea repetat a unui zar corect. S se determine pro-

babilitatea ca la aruncarea zarului s obinem faa cu trei puncte i s deseneze o gura care s justice
grac convergena irului frecvenelor relative la aceast probabilitate (vezi Figura 4.4(b)).

function dice(N);
% functia dice.m
u = rand(1, n);
% probabilitatea aparitiei fetei
Z1 = (u < 3/6 & u > 2/6);
% aparitia fetei
freq = cumsum(Z1)./(1:n);
% frecventa relativa
subplot(1,2,2);
% activeaza fereastra din stanga
semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:');
axis([0 n 0 1]);
% axele
title('zar')
% numele figurii
xlabel('aruncari');ylabel('probabilitatea')
dice.m simuleaz aruncarea unui zar
dice(1e5) produce gracul din Figura 4.4(b).

Fiierul

corect de un numr

de ori.

O rulare a funciei, e.g.,

34

Laborator 2 [Dr. Iulian Stoleriu]

Metoda Monte Carlo


Metoda Monte Carlo este o metod de simulare statistic, ce produce soluii aproximative pentru o mare
varietate de probleme matematice prin efectuarea de experimente statistice pe un computer.

Se poate

aplica att problemelor cu deterministe, ct i celor probabilistice i este folositoare n obinerea de soluii
numerice pentru probleme care sunt prea dicile n a  rezolvate analitic. Este o metod folosit de secole,
dar a cptat statutul de metod numeric din anii

1940.

1946,

7 a devenit primul matema-

S. Ulam

tician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatul
Monaco, unde se practic foarte mult jocurile de noroc, n special datorit jocului de rulet (ruleta = un
generator simplu de numere aleatoare). De asemenea, Nicholas Metropolis

8 a adus contribuii importante

metodei.
Are la baz generarea de numere aleatoare convenabile i observarea faptului c o parte dintre acestea
veric o proprietate sau anumite proprieti. n general, orice metod care are la baz generarea de numere aleatoare n vederea determinrii rezultatului unui calcul este numit o metod Monte Carlo. Orice
eveniment zic care poate  vzut ca un proces stochastic este un candidat n a  modelat prin metoda MC.

Integrarea folosind metoda Monte Carlo


Dorim s folosim metode Monte Carlo pentru evaluarea integralei

Z
I=

f (x) dx.

(4.1)

a
n general, pentru a evalua numeric integral, metoda Monte Carlo nu este prima alegere, nsa este foarte
util n cazul n care integral este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient
dect alte metode de aproximare cnd dimensiunea spaiului e mare.
Dac dorim aplicarea metodei MC, atunci avem de ales una din urmtoarele variante:

Varianta 1

(poate  aplicat doar pentru

f 0.

Dac

i valori negative, dar este mrginit inferior,

atunci putem utiliza o translaie, astfel nct s avem de integrat o funcie nenegativ) ncadrm gracul
funciei

ntr-un dreptunghi

D = [a, b] [0, d],


unde

d > sup f .

Evalum integrala folosindu-ne de calculul probabilitii evenimentului

A,

c un punct

[a, b]
ales la ntmplare n interiorul dreptunghiului

s se ae sub gracul funciei

experien aleatoare: alegem n mod uniform (comanda

rand

f (x).

Facem urmtoarea

ne ofer aceast posibilitate n

un punct din interiorul dreptunghiului i testm dac acest punct se a sub gracul lui
experiena de un numr

(mare) de ori i contabilizm numrul de apariii

f (x).

Matlab)
Repetm

f (N ) ale punctului sub grac.

Pentru un numr mare de experiene, probabilitatea ca un punct generat aleator n interiorul dreptunghiului s se ae sub gracul funciei va  aproximat de frecvena relativ a realizrii evenimentului,
adic

P '

f (N )
.
N

Pe de alt parte, probabilitatea teoretic este

P =
7 Stanislaw

8 Nicholas

I
aria dreptunghi

Marcin Ulam (1909 1984), matematician de origine polonez, nscut n Lvov, Ucraina
Constantine Metropolis (1915 1999), zician grec

35

Laborator 2 [Dr. Iulian Stoleriu]


de unde aproximarea

I ' aria

Totui, aceast metod nu e foarte ecient, deoarece

f (N )
.
N

dreptunghi

(4.2)

trebuie s e foarte mare pentru a avea o precizie

bun.

Exemplu 4.4

Utiliznd metoda Monte Carlo, s se evalueze integrala

Z5

ex dx.

I=
2

Soluie:

Generm

106

puncte aleatoare n interiorul ptratului

acestea se a sub gracul funciei

f (x) = ex , x [0, 1].

[2, 5] [0, 1]

Urmtoarea funcie

i vericm care dintre

Matlab calculeaz inte-

grala dorit:

function I = integrala(N)
x = 7*rand(N,1)-2; y = rand(N,1);
f = find(y < exp(-x.^2));
I = 7* length(f)/N;
O rulare a funciei,

Varianta 2

integrala(1e6),

%
%
%
%

functia integrala.m
genereaza N numere aleatoare in [2, 5] [0, 1]
2
numar punctele aflate sub graficul functiei ex
formula (4.2)

ne furnizeaz rezultatul

I = 1.7675.

Putem rescrie integrala n forma

Z
I = (b a)

f (x)h(x) dx,

(4.3)

a
unde

h(x) =
Funcia

h(x)

1
ba
0

x [a, b],

dac

altfel.

denit mai sus este densitatea de repartiie a unei v.a.

X U[a, b],

iar relaia (4.1) se

rescrie

I = (b a)E(f (X)).
Folosind legea slab a numerelor mari, putem aproxima

(4.4)

prin:

baX
f (Xk ),
I'
N
k=1

unde

Xk

sunt numere aleatoare ce urmeaz repartiia

U[a, b].

Putem generaliza aceast metod pentru calculul integralelor de tipul

Z
f (x) dx,
V

unde

V Rn .

(4.5)

36

Laborator 2 [Dr. Iulian Stoleriu]

Exemplu 4.5
Soluie:

S se evalueze integrala din Exemplul (4.4) folosind formula (4.5).

Matlab este urmtorul:

Codul

x = 7*rand(1e6,1)-2;
g = exp(-x.^2);
I = 7*mean(g)

% genereaza 106 numere aleatoare U(2, 5)


2
% g(x) = ex
% 7*media lui g(x)

sau, restrns, putem apela urmtoarea comand:

estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2)))

% I 1.7671

Exemplu 4.6

Evalund integrala

Z1
I=

ex dx

0
printr-o metod Monte Carlo s se estimeze valoarea numrului transcendent

Soluie:

estimate = mean(exp(rand(10^6,1))) + 1

e. (e = I + 1).

% e 2.7183

Exemplu 4.7 (aproximarea lui folosind jocul de

darts

n ce const jocul? S presupunem c suntem la nivelul nceptor. Avem de aruncat o sgeat ascuit,
ce poate penetra cu uurin lemnul, spre o tabl ptrat din lemn, n interiorul cruia se a desenat
un cerc circumscris ptratului. Dac sgeata se nnge n interiorul discului atunci ai ctigat un punct,
dac nu - nu ctigai nimic. Repetm jocul de un numr
puncte acumulate, s zicem c acest numr este

de ori i contabilizm la sfrit numrul de

N .

S presupunem c suntei un juctor slab de darts (asta implic faptul c orice punct de pe tabl are
aceeai ans de a  intit), dar nu aa de slab nct s nu nimerii tabla. Cu alte cuvinte, presupunem
c de ecare dat cnd aruncai sgeata, ea se nnge n tabl.
Se cere s se aproximeze valoarea lui

pe baza jocului de mai sus i s se scrie un program n

Matlab

care s simuleze experimentul.

Soluie:

A evenimentul ca sgeata s se nng chiar n interiorul discului. n cazul n care


N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat
N
frecvenelor relative, adic lim
.
n N

S notm cu

numrul de aruncri
de limit irului

Pe de alt parte,

P (A) =

aria disc
aria perete

= 4 .

Aadar, putem aproxima

'4
Funcia
lui

N
N

(pentru N  1).

prin

(4.6)

Matlab care aproximeaz pe este prezentat mai jos. Metoda care a stat la baza aproximrii

este o

metoda Monte Carlo.

37

Laborator 2 [Dr. Iulian Stoleriu]

function Pi = darts(N)
% numar de aruncari
theta = linspace(0,2*pi,N);
% genereaza vectorul theta
x = rand(N,1); y = rand(N,1);
% (x,y) - intepaturi
X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta);
% cerc in polar
plot(x,y,'b+',X,Y,'r-');
% deseneaza cercul si punctele
S = sum((x-.5).^2 + (y-.5).^2 <= 1/4);
% numarul de succese
Prob = S/N;
% frecventa relativa
approxpi = 4*Prob;
% aproximarea lui pi
axis([0 1 0 1]);
% deseneaza axele
title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);
O simpl rulare a funciei,

darts(2000),

ne genereaz Figura 4.5.

Figura 4.5: Simularea jocului de darts.

38

STATS 3 [Dr. Iulian Stoleriu]

5 Statistic Aplicat (C3)


Elemente de Teoria probabilitilor (II)
Caracteristici numerice ale variabilelor aleatoare (continuare)

Momente
X

Pentru o v.a.

de tip discret,

X() =

xi Ai (), , J N,

iJ
cu

pi = P (Ai ), i J , denim
X
k (X) = E(X k ) =
xki pi

E(X) = m

momentele:
(momente iniiale de ordin

k);

(momente absolute de ordin

k);

iJ
k

k (X) = E(|X| ) =

|xi |k pi

iJ

X
(xi m)k pi

k (X) = E((X m)k ) =

(momente iniiale centrate de ordin

k);

iJ
k

k (X) = E(|X m| ) =

|xi m|k pi

(momente absolute centrate de ordin

k);

iJ
Pentru o v.a.

de tip continuu ce admite medie

k (X) = E(X k ) =

xk f (x) dx =

m = E(X) < ,

denim momentele:

X k dP
(momente iniiale de ordin k);
R

Z
Z
k (X) = E(|X|k ) =
|x|k f (x) dx =
|X|k dP
(momente absolute de ordin k);
R

Z
Z
k (X) = E((X m)k ) = (x m)k f (x) dx = (X m)k dP
(momente iniiale centrate);
R

Z
Z
k
k
k (X) = E(|X m| ) =
|x m| f (x) dx =
|X m|k dP
(momente absolute centrate);

Cuantile
Fie o v.a.

cu funcia de repartiie

Deniia 5.1

Pentru

(0, 1),

F (x).

denim

cuantila de ordin

valoarea

F (x ) = P (X x ) = .

Observaia 5.2

(1)

astfel nct:
(5.1)

Cuantilele sunt msuri de poziie, ce msoar locaia unei anumite observaii fa

de restul datelor. Aa cum se poate observa din Figura 5.1, valoarea


aria haurat este chiar

este acel numr real pentru care

39

STATS 3 [Dr. Iulian Stoleriu]

Figura 5.1: Cuantila de ordin .

(2)

n cazul n care

este o variabil aleatoare discret, atunci (5.1) nu poate  asigurat pentru orice

ns, dac exist o soluie a acestei ecuaiei

F (x) = ,

atunci exist o innitate de soluii: intervalul

ce separ dou valori posibile.

mediana ( = 1/2), cuartile ( = i/4, i = 1, 4), decile ( =


j/10, i = 1, 10), percentile ( = k/100, k = 1, 100), promile ( = l/1000, l = 1, 1000).
(3)

Cazuri particulare de cuantile:

Modul (valoarea cea mai probabil)


Este acea valoare

pentru care

f (x ) (densitatea de repartiie sau funcia de probabilitate) este maxim.

O repartiie poate s nu aib niciun mod, sau poate avea mai multe module.

Inegaliti ntre momente


(a)

r (X + Y ) cr (r (X) + r (Y )),

(b)

(r (X))1/r (s (Y ))1/s , 0 r s;

(c)

E|XY | (E|X|r )1/r (E|Y |s )1/s , r, s > 1, r1 + s1 = 1;

(d)

(E|X + Y |r )1/r (E|X|r )1/r + (E|Y |r )1/r ;

(e) Fie

g:RR

(f ) Dac

unde

convex. Atunci avem

a > 0, p N ,

cr = 1

r (0, 1]

cr = 2r1

pentru

(Lyapunov 9 )
(H lder10 );

(M inkowski11 )

g(E(X)) E(g(X)).

(Jensen12 )

atunci avem:

P ({|X| a})
9 Aleksandr

pentru

p (X)
;
ap

(M arkov 13 )

Mikhailovich Lyapunov (1857 1918), matematician rus, student al lui Cebev


Ludwig Hlder (1859 1937), matematician german
11 Hermann Minkowski (1864 1909), matematician german
12 Johan Ludwig William Valdemar Jensen (1859 1925), matematician si inginer danez
13 Andrei Andreyevich Markov (1856 1922), matematician rus, student al lui Cebev
10 Otto

r > 1.

40

STATS 3 [Dr. Iulian Stoleriu]


n particular, pentru

p=2

e nlocuit cu variabila aleatoare

P ({|X m| a})

2
.
a2

a = k ,

k N,

Dac n inegalitatea lui Cebev lum

unde

(X m), (m = E(X)),

obinem:

(Cebev14 )

(5.2)

atunci obinem:

P ({|X m| k})

1
,
k2

(5.3)

sau, echivalent:

P ({|X m| < k}) 1


n cazul particular

k = 3,

obinem

1
.
k2

(5.4)

regula celor 3 :
1
0.1.
9

P ({|X m| 3})
sau

P ({m 3 < X < m + 3})


semnicnd c o mare parte din valorile posibile pentru

8
,
9

(5.5)

se a n intervalul

[m 3, m + 3].

Standardizarea unei variabile aleatoare


Fie variabila aleatoare

Deniia 5.3

X,

de medie

Variabila aleatoare

i dispersie

X =

X m

2.

se numete

variabila aleatoare standardizat

(sau nor-

mat).

Proprietile variabilei aleatoare standardizate:

E(X) = 0,

D2 (X) = 1.

Corelaia i coecientul de corelaie


Conceptul de corelaie (sau covarian) este legat de modul n care dou variabile aleatoare tind s se
modice una fa de cealalt; ele se pot modica e n aceeai direcie (caz n care vom spune c
sunt direct

<sau

pozitiv> corelate) sau n direcii opuse (X i

X, Y v.a. cu
X + Y , obinem:
Fie

mediile, respectiv,

mX , m Y

i dispersiile

2 ,
X

sunt invers
respectiv,

<sau

Y2 .

= E[(X mX )2 ] + E[(Y mY )2 ] + 2E[(X mX )(Y mY )]

14 Pafnuty

Lvovich Chebyshev (1821 1894), matematician rus

Calculnd dispersia sumei

D2 (X + Y ) = E[(X + Y (mX + mY )2 )]
= D2 (X) + D2 (Y ) + 2E[(X mX )(Y mY )].

negativ> corelate).

41

STATS 3 [Dr. Iulian Stoleriu]

Deniia 5.4
cov(X,

Denim

corelaia

(sau

covariana) v.a. X

Y,

Proprietatea 5.5

(a)

Y ),

atunci

Fie v.a.

cantitatea

Y,

Deniia 5.6
X

cov(X,

Y ).

(5.6)

(b) cov(X, Y ) = cov(Y, X) = E[(X mX )(Y mY )] = E(XY ) mX mY .


(c) cov(X, X) = D2 (X), pentru orice v.a. X .
(d) cov(X + Y, Z) = cov(X, Z) + cov(Y, Z), pentru orice v.a. X, Y, Z .
(e) Dac X i Y sunt v.a. independente (i.e., realizrile lui X nu depind de realizrile
cov(X, Y ) = 0. Reciproca nu este ntotdeauna adevrat.

standardizate,

dizate

Y ),

Continund irul anterior de egaliti, putem scrie:

D2 (X + Y ) = D2 (X) + D2 (Y ) + 2

lui

notat prin cov(X,

Y ) = E[(X mX )(Y mY )].

Y.

pentru care presupunem c variaiile

X mX
X=
X
Se numete

Y mY
Y =
Y

Y2

sunt nite i nenule. Considerm v.a.

coecient de corelaie (teoretic) al v.a. X

covariana variabilelor standar-

Notm astfel:

(X, Y ) =

Observaia 5.7
zrile celeilalte

2
X

(a)

Dac

cov(X,

Y)=

cov(X,

Y)

X Y

(5.7)

sunt independente (i.e., realizrile uneia sunt independente de reali-

vezi seciunea urmtoare), atunci

(X, Y ) = 0.
(b)
(c)

1 (X, Y ) 1, pentru orice v.a. X i Y .


Dac Y = aX + b (a, b R), atunci
(
+1, dac a = 1;
(X, Y ) =
1, dac a = 1.

Independena
Conceptul de independen a v.a.

sau a evenimentelor este foarte important din punctul de vedere al

calculului probabilitilor evenimentelor compuse din evenimente mai simple.

Independena este unul

dintre conceptele principale care deosebesc Teoria probabilitilor de Teoria msurii, neavnd echivalent
n teoria din urm.

Deniia 5.8

Fie

(, F, P )

un cmp de probabilitate,

A, B F

dou evenimente arbitrare.

Dac anumite informaii despre evenimentul B au inuenat n vreun fel realizarea evenimentului
A, atunci vom spune c A i B sunt evenimente dependente. De exemplu, evenimentele A = mine plou
i B = mine mergem la plaj sunt dependente.
(2)
S presupunem c evenimentul B satisface relaia P (B) > 0. Vom spune c evenimentele A i
B sunt independente dac probabilitatea lui A este independent de realizarea evenimentului B , adic
(1)

probabilitatea condiionat

P (A| B) = P (A),

(5.8)

42

STATS 3 [Dr. Iulian Stoleriu]


echivalent cu

T
P (A B)
= P (A).
P (B)

Putem rescrie ultima egalitate sub forma simetric:

P (A

B) = P (A) P (B).

(5.9)

Deoarece n relaia (5.9) nu mai este nevoie de condiie suplimentara pentru

P (B),

este preferabil s

denim independen a dou evenimente arbitrare astfel:


Dou evenimente,

Deniia 5.9
submulime

A, B F

se numesc

A1 , A2 , . . . , An se numesc independente n ansamblu dac pentru ecare


{1, 2, . . . , n} avem
\
\ \
P (Ai1
Ai1
Aik ) = P (Ai1 ) P (Ai2 ) . . . P (Aik ).
(5.10)

(i) Evenimentele

{i1 , i2 , . . . , ik }

a mulimii

A1 , A2 , . . . , An

(ii) Spunem c evenimentele


evenimente,

Ai

independente (stochastic) dac relaia (5.9) are loc.

Aj ,

sunt

independente dou cte dou dac pentru oricare dou

din aceast mulime, avem

P (Ai
(iii) n general, evenimentele

Aj ) = P (Ai ) P (Aj )).

(Ai )iI F, (I N), se numesc independente


\
Y
P(
Aj ) =
P (Aj ),
jJ

pentru orice

(5.11)
dac
(5.12)

jJ

J I, Jnit.

Observaia 5.10

Independen dou cte dou a evenimentelor nu implic independena n ansamblu.

S exemplicm considernd urmtoarea experien.


Considerm aruncarea a dou monede ideale. Fie
stema",

evenimentul ca "faa ce apare la prima moned este

evenimentul ca "faa ce apare la a doua moned este stema", iar

evenimentul ca "doar la o

moned din cele dou a aprut faa cu stema". Se observ cu uurin c evenimentele

A, B

sunt

independente dou cte dou, deoarece:

P (A

1
C) = P (A) P (C) = ;
4

P (B

1
C) = P (B) P (C) = ;
4

P (A

1
B) = P (A) P (B) = .
4

Totodat, mai observm c oricare dou dintre ele determina n mod unic pe al treilea. Aadar, independena a dou cte dou nu implic independena celor trei evenimente n ansamblu, fapt observat i din
relaia

0 = P (A

1
C) 6= P (A) P (B) P (C) = .
8

Deniia 5.11 Dac {Mi , i I N}, cu Mi F , este o familie de corpuri, atunci spunem c
acestea sunt independente (stochastic) dac pentru orice submulime nit J I i pentru orice alegere
de evenimente

Aj Mj ,

este ndeplinit condiia

P(

\
jJ

Aj ) =

Y
jJ

P (Aj ).

(5.13)

43

STATS 3 [Dr. Iulian Stoleriu]

Deniia 5.12

(1)

(Xi )iI : (, F) R, (I N), sunt independente (n ansamblu)


Xi , {(Xi )}iI , formeaz o familie de corpuri independente.
: (, F) R, (I N), sunt independente dou cte dou dac oricare ar 

Spunem c v.a.

dac

corpurile

(2)

Spunem c v.a.

generate de

(Xi )iI

dou variabile aleatoare din aceast familie, acestea sunt independente n sensul deniiei de la (1).

Observaia 5.13

Deniia variabilelor aleatoare independente (n ansamblu) este echivalent cu:

k 2 i orice alegere a mulimilor boreliene B1 , B2 , . . . , Bk Bd , avem:



\
\
\
P {X1 B1 } {X2 B2 } {Xk Bk } = P (X1 B1 ) P (X2 B2 ) . . . P (Xk Bk ),
Pentru orice

sau, cu alte cuvinte, evenimentele

Exemplu 5.14
X2 ,

(5.14)

{X1 B1 }, {X2 B2 }, . . . , {Xk Bk } sunt independente n ansamblu.

S considerm aruncarea unui zar. Aruncm zarul de dou ori i notm cu

X1 , respectiv,

v.a. ce reprezint numrul de puncte aprute la ecare aruncare. Evident, valorile acestor v.a. sunt

din mulimea

{1, 2, 3, 4, 5, 6}.

Aadar,

Xi : {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:


\
1
P {X1 = i} {X2 = j}
= P ({X1 = i, X2 = j}) =
36
= P ({X1 = i}) P ({X2 = j}),


aceast nsemnnd c variabilele aleatoare

X1

X2

i, j {1, 2, 3, 4, 5, 6},

sunt independente stochastic (aruncrile au fost

efectuate independent una de cealalt).

Teorema 5.15

Considerm familia de v.a.

{X1 , X2 , . . . , Xn },

Xi : (, F) R, i = 1, n.

Urmtoarele armaii sunt echivalente:

(i)
(ii)

X1 , X2 , . . . , Xn

sunt v.a. independente stochastic;

P (X1 B1 , X2 B2 , . . . , Xn Bn ) = P (X1 B1 ) P (X2 B2 ) . . . P (Xn Bn ), Bi Bd ;

(iii)

F(X1 , X2 ,..., Xn ) (x1 , x2 , . . . , xn ) = FX1 (x1 ) FX2 (x2 ) . . . FXn (xn ), x1 , x2 , . . . , xn R;

(iv)

(X1 , X2 ,..., Xn ) (t) = X1 (t1 ) X2 (t2 ) . . . Xn (tn ), t = (t1 , t2 , . . . , tn ) Rn .

(5.15)

Dou dintre dintre cele mai importante proprieti ale v.a. independente sunt urmtoarele:

Teorema 5.16

Dac

X1 , X2 , . . . , Xn

sunt v.a. reale, independente, astfel nct

E(|Xk |) < , k = 1, 2, . . . , n,
atunci

E(|X1 X2 . . . Xn |) <

i:

E(X1 X2 . . . Xn ) = E(X1 ) E(X2 ) . . . E(Xn ).

Teorema 5.17

Dac

X1 , X2 , . . . , Xn

(5.16)

sunt v.a. reale, independente, astfel nct

D2 (Xk ) < , k = 1, 2, . . . , n,
atunci

D2 (X1 + X2 + . . . + Xn ) <

i:

D2 (X1 + X2 + . . . + Xn ) = D2 (X1 ) + D2 (X2 ) + . . . + D2 (Xn ).

(5.17)

44

STATS 3 [Dr. Iulian Stoleriu]

Tipuri de convergen a irurilor de variabile aleatoare


Fixm

(, F, P )

un cmp de probabilitate i

Xn , X : R

variabile aleatoare cu media

i dispersia

2 nite.

Deniia 5.18
(1)

Spunem c:

Xn converge aproape sigur la X

a.s.

Xn X )

(notat

dac

P ( lim Xn = X) = 1,
n

echivalent cu relaia

0 F, P (0 ) = 1,
(2)

Xn converge n probabilitate la X

lim Xn () = X(), 0 .

astfel nct

(notat

prob

Xn X ),

dac

> 0, lim P ({ : |Xn () X()| }) = 0.


n

(3)

Lr

Xn converge n medie de ordin r la X (notat Xn X ), dac


Z
lim
|Xn () X()|r dP () = 0,
n

echivalent cu

Z
lim

(4)

Xn converge n repartiie

la

|xn x|r f (x)dx = 0.

n R
rep

(notat

X, sau Xn X )

lim E(g(Xn )) = E(g(X)), g : R R,

n
(5)

Xn converge la X n sensul funciei de repartiie


lim FXn (x) = FX (x), x

n
(6)

dac

continu i mrginit.

dac

punct de continuitate pentru

Xn converge la X n sensul funciei caracteristice

FX .

dac

lim Xn (t) = X (t), t R.

Teorema 5.19 (legturi ntre diverse tipuri de convergen)


(a)
(b)

Lr

Xn X

implic

(c)
(d)

a.s.

Xn X

implic

prob

Xn X
prob

Xn X

prob

Xn X.

(din inegalitatea lui Markov).

implic

Xn X.

Urmtoarele tipuri de convergen sunt echivalente: convergena n repartiie, convergena n funcie

de repartiie i convergena n funcie caracteristic.

45

Laborator 4 [Dr. Iulian Stoleriu]

6 Statistic Aplicat (L3)


Repartiii probabilistice n Matlab
Funcia de probabilitate (pentru v.a. discrete) i densitatea de repartiie (pentru v.a. continue) (ambele
notate anterior prin

f (x))

se introduc n

Matlab cu ajutorul comenzii pdf, astfel:

pdf('LEGE', x, <param>)
Funcia de repartiie

cdf,

F (x)

sau

LEGEpdf(x, <param>).

a unei variabile aleatoare se poate introduce n

Matlab cu ajutorul comenzii

astfel:

cdf('LEGE', x, <param>)

sau

LEGEcdf(x, <param>).

Inversa funciei de repartiie pentru repartiii continue,

icdf('LEGE', y, <param>)
n comenzile de mai sus,

sau

F 1 (y),

se introduce cu comanda

icdf,

astfel:

LEGEinv(y, <param>).

LEGE poate  oricare dintre legile de repartiie din Tabelul 6.1, x este un scalar sau
f (x) sau F (x), y este un scalar sau vector pentru care se calculeaz F 1 (y),

vector pentru care se calculeaz


iar

<param>

este un scalar sau un vector ce reprezint parametrul (parametrii) repartiiei considerate.

Observaia 6.1
tiiei. Pentru un

Fie X
x R,

o variabil aleatoare i

F (x, )

funcia sa de repartiie,

ind parametrul repar-

relaia matematic

P (X x) = F (x)
o putem scrie astfel n

Matlab:
cdf('numele repartiiei lui X',x,).

Problema poate aparea la evaluarea n

Matlab a probabilitii P (X < x). Dac repartiia considerat


Matlab este tot (6.1), deoarece n acest caz

este una continu, atunci corespondentul n

P (X x) = P (X < x) + P (X = x) = P (X < x).


De exemplu, dac

X N (5, 2),

atunci

P (X < 4) = cdf('norm', 4, 5, 2).


Dac

(6.1)

este de tip discret, atunci

(
P (X [x])
, x nu e ntreg
P (X < x) =
P (X m 1) , x = m Z,

46

Laborator 4 [Dr. Iulian Stoleriu]


unde

[x]

x.

este partea ntreag a lui

De exemplu, dac

X B(10, 0.3),

atunci

P (X < 5) = P (X 4)
= cdf('bino', 4, 10, 0.3) = 0.8497.

Tabelul 6.1 conine cteva repartiii uzuale i funciile corespunztoare n

repartiii probabilistice discrete

bino:
nbin:
poiss:
unid:
geo:
hyge:

repartiia binomial

repartiii probabilistice continue

norm:
unif:
exp:
gam:
beta:
logn:
chi2:
t:
f:
wbl:

B(n, p)

repartiia binomial negativ


repartiia Poisson

BN (n, p)

P()

repartiia uniform discret

U(n)

Geo(p)
hipergeometric H(n, a, b)

repartiia geometric
repartiia

repartiia normal

O moned ideal este aruncat de

100

N (, )

U(a, b)
exp()
Gamma (a, )
Beta (m, n)
lognormal logN (, )
2 (n)
student t(n)
Fisher F(m, n)
Weibull W bl(k, )

repartiia uniform continu


repartiia exponenial
repartiia
repartiia
repartiia
repartiia
repartiia
repartiia
repartiia

Tabela 6.1: Repartiii uzuale n


Exerciiu 6.1

Matlab.

de ori, iar

Matlab
X

este variabila aleatoare ce reprezint

numrul de fee cu stema aprute.

(a)
(b)

Care este probabilitatea de a obine exact


S se calculeze

P (45 X 55).

Soluie:

(a)

B(100, 0.5),

aadar rezultatul exact este:

Avem de calculat

52

de steme?

Folosii aproximarea cu o variabil aleatoare normal.

P = P (X = 52).

ns

este o variabil aleatoare distribuit

52
P = C100
(0.5)52 (0.5)48 = 0.0735.
(b) Notm cu

FX

funcia de repartiie pentru variabila aleatoare binomial

X.

Atunci,

P (45 X 55) = P (X 55) P (X < 45)


= FX (55) FX (44)
55
X
k
=
C100
(0.5)k (0.5)100k = 0.7287.
k=45

Codul

Matlab urmtor calculeaz probabilitile cerute, calculate analitic anterior.

P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48
P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5)
.

% solutia exacta
% solutia exacta

47

Laborator 4 [Dr. Iulian Stoleriu]

Exerciiu 6.2

Cineva a nregistrat zilnic timpul ntre dou sosiri succesive ale tramvaiului ntr-o anumit

staie i a gsit c, n medie, acesta este de

20 de minute.

Se tie c acest timp este distribuit exponenial.

Dac o persoan a ajuns n staie exact cnd tramvaiul pleca, aai care sunt ansele ca ea s atepte cel
puin

15

Soluie:

minute pn vine urmtorul tramvai.

Notm cu

timpul de ateptare n staie ntre dou sosiri succesive ale tramvaiului i cu

funcia sa de repartiie. tim c

T exp(),

unde

= 20.

Aadar, avem de calculat

P (T 15),

FT

care

este:

P (T 15) = 1 P (T < 15) = 1 FT (15),


i aceasta este

1 - cdf('exp',15, 20) = 0.4724,

ceea ce implic

47.24%

Exerciiu 6.3

Dintre spectatorii prezeni pe un anumit stadion la un meci de fotbal, un procent de

anse.

20%

sunt femei.
La o tombola organizat pentru spectatori, un computer alege la ntmplare numerele a

7 bilete de intrare

i se premiaz posesorii.

(i)

Care este probabilitatea ca mcar

(ii)

Care este probabilitatea ca nicio femeie s nu ctige la tombol?

(iii)

dintre spectatorii premiai s e femei?

Dac selecia biletelor ctigtoare ar  fost realizat prin alegerea a

spectatori ce erau aezai

n ir, pe un acelai rnd ales la ntmplare, argumentai dac probabilitile gsite la (i) si (ii) rmn
aceleai.

Soluie:

Fie

variabila aleatoare ce reprezint numrul de femei ce apar la alegerea la ntmplare a

X B(7, 0.2). Fie p = 0.2.


P (X 3) = 1 P (X < 3) = 1 P (X 2) = 1 FX (2) = 0.1480.

spectatori. Atunci
(i)
n

Matlab,

(ii)
n

P1 = 1-binocdf(2,7,0.2).

P (X = 0) =

Matlab,

C70 p0 (1

p)7

= 0.2097.

P2 = binopdf(0,7,0.2).

(iii) n acest caz,

nu ar mai  o v.a. binomial, deoarece alegerea spectatorilor nu mai este aleatorie

(spectatorii aezai alturi pot  cunotinte, prieteni etc.).

Exerciiu 6.2 (a) n magazinul de la colul strzii intr n medie 20 de clieni pe or.

tiind c numrul

clienilor pe or este o variabil aleatoare repartizat Poisson, s se determine care este probabilitatea ca

15 clieni?
(b) Care este probabilitatea ca, ntr-o anumit zi de lucru (de 10 ore), n magazin s intre cel puin 200 de

ntr-o anumit or s intre n magazin cel puin

clieni? Calculai aceast probabilitate n dou moduri: folosind funcia de repartiie Poisson i folosind
aproximarea cu repartiia normal.

Soluie:
(b)

P2 = P (

k=1

P1 = P (X 15) = 1 P (X < 14) = 1 FX (14) = 0.8951.


10
10
X
X
Xk 200) = 1 P (
Xk < 199) = 1 FP Xk (199) = 0.5094, unde
Xk P(200).

(a) Probabilitatea este

10
X

k=1

Matlab, probabilitile cerute se calculeaz astfel:

k=1

48

Laborator 4 [Dr. Iulian Stoleriu]


P1 = 1 - poisscdf(14,20);
P2 = 1 - poisscdf(199,200);

Exerciiu 6.4

(i)

probabil: s ctigi
(ii)

n faa unui oponent de acelai calibru la tenis de mas, care eveniment este mai

partide din

4,

sau s ctigi

partide din

8?

Justicai rspunsul.

Se menine rezultatul anterior dac, n loc de tenis de mas, cei doi s-ar ntrece la ah? Presupunem

c adversarii sunt de aceeai valoare. Justicai rspunsul.

49

STATS 4 [Dr. Iulian Stoleriu]

7 Statistic Aplicat (C4)


Elemente de Teoria probabilitilor (III)
Teoreme limit
Fie

(, F, P )

un cmp de probabilitate i

X : (, F, P ) R

o v.a. ce nregistreaz rezultatele posibile

ale unui anumit experiment aleator. Putem modela repetiia acestui experiment prin introducerea unui
ir de v.a.,

(Xn )nN : (, F, P ) R. Ne-am dori ca acest ir s dein aceeai informaie (din punct de
X . n acest scop, introducem noiunea de variabile aleatoare identic repartizate.

vedere probabilistic) ca i

Deniia 7.1

Variabilele aleatoare

X1 , X2 , . . . , Xn , . . .

se numesc

identic repartizate

dac funciile co-

respunztoare de repartiie satisfac irul de egaliti:

x R.

FX1 (x) = FX2 (x) = . . . = FXn (x) = . . . ,

(7.1)

Dac, n plus, presupunem c v.a. din irul de mai sus sunt independente stochastic, atunci putem privi
acest ir de v.a. ca un model pentru repetri independente ale experimentului n aceleasi condiii. Dei
avem de-a face cu un ir de funcii ce iau valori ntmpltoare, suma unui numr sucient de mare de
variabile aleatoare i pierde caracterul aleator.
Teoremele limit clasice descriu comportarea asimptotic a sumei

Sn =

n
X

Xk ,

potrivit normalizat.

k=1

Spunem c irul

(Xn )n

urmeaz

legea slab (respectiv, tare) a numerelor mari dac:

Sn E(Sn ) prob
Sn E(Sn ) a.s.
0, (respectiv,
0),
n
n

(n )

n Teoria Probabilitilor exist mai multe rezultate care stabilesc condiiile n care una sau cealalt dintre
legile anterioare au loc. Prezentm n continuare doar cele mai importante dintre ele, i anume: teoremele
lui Cebev i Hincin, pentru legea slab, i teorema lui Kolmogorov pentru legea tare.

Teorema 7.2 (Cebev)


Dac v.a.

(Xn )nN
(i)
(ii)

atunci

Xn admit momente
1
lim 2 D2 (Sn ) = 0,
n n

toate

absolute de ordin

Sn E(Sn ) prob
0,
n

cnd

(i.e.,

2 (Xn ) < );

n .

Sn
a > 0 xat, conform inegalitii lui Cebev aplicate variabilei aleatoare
,
n
 


 
Sn
Sn
1
Sn
1 1
P (
E
a 2 D2
= 2 2 D2 (Sn ) 0, cnd n .

n
n
a
n
a n
2

Demonstraie.
avem:

satisfac condiiile:

Pentru orice

50

STATS 4 [Dr. Iulian Stoleriu]

Observaia 7.3
m, n N,

n plus, dac

Xn

sunt independente stochastic i identic repartizate, cu

E(Xn ) =

atunci concluzia anterioar devine:

Sn prob
m.
n
Astfel, teorema ne spune c, dei variabilele aleatoare independente pot lua valori deprtate de mediile lor,
media aritmetic a unui numr sucient de mare de astfel de variabile aleatoare ia valori n vecintatea
lui

m,

cu o probabilitate foarte mare.

Teorema 7.4 (Teorema lui Bernoulli)


S considerm o experien n care probabilitatea de realizare a unui eveniment

experiene independente. Dac

pentru orice

> 0,

avem:

este numrul de realizri ale lui

este

din cele

dac se efectueaz o selecie de volum mare

1,

Demonstraie.

(7.2)

i se obin

p.

Asta nseamn c,

cazuri favorabile, atunci, cu o probabilitate

putem arma c probabilitatea evenimentului cercetat este egal cu frecvena relativ.

Vom asocia ecrei experiene

(
1,
Xi =
0,
Observm c

Se fac

experiene atunci,




N

lim P
p < = 1.
n
N

Cu alte cuvinte, irul frecvenelor relative converge n probabilitate la probabilitatea


apropiat de

P (A) = p.

Xi B(1, p).
n
X

o variabil aleatoare

dac n experiena
dac experiena

evenimentul

evenimentul

Xi ,

astfel nct

s-a realizat;

nu s-a realizat.

Atunci, deoarece experimentele sunt independente, avem:

Xi = N B(N, p), E(N ) = N p,

D2 (N ) = N p(1 p).

i=1
Aplicnd inegalitatea lui Cebev variabilei aleatoare

N
,
N

obinem:



 

D2 NN
N
N
P
E
,
< 1
N
N
2
echivalent cu




p(1 p)
N

P
p < 1
,
N
N 2
2

de unde concluzia dorit.

Teorema 7.5
Dac

(Hincin

Xn , n 1,

15 )

(legea slab a numerelor mari)

sunt variabile aleatoare ce admit momente absolute de ordin

cte dou i identic repartizate, atunci irul

(Xn )n

1,

sunt independente dou

urmeaz legea slab a numerelor mari, i.e.,

1X
prob
Xk m, (n ),
n
k=1

unde

m = E(Xn ), n N .

15 Aleksandr

Yakovlevich Khinchin (1894 1959), matematician rus

(7.3)

51

STATS 4 [Dr. Iulian Stoleriu]

Teorema 7.6

(Kolmogorov)

Fie irul de v.a.


Dac notm cu

(legea tare a numerelor mari)

(Xn )nN , independente, sunt identic repartizate i E(|X1 |) < .


m = E(X1 ), atunci irul (Xn )n satisface legea tare a numerelor mari,

adic:

1X
a.s
Xk m, (n ).
n

(7.4)

k=1

Observaia 7.7

Concluzia legii slabe a numerelor mari se mai poate scrie i sub forma:


P

Teorema 7.8
Dac v.a.

(TLC)

(Xn )nN

(teorema limit central)

sunt independente i identic repartizate, cu

Observaia 7.9


X1 + X2 + + Xn
lim
= m = 1.
n
n

n
X

m = E(X1 )

nite, atunci:

!
Xk nm

Y N (0, 1),

pentru

n .

k=1

(a) Teorema TLC ne spune c, dac avem un ir de v.a.

identic repartizate, atunci, pentru

independente stochastic i

sucient de mare, suma standardizat,

Sn =
este o v.a. de repartiie

2 = D2 (X1 )

Sn nm

(7.5)

N (0, 1).
n

Sau, mai putem spune c distribuia v.a.

X=

1X
Xk
n

este aproximativ normal

k=1

N (m, ).
n

(b) Notm cu

not

Zn =

n
X

!
Xk nm .

k=1

Atunci, convergena din teorema limit central este echivalent cu

lim P (Zn x) = (x), x R,

(7.6)

n
unde

(x)

este denit n (30.3), sau



Z b
Sn nm
1
2

lim P a
b =
ex /2 dx = (b) (a).
n
n
2 a
(b) Dac

m = 0, 2 = 1,

(7.7)

atunci TLC devine

1 X

Xk Y N (0, 1),
n

pentru

n .

k=1

(c) TLC ne permite s aproximm sume de v.a.

identic repartizate, avnd orice tip de repartiii (att

timp ct variaia lor e nit), cu o v.a. normal. Un exemplu ar  aproximarea repartiiei normale cu
repartiia binomial cnd numrul de ncercri e foarte mare (vezi teorema lui
jos).

de Moivre-Laplace de mai

52

STATS 4 [Dr. Iulian Stoleriu]


Se pune problema:

aplicabil?

Ct de mare ar trebui s e n, n practic, pentru c teorema limit central s e

Dac variabilele aleatoare

{Xk }k

sunt deja normal repartizate, atunci teorema aproximarea

sumei standardizate cu o variabil normal este, de fapt, o egalitate, ind adevarat pentru orice
Dac

{Xk }k

nu sunt normal repartizate, atunci un numr

n N .

n astfel nct n 30 ar  sucicient pentru


Xk este simetric, aproximarea ar putea 

aproximarea cu repartiia normal dei, dac repartiia lui


bun i pentru un numr

mai mic de

30.

(d) Legea tare a numerelor mari e foarte util n metode de simulare tip Monte Carlo.

Teorema 7.10

16 - Laplace)

(de Moivre

Fie X1 , X2 , . . . , Xn , . . . un ir de v.a. independente stochastic, identic repartizate B(1, p)


X1 + X2 + + Xn . Atunci, pentru orice < a < b < , avem:


Z b
Sn np
1
2
lim P a
ex /2 dx.
(q = 1 p)
b =
n
npq
2 a

Demonstraie.

i e

Sn =

(7.8)

Demonstraia rezult imediat din (7.7), innd cont c

E(Sn ) = np

D2 (Sn ) = npq.

Observaia 7.11

(1)

Aadar, dac parametrul

poate  aproximat cu una normal, cu media

np

este sucient de mare, atunci o repartiie binomial

i dispersia

n practic,

aproximarea este una sucient de bun dac

aceast aproximare poate  mbuntit dac aplicm factori de corecie.

Pentru

np 5

npq .

n(1 p) 5;

ndeplinind condiiile de mai sus, i folosind (7.6), putem aproxima funcia de repartiie a

repartiiei binomiale prin:


P (X k)
unde

k np

npq


,

(7.9)

este funcia de repartiie pentru repartiia normal standard, i.e.,

1
(x) =
2

y2
2

dy,

x R.

De asemenea, putem aproxima i funcia de probabilitate a repartiiei binomiale folosind densitatea repartiiei normale standard:

1
P (X = k)

npq
unde

(x) =

k np

npq


,

(7.10)

d
dx (x) este densitatea de repartiie a repartiiei normale standard.

O variant mbuntit a aproximrii (7.9) este:

P (X k)
16 Abraham

k + 12 np

npq

de Moivre (1667 1754), matematician francez

!
.

(7.11)

53

STATS 4 [Dr. Iulian Stoleriu]


Termenul

1
2 din (7.11) este folosit ca o valoare de ajustare cnd se face aproximarea unei variabile aleatoare

discrete cu una continu.


O variant mbuntit a aproximrii (7.10) este:

1
1
<X <k+ )
2
2
!
1
k + 12 np
k 2 np
X np
<
<

npq
npq
npq
!
!
k + 12 np
k 12 np

npq
npq

P (X = k) = P (k
= P

(2)

n general, dac dorim s aproximm o repartiie discret (ce are media

i dispersia

2)

cu una

normal, atunci scriem:

P (X k)

k+

1
2

!
(7.12)



1
k
P (X = k)
,

!
!
k + 21
k 12
P (X = k)

sau

(7.13)

(7.14)

Funcii de variabile aleatoare


Funcii de o singur variabil aleatoare
X este o variabil aleatoare
FX (x) funcia sa de repartiie.

Presupunem c
Notm cu
Fie

g(x)

continu, creia i se cunoate densitatea de repartiie,

este o funcie msurabil (Borel). Atunci

s gsim densitatea de repartiie pentru

g(X).

fX (x).

Y = g(X) denete o alt variabil aleatoare. Dorim


notm cu DY = {x R; g(x) y}. Putem scrie:

{Y y} = {g(X) y} = { , X() DY }

not

( = {X DY }).

Atunci,

FY (y) = P (X DY ),
Z
=
fX (x) dx.

(7.15)

DY
Dac

g(x)

densitatea de repartiie a

not

x = h(y) = g 1 (y),
lui Y este dat de:

este bijectiv i

atunci, folosind schimbarea de variabil la integrare,



dh(y)

.
fY (y) = fX (h(y))
dy

(7.16)

54

STATS 4 [Dr. Iulian Stoleriu]

Exemplu 7.12

Considerm funcia

g(x) = ax + b, a 6= 0.
fX (x)

Dac

este densitatea de repartiie a unei variabile aleatoare continue

repartiie a variabilei aleatoare

Y = g(X)

X,

atunci densitatea de

este

1
fY (y) =
fX
|a|

yb
a


.

g(X) astfel:
Y i cu fY (y) densitatea sa de repartiie. Atunci:





yb
yb

X
, a > 0;
, a > 0;
FX
a 
a


=
yb
yb

X
, a < 0;
, a < 0;
1 FX
a
a

Alternativ, putem calcula densitatea lui


Notm cu

FY (y)

funcia de repartiie pentru

FY (y) = P (aX+b y) =

FX

Dac

este continu, atunci:

fY (y) =

dFY (y)
1
=
fX
dy
|a|

yb
a


.

Aplicaie. Metoda funciei de repartiie inverse (Hincin-Smirnov)


Propoziia 7.13
F (x),

Fie

aleatoare repartizat

Demonstraie.
a lui

este o variabil aleatoare de o repartiie dat, pentru care funcia sa de repartiie,

0 sau 1. Fie U o variabil


Y = F 1 (U ) urmeaz aceeai repartiie ca i X .

este continu i strict cresctoate, n orice punct n care aceasta nu este

X.

U(0, 1).

Notez cu

FY

Atunci, variabila aleatoare

funcia de repartiie pentru

Y.

Aratm ca

FY

este tocmai funcia de repartiie

Avem succesiv:

FY (x) = P (Y x) = P (F 1 (U ) x)
= P (U F (x)) = F (x),

x [0, 1].
2

Utiliznd acest rezultat, urmtoarea propoziie rezult imediat:

Propoziia 7.14

{U1 , U2 , . . . , Un } sunt
1 (U ), F 1 (U ), . . . ,
variabile aleatoare independentic stochastic i identic repartizate U(0, 1), atunci {F
1
2
1
F (Un )} formeaz o selecie ntmpltoare de numere ce urmeaz repartiia lui X .
Fie

o variabil aleatoare ca n propoziia precedent. Dac

55

STATS L4 [Dr. Iulian Stoleriu]

8 Statistic Aplicat (L4)


Aplicaii la TLC
Exerciiu 8.1

O moned ideal este aruncat de

100

de ori, iar

este variabila aleatoare ce reprezint

numrul de fee cu stema aprute.

(a) Care este probabilitatea de a obine exact

(b) S se calculeze

P (45 X 55).

Soluie:

(a)

B(100, 0.5),

aadar rezultatul exact este:

Avem de calculat

52

de steme?

Folosii aproximarea cu o variabil aleatoare normal.

P = P (X = 52).

ns

este o variabil aleatoare distribuit

52
P = C100
(0.5)52 (0.5)48 = 0.0735.
Dac aproximm rezultatul folosind formula (7.12), obinem:

1
P =

100 0.5 0.5

52 50

100 0.5 0.5


0.0737.

Cu varianta mbuntit, obinem:

P =
(b) Notm cu

FX

52 + 12 50

25

52 12 50

25

!
0.0736.

funcia de repartiie pentru variabila aleatoare binomial

X.

Atunci,

P (45 X 55) = P (X 55) P (X < 45)


= FX (55) FX (44)
55
X
k
=
C100
(0.5)k (0.5)100k = 0.7287.
k=45
Dac folosim aproximarea cu repartiia normal, obinem:

P (45 X 55)
Codul

55 + 12 50

25

45 12 50

25

!
= 0.7287.

Matlab urmtor calculeaz probabilitile cerute.

P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48
% solutia exacta
P1 = 1/5*normpdf(2/5)
% solutia aproximativa 1
P1 = normcdf(2.5/5) - normcdf(1.5/5)
% solutia aproximativa 2
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) % solutia exacta
P2 = normcdf(5.5/5) - normcdf(-5.5/5)
% solutia aproximativa

56

STATS L4 [Dr. Iulian Stoleriu]

Exerciiu 8.1

Un cetean turmentat pleac de la bar spre cas. S presupunem c punctul de plecare

de pe axa orizontal i se mic doar pe aceast ax astfel: n ecare unitate de timp,

este punctul

acesta ori face un pas la stnga, cu probabilitatea

0.5,

0.5,
100 de

ori face un pas la dreapta, cu probabilitatea

independent de paii anteriori. Folosind Teorema limit central, estimai probabilitatea ca, dup
pai, acesta nu a ajuns la mai mult de doi pai de punctul de plecare.

Soluie:

Xi variabila aleatoare ce reprezint pasul pe care ceteanul l face la momentul i (i N).


X = 1, dac face un pas la stnga, i X = 1, dac face un pas la dreapta. Aadar, X este
o variabil aleatoare discret ce poate lua doar dou valori, 1 i 1, ambele cu probabilitatea 0.5. Se
2
calculeaz cu uurin, E(X) = 0 i D (X) = 1. Suntem interesai s am ce se ntmpl dup 100 de
n
X
pai. Considerm mai nti Sn =
Xi . Atunci,
Fie

S atribuim

i=1

E(Sn ) =

n
X

E(Xi ) = 0

i=1

D2 (Sn ) =

n
X

D2 (Xi ) = n,

i=1

{Xi }i=1, n sunt independente. Pentru n 30, Teorema limit central spune c Sn N (0,
n = 100, S100 N (0, 10). Probabilitatea cerut este (utilizm i relaia (7.12)):
!
!
2 + 12 0
2 + 21 0

= 0.1583.
P (|S100 | 2) = P (2 S100 2)
10
10

deoarece
Pentru

Folosind urmtorul cod, putem simula n

N = input('N = ');
X = 2*(rand(N,1)<0.5)-1;
S = cumsum(X);
plot(1:N, S, '-')
Z=length(find(S == 0))

n).

Matlab micarea aleatorie (vezi Figura 8.1):


%
%
%
%
%

numar de pasi
simuleaza pasii la fiecare moment
simuleaza unde a ajuns dupa fiecare pas
reprezinta miscarea
numarul de reintoarceri la bar

Figura 8.1: Micare aleatoare (brownian) 1D.

57

STATS L4 [Dr. Iulian Stoleriu]

Exerciiu 8.2

Aruncm o moned ideal n condiii identice i notm cu

a feei cu stema din cele

efectuate pentru ca

Determinai

n frecvena absolut de apariie

repetiii ale experimentului. Care este numrul minim de aruncri ce trebuie




n

P 0.5 0.1 0.98.
n

prin dou metode:


(i)

Folosind inegalitatea lui Cebev;

(ii)

Folosind Teorema limit central.

Soluie:
(i)

Observm c variabila aleatoare

n B(n, 0.5),
E(

Folosim inegalitatea lui Cebev pentru

n
) = 0.5,
n
X=

n
n ,

de unde

D2 (

n
2 i

E(n ) =

D2 (n ) =

n
4 . Aadar,

n
1
)=
.
n
4n

a = 0.1.

Gsim c:





D2 nn
25

n
=1 .
P 0.5 0.1 1
n
0.01
n
Impunem condiia

1
de unde obinem c
(ii)

Cutm

n 1250

25
0.98,
n

astfel nct



n
P 0.1
0.5 0.1 = 0.98.
n

Ne ateptm ca valoarea lui

(8.1)

s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,

scriem c variabila aleatoare standardizat

n E(n )
n 0.5n

=
N (0, 1).
D(n )
0.5 n
Folosind aceasta, rescriem egalitatea (8.1) astfel:



n
0.5 0.1
0.98 = P 0.1

n

n
n 0.5n
n

= P 0.1

0.1
0.5
0.5
0.5 n
 
 
n
n

=
5
5
  
 
 
n
n
n
=
1
= 2
1
5
5
5
de unde

 
n
5

= 0.99

n
5

= (0.99) = z0.99 2.33

standard). Din ultima egalitate gsim c

n 135.2974.

(cuantila de ordin
n

0.99

pentru repartiia normal

Matlab, calculm astfel:

n = (5*norminv(0.99,0,1))^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca

n 136

Observm c aceast valoare este mult mai mic dect cea gsit anterior. Metoda a doua (TLC) ne d
un rezultat mai bun dect cel obinut cu ajutorul inegalitii lui Cebev. Aici, mai bun se traduce prin
faptul c, folosind numr mai mic de simulri ale experimentului, obinem acelai rezultat.

58

STATS L4 [Dr. Iulian Stoleriu]

Exerciiu 8.3

O companie independent de evaluri statistice a estimat ca un anumit candidat are

anse s ctige alegerile locale.

25%

Dorim s efectum un alt sondaj de opinie care s verice rezultatul

companiei. Determinai care ar trebui s e volumul minim de selecie pentru ca, cu o probabilitate de cel
puin

0.97, procentul de alegtori ce intenioneaz s-l voteze pe respectivul candidat se ncadreaz ntre
20% i 30%. Determinai volumul minim folosind cele dou metode menionate n Exerciiul 8.2.

valorile

Soluie:

n numrul de
n N pentru care

S notm cu

Se cere cel mai mic

echivalent cu

(i)

Observm c variabila

votani (din

alei aleator) care voteaz cu respectivul candidat.



n
P 0.2
0.3 0.97,
n



n

P 0.25 0.05 0.97.
n
aleatoare n B(n, 0.25), de unde E(n ) =

n
4 i

D2 (n ) =

3n
16 . Aadar,

n
n
3
) = 0.25, D2 ( ) =
.
n
n
16n

Cebev pentru X = n , a = 0.05. Gsim c:


n




D2 nn
75

n
P 0.25 0.05 1
=1 .
2
n
0.05
n
E(

Folosim inegalitatea lui

Impunem condiia

1
de unde obinem c
(ii)

Cutm

n 2500

astfel nct

Ne ateptm ca valoarea lui

75
0.97,
n



n
P 0.05
0.25 0.05 = 0.97.
n
n

(8.2)

s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,

scriem c variabila aleatoare standardizat


Atenie, aici s-a strecurat o

n E(n )
n 0.25n
=4
N (0, 1).
D(n )
3n
|
{z
}

greeal n soluia de la seminar!


2
Acolo, s-a mprit la D (n ), n loc de

Folosind aceasta, rescriem egalitatea (8.2) astfel:



n
0.97 = P 0.05
0.25 0.05
nr
r 

n
n 0.25n
n
0.05 4
= P 0.05 4
4
3
3
3n
r 
 r 

n
n
= 0.2
0.2
3
3
 r  
 r 
 r 
n
n
n
1 0.2
= 2 0.2
1
= 0.2
3
3
3
pn
pn
de unde 0.2
3 = 0.985 i 0.2
3 = z0.985 2.17 (cuantila de ordin 0.985 pentru
standard). Din ultima egalitate gsim c n 353.1969. n
, calculm astfel:

Matlab

repartiia normal

n = 3*(norminv(0.985,0,1)/0.2)^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca

n 354

Observm, din nou, c aceast valoare este mult mai mic dect cea gsit anterior.

D(n )

59

STATS 5 [Dr. Iulian Stoleriu]

9 Statistic Aplicat (C5)


Elemente de Statistic descriptiv
S considerm o populaie statistic de volum

F.

Asupra acestei caracteristici facem

i o caracteristic a ei,

X,

ce are funcia de repartiie

observaii, n urma crora culegem un set de date statistice.

Dup cum am vzut anterior, datele statistice pot  prezentate ntr-o form grupat (descrise prin tabele
de frecvene) sau pot  negrupate, exact aa cum au fost culese n urma observrilor.

Pentru analiza

acestora, pot  utilizate diverse tehnici de organizare i reprezentare grac a datelor statistice ns, de
cele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat. Suntem interesai n a
atribui acestor date anumite valori numerice reprezentative. Pot  denite mai multe tipuri de astfel de
valori numerice, e.g., msuri ale tendinei centrale (media, modul, mediana), msuri ale dispersiei (dispersia, deviaia standard), msuri de poziie (cuantile, distana intercuantilic) etc. n acest capitol, vom
introduce diverse msuri descriptive numerice, att pentru datele grupate, ct i pentru cele negrupate.

Msuri descriptive ale datelor negrupate


x1 , x2 , . . . , xn (xi R, i = 1, 2 . . . , n, n N ),
variabilei X . Denim urmtoarele:

Considerm un set de date statistice negrupate,


corespund unor observaii fcute asupra

ce

(1) Valoarea medie empiric


Este o msur a tendinei centrale a datelor. Pentru o selecie

{x1 , x2 , . . . , xn },

denim:

x
=

1X
xi ,
n
i=1

ca ind

media empiric.

Dac

{x1 , x2 , . . . , xN }

sunt toate cele

observaii (

recensmnt) asupra carac-

teristicii populaiei, atunci mrimea

N
1 X
xi
=
N
i=1

se numete

media (empiric a) populaiei.

Vom vedea mai trziu c, pentru a estima media

populaii statistice, nu este necesar s avem toate valorile


putea folosi

Pentru ecare

.
di = xi x se

ca un estimator pentru

i,

cantitatea

numete

{x1 , x2 , . . . , xN },

deviaia fa de medie.

o msur a gradului de mprtiere a datelor, deoarece

n
X
(xi x) = 0.
i=1

(2) Momentele empirice


Pentru

k N , momentele empirice de ordin k

se denesc astfel:

k =

1X k
xi
n
i=1

(pentru selecie).

a ntregii

ci doar o selecie a ei, i vom

Aceasta nu poate  denit ca

60

STATS 5 [Dr. Iulian Stoleriu]


Pentru

p 6= 0,

denim

n
X

1
x
p =
n

!1

xpi

(pentru selecie),

(9.1)

i=1

formula generalizat a mediilor. Pentru p = 1, obinem


media empiric (aritmetic) (x
), pentru p = 1, obinem media armonic (x
(h) ), pentru p = 2 avem
media ptratic (x(q) ). Dac inem cont i de media geometric,
formul ce este cunoscut i sub denumirea de

x
(g) =

x1 x2 . . . xn ,

atunci relaia dintre aceste medii este:

x
(h) x
(g) x
x
(q) .
Pentru ntreaga colectivitate, momentele de ordin

mk =

sunt

N
1 X k
xi ,
N

(k N ).

i=1

Pentru ecare

k N , momentele empirice centrate de ordin k

se denesc astfel:

1X
k =
(xi x)k ,
n

pentru selecie,

i=1

N
1 X
k =
(xi )k ,
N

pentru populaie.

i=1

(3) Dispersia empiric


Aceasta este o msur a gradului de mprtiere a datelor n jurul valorii medii.

{x1 , x2 , . . . , xn },

denim

dispersia empiric:
n

!
n
1 X 2
2
=
[
xi n(
x) ] .
n1

1 X
(xi x
)2
s =
n1
2

i=1

Pentru ntreaga populaie de volum

i=1

N , dispersia populaiei
2 =

Pentru o selecie

este denit prin msura

N
1 X
(xi )2 .
N
i=1

Observaia 9.1

Cantitatea

1X
(xi x
)2
n

este tot o msur a dispersiei (empirice) de selecie.

Vom

i=1
2
vedea mai trziu c alegerea lui s este mai potrivit ntr-un anume sens. De altfel, ambele valori pot 
2
folosite ca estimatori ai dispersiei populaiei, .

61

STATS 5 [Dr. Iulian Stoleriu]

(4) Deviaia empiric standard


Este tot o msur a mprtierii datelor n jurul valorii medii. Pentru o selecie

deviaia empiric standard:

v
u
u
s=t

{x1 , x2 , . . . , xn },

denim

1 X
(xi x
)2 .
n1
i=1

Pentru ntreaga populaie de volum

N , deviaia standard a populaiei


v
u
N
u1 X
=t
(xi )2 .
N

este denit prin cantitatea

i=1

(5) Amplitudinea (plaja de valori, range)


Pentru un set de date,

amplitudinea (en.,

range) este denit ca ind diferena dintre valoarea cea mai

mare i valoarea cea mai mic a datelor, i.e.,

xmax xmin .

(6) Scorul Z
Este numrul deviaiilor standard pe care o anumit observaie,
o selecie

{x1 , x2 , . . . , xn }, scorul Z

Pentru o populaie, scorul

x, le are sub sau deasupra mediei.

Pentru

este denit astfel:

z=

xx

.
s

z=

x
.

este:

(7) Corelaia (covariana) empiric


Dac avem

n perechi de observaii, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), denim corelaia (covariana) empiric

(de selecie):

covsel

1 X
=
(xi x
)(yi y).
n1

(9.2)

i=1

Covariana empiric pentru ntreaga populaie este:

covpop =

N
1 X
(xi x )(yi y ).
N

(9.3)

i=1

(8) Coecientul de corelaie empiric


rsel =
rpop =

covsel
,
sx sy

coecient de corelaie de selecie,

covpop
,
x y

coecient de corelaie pentru populaie.

(9) Funcia de repartiie empiric


Se numete
funcia

funcie de repartiie empiric

Fn : R [0, 1],

asociat unei variabile aleatoare

X i unei selecii {x1 , x2 , . . . , xn },

denit prin

Fn (x) =

card{i;

xi x}
.
n

(9.4)

62

STATS 5 [Dr. Iulian Stoleriu]

Propoziia de mai jos arat c funcia de repartiie empiric aproximeaz funcia de repartiie teoretic
(vezi Figura 9.1).

Propoziia 9.2
cu

F (x)

Fie

o colectivitate statistic i X o caracteristic a sa, ce se dorete a  studiat. Notez


X . Pentru o selecie de valori ale lui X , {x1 , x2 , . . . , xn }, construim

empiric, Fn (x). Atunci:

funcia de repartiie a lui

funcia de repartiie

prob

Fn (x) F (x),

Demonstraie.

Notez cu

evenimentul

cnd

n ,

{X x} i cu p = P (A).
A este

x R.

Se fac

repetiii ale acestui eveniment

i frecvena relativ a realizrii evenimentului

n
=
n

card{i;

xi x}
= Fn (x).
n

Astfel, concluzia propoziiei este o consecin imediat a teoremei lui Bernoulli, Teorema 7.4.

Figura 9.1: Funcia de repartiie empiric i funcia de repartiie teoretic pentru distribuia
normal.
(10) Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se denete prin
1 =
O repartiie este simetric dac
i negativ (sau la stnga) dac

n1/2
1 =

n
X
( (xi x)2 )3/2
i=1

3/2

1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac 1 > 0


1 < 0. Vom avea:

n
X
(xi x)3
i=1

(pentru selecie)

3 X
1 = 3 =
(xi )3

i=1

(pentru populaie).

63

STATS 5 [Dr. Iulian Stoleriu]

(11) Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se denete prin
4
3.
22

K=
Avem astfel:

n
X
n
(xi x)4

K=

i=1
n
X
( (xi x)2 )2

(pentru selecie)

i=1
i

K=

N
4
1 X

3
=
(xi )4 3
4
n 4

(pentru populaie),

i=1

Este o msur a boltirii distribuiei (al patrulea moment standardizat).


c indicele kurtosis al distribuiei normale s e egal cu

K = 0, leptocurtic

pentru

K>0

sau

platocurtic

pentru

Termenul

(3)

apare pentru

0. Vom avea o repartiie mezocurtic pentru


K < 0. Un indice K > 0 semnic faptul c,

n vecintatea modului, curba densitii de repartiie are o boltire (ascuire) mai mare dect clopotul lui
Gauss. Pentru

K < 0, n acea vecintate curba densitii de repartiie este mai plat dect curba lui Gauss.

(12) Cuantile
Cuantilele (de ordin n)
Dac

n = 2,

2, numit mediana, notat


x1 < x2 < < xn . Pentru aceast

atunci avem o singur cuantil de ordin

Presupunem c observaiile sunt ordonate,


median:

x0.5
Dac

n = 4,

sunt valori ale unei variabile aleatoare care separ repartiia ordonat n

egale.

(
x(n+1)/2
=
(xn/2 + xn/2+1 )/2

cuantilele se numesc

cuartile

, dac
, dac

(sunt n numr de

n=
n=
3).

prin

x0.5

sau

pri

Me.

ordine, denim valoarea

impar;
par;
Prima cuartil, notat

x0.25

sau

Q1 ,

cuartila inferioar, a doua cuartil este mediana, iar ultima cuartil, notat x0.75 sau Q3 , se
cuartila superioar. Diferena Q3 Q1 se numete distana intercuartilic.
Dac n = 10 se numesc decile (sunt n numr de 9), dac n = 100 se numesc percentile (sunt n numr de
99), dac n = 1000 se numesc permile (sunt n numr de 999). Sunt msuri de poziie, ce msoar locaia

se numete
numete

unei anumite observaii fa de restul datelor.

(13) Modul
Modul

(sau

valoarea modal)

este acea valoare

din setul de date care apare cel mai des. n anumite

cazuri, dac datele sunt deja grupate, putem doar estima modul sau, alternativ, s precizm clasa care
l conine, numit

clasa modal.

Tabelul 1.4 clasa modal este

De exemplu, pentru datele din Tabelul 1.1 este

[35, 45).

astfel de valori, atunci vom spune c setul de date este


de date

trimodal etc.

6,

iar pentru datele din

Un set de date poate avea mai multe module. Dac apar dou

bimodal,

pentru trei astfel de valori avem un set

n cazul n care toate valorile au aceeai frecven de apariie, atunci spunem c nu

exist mod. De exemplu, setul de date

1 3

5 6

3 2

1 4

4 6

2 5

nu admite valoare modal. Nu exist un simbol care s noteze distinctiv modul unui set de date.

64

STATS 5 [Dr. Iulian Stoleriu]

Msuri descriptive ale datelor grupate


Considerm un set de date statistice grupate (de volum

X.

n), ce corespund celor n observaii asupra variabilei

Datele grupate sunt n genul celor prezentate n Figurile 1.1 i 1.4.

Pentru o selecie cu valorile de mijloc

. . . , fn },

cu

n
X

fi = n,

{x1 , x2 , . . . , xn }

i frecvenele absolute corespunztoare,

{f1 , f2 ,

denim:

i=1
n

x
f =

1X
xi fi ,
n

media (empiric) de selecie, (sau, media ponderat)

i=1
!
n
n
X
X
1
1
2
2
2
2
fi (xi x
f ) =
xi fi n x
f , dispersia
s =
n1
n1
i=1
i=1

s = s2 , deviaia empiric standard.

empiric,

Formule similare se pot da i pentru msurile descriptive ale ntregii populaii.


Mediana pentru un set de date grupate este acea valoare ce separ toate datele n dou pri egale. Se
determin mai nti clasa ce conine mediana (numit

clas median),

ecrei clase datele sunt uniform distribuite (vezi Exerciiu 10.3).


mediana este:

Me = l +
l

unde:

este limita inferioar a clasei mediane,

la (exclusiv) clasa median,

fM e

n
2

apoi presupunem c n interiorul

O formul dup care se calculeaz

FM e
c,
fM e

este volumul seleciei,

este frecvena clasei mediane i

FM e

este suma frecvenelor pn

este limea clasei.

Pentru a aa modul unui set de date grupate, determinm mai nti clasa ce conine aceast valoare (clas
modal), iar modul va  calculat dup formula:

M od = l +
unde

d1

d2

d1
c,
d1 + d2

sunt frecvena clasei modale minus frecvena clasei anterioare i, respectiv, frecvena clasei

modale minus frecvena clasei posterioare,

este limita inferioar a clasei modale i

este limea clasei

modale.

Observaia 9.3

S considerm urmtoarea problem. La brutria din col a fost adus o main nou de

fabricat pine. Aceast main de pine ar trebui s fabrice pini care s aiba n medie

m = 400 de grame.

Pentru a testa dac maina respectiv ndeplinete norma de gramaj, am pus deoparte (la ntmplare)

pini produse ntr-o zi lucratoare, n scopul de a le cntri. Spunem astfel c am facut o selecie de

volum

n din mulimea pinilor produse n acea zi. Dorim s decidem dac, ntr-adevr, maina este setat
n pini, obinem datele (empirice): {x1 , x2 , . . . , xn } (n

la parametrii potrivii. n urma cntririi celor

grame). Calculm media masei acestora i obinem:

x=

1X
xi .
n
i=1

Intuitiv, ar  de ateptat ca acest

x s aproximeze (ntr-un anumit sens) masa medie (teoretic) a pinilor

produse de aceast main. Pentru a putea obine aceast aproximare, am avea nevoie de un criteriu care

STATS 5 [Dr. Iulian Stoleriu]

65

x m.

Mai mult, am dori s m convini c aceast aproximare nu depinde de eantionul

s ne spun c

de pini ales, adic, dac am  ales alte pini i calculat media maselor lor, am  obinut din nou o
valoarea foarte apropiat de

m.

Pentru a construi un astfel de criteriu, avem nevoie de un cadru teoretic

mai abstract pentru modelarea datelor statistice. Acest cadru l vom construi n capitolele ce urmeaz.

n Tabelul 9.1, am prezentat cteva funcii

mean(x)
geomean(x)
harmmean(x)
quantile(x,alpha)
iqr(x)
median(x)
std(x), var(x)
range(x)
mode(x)
zscore(x)
moment(x,k)
sort(x)
max(x), min(x)
skewness(x)
kurtosis(x)
prctile(x,p)
cdfplot(x)
cov(x,y)
corrcoef(x,y)
LEGEstat(<param>)

Tabela 9.1: Funcii


.

Matlab specice pentru msurile descriptive.

% media valorilor elementelor lui x;


% media geometric a elementelor lui x;
% media armonic a elementelor lui x;
% cuantila de ordin a vectorului x;
% distana intercuantilic, x0.75 x0.25 ;
% valoarea median a lui x;
% deviaia standard i dispersia valorilor lui x;
% amplitudinea (range) vectorului x;
% modul lui x;
% realizeaz scorul elementelor lui x;
% momentul de ordin k al lui x;
% sorteaza crescator elementele vectorului x;
% maximum i minimum pentru elementele lui x;
% skewness pentru elementele lui x;
% kurtosis pentru elementele lui x;
% percentilele de ordin p ale lui x;
% reprezint grac funcia de repartiie empiric a lui x;
% covariana dintre x i y ;
% coecientul de corelaie dintre x i y ;
% aeaz media i dispersia pentru LEGE(<param>);

Matlab specice pentru msuri descriptive.

66

Laborator 5 [Dr. Iulian Stoleriu]

10 Statistic Aplicat (L5)


Justicare grac a teoremei limit central
Exemplu 10.1

n Figura 10.1 am reprezentat grac (cu bare) funciile de probabilitate pentru repartiiile

binomial i Poisson, atunci cnd numrul de extrageri n schema binomial este un numr mare. Observm c pentru un numr

n sucient de mare, cele dou grace se suprapun.

Aceasta este o "demonstraie"

grac a urmtoarei convergene:

lim Cnk pk q nk =

n
p0

e k
.
k!

(10.1)

=np

0.12

0.1

0.08

0.06

0.04

0.02

10

15

20

25

30

Figura 10.1: B(n, p) i P(np) pentru n = 100, p = 0.15


n practic, proprietatea (10.1) este satisfcut pentru

n 30, p 0.1, = n p 0.1.


Din gura 10.1, observm c gracul are forma clopotului lui Gauss, justicnd grac faptul c funciile
de probabilitate pentru binomial (

albastru)

i Poisson (

rou)

tind la densitatea de repartiie pentru

repartiia normal.

n = input('n='); p = input('p=');
lambda = n*p;
a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda));
% a si b sunt valorile din problema celor 3
x=a:b;
fB=binopdf(x,n,p); fP=poisspdf(x,lambda);
bar(x',[fB',fP'])

67

Laborator 5 [Dr. Iulian Stoleriu]

Generare de numere aleatoare folosind metoda funciei de repartiie inverse (Hincin-Smirnov)


Exemplu 10.2
1

e x ,

x>

Fie variabila aleatoare

0, iar F 1 este:

X exp().

Funcia sa de repartiie este

F : R [0, 1],

F (x) =

(
ln(1 u) , u (0, 1);
F 1 (u) =
0
, altfel.
{u1 , u2 , . . . , un } sunt numere aleatoare uniform repartizate n [0, 1], avem
1
F (u2 ), . . . , F 1 (un )} formeaz o selecie ntmpltoare de numere repartizate exp().
Atunci, dac

n Figura 10.2, am reprezentat grac o dou selecii de volum

{F 1 (u1 ),

150 de numere aleatoare repartizate exp(5);

Matlab predenit
Matlab care genereaz gura este

una generat prin metoda funciei de repartiie inverse, cealalt generat de funcia

exprnd.

Seleciile generate au fost ordonate descresctor.

Funcia

prezentat mai jos.


Apelarea funciei se face prin tastarea n fereastra de lucru n

Matlab a comezii expsel(5).

function expsel(lambda)
% functia expsel.m
% generez 150 de numere cu metoda Hincin-Smirnov si le ordonez descrescator
Y = sort(-lambda*log(1-rand(150,1)), 'descend');
plot(Y, 'bo'); hold on
% desenez selectia si retin figura
% generez 150 de numere cu exprnd si le ordonez descrescator
Z = sort(exprnd(lambda, 150,1), 'descend');
plot(Z, 'r*')
% desenez Z cu rosu
legend('metoda functiei inverse','generare cu exprnd')

Figura 10.2: Generare de numere aleatoare prin metoda funciei inverse.

Exerciiu 10.1
i simulai n

Considerm v.a.

X U 2 ,

2 . Determinai densitatea de repartiie a v.a.

Matlab o selecie de observaii independente asupra lui Y .

Y = tan X

68

Laborator 5 [Dr. Iulian Stoleriu]

Generarea de numere aleatoare ntregi

Funciile floor, ceil, round, fix


Sunt funcii folosite pentru generarea de numere aleatoare ntregi.
partea ntreag a lui

x.

De exemplu, funcia

floor(x)

este

Astfel, comenzile

floor(11*rand(20,1));
ceil(11*rand(20,1));
20 de numere ntregi ntre 0 i 10, distribuite uniform discret. Diferena dintre cele
floor(x) face rotunjirea la numrul ntreg aat la stnga lui x, pe cnd ceil(x) face
rotunjirea la numrul ntreg aat la dreapta lui x.
Funciile round(x) i fix(x) rotunjesc numrul real x la cel mai apropiat numr ntreg, n direcia lui
, respectiv, n direcia lui zero.
genereaz ecare cte
dou funcii este ca

Pentru generarea de numere ntregi n

Matlab, mai putem folosi urmtoarele comenzi:

randsample(populatie, k)
randsample(n, k)
randsample(populatie, k, replace)
Prima comand genereaz o selecie uniform (discret) nerepetat de
vectorul

populatie.

numere naturale alese aleator din

populatie este n (comanda a doua), atunci se realizeaz o


{1, 2, . . . , n}. A treia comand ne d posibilitanu este repetat. Dac variabila replace este true sau 1, atunci
dac variabila replace este false sau 0, atunci selecia obinut

Dac n locul vectorului

selecie uniform nerepetat de

numere din mulimea

tea s controlm dac selecia este sau


selecia obinut este una repetat, iar
este una nerepetat.
De exemplu, comanda

randsample([50:2:100], 10, 0)
genereaz o selecie nerepetat de

66
Vectorul

72

10

numere pare ntre

50

68

88

50

74

100:

82

80

94

76

dat de

X = randperm(n)
este o permutare aleatoare a elementelor mulimii

Exerciiu 10.2

{1, 2, . . . , n}.

Urmtorul set de date reprezint preurile (n mii de euro) a

20

de case, vndute ntr-o

69

Laborator 5 [Dr. Iulian Stoleriu]


anumit regiune a unui ora:

113 60.5 340.5 130 79 475.5 90 100 175.5 100


111.5 525 50 122.5 125.5 75 150 89 100 70
Determinai amplitudinea, media, mediana, modul, cuartilele i distana intercuartilic pentru aceste
date. Care valoare este cea mai reprezentativ?

Soluie:

Rearanjm datele n ordine cresctoare:

50 60.5 70 75 79 89 90 100 100 100 111.5


113.5 122.5 125.5 130 150 175.5 340.5 475.5
525 50 = 475, media lor
Q1 = 84, cuartila superioar
d = Q3 Q1 = 56.
Amplitudinea este

este

inferioar este

este

525

154.15, mediana este 105.75, modul este 100, cuartila


Q3 = 140, Q2 = M e i distana intercuartilic este

Mediana este valoarea cea mai reprezentativ n acest caz, deoarece cele mai mari trei preuri, anume

340.5, 475.5, 525,

mresc media i o fac mai puin reprezentativ pentru celelalte date. n cazul n care

setul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. n

Matlab,

X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ...
111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70
a = range(X); m = mean(X); Me = median(X); Mo = mode(X);
Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;

Exerciiu 10.3

Considerm datele din Tabelul 2.2. Determinai amplitudinea, media, mediana, modul,

dispersia i prima cuartil pentru aceste date.

Soluie:
x
=

Amplitudinea este

a = 30.

Media este

P
(x f )
1
= (2.5 5 + 7.5 13 + 12.5 23 + 17.5 17 + 22.5 10 + 27.5 2) = 13.9286.
n
70

Dispersia este:

1 X 2
( (x f ) n x
2 )
n1
1
=
(2.52 5 + 7.52 13 + 12.52 23 + 17.52 17 + 22.52 10 + 27.52 2 70 13.92862 )
69
= 37.06.

s2 =

Clasa median este clasa

[10, 15).

Deoarece n clasele anterioare ([0,

5)

[5, 10))

se a deja

5 + 13 = 18

date mai mici dect mediana, pentru a aa nlimea median a plantelor (i.e., acea valoare care este
mai mare dect nlimea a

35

de plante i mai mic dect nlimea a alte

s determinm acea valoare din clasa median ce este mai mare dect alte

17

35

de plante), va trebui

valori din aceast clas.

70

Laborator 5 [Dr. Iulian Stoleriu]


Aadar, avem nevoie de a determina o fracie

17
23 dintre valorile clasei mediane. n concluzie, valoarea

median este

M e = 10 +
Clasa modal este

[10, 15),

17
5 = 13.6957.
23

iar modul este valoarea central a clasei,

12.5.

Calculm acum prima cuartil. mprim setul de date n patru. Prima cuartil este acea valoare dintre
cele

70

care este mai mare dect alte

18

valori, adic

Q1 = 10.

Implementarea n

Matlab:

x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5];


% centrele claselor
f = [5; 13; 23; 17; 10; 2];
% frecventele
n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1);

Exerciiu 10.4

O companie de asigurri a nregistrat numrul de accidente pe sptmn ce au avut loc

ntr-un anumit sat, n decurs de un an (52 de sptmni). Acestea sunt, n ordine:

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2,
4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2
(a) Construii un tabel de frecvene care s conin numrul de accidente, frecvenele absolute i relative.
(b) Gsii media empiric, mediana i deviaia standard empiric.
(c) Reprezentai prin bare rezultatele din tabelul de frecvene.
(d) Gsii i reprezentai grac (cdfplot) funcia de repartiie empiric a numrului de accidente.
(e) Aproximai probabilitatea ca ntr-o sptmn aleas la ntmplare s  avut cel puin dou accidente.

Soluie:

(a) Tabelul de frecvene este Tabelul 10.1.


numrul
frecv. abs.
frecv. rel.

0
7
0.1346

1
9
0.1731

2
14
0.2692

3
12
0.2308

4
10
0.1923

Tabela 10.1: Tabel de frecvene pentru Exerciiu 10.4


(b) Avem:

x=

52
X

xi = 2.1731,

i=1
(c)

v
u
52
u1 X
t
s=
(xi x
)2 = 1.3094,
51

M e = 2.

i=1

Reprezentarea prin bare a numrului de accidente i gracul lui

Fn (x)

10.3.
(d) Funcia de repartiie empiric este:

Fn (x) = P (X x) =

0,

7,

52

16 ,
52

30

52 ,

42

52 ,

1,

x < 0;
dac x [0,
dac x [1,
dac x [2,
dac x [3,
dac x 4.
dac

1);
2);
3);
4);

sunt reprezentate n Figura

71

Laborator 5 [Dr. Iulian Stoleriu]

Figura 10.3: Reprezentare pentru numrul de accidente.


Probabilitatea cerut la

(e)

este:

P (X 2) = 1 P (X < 2) = 1 P (X 1) = 1 Fn (1) = 1
Codul

16
= 0.6923.
52

Matlab pentru calcule i grace este:

Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)];
m = mean(Y); s = std(Y); Me = median(Y);
subplot(1,2,1); bar(0:4,[7,9,14,12,10])
% graficul cu bare
subplot(1,2,2); cdfplot(Y)
% graficul functiei de repartitie empirice

Exerciiu 10.5

Testm media notelor obinute de studenii din ultimul an al unei universiti. S pre-

supunem c pentru aceste note avem media de selecie


este

s,

8.45.

x = 7.24

i deviaia standard

s = 0.7.

Media ta

Care i este poziia mediei tale, raportat la mediile colegilor ti? (i.e., cte deviaii standard,

dedesubtul sau deasupra mediei de selecie te situezi?)

Soluie:

Calculm scorul

z=

Z.

Avem:

xx
8.50 7.24
=
= 1.8

0.7

deviaii standard deasupra mediei de selecie.

72

STATS 6 [Dr. Iulian Stoleriu]

11 Statistic Aplicat (C6)


Noiuni de Teoria seleciei statistice

Deniia 11.1

Numim

colectivitate statistic

(sau

populaie)

o mulime nevid

cercetat din punct de vedere al uneia sau mai multor caracteristici.


numi

indivizi

(sau

atunci numrul
(sau

uniti statistice).

Vom nota cu

de elemente care este

Elementele colectivitii le vom

o unitate statistic.

Dac populaia este nit,

al unitilor statistice ce o compun (i.e., card()) l vom numi

volumul populaiei).

Considerm o populaie (colectivitate statistic)


caracteristici a sale,

X.

Studiem populaia

volumul colectivitii

din punctul de vedere al unei

Aceast caracteristic este o anumit proprietate urmrit la indivizii ei n

procesul prelucrrii statistice i o vom asimila cu o variabil aleatoare denit pe

Problema esenial

a Statisticii Matematice este de a stabili legea de probabilitate pe care o urmeaz caracteristica

X.

Pentru a gsi aceast lege (repartiie), avem nevoie mai nti de un numr reprezentativ de observaii
asupra colectivitii
variabila

Pe baza acestor observaii, vom determina prin inferen o lege care s reprezinte

X.

Deniia 11.2

sondaj) o subcolectivitate a colectivitii cercetate . Numrul


volumul seleciei (sondajului). Seleciile pot  repetate sau nerepetate. O selecie se numete repetat (sau bernoullian) dac dup examinarea individului acesta se
reintroduce n colectivitate; n caz contrar avem o selecie nerepetat. n practic, volumul colectivitii
Vom numi

selecie

(sau

elementelor seleciei poart numele de

este mult mai mare dect volumul seleciei. n aceste cazuri, selecia nerepetat poate  considerat ca

ind selecie repetat. Seleciile pe care le vom considera n continuare sunt numai selecii repetate din
colectivitatea statistic.

Dorim acum s introducem un cadru matematic abstract pentru aceste selecii repetate (pentru o abordare
mai detaliat, se poate consulta [11]).
Considerm spaiul msurabil

(, F),

unde

este un corp borelian de pri ale lui

urmrit poate  reprezentat de o variabil aleatoare denit pe


o selecie repetat de volum
mulime

n ori".

n.

(, F).

Caracteristica

Dorim s denim matematic

Euristic, ideea este urmtoarea: a efectua

sondaje repetate dintr-o

este echivalent cu a considera o singur selecie dintr-o populaie de genul "

multiplicat de

Construim astfel:

(n) = ,
produs cartezian de

ori. Un element al lui

(n)

F (n) = F F F,
va 

(n) = (1 , 2 , . . . , n ),
numit

n.

selecie repetat de volum n.

Cuplul

((n) , F (n) )

se numete

spaiul seleciilor repetate de volum

Considerm variabilele aleatoare

Xi : (n) R,

Xi ( (n) ) = X(i ),

i = 1, n.

73

STATS 6 [Dr. Iulian Stoleriu]


Acestea sunt variabile aleatoare denite pe

{X(i )}i=1, n

(se

Vom numi Xi , i = 1, n, variabile aleatoare de selecie repetat de


vector de selecie repetat de volum n, vectorul Y , astfel nct:

Y : (n) R,
(n)

FX

FXi = FX , i = 1, n).

Vom numi

Pentru un

sunt independente stochastic (pentru c v.a.

sunt independente) i sunt identic repartizate, cu funcia de repartiie comun

veric usor c

volum n.

((n) , F (n) ),

Y ( (n) ) = (X1 ( (n) ), X2 ( (n) ), . . . , Xn ( (n) )).

xat, componentele vectorului

Y ( (n) )

se numesc

valori de selecie repetat de volum n.

Vom nota cu

Ln = Y ((n) ) Rn ,
i-l vom numi

spaiul valorilor de selecie repetat de volum n.

Elementele lui

Ln

le vom nota prin

x = (x1 , x2 , . . . , xn ),
(xi = Xi ( (n) ),

pentru

(n)

Deniia 11.3

Vom numi

i = 1, 2, . . . , n).

xat,

statistic (sau funcie de selecie) variabila aleatoare


Sn (X) = g(X1 , X2 , . . . , Xn ),

unde

este o funcie

g : Rn R

msurabil (i.e.,

B B(R),

g 1 (B) B(Rn )).

Ca o observaie, numele de "statistic" este folosit n literatura de specialitate att pentru variabila aleatoare de mai sus, ct i pentru valoarea ei, nelesul exact desprinzndu-se din context. Repartiia unei
statistici se mai numete i

Notaii:

repartiia (distribuia) de selecie.

n literatur, statistica este notat cu una dintre urmtoarele:

Sn (X),

S(X, (n) ),

S(X, n),

S(X1 , X2 , . . . , Xn ).

Valoarea numeric

Sn (x) = g(x1 , x2 , . . . , xn )
se numete

valoarea funciei de selecie pentru un (n)

Observaia 11.4

xat.

Aadar, o statistic este o funcie de variabilele aleatoare de selecie. Prin intermeniul

statisticilor putem trage concluzii despre populaia

din care a provenit eantionul

babilitilor ne ofer procedee de determinare att a repartiiei exacte a lui


asimptotice a lui

Sn (X),

(n) .

Teoria pro-

ct i a repartiiei

Sn (X). Repartiia exact este acea repartiie ce poate  determinat pentru orice volum
< 30), atunci repartiia exact ar

al seleciei. n general, dac se lucreaz cu selecii de volum redus (n


trebui s e cunoscut
este repartiia limit a

a priori,

Sn (X)

dac se dorete luarea de decizii prin inferen.

cnd

n ,

Repartiia asimptotic

iar utilizarea acesteia conduce la rezultate bune doar pentru

n 30.
De cele mai multe ori, o funcie de selecie (statistic) este utilizat n urmtoarele cazuri:

n probleme de estimare punctual a parametrilor;

n obinerea intervalelor de ncredere pentru un parametru necunoscut;

ca o statistic test pentru vericarea ipotezelor statistice.

74

STATS 6 [Dr. Iulian Stoleriu]

Exemple de statistici
Fie

(, F)

o colectivitate statistic i

f (x) i F (x) densipentru X . Acestea pot

o caracteristic cercetat a sa. S notm cu

tatea de repartiie (sau funcia de probabilitate), respectiv, funcia de repartiie

a priori i le vom numi funcii teoretice (densitate de repartiie teoretic,


funcie de probabilitate teoretic sau funcie de repartiie teoretic). Dac se cunoate f (x), atunci putem
2
2
determina = E(X) i = D (X), dac acestea exist, i le vom numi medie teoretic i dispersie
teoretic.
n cazul n care una sau mai multe caracteristici teoretice corespunztoare lui X nu ne sunt a priori
 cunoscute sau necunoscute

cunoscute, vom cuta s le determinm prin inferen, adic prin extragerea unor selecii de date din
colectivitate, calculnd caracteristicile respective pentru seleciile considerate i apoi extrapolnd (n anumite condiii i dup anumite criterii) la ntreaga colectivitate.
S considerm

(n)

o selecie repetat de volum

din colectivitatea dat i

Xi , i = 1, n,

variabilele

aleatoare de selecie. Cu ajutorul acestora, putem construi diverse funcii de selecie.

Media de selecie

Deniia 11.5

(mean)

Numim

medie de selecie (repetat de volum n), statistica


n

X( (n) ) =

1X
Xi ( (n) ),
n

(n) (n) .

(11.1)

i=1

Pentru un

(n)

{x1 , x2 , . . . , xn } valorile de selecie corespunztoare variabilelor


{X1 , X2 , . . . , Xn }. Atunci valoarea mediei de selecie pentru un (n) xat este:

xat, s notm cu

toare de selecie

alea-

1X
x=
xi
n

(media

empiric).

i=1

Propoziia 11.6

Media de selecie satisface urmtoarele proprieti:

E(X) = E(X),

D2 (X) =

D2 (X)
;
n

(11.2)

1X
a.s.
Xi E(X),
n

cnd

n .

(conform LTNM)

(11.3)

i=1

Observaia 11.7

(1)

n capitolele urmtoare vom scrie relaia (11.4) sub forma restrns:

X=

1X
Xi .
n

(11.4)

i=1

Pentru simplitatea formulelor, de acum nainte vom face abstraie de dependena de

(n)

n formule, care

se va subnelege.
(2)

Propoziia 11.22 precizeaz care este repartiia mediei de selecie pentru variabile aleatoare de selecie

dintr-o colectivitate normal, iar Propoziia 11.24 precizeaz care este repartiia asimptotic a mediei de
selecie pentru variabile de selecie ntr-o colectivitate oarecare.

75

STATS 6 [Dr. Iulian Stoleriu]

Momente de selecie

Deniia 11.8

Numim

moment de selecie (repetat de volum n) de ordin k, (k N ), statistica


n

1X k
k (X) =
Xi .
n
i=1

Valoarea momentului de selecie de ordin

pentru un

(n)

xat este:

1X k
xi
n

k (x) =

(moment

iniial empiric de ordin

k).

i=1

k = 1,

n cazul particular

avem:

1 (X) = X.

Propoziia 11.9

Pentru oricare

E(k (X))

D2 (k (X))

xat,

k N ,

avem:

E(X k ) = k (X),
D2 (X k )
,
n

(momente

iniiale teoretice pentru

X)

1 X k a.s.
Xi k (X),
n

cnd

n .

i=1

Momente de selecie centrate

Deniia 11.10

Numim

moment de selecie centrat de ordin k, statistica


n

k (X) =

1X
[Xi X]k .
n
i=1

Valoarea momentului de selecie de ordin

pentru un

(n)

xat este:

k (x) =

1X
[xi x]k
n

(moment

centrat empiric de ordin

k).

i=1

Propoziia 11.11

Pentru oricare

E(k (X))
1
n

n
X
i=1

(Xi X)k

=
a.s.

xat,

k N ,

avem:

E([X ]k ) = k (X),

k (X),

cnd

n .

(momente

centrate teoretice pentru

X)

76

STATS 6 [Dr. Iulian Stoleriu]

Dispersie de selecie

Deniia 11.12

(var)

dispersie de selecie (repetat de volum n), statistica

Numim

1X
[Xi X]2 .
n

d2 (X) = 2 (X) =

i=1

d2 (X),

Pentru simplitate, o vom nota cu

iar valoarea acesteia pentru un

(n)

xat este:

d2 (x) =

1X
[xi x]2
n

(dispersia

empiric).

(11.5)

i=1

De cele mai multe ori, n locul lui

d2 (X)

se utilizeaz statistica

d2 (X),

denit prin:

d2 (X)

1 X
[Xi X]2 .
=
n1

(11.6)

i=1

Aceasta se mai numete i

dispersie de selecie modicat, iar valoarea ei pentru un (n)

xat este:

s =

d2 (x)

1 X
=
[xi x]2
n1

(dispersia

empiric modicat).

i=1

Motivaia pentru considerarea statisticii

Propoziia 11.13

d2 (X)

este dat de proprietile din propoziia urmtoare:

Dispersiile de selecie veric urmtoarele relaii:

E(d2 (X)) =

n1 2
D (X),
n

E(d2 (X)) = D2 (X)


prob

d2 (X) D2 (X),

Observaia 11.14
d2 (X)
(ii)

cnd

(11.7)

n .

(11.8)

(i) Dup cum vom vedea n capitolul urmtor, primele dou relaii arat c statistica

d2 (X) este estimator deplasat.


a priori, E(X) = R, atunci dispersia de

este un estimator nedeplasat pentru dispersia teoretic, pe cnd

Dac media teoretic a colectivitii este cunoscut

selecie

d2 (X)

devine:

d2 (X) =

1X
[Xi ]2 .
n

(11.9)

i=1

Propoziia 11.28 precizeaz care este repartiia acestei statistici.

Funcia de repartiie de selecie

(cdfplot)

Deniia 11.15 Fie X1 , X2 , . . . , Xn variabile aleatoare de selecie repetat de volum n.


de repartiie de selecie (repetat de volum n), funcia
Fn : R (n) [0, 1],

Fn (x, (n) ) =

n(x)
,
n

(x, (n) ) R (n) ,

Numim

funcie

77

STATS 6 [Dr. Iulian Stoleriu]


unde

n(x) = card {i, Xi ( (n) ) x}

reprezint numrul de elemente din selecie mai mici sau egale cu

x.

Relaia din deniie poate  scris i sub forma:

Fn (x) =

1X
(, x] (Xi ),
n

x R,

i=1

unde

este funcia indicatoare a mulimii

A.

(n) ) este o variabil aleatoare repartizat binomial


Pentru un x R xat, Fn (
(n)
(n)
Pentru ecare
xat, Fn (x) ia valorile:

Fn (x) =

card

B(n, F (x)).

{i, xi x}
,
n

(i.e., este funcia de repartiie empiric denit n 9.4).

Propoziia 11.16

Funcia de repartiie de selecie satisface urmtoarele relaii:

E(Fn (x)) = F (x), x R;


1
[F (x)(1 F (x))],
D2 (Fn (x)) =
n

x R;

n Statistic, exist o serie de criterii care permit s se aprecieze apropierea lui

Fn (x)

de

F (x).

Mai jos,

amintim doar cteva dintre ele.

Propoziia 11.17

Funcia de repartiie de selecie satisface convergena

a.s.

Fn (x) F (x), x
n

Demonstraie.

R.
2

Rezultatul este o consecin direct a legii tari a numerelor mari.

Propoziia 11.18

Pentru

Demonstraie.

xat n

n N sucient de mare,

funcia de repartiie de selecie satisface proprietatea

n(Fn (x) F (x)) N ( 0, F (x)(1 F (x)) ), x

xat n

R.

Rezultatul este o consecin direct a Propoziiei 11.16 i a teoremei limit central.

Teorema 11.19 (Glivenko-Cantelli) Fie X

F (x) funcia sa de repartiie i Fn (x) funcia

volum n. Atunci Fn (x) converge uniform la F (x),

o caracteristic,

de repartiie empiric corespunztoare unei selecii de


adic:

sup |Fn (x) F (x)| 0,


xR

cu probabilitatea

1.

Statistici de ordine
Deniia 11.20

Dac variabilele aleatoare din selecia

{X1 , X2 , . . . , Xn }

mii lor i scriem

X(1) X(2) X(n) ,

le rearanjm n ordinea mri-

78

STATS 6 [Dr. Iulian Stoleriu]

X(i) statistica de ordine de ordin i, pentru orice i = 1, 2, . . . , n.


i o vom nota prin x(i) , pentru orice i =

atunci vom numi variabila aleatoare

Pentru o selecie dat, valoarea statisticii de ordine de ordin

1, 2, . . . , n.
Statistica X(1)

se numete

prima statistic de ordine i este ntotdeauna minimumul seleciei, i.e.,


X(1) = min{X1 , X2 , . . . , Xn }.

Statistica

X(n)

se numete

ultima statistic de ordine i este ntotdeauna maximumul seleciei, i.e.,


X(n) = max{X1 , X2 , . . . , Xn }.

De exemplu, dac avem valorile de selecie

x1 = 8,

x2 = 7,

x3 = 9,

x4 = 5,

x5 = 3,

atunci

x(1) = 3,
Dac

n = 2m + 1,

caz. Dac

atunci

n = 2m,

x(2) = 5,

X(m) = X( n+1 ) = X ,
2

x(3) = 7,

x(5) = 9.

adic media de selecie este o statistic de ordine n acest

atunci avem dou valori de mijloc,

media de selecie nu este statistic de ordine pentru


Denim

x(4) = 8,

X(m)

X(m+1) .

Deoarece

X = 21 (X(m) + X(m+1) ),

par.

amplitudinea (range) seleciei ca ind statistica A = X(n) X(1) .


deviaiile extreme ale seleciei.

Statisticile

X(n) X

X(1) X

se numesc

Dei variabilele aleatoare de selecie sunt independente, totui statisticile de ordine sunt dependente.
S presupunem c

F (x)

este funcia de repartiie a seleciei date i

f (x)

densitatea de repartiie. Urm-

toarea propoziie stabilete funciile de repartiie pentru statisticile de ordine.

Propoziia 11.21

Pentru un

k 1, n

FX(k) (x) =

n
X

xat, funcia de repartiie pentru

Cnj F (x)j [1 F (x)]nj ,

X(k)

pentru orice

este:

x R.

j=k

Demonstraie.

Avem succesiv:

FX(k) (x) = P (X(k) x)


= P ({cel

puin

v.a. din cele

nu depesc pe

x})

= P ({cel puin k succese n n ncercri})


n
X
=
Cnj [P (X x)]j [1 P (X x)]nj
=

j=k
n
X

Cnj F (x)j [1 F (x)]nj ,

pentru orice

x R.

j=k

2
n particular, pentru

k = 1,

obinem c funcia de repartiie a celui mai mic element al seleciei:

FX(1) (x) = 1 [1 F (x)]n ,

pentru orice

x R.

79

STATS 6 [Dr. Iulian Stoleriu]


Funcia de repartiie a celui mai mare element al seleciei este:

FX(n) (x) = [F (x)]n ,

pentru orice

x R.

Selecii aleatoare dintr-o colectivitate normal


S considerm

o colectivitate statistic i

o caracteristic a sa, ce urmeaz a  studiat din punct de

{X1 , X2 , . . . , Xn } variabile aleatoare de selecie repetat de volum n. n cele mai


X urmeaz o repartiie normal (gaussian). De regul, dac volumul populaiei
este mic (n < 30), atunci considerm doar populaii normale, iar pentru n > 30 putem considera orice tip
vedere statistic. Fie

multe cazuri practice,

de repartiie pentru colectivitate. Mai jos, prezentm cteva rezultate utile referitoare la selecia dintr-o
colectivitate gaussian.

Propoziia 11.22 (repartiia mediei de selecie pentru o selecie gaussian)


Dac

Xi N (, ), i = 1, 2, . . . , n,

atunci statistica


XN

Demonstraie.

,
n

satisface:

(n N )

Vom folosi metoda funciei caracteristice.

caracteristic este:

(t) = ei t 2

Pentru o variabil aleatoare


2 t2

N (, )

funcia
(11.10)

Folosind proprietile funciei caracteristice i relaia

aX (t) = X (at),
obinem c funcia caracteristic a lui

X (t) =

este:

n
Y

t
n

2 t2
2 n2

it

= e

1
2

2

t2

k=1
adic

urmeaz legea de repartiie

N (,

).
n

O consecin direct a acestei propoziii este urmtoarea:

Propoziia 11.23

Dac

Xi N (, ), i = 1, 2, . . . , n
Z=

sunt variabile aleatoare de selecie, atunci

X
N (0, 1).

Propoziia 11.24 (repartiia mediei de selecie pentru o selecie oarecare)


Dac

{X1 , X2 , . . . , Xn }, variabile aleatoare de selecie repetat de volum n, ce urmeaz o repartiie dat,


n sucient de mare, statistica X satisface:



X N ,
.
(n > 30)
n

atunci pentru un volum

80

STATS 6 [Dr. Iulian Stoleriu]

Demonstraie.

Acest rezultat este o consecin imediat a concluziei teoremei limit central.

Observaia 11.25

Dac

este sucient de mare, atunci concluzia Propoziiei 11.23 ramne valabil i

n cazul n care avem o selecie repetat de volum

dintr-o colectivitate statistic ce nu este neaprat

gaussian.

Propoziia 11.26
i = 1, n,

Dac

atunci variabila

i N (i , i ) sunt variabile aleatoare independente


n
X
aleatoare =
ai i satisface proprietatea:

stochastic i

ai R,

i=1

n
X
N
ai i ,

u n
uX
t
a2i i2 .

i=1

Demonstraie.

i=1

Demonstraia este bazat pe metoda funciei caracteristice.

Propoziia 11.27

Fie

i N (i , i ) variabile
i considerm cte

Pentru ecare caracteristic

de selecie corespunztoare ecrei selecii.

[Exerciiu!]

ai R, i = 1, n.
ni , i notm cu i media
Y = a1 1 + a2 2 + . . . + an n satisface

aleatoare independente stochastic i


o selecie repetat de volum

Atunci statistica

proprietatea:

n
X
Y N
ai i ,
i=1

Demonstraie.
toare,

i ,

Deoarece

i N (i , i ),

u n
uX i2
t
.
a2i
ni
i=1

din Propoziia 11.22 obinem c media de selecie corespunz-

satisface:


i N

i
i ,
ni


.

Aplicnd rezultatul Propoziiei 11.26 variabilelor aleatoare independente

{1 , 2 , . . . , n },

obinem con-

cluzia dorit.

Urmtoarea propoziie este un caz particular al Propoziiei 11.27.

Propoziia 11.28 (repartiia diferenei mediilor de selecie pentru colectiviti gaussiene)


Considerm o selecie de volum

N (2 , 2 ),

o colectivitate
respectiv,

n1

dintr-o populaie normal

N (1 , 1 )

i o selecie de volum

cele dou selecii ind alese independent una de cealalt.

n2

Notm cu

dintr-

i,

mediile de selecie corespunztoare seleciilor alese. Atunci statistica

1 2 N 1 2 ,

Demonstraie.

12
n1

22
n2

Aplicm rezultatul Propoziiei 11.27 pentru cazul particular n care avem doar dou vari-

abile aleatoare,

2 ,

iar

a1 = 1, a2 = 1.

81

STATS 6 [Dr. Iulian Stoleriu]

Observaia 11.29

(1)

Concluzia propoziiei anterioare se mai poate scrie astfel:

Z=

(2)

(1 2 ) (1 2 )
q 2
N (0, 1).
22
1
+
n1
n2

S presupunem c avem dou populaii statistice normale,

a celor dou populaii, ce urmeaz a  studiat.

1 i 2 , iar este o caracteristic comun

(De exemplu, populaiile statistice s e mulimea

pieselor produse de dou strunguri ntr-o zi de lucru, iar caracteristica comun s e masa lor). S mai
presupunem c deviaiile standard ale caracteristicilor considerate sunt cunoscute (i.e., deviaiile sunt date
deja n cartea tehnic a celor dou strunguri). Pentru ecare dintre cele dou colectiviti, considerm
cte o selecie repetat, de volume
strungul nti i

n2

n1 ,

respectiv,

n2

n1 dintre piesele produse


cu 1 , respectiv, 2 mediile

(adic, vom selecta

piese produse de cel de-al doilea strung). S notm

de
de

selecie corespunztoare. Propoziia anterioar precizeaz care este repartiia diferenei standardizate ale
celor dou medii de selecie. Aceasta ne va  deosebit de util, spre exemplu, n vericarea ipotezei c
masele medii ale pieselor produse de cele dou strunguri coincid.

82

Laborator 6 [Dr. Iulian Stoleriu]

12 Statistic Aplicat (L6)


Utiliznd funciile

legernd(< param >, m, n)

(12.1)

random(0 lege0 , < param >, m, n)

(12.2)

introduse anterior, putem genera variabile aleatoare de selecie de un volum dat,


trebui ca

m=n

n.

Pentru aceasta, va

n (12.1) i (12.2). Astfel, comanda

random('norm',100,6, 50,50)
genereaz o matrice ptratic, de dimensiune

50.

Putem privi aceast matrice aleatoare astfel: ecare

coloan a sa corespunde unei variabile aleatoare de selecie de volum


valori ale sale obinute la o observaie. n total, avem
aleatoare de selecie. Aadar, am generat
repartiia

50

50

50,

creia i precizm cele

de coloane, corespunznd celor

de variabile aleatoare de selecie de volum

50 de
50, ce

50

de

variabile
urmeaz

N (100, 6).

Exerciii rezolvate

Exerciiu 12.1
o caracteristic

S considerm c masa medie a unor batoane de ciocolat produse de o main este

X N (100, 0.65).

n vederea vericrii parametrilor mainii, dintre sutele de mii de

batoane produse n acea zi s-au ales la ntmplare

1000

dintre acestea.

Calculai masa medie i deviaia standard ale mediei de selecie,

Calculai

X.

P (98 < X < 102).

Un baton este declarat rebut dac masa sa este sub

98

de grame sau peste

102

de grame. Calculai

procentul de rebuturi avute.

Soluie:

Din teorie, tim c media de selecie

urmeaz repartiia

N (100, 0.65/ 1000) (vezi Propoziia

11.22). Aadar,

X = 100,
Probabilitatea

P1 = P (98 < X < 102)

X 0.02.

este

P1 = P (X < 102) P (X 98) = FX (102) FX (98) 1.


Probabilitatea de a avea un rebut este:



[
P2 = P {X < 98}
{X > 102}
= P (X < 98) + P (X > 102)
= FX (98) + 1 FX (102),
de unde, procentul de rebuturi este

r = P2 100% 0.2091%,

83

Laborator 6 [Dr. Iulian Stoleriu]


adic aproximativ
n

rebuturi la

1000

de batoane.

Matlab, acestea pot  calculate astfel:

mu = 100; sigma = 0.65; n=1000;


% n = volumul selectiei
X = normrnd(mu, sigma, n,n);
% am generat selectia de volum n
Xbar = mean(X); S = sigma/sqrt(n);
% Xbar = media de selectie
m = mean(Xbar); s = std(Xbar);
% media si deviatia standard
P1 = normcdf(102, mu, S) - normdf(98, mu, S);
P2 = normcdf(98,mu,sigma) + 1 - normcdf(102,mu,sigma);
rebut = P2*100;

Exerciiu 12.2

n vederea studierii unei caracteristici

ce are densitatea de repartiie

(
2 x, x (0, 1);
f (x) =
0,
x 6(0, 1).
s-a efectuat o selecie repetat de volum
unde

Soluie:

n = 100.

Se cere s se determine probabilitatea

P (X < 0.65),

este media de selecie.

f (x)

Se observ cu uurin c

ndeplinete condiiile unei funcii de repartiie, adic este

msurabil, nenegativ i

f (x) dx =

2 x dx = 1.
0

Pentru a calcula probabilitatea cerut, avem nevoie de

E(X)

Z
E(X) =

Z
x f (x) dx =
0

D2 (X) = E(X 2 ) (E(X))2 =

D2 (X).

2
2 x2 dx = ,
3

x2 f (x) dx

R
Aadar, repartiia mediei de selecie

Avem:

1
4
= .
9
18

este


XN

2
1

,
3
18 100


.

Putem acum calcula probabilitatea cerut. Ea este:

P (X < 0.65) = FX (0.65) = normcdf(0.65, 2/3, 1/(30*sqrt(2))) = 0.2398.

Exerciiu 12.3
nem o sum de

Soluie:
X

O pereche de zaruri ideale este aruncat de


n cel puin

20%

200

de ori. Care este probabilitatea s obi-

dintre cazuri?

Probabilitatea de apariie a sumei

p = 1/6. Fie
200 de aruncri.

ntr-o singur aruncare a dou zaruri este

v.a. ce reprezint numrul de apariii ale sumei

la aruncarea a dou zaruri ideale n

84

Laborator 6 [Dr. Iulian Stoleriu]


Atunci,

X B(200, 1/6). Probabilitatea


40 dintre cazuri) este:

ca o sum de

s apar n cel puin

20%

dintre cazuri (i.e., n

cel puin

P = P (X 40) = 1 P (X 39) = 1

39
X

k
C200
pk (1 p)200k = 0.1223.

k=0
n

Matlab,

1 - binocdf(39,200,1/6)

Exerciiu 12.4

; Distana

la care o sunt aruncate mingile de tenis de ctre o main automat de servit

este o variabil aleatoare repartizat normal.


este

Media distanei este necunoscut, dar deviaia standard

1.2 m.
P (X 20) = 0.95, s se gseasc valoarea ateptat a distanei (adic, E(X)).
E(X) = 18. Fie {Xk }k=1, 50 o selecie aleatoare ce urmeaz repartiia lui X .
Calculai P (X 18).
X 18
2
Stabilii repartiia variabilei aleatoare Z =
i calculai probabilitatea P (Z 20).
1.2

(a) tiind c

(b) S presupunem c

(c)

(a)

X N (, 1.2).

P (X 20) = 0.95 obinem c






X
20
20
0.95 = P

=
,
1.2
1.2
1.2

Din

20
= 1 (0.95) = 1.6449. Aadar, EX = = 18.0262 18.
1.2


1.2
Folosim faptul c X N 18,
. Obinem c:
5 2

de unde
(b)

P (X 18) = 1 P (X < 18) = 1 FX (18) = 0.5.


(c)

Z N (0, 1)

Z 2 2 (1). P (Z 2 < 20) = FZ 2 (20) = 1.

(= 1

- normcdf(18, 18, 1.2/sqrt(50)))


(=

chi2cdf(20,1)).

85

STATS 7 [Dr. Iulian Stoleriu]

13 Statistic Aplicat (C7)


Noiuni de Teoria seleciei (continuare)
Considerm o colectivitate statistic

{X1 , X2 , . . . , Xn }

i o caracteristic a sa,

X,

ce urmeaz a  studiat. Fie

variabile aleatoare de selecie repetat de volum

cedent, n cele mai multe cazuri practice variabila aleatoare

n.

Dup cum am vzut n cursul pre-

urmeaz o repartiie normal (gaussian).

n acest caz, media de selecie

1X
Xi
n

X=

urmeaz tot repartiia normal, i.e.,

i=1


XN
pentru orice

n N .

Totui, dac

,
n

nu este o v.a.


,

(13.1)

normal repartizat i

n 30,

atunci repartiia

asimptotic a mediei de selecie este una gaussian, i.e. relaia (13.1) este satisfcut pentru
Cnd selecia se face fr revenire dintr-o populaie de volum mai mic dect

30

n 30.

nu este neaprat

normal repartizat, atunci putem spune doar c

E(X) =

fr a putea preciza care este repartiia lui

X.

D (X) =
n

Aici

N n
,
N 1

este volumul populaiei

, N > n.

Mai jos, prezentm i alte cteva rezultate utile referitoare la selecia dintr-o colectivitate gaussian.

Propoziia 13.1

{X1 , X2 , . . . , Xn } variabile aleatoare


N (0, 1) , i = 1, 2, . . . , n. Atunci variabila aleatoare
Fie

H =

n
X

independente stochastic, astfel nct

Xi

Xk2 2 (n).

i=1

Demonstraie.

Pentru a demonstra propoziia, folosim metoda funciei caracteristice.

avem nevoie de funcia caracteristic pentru


S notm cu

G(y)

f (x)

X 2,

funcia densitate de repartiie

X2

X N (0, 1).
pentru X , dat de

relaia (30.2) cu

g(y) densitatea sa de repartiie. Avem:


(
0
, y 0;
2
G(y) = P (X y) =

P ( y X y) , y > 0,

funcia de repartiie pentru

i cu

de unde

g(y) = G (y) =

Pentru aceasta,

unde

(
0

+ f ( y)] ,

(
0

,
,

2 y [f ( y)

1 f ( y)
y

y 0;
y > 0.

y 0;
y > 0,

= 0.

Notm cu

86

STATS 7 [Dr. Iulian Stoleriu]


Funcia caracteristic pentru

X2

va :

i t X2

X 2 (t) = E e

1
=
2

y 2 eity

2 y
2

dy

= (1 2it) 2 .
Deoarece variabilele aleatoare

{Xi }i

sunt independente stochastic, putem aplica relaia (5.15) i obinem:

H 2 (t) = E(eit

Pn

i=1

Xi2

)=

n
Y



2
E eitXi

i=1

n
Y

X 2 (t) = (1 2it) 2 .
i

i=1
Aceasta este funcia caracteristic pentru o v.a.

Observaia 13.2

X 2 2 (1).

2 (n).

O consecin imediat a acestei propoziii este c, dac

X N (0, 1),

atunci v.a.

Urmtoarea propoziie este tot o consecin direct a Propoziiei 13.1.

Propoziia 13.3 (repartiia dispersiei de selecie cnd media colectivitii este cunoscut)
{X1 , X2 , . . . , Xn } variabile
i = 1, 2, . . . , n. Atunci variabila

Fie

aleatoare independente stochastic, astfel nct

Xi N (, ),

pentru

aleatoare

H2 =

n
1 X
(Xi )2 2 (n).
2
i=1

Demonstraie.

Pentru ecare

i = 1, 2, . . . , n,

consider variabilele aleatoare

Yi =

Xi
.

Yi N (0, 1), i = 1, n. Aplicm


{Y1 , Y2 , . . . , Yn } i obinem concluzia dorit.

Conform Propoziiei 11.23, avem


variabilele aleatoare

Lema 13.4
X +Y

X i Y sunt variabile
+ m), atunci Y 2 (m).

Dac

2 (n

Demonstraie.

rezultatul propoziiei 13.1 pentru

aleatoare independente stochastic, astfel nct

X 2 (n)

Demonstraia se bazeaz pe metoda funciei caracteristice, folosind faptul c

X (t) Y (t) = X+Y (t), t R.


2

Lema 13.5
volum

Fie X caracteristica unei colectiviti statistice N (, ), X


d2 (X) dispersia de selecie repetat. Atunci, statisticile

n
(X )

n
n1 2
1 X
d
(X)
=
(Xi X)2
2
2
i=1

media de selecie repetat de

sunt independente stochastic.

87

STATS 7 [Dr. Iulian Stoleriu]

Demonstraie.

Demonstraia este tehnic i nu am inclus-o n acest material. Aceast lem este demon-

strat n [4] (Teorema I.2.5).

Propoziia 13.6

Fie

X N (, )

{X1 , X2 , . . . , Xn }

caracteristica unei populaii statistice i e

abile aleatoare de selecie repetat de volum

n.

vari-

Atunci statistica

n
1 X
= 2
(Xi X)2 2 (n 1).

i=1

Demonstraie.

Putem scrie:

n
1 X
(Xi )2
2

i=1

n
n
1 X
(Xi X)2 + 2 (X )2
2

(13.2)

n1 2
2
d (X) + Z ,
2

(13.3)

i=1

sau,

n
X

Zi2

i=1
unde:

Zi =

Xi
N (0, 1)

Z=

N (0, 1).

Utiliznd Propoziia 13.3, observm c membrul stang al egalitii (13.2) este o variabil aleatoare reparti-

2 (n). Folosind Observaia 13.2, concluzionm c al doilea termen din membrul drept este repartizat
2
2 (1). Utiliznd lema anterioar i folosind rezultatul Exerciiului ??, deducem c variabilele aleatoare Z
n1 2
i
d (X) sunt independente stochastic. Facem apel la Lema 13.4, i ajungem la concluzia propoziiei.
2
2
zat

Observaia 13.7

Concluzia propoziiei 13.6 se poate rescrie astfel:

n1 2
d (X) 2 (n 1),
2
unde

d2 (X)

Lema 13.8

(13.4)

este dispersia de selecie.

Dac

sunt variabile aleatoare independente stochastic, cu

atunci statistica

X
T =q

Y
n

Demonstraie.

Fie

f (x)

g(y)

X N (0, 1) i Y 2 (n),

t (n).

densitile de repartiie pentru

X,

x2
1
f (x) = e 2 , x R,
2
n 1 y
y 2n e 2 , y > 0;
2 2 ( n
g(y) =
2)

0
, y 0.

respectiv,

Y.

Avem:

88

STATS 7 [Dr. Iulian Stoleriu]


Din independen, gsim c densitatea de repartiie a vectorului

(X, Y )

este:

x2 +y

y 2 1 e 2
h(x, y) = f (x)g(y) = n+1
,
2 2 n2

(x, y) R (0, ).

Considerm o transformare a acestui vector,

t = q

y
n

v = y,
n vectorul

(T, Y ).

Densitatea de repartiie a acestui vector este:


t2

v 2 1 e 2 (1+ n )
k(t, v) = n+1

2 2 n2
Densitatea de repartiie marginal pentru

v
,
n

(t, v) R (0, ).

este:

k1 (t) =

k(t, v) dv
0

 
 n+1
2
n+1
t2
2
 1+
,

n
n
n 2

adic tocmai densitatea de repartiie a unei variabile aleatoare

Propoziia 13.9

Dac

{X1 , X2 , . . . , Xn } sunt variabile


X N (, ) a unei

urmeaz repartiia unei caracteristici

t=

(Aici,

t(n 1)

Demonstraie.

este repartiia Student cu

t R,

t(n).

aleatoare de selecie repetat de volum

n,

ce

colectiviti statistice, atunci statistica

X
t(n 1).
d (X)

n1

(n 1)

grade de libertate, iar

d (X) =

d2 (X) ).

Aplicm lema anterioar pentru variabilele aleatoare

X=

N (0, 1)

Y =

n1 2
d (X) 2 (n 1).
2
2

Observaia 13.10

Aceasta propoziie va  folosit n teoria deciziei statistice, n problema testrii mediei

teoretice cnd dispersia teoretic este necunoscut

Propoziia 13.11
repartizate

N (0, 1),

Dac variabilele aleatoare

a priori.

{X0 , X1 , . . . , Xn }

sunt independente stochastic, identic

atunci variabila aleatoare

T =q

X0
X12 +X22 + ... +Xn2
n

t (n).

89

STATS 7 [Dr. Iulian Stoleriu]

Demonstraie.

Concluzia rezult prin aplicarea Propoziiei 13.1 i Lemei 13.8.

Propoziia 13.12 (repartiia diferenei mediilor de selecie cnd dispersiile sunt necunoscute, egale)
Considerm o selecie de volum

n1

dintr-o populaie normal

N (1 , 1 )

n2 dintr-o
cu 1 , 2 i

i o selecie de volum

N (2 , 2 ), cele dou selecii ind alese independent una de cealalt. Notm


d21 = d2 (X1 ), d22 = d2 (X2 ) mediile de selecie i dispersiile de selecie corespunztoare seleciilor

colectivitate

alese.

Atunci statistica

(1 2 ) (1 2 )

T =q
(n1 1)d21 + (n2 1)d22

Demonstraie.

n1 + n2 2
1
1
n1 + n2

t (n1 + n2 2).

Considerm variabila aleatoare

U=

Se veric cu uurin c

U N (0, 1).

(1 2 ) (1 2 )
q
.
n11 + n12

Fie variabila aleatoare

V =

(n1 1) d21 (n2 1) d22


+
.
2
2

(n1 1) d21
2

Propoziia 13.13

Dac

2 (n1 1)

(n2 1) d22
2

2 (n2 1). Deoarece aceste dou


2
statistici sunt independente, atunci c suma lor, statistica V , satisface V (n1 + n2 2). Concluzia
propoziiei rezult prin simpla aplicare a Lemei 13.8 variabilelor aleatoare U i V .
2

Conform relaiei (13.4), avem c

X 2 (m) i Y 2 (n) sunt variabile aleatoare independente, atunci variabila

aleatoare

F =

Demonstraie.

Fie

f (x)

g(y)

n X
F(m, n).
m Y

densitile de repartiie pentru

m 1 x
x 2m e 2
2 2 ( m
f (x) =
2 )
0
n 1 y
y 2n e 2
2 2 ( n
g(y) =
2)

i, respectiv,

Y.

Avem:

, x > 0;
, x 0.
, y > 0;
, y 0.

Din independena celor dou variabile aleatoare, gsim c densitatea de repartiie a vectorului
este:

x 2 1 y 2 1 e
h(x, y) = f (x)g(y) = m+n

2 2 m
2

x+y
2

n
2

,

Considerm o transformare a acestui vector,

t = n x
m y
:
v = y,

(x, y) (0, ) (0, ).

(X, Y )

90

STATS 7 [Dr. Iulian Stoleriu]


n vectorul

(F, Y ).

Densitatea de repartiie a acestui vector este:

m
n

k(u, v) =

m
2

u 2 1 v
m+n
2

m+n
1
2

e 2 (1+ n


n
m
2 2

Densitatea de repartiie marginal pentru

u)

(t, v) (0, ) (0, ).

este:

k(u, v) dv

k1 (u) =

0
m

m 2
m+n
n
2


n
m
2 2


m
m  m+n
2
u 2 1 1 + u
,
n

adic tocmai densitatea de repartiie a unei variabile aleatoare

Propoziia 13.14
N (0, 1),

Dac

{X1 , X2 , . . . , Xm+n }

u > 0,

F(m, n).

sunt variabile aleatoare independente, identic repartizate

atunci variabila aleatoare

F =

Demonstraie.

2
n
X12 + X22 + . . . + Xm
2
2
2
m Xm+1
+ Xm+2
+ . . . + Xm+n

F(m, n).

Demonstraia rezult imediat prin aplicarea rezultatelor Propoziiilor 13.1 i 13.13.

Propoziia 13.15 (repartiia raportului dispersiilor pentru colectiviti gaussiene)


Fie

X1 N (1 , 1 )

X2 N (2 , 2 )

caracteristicile a dou populaii statistice,

populaie extragem cte o selecie repetat, de volume

d22 = d22 (X2 )

Rescriem

2 . Din ecare
d21 = d21 (X1 ) i

i considerm

n forma echivalent:

unde

21 =
i

n2 ,

22 d21
F(n1 1, n2 1).
12 d22

F =

{X1 i }i=1, n1

respectiv,

dispersiile de selecie corespunztoare celor dou selecii repetate. Atunci statistica

F =

Demonstraie.

n1 ,

{X2 i }i=1, n2

n2 1 21
,
n1 1 22

n1
1 X
(X1 i X1 )2 ,
12 i=1

22 =

n2
1 X
(X2 j X2 )2 ,
22 j=1

sunt variabile de selecie repetat de volume

repartiia variabilelor aleatoare

X1 ,

respectiv,

X2 .

Statisticile

X1

X2

n1 ,

respectiv,

n2 ,

ce urmeaz

sunt mediile de selecie corespun-

ztoare.
Folosind concluzia Propoziiei 13.6, avem c

21 2 (n1 1),

22 2 (n2 1).

Concluzia acestei propoziii urmeaz n urma aplicrii rezultatului Propoziiei 13.14.

91

STATS 7 [Dr. Iulian Stoleriu]

Propoziia 13.16 (repartiia raportului dispersiilor pentru colectiviti gaussiene)


Suntem n condiiile Propoziiei 13.15, cu meniunea c mediile teoretice
Atunci

F1 =
unde

d21

d22

sunt cunoscute

a priori.

22 d21
F(n1 , n2 ),
12 d22

sunt date de:

21

Demonstraie.
i 13.14.

n1
1 X
= 2
(X1 i 1 )2 2 (n1 ),
1 i=1

22

n2
1 X
= 2
(X2 j 2 )2 2 (n2 ).
2 j=1

Demonstraia este similar cu cea de mai nainte. Se folosesc rezultatele Propoziiilor 13.3

92

Laborator 7 [Dr. Iulian Stoleriu]

14 Statistic Aplicat (L7)


Exerciii rezolvate
Exerciiu 14.1

Becurile produse de un manufacturier

cu deviaia standard de

200

au timpul mediu de funcionare de

1400

ore,

ore, n timp ce timpul mediu de funcionare ale becurilor produse de un

B au timpul mediu de funcionare de 1200 ore, cu deviaia standard de 100 ore. Se face
o selecie de 125 becuri din ecare tip i se testeaz becurile alese. Pentru seleciile date, care este
probabilitatea ca becurile produse de A au un timp mediu de via mai mare cu
(a) 160 de ore;
(b) 250 de ore;
mai mare dect timpul mediu de funcionare ale becurilor produse de B ?
(c)
Care este probabilitatea ca timpul mediu de funcionare al becurilor selectate din tipul A s e
cuprins ntre 1375 de ore i 1425 de ore?
(d) Presupunem c timpul mediu de funcionare ale becurilor produse de A este o v.a. normal. Alegem
la ntmplare un bec de tipul A. Care este probabilitatea ca timpul s mediu de funcionare s e cuprins
ntre 1375 de ore i 1425 de ore?
manufacturier

Notm cu

T1

T2

cele dou timpuri de funcionare. Avem c

T1 = 1400, T1 = 200
Pentru o selecie de volum

n = 125

T2 = 1200, T2 = 100.

(vom considera c selecia este repetat, deoarece volumul seleciei

este mult mai mic dect numrul becurilor produse de ecare manufacturir), avem c:

200
T1 N (1400, )
5 5

100
T2 N (1200, ).
5 5

Diferena mediilor de selecie este o v.a. repartizat astfel:

T1 T2 N (200, 20).
(a)

Probabilitatea cerut este:

P (T1 T2 > 160) = 1 FT1 T2 (160)


= 1 - normcdf(160,200,20) = 0.9772.
(b)

Probabilitatea cerut este:

P (T1 T2 > 250) = 1 FT1 T2 (250)


= 1 - normcdf(250,200,20) = 0.0062.
(c)

Probabilitatea cerut este:

P (1375 T1 1425) = FT1 (1425) FT1 (1375)


= normcdf(1425,1400,8*sqrt(5)) - normcdf(1375,1400,8*sqrt(5))
= 0.8377.

93

Laborator 7 [Dr. Iulian Stoleriu]


(c)

Probabilitatea cerut este:

P (1375 T1 1425) = FT1 (1425) FT1 (1375)


= normcdf(1425,1400,200) - normcdf(1375,1400,200)
= 0.0995.

Exerciiu 14.2

Dou avioane zboar n aceeai direcie pe dou coridoare paralele. La momentul

t = 0,

6km n faa celui de-al doilea. Presupunem c viteza primului avion (msurat
510 i deviaia standard 10, iar viteza celui de-al doilea
avion este normal repartizat, cu media 500 i deviaia standard 10.
(a) Care este probabilitatea ca, dup 4 ore de zbor, al doilea avion s nu l  ajuns pe primul?
(b) Determinai probabilitatea ca, dup 4 ore de zbor, distana dintre cele dou avioane s e de cel
mult 5km.
primul avion are un avans de
n

km/h)

este o v.a. repartizat normal, cu media

Notm cu

v1

v2

cele dou viteze. Avem c

v1 N (510, 10)
Dup

v2 N (500, 10).

ore de zbor (adic avem cte o selecie de volum

pentru ecare v.a.), mediile de selecie for

satisface:

v1 N (510, 5)

v2 N (500, 5).

Diferena mediilor de selecie este o v.a. repartizat astfel:

v1 v2 N (10, 5 2).
(a)

Evenimentul ca, dup

4 ore de zbor, al doilea avion s nu l  ajuns pe primul este {4v1 4v2 +6 > 0}.

Probabilitatea acestui eveniment este:

3
3
3
P ({4v1 4v2 + 6 > 0}) = P ({v1 v2 > }) = 1 P ({v1 v2 }) = 1 Fv1 v2 ( )
2
2
2
= 1 - normcdf(-3/2,10,5*sqrt(2)) = 0.9994.
(b)

Evenimentul ca, dup

{|4v1 4v2 | + 6 5}.

ore de zbor, distana dintre cele dou avioane s e de cel mult

5km

este

Probabilitatea acestui eveniment este:



11
1
P ({|4v1 4v2 | + 6 5}) = P v1 v2
4
4
 


1
11
= Fv1 v2
Fv1 v2
4
4
= normcdf(-1/4,10,5*sqrt(2)) - normcdf(-11/4,10,5*sqrt(2))
= 0.0017.

Exerciiu 14.3

Timpul de deservire la un anumit ghieu dintr-o banc este o variabil aleatoare repar-

tizat exponenial, cu media de

10

minute.

tiind c n fa mai sunt nc

persoane ce ateapt s

e servite (prima persoan la rnd abia a fost chemat) i c timpii de servire sunt independeni, s se
calculeze probabilitatea de a atepta mai puin de

50

de minute.

94

Laborator 7 [Dr. Iulian Stoleriu]

Exerciiu 14.4
ca din

20

Notm cu

Se arunc de mai multe ori un zar ideal, n mod independent. Care este probabilitatea

de aruncri s obinem cte un numr par n cel puin jumtate din cazuri?

Sn

suma punctelor nsumate din cele

aruncri.

P (S2 6).

(b)

Calculai probabilitatea

(c)

Folosind teorema limit central, aproximai probabilitatea

Exerciiu 14.5

P (120 S36 130).

S se arate c dispersia de selecie i dispersia de selecie modicat au urmtoarele

proprieti:

E[d2 (X)] = D2 (X), E[d2 (X)] =

n1 2
D (X), n N .
n

95

STATS 8 [Dr. Iulian Stoleriu]

15 Statistic Aplicat (C8)


Noiuni de Teoria estimaiei
Punerea problemei
S presupunem c avem un set de observaii aleatoare

{x1 , x2 , . . . , xn } asupra unei caracteristici X

a unei

populaii statistice. Funcia de probabilitate (respectiv densitatea de repartiie) a caracteristicii poate :

complet specicat, de exemplu,

X U(0, 1);

specicat, dar cu parametru(i) necunoscut(i). De exemplu,

necunoscut, caz n care se poate pune problema de a  estimat.

X P()

n mod evident, n primul caz de mai sus nu avem nimic de estimat.

sau

X N (, );

Dac funcia de probabilitate

(densitatea de repartiie) este deja cunoscut, dar cel puin unul dintre parametrii si este necunoscut

priori, se pune problema s estimm valoarea parametrilor de care aceasta depinde. Vom spune astfel c
avem o problem de estimare parametric. n acest capitol, ne vom ocupa de estimarea parametrilor unei
repartiii date.

X care urmeaz repartiia dat de funcia de probabilitate (sau


f (x, ), unde este un parametru necunoscut. n general, acest parametru poate
p
 un vector ( R ), ale crui componente sunt parametrii repartiiei lui X . Mai sus, f este funcia
de probabilitate dac variabila aleatoare X este de tip discret, iar f este densitatea de repartiie a lui X ,
S presupunem c avem caracteristica
densitate de repartiie)

dac este o variabil aleatoare de tip continuu.

f,

Scopul teoriei estimaiei este de a evalua parametrii de care depinde

folosind datele de selecie i

bazndu-ne pe rezultatele teoretice prezentate n capitolele anterioare.


Fie

{X1 , X2 , . . . , Xn }

Presupunem totodat c

Deniia 15.1

(1)

n, ce urmeaz
= D2 (X).

variabile aleatoare de selecie repetat de volum


admite medie i notm cu

Se numete

funcie de estimaie

= E(X)

2
i

(punctual) sau

estimator

repartiia lui

al lui

X.

o funcie de

selecie (statistic)

1 , X2 , . . . , Xn ),
= (X
cu ajutorul creia dorim s l aproximm pe

n acest caz, ne-am dori s tim n ce sens i ct de bine

este aceast aproximaie.


(2) O statistic

este

un

estimator nedeplasat (en., biased estimator) pentru

dac

= .
E()
Altfel, spunem c

este

un

estimator deplasat pentru , iar deplasarea (distorsiunea) se denete astfel:


) = E()
.
b(,

Astfel,

)
b(,

este o msur a erorii pe care o facem n estimarea lui

prin

96

STATS 8 [Dr. Iulian Stoleriu]

Exemplu 15.2

(1) Dispersia de selecie modicat

d2 (X)

1 X
=
[Xi X]2
n1
i=1

este un estimator nedeplasat pentru dispersia teoretic

2 = D2 (X),

iar dispersia de selecie

1X
d (X) =
[Xi X]2
n
2

i=1

este un estimator deplasat pentru

2 = D2 (X),

b(s2 , 2 ) =

(3)

Dac

{x1 , x2 , . . . , xn }

deplasarea ind

2
.
n

[Exerciiu!]

sunt date observate, atunci

1 , x2 , . . . , xn )
(x

se numete

estimaie

a lui

Aadar, o estimaie pentru un parametru necunoscut este valoarea estimatorului pentru selecia observat.
Prin abuz de notaie, vom nota att estimatorul ct i estimaia cu

vom face diferena ntre ele prin

precizarea variabilelor de care depind.

(4) Numim

eroare n medie ptratic a unui estimator pentru (en., mean squared error) cantitatea
) = E
MSE(,

Observaia 15.3
E

h

i2 

Putem scrie:

h
h
i2 
i2 
+ E()


= E E()
+ 2E
= D ()
2

h

[E()

E()]

i

+E

h


E()

i2 

+ 0 + (b(,
))2 .
= D2 ()
Aadar,

MSE

(5) Fie

pentru un estimator nedeplasat este

doi estimatori pentru

.
D2 ()

Atunci, valoarea

MSE(1 , )
MSE(2 , )

eciena relativ (en., relative eciency) a lui 1 n raport cu 2 . Vom spune c un estimator

1 este mai ecient dect 2 dac MSE(1 , ) MSE(2 , ) pentru toate valorile posibile ale lui i
MSE(1 , ) < MSE(2 , ) pentru mcar un .

se numete

se numete estimator nedeplasat uniform de dispersie


minim (en., Uniformly Minimum Variance Unbiased Estimator - UMVUE) dac pentru orice alt estimator
(6) Un estimator nedeplasat
nedeplasat pentru

notat cu

pentru , ,
,

avem

D2 ( ).
D2 ()

97

STATS 8 [Dr. Iulian Stoleriu]


(7) Estimatorul

pentru

este un

estimator consistent

prob
1 , X2 , . . . , Xn )
(X
,
n acest caz, valoarea numeric a estimatorului,

dac

n .

cnd

1 , x2 , . . . , xn ), se numete estimaie consistent pentru


(x

.
(8) Estimatorul

pentru

este un

estimator absolut corect

= ;
E()
= 0.
lim D2 ()

(i)
(ii)

n acest caz, valoarea numeric a estimatorului,


pentru

dac

1 , x2 , . . . , xn ),
(x

se numete

estimaie absolut corect

(9) Estimatorul

pentru

este un

estimator corect dac


= ;
lim E()

(i)

= 0.
lim D2 ()

(ii)

n acest caz, valoarea numeric a estimatorului,

1 , x2 , . . . , xn ),
(x

se numete

Propoziia 15.4

2
Statistica d (X) este un estimator absolut corect pentru
2
d (X) este un estimator corect, dar nu absolut corect, pentru D2 (X).

Demonstraie.

estimaie corect pentru .

2 = D2 (X),

iar statistica

[Exerciiu!]

Se arat c:

E(d2 (X))

=E

1 X
[Xi X]2
n1

!
= D2 (X),

i=1

D2 (d2 (X)) =

4
n3 2

0,
n
n(n 1) 2

cnd

n .

E(d2 (X)) = E

1X
[Xi X]2
n

!
=

i=1

D2 (d2 (X)) 0,

n1 2
n
D (X) D2 (X),
n

cnd

n .
2

Propoziia 15.5
Demonstraie.

Dac

este

un estimator absolut corect pentru

atunci estimatorul este consistent.

Utilizm inegalitatea lui Cebev n forma:

D2 ()
P ({| | }) 1
, > 0.
2
innd cont c

=0
lim D2 ()

obinem concluzia dorit.

(15.1)

98

STATS 8 [Dr. Iulian Stoleriu]

Observaia 15.6

Fie

un

estimator pentru

Ptratul acestui estimator,

nu este, n general, esti-

2
matorul pentru .
De exemplu, s presupunem c

X N (0, 1)

i avem urmtoarele

20

de observaii asupra lui

X:

0.3617; -2.0587; -2.3320; -0.3709; 1.2857; 0.5570; -0.1802; -0.0357; 1.9344; 1.3056
0.0831; -0.3277; -0.3558; 0.4334; -1.2230; -1.0381; -2.7359; -0.0312; 2.0718; -0.5944
0.6286; -0.5350; 2.2090; -0.6057; 1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030
X , i.e., pentru X = 0, este X .
2
2
(pentru selecia dat, X = 0.0521). Variabila aleatoare X urmeaz repartiia (1) i are media X 2 = 1
2
2
(vezi repartiia ). Un estimator absolut corect pentru X 2 este X . Pe de alt parte, pentru selecia
2
2
Un estimator absolut corect pentru media teoretic a lui

dat avem c

X 1.4

Aadar, n general X 2

Observaia 15.7

iar

6= X

X
2

= 0.027.

Pentru un anumit parametru pot exista mai muli estimatori absolut coreci.

exemplu, pentru parametrul

din repartiia

P oisson P()
X

Se pune problema:

De

exist urmtorii estimatori:

d2 (X).

Cum alegem pe cel mai bun estimator i pe ce criteriu?

Dac utilizm inegalitatea lui

Cebev n forma (15.1), atunci ar  resc ca "cel mai bun estimator" s e cel de dispersie minim.

(10) Se numete

funcie de verosimilitate

(sau, simplu, verosimilitate), statistica

L(X1 , X2 , . . . , Xn ; ) =

n
Y

f (Xk , ).

k=1
Pentru
aleator
(11)

Xk = xk , k = 1, n, funcia L(x1 , x2 , . . . , xn ; )
V = (X1 , X2 , . . . , Xn ).

este densitatea de repartiie pentru vectorul

Numim cantitate de informaie relativ la parametrul

volum

n (informaie Fisher)

coninut n selecia corespunztoare de

expresia:


In () = E

ln L(X1 , X2 , . . . , Xn ; )

2 !
.

(15.2)

Teorema 15.8 (Rao17 -Cramer18 )


Considerm caracteristica
pentru care exist

f (x, ), cu (a, b) i
1 , X2 , . . . , Xn ), un estimator absolut corect pentru . Atunci,
= (X

cu funcia de probabilitate (densitatea de repartiie)

f
. Considerm


D2 ()
17 Calyampudi

18 Harald

1
.
In ()

Radhakrishna Rao (1920 ), statistician indian


Cramr (1893 1985), matematician i statistician suedez

(15.3)

99

STATS 8 [Dr. Iulian Stoleriu]


(12) Numim

eciena unui estimator absolut corect pentru , valoarea:


=
e()

(13) Un estimator absolut corect

pentru

In1 ()
.

D2 ()

se numete

(15.4)

estimator ecient

dac

= 1,
e()

adic

= I 1 ().
D2 ()
n

Propoziia 15.9

X
E(X).

Media de selecie

ecient pentru media teoretic

pentru o selecie dintr-o colectivitate normal este un estimator

[Exerciiu!]

pentru se numete estimator sucient (exhaustiv) dac densitatea vectorului


V = (X1 , X2 , . . . , Xn ), adic L(x1 , x2 , . . . , xn ; ), se poate scrie n forma:
(14) Un estimator corect

L(x1 , x2 , . . . , xn ; ) = g(x1 , x2 , . . . , xn )h((x),


),
unde

g : Rn R+

este msurabil i nu depinde de

depinde de observaii doar prin intermediul lui

.
(x)

iar funcia

Funciile

(15.5)

h : R R R+

este msurabil i

nu sunt unice. Din punct de vedere

practic, un estimator este sucient pentru parametrul pe care l estimeaz dac acest estimator conine
toat informaia relevant despre

Propoziia 15.10

ce se poate obine din selecia considerat.

Media de selecie

sucient pentru media teoretic

Observaia 15.11
[Exerciiu!]

pentru o selecie dintr-o anumit colectivitate este un estimator

[Exerciiu!]

E(X).

Orice estimator ecient pentru un parametru

este i estimator sucient pentru

n continuare, discutm urmtoarele metode de estimare punctual a parametrilor:

metoda verosimilitii maxime;

metoda momentelor;

metoda minimului lui

metoda celor mai mici ptrate;

metoda intervalelor de ncredere.

2 ;

Metoda verosimilitii maxime


Fie caracteristica

studiat, care are funcia de probabilitate

parametri necunoscui). S presupunem c avem

f (x; )

(unde

selecie de date,

x1 , x2 , . . . , xn .
Fie

{X1 , X2 , . . . , Xn }

= (1 , 2 , . . . , p ) sunt
X , adic am ales o

observaii asupra caracteristicii

variabilele aleatoare de selecie repetat de volum

n.

100

STATS 8 [Dr. Iulian Stoleriu]

Deniia 15.12

o statistic

(1) Numim

estimator de verosimilitate maxim (maximum likelihood estimator) pentru

1 , X2 , . . . , Xn )
= (X

pentru care se obine maximumul funciei de verosimilitate,

L(X1 , X2 , . . . , Xn ; ) =

n
Y

f (Xk , ).

k=1
(2)

Valoarea unei astfel de statistici pentru o observaie dat se numete

maxim pentru .

Observaia 15.13
Nu este necesar ca

estimaie de verosimilitate

Aceasta metod estimeaz "valoarea cea mai verosimil" pentru parametrul

s existe pentru ca estimatorul de verosimilitate maxim s e calculat.

Dac

aceasta exist, atunci acest estimator se obine ca soluie a sistemului de ecuaii:

L(X1 , X2 , . . . , Xn ; )
= 0,
k

k = 1, 2, . . . , p,

(15.6)

care este echivalent cu urmtorul sistem:

ln L(X1 , X2 , . . . , Xn ; ) X ln f (Xi ; )
=
= 0,
k
k

k = 1, 2, . . . , p.

(15.7)

i=1

Exemplu 15.14
Soluie:

Estimai prin metoda verosimilitii maxime parametrii unei caracteristici

Legea de probabilitate pentru

X N (, )

X N (, ).

este

(x)2
1
f (x, , ) = e 22 , x R.
2

n, pe care o vom
= (, ) i funcia

Alegem o selecie repetat de volum


Parametrii caracteristicii

sunt

nota

(Xk )k=1, n .

de verosimilitate asociat seleciei este

L(X1 , X2 , . . . , Xn ; , ) =

f (Xk , , )

k=1
n
X
(Xk )2

1
k=1
n e
n (2) 2

=
Astfel,


ln L(X1 , X2 , . . . , Xn ; , ) = ln

1
n
n
(2) 2

n
1 X
2
(Xk )2 .
2

Aadar, pentru a gsi estimatorii de verosimilitate maxim pentru

k=1

L
1 X

=
(Xk ) = 0;


2
k=1
n

L
n
1 X

+
(Xk )2 = 0.


3
k=1

2 2

avem de rezolvat sistemul:

101

STATS 8 [Dr. Iulian Stoleriu]


> 0) este
v
u n
u1 X

=t
(Xk X)2 = d(X).
n

Se observ cu usurin c soluia sistemului ce convine (inem cont c

1X
Xk = X,
n
k=1

(15.8)

k=1

Vericm acum dac valorile gsite sunt valori de maxim. Pentru aceasta, matricea hessian calculat
pentru valorile obinute trebuie s e negativ denit. Mai nti, calculm matricea hessian. Aceasta
este:

2L
H(, ) =
=

n
2

n
2 X
3
(Xk )

k=1

Acum calculm

n
2 X
3
(Xk )

k=1
!
n
3 X
1
(Xk )2
n 2

n
2

k=1

H(
,
).

H(
,
) =

2L

|=, = =

2
0

0
2n ,
2

care este o matrice negativ denit, deoarece valorile sale proprii, adic rdcinile polinomului caracteristic

det(H(
,
) I2 ) = 0,
sunt

1 =
Deci, estimatorii

n
<0

2n
< 0.

obinui prin metoda verosimilitii maxime sunt

=X

Observaia 15.15

2 =

= d(X).

De remarcat faptul c estimatorul

d(X)

obinut prin metoda verosimilitii maxime

nu este absolut corect, ci doar corect.

Metoda momentelor (K. Pearson)


n anumite cazuri, valorile critice pentru funcia de verosimilitate sunt dicil de calculat.

De aceea, e

nevoie de alte metode pentru a gsi estimatori pentru parametri.


Fie caracteristica

care are funcia de probabilitate

necunoscui) ce admite momente pn la ordinul

f (x; ) (unde = (1 , 2 , . . . , p ) sunt parametri


p = E(X p ) < ). Dorim s gsim esti-

(adic,

matori (estimaii) punctuale ale parametrilor necunoscui.

Pentru aceasta, efectum observaii asupra

caracteristicii, adic alegem o selecie de date,

x1 , x2 , . . . , xn .
Fie

{X1 , X2 , . . . , Xn } variabilele aleatoare de selecie repetat de volum n.

Metoda momentelor const n

estimarea parametrilor necunoscui din condiiile ca momentele iniiale de selecie s e egale cu momentele
iniiale teoretice respective, ale lui

X.

Aceasta nseamn c avem de rezolvat un sistem de ecuaii n care

necunoscutele sunt parametrii ce urmeaz a  estimai.

102

STATS 8 [Dr. Iulian Stoleriu]

Deniia 15.16

Numim estimator (punctual) pentru obinut prin metoda momentelor


= (1 , 2 , . . . , p ) (aici k = k (X1 , X2 , . . . , Xn ), k = 1, p) a sistemului:

1 (X1 , X2 , . . . , Xn ) = 1 (X),

soluia

(15.9)

2 (X1 , X2 , . . . , Xn ) = 2 (X),
.
.
.

p (X1 , X2 , . . . , Xn ) = p (X),
unde

k (X1 , X2 , . . . , Xn )

sunt momentele de selecie de ordin

pentru

X,

k (X1 , X2 , . . . , Xn ) =

1X k
Xi ,
n
i=1

k (X)

sunt momentele teoretice pentru

(care depind de

k = E(X k ),
O

),

adic:

k = 1, 2, . . . , p.

estimaie (punctual) pentru va  o realizare a estimatorului = (1 , 2 , . . . , p ), unde componentele

sunt

k = k (x1 , x2 , . . . , xn ), k = 1, p).

Observaia 15.17

Aceasta metod este fundamentat teoretic pe faptul c momentele de selecie sunt

estimatori absolut coreci pentru momentele teoretice corespunztoare.

Metoda nu poate  aplicat

repartiiilor care nu admit medie (e.g., repartiia Cauchy).

Exemplu 15.18

Fie

X U(a, b)

caracteristica unei populaii, unde

a<b

sunt numere reale. Utiliznd

metoda momentelor, determinai estimatori pentru capetele intervalului.

Soluie:

Dac

X U(a, b),

atunci

E(X) =

a+b
,
2

D2 (X) =

de unde

E(X 2 ) = D2 (X) + [E(X)]2 =

(b a)2
,
12
a2 + ab + b2
.
3

Sistemul (15.9) se scrie astfel n acest caz:

1 (X1 , X2 , . . . , Xn ) = E(X)
2

2 (X1 , X2 , . . . , Xn ) = E(X ),
unde

1 =

1X
Xi ,
n

2 =

i=1

Inlocuind n relaiile (15.10), avem de gsit soluia

1X 2
Xi .
n
i=1

(
a, b)

a urmtorului sistem:

a + b = 2 1
a b = 4 21 3 2 .

(15.10)

103

STATS 8 [Dr. Iulian Stoleriu]


Aceasta este:

a
= 1
Fcnd calculele i innd cont c

q
3 2 21 ;

1 = X ,

q
3 2 21 .

b = 1 +

obinem estimatorii pentru

a
=X

unde

n
1X
X=
Xi
n

b = X +

3 S;

i=1

i, respectiv,

b:

3 S,

v
u n
u1 X
S=t
(Xi X)2 .
n
i=1

a i b sunt:
v
u n
n
u3 X
1X
xi t
(xi x)2 ,
a
=
n
n

Estimaiile punctuale pentru

i=1

v
u n
n
X
u3 X
b = 1
xi + t
(xi x)2
n
n

i=1

i=1

i=1

Metoda celor mai mici ptrate


Este o metod de estimare a parametrilor n cazul modelelor liniare, adic atunci cnd avem un set de
variabile aleatoare

Yi , i = 1, n

ce depind liniar de parametrii necunoscui.

vectorul ce conine parametrii necunoscui i presupunem c

Yi =

p
X

xij j + i ,

Yi

Fie

= (1 , 2 , . . . , p )

depind de acetia dup urmtorul sistem:

i = 1, 2, . . . , n,

(15.11)

j=1
sau, scris sub form matriceal:

X = (xij ) Rnp .

Y = X + ,
Variabilele aleatoare

sunt erori, despre care presupunem c:

E(i ) = 0
D2 (i ) = 2 ,

cov (i , j ) = 0,

i = 1, 2, . . . , n;
i 6= j.

(15.12)

Metoda celor mai mici ptrate const n determinarea parametrilor i

astfel nct suma ptratelor erorilor

s e minim. Asta nseamn c avem de rezolvat problema de minim:

min

Astfel, un estimator

n
X

i=1

Yi

i=1

= (1 , 2 , . . . , p ) prin metoda celor

2
p
n
X
X

Yi
xij j = 0,
j
i=1

echivalent,

2i = min

n
X

p
n X
X
i=1 j=1

p
X

2
xij j .

j=1
mai mici ptrate este soluia sistemului:

j = 1, 2, . . . , p,

j=1

xik xij j =

n
X
i=1

xik Yi ,

k = 1, 2, . . . , p.

104

STATS 8 [Dr. Iulian Stoleriu]


Ultimul sistem poate  scris sub forma matriceal:

X0 X = X0 Y,
de unde gsim c estimatorul

este

b = (X0 X)1 X0 Y.

Exemplu 15.19

Fie

= E(X), i e X1 , X2 , . . . , Xn variabilele

b = X este estimatorul obinut prin metoda celor

o caracteristic ce admite medie,

n.
teoretic ,

aleatoare de selecie repetat de volum

Statistica

mai mici ptrate pentru media

adic este soluia problemei de minimizare

min

Soluie:

Deoarece

n
X
(Xi )2 .

(15.13)

i=1

este media variabilelor aleatoare de selecie, putem considera c ecare variabil o

putem scrie sub forma

Xi = + i ,
cu

i = 1, 2, . . . , n,

(15.14)

satisfacnd condiiile (15.12). Soluia problemei (15.13) este soluia ecuaiei

X
(Xi )2 = 0,

i=1

adic

b=

1X
Xi .
n

i=1

Metoda minimului lui 2


X ce urmeaz a  studiat, ce urmeaz legea de probabilitate dat de f (x, ),
p
unde = (1 , 2 , . . . , p ) R sunt parametri necunoscui. Fie X1 , X2 , . . . , Xn variabilele aleatoare
prin metoda minimului lui 2 pentru ,
de selecie repetat de volum n. Pentru a obine un estimator
Considerm caracteristica

procedm dup cum urmeaz.


Descompunem mulimea valorilor lui

X , X(),

X() =

k
[

Oi ,

n clase, astfel:

Oi

Oj = , i 6= j.

i=1
Construim evenimentele

Ai = { (n) (n) ; X(i ) Oi },

i = 1, 2, . . . , k.

Se observ cu uurin c

(n) =

k
[

Ai ,

Ai

Aj = , i 6= j.

i=1
Notm cu

pi () = P (n) (Ai ),

i = 1, 2, . . . , k,

105

STATS 8 [Dr. Iulian Stoleriu]


i.e., probabilitatea ca un individ luat la ntmplare s aparin clasei

k
X

Oi .

Atunci,

pi () = 1.

i=1
Mai facem urmtoarele notaii:

ni = frecvena absolut a evenimentului Ai n orice selecie repetat de


Ni = variabilele aleatoare de selecie corespunztoare lui ni (i = 1, k ).

Observaia 15.20
metri

N = (N1 , N2 , . . . , Nk )

n;

urmeaz o repartiie multinomial de para-

pi (), i = 1, k .

Deniia 15.21

Vectorul aleator

volum

Statistica

se numete

estimator obinut prin metoda minimului lui 2

este soluie a problemei de minim

min

Propoziia 15.22

)
( k
X [Ni n pi ()]2
i=1

n pi ()

Repartiia urmtoarei statistici este

k
X
[Ni n pi ()]2
i=1

n pi ()

2 (k p 1).

pentru

dac

106

Laborator 8 [Dr. Iulian Stoleriu]

16 Statistic Aplicat (L8)


Exerciiu 16.1

Timpul necesar unui student de a rezolva testul la Statistic (T , exprimat n minute)

f : R [0, 1],
(
x x
2e

f (x, ) =
0

este o v.a. cu densitatea de repartiie

(a)

Pentru ce valori ale parametrului

Fixm

, x > 0;
, x 0.

funcia de mai sus este o funcie de repartiie?

= 30.

(b)

Determinai timpul mediu necesar rezolvrii testului.

(c)

Calculai probabilitatea ca un student (ales la ntmplare) s aib nevoie de mai mult de o or i

jumtate pentru a rezolva testul?

Exerciiu 16.2

Pcal l ademenete pe Tndal la un joc de barbut. Pcal a confecionat urmtoarele

trei zaruri, pentru care numrul de puncte de pe ecare fa sunt modicate:

zarul 1:
zarul 2:
zarul 3:

5
2
1

7
3
6

8
4
11

9
15
12

10
16
13

18
17
14

Pentru ecare zar, toate feele au aceeai ans de apariie. Fiecare juctor alege un zar i l pstreaz
pentru restul competiiei. Un joc const n aruncarea zarului ales, iar cel care obine un numr mai mare
de puncte va ctiga jocul.

Un astfel de joc poate  repetat de mai multe ori, n condiii identice i

independente.
(a)

Pcal, politicos ind, l invit pe Tndal s e primul care i alege zarul. Artai c, orice zar ar

alege Tndal, Pcal are posibilitatea de a alege un zar mai bun dintre cele rmase.
(b)

La ecare joc, cel care obine un numr mai mare de puncte primete de la cellalt juctor

Determinai ctigul mediu pe care l poate avea Pcal dup

60

60

1 RON.

de jocuri (aruncri).

Calculai probabilitatea ca, dup

(d)

Determinai numrul minim de jocuri ce trebuie efectuate, dup care Pcal va  aproape sigur (cu

probabilitate cel puin egal cu

0.99)

de jocuri, Pcal s aib cel puin

10 RON.

(c)

c va avea cel puin

Estimaii prin

10 RON.

Matlab

Estimarea parametrilor prin metoda verosimilitii maxime poate  realizat n

mle.

Matlab folosind funcia

Formatul general al funciei este:

[p, pCI] = mle(X,'distribution','lege','nume_1','val_1','nume_2','val_2',...)


unde:

pCI

este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaz a  estimat punctual;
este variabila de memorie pentru intervalul (intervalele) de ncredere ce va  estimat;

107

Laborator 8 [Dr. Iulian Stoleriu]

distribution

este un vector ce conine datele ce urmeaz a  analizate;


este parte din formatul comenzii iar

lege

poate  oricare dintre legile din Tabelul

6.1;

nume_i/val_i

 alpha
Matlab

sunt perechi opionale de argumente/valori, dintre care amintim:

reprezint nivelul de conden pentru intervalul de ncredere. Valoarea implicit n


este

 ntrials

= 0.005;

(utilizat doar pentru repartiia binomial, reprezint numrul de repetiii ale ex-

perimentului.

Dac urmrim s estimm parametrii unei caracteristici gaussiene, atunci putem folosi comanda simplicat:

[p, pCI] = mle(X)


fr a mai preciza legea de distribuie.
De exemplu, s lum drept obiect de lucru datele din Tabelul 1.4. Acestea sunt reprezentate prin bare n
Figura 2.32 . O estimare a parametrilor

prin metoda verosimilitii maxime este

X=[7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35;10*rand(87,1)+45;10*rand(64,1)+55]
[p, pCI] = mle(X)
i obinem estimrile:

p =
41.9716

12.0228

% estimari punctuale pentru si

pCI =
40.7653
43.1779

11.2439
12.9547

% intervale de incredere

unde prima coloan reprezint estimarea punctual i un interval de ncredere pentru


estimarea punctual i un interval de ncredere pentru

, iar a doua coloan

Estimri punctuale i cu intervale de ncredere mai putem obine i utiliznd funcia

LEGEfit(X,alpha)
unde, n locul cuvntului
i

alpha

LEGE

Exerciiu 16.3
parametrului

X reprezint
normfit, binofit, poissfit, expfit etc).

punem o lege de probabilitate ca n Tabelul 6.1,

este nivelul de conden. (Exemple:

S se arate c media de selecie

din repartiia Poisson

P().

observaiile

constituie un estimator absolut corect i ecient al

108

Laborator 8 [Dr. Iulian Stoleriu]

Soluie:

Deoarece

E(X) = D2 (X) = . Atunci,


!
!
n
n
n
X
1
1 X
1 X
E(X) = E
E(Xi ) = (
Xi =
) = ,
n
n
n

X P(),

urmeaz c

i=1

i=1

D2 (X) =

1 2
D
n2

n
X

!
=

Xi

i=1

n
X

1
n2

i=1

!
D2 (Xi )

i=1

n
1 X

(
) = 0,
2
n
n

cnd

n .

i=1

Aadar, conform deniiei, media de selecie este un estimator absolut corect pentru parametrul
de probabilitate este

f (x, ) = e
de unde

Funcia

x
, x N,
x!

ln f (x, )
x
= 1 + .

Calculm eciena estimatorului. Avem

 !
ln f (X, ) 2
In () = n E





X
X2

1 2
n
= n E 1 2 + 2 = n 1 2 + 2 ( + ) = .

Se observ c

D2 (X) In () = 1,

Exerciiu 16.4

Fie

deci estimatorul

Xi B(1, p), i = 1, n
= nX =

n
X

pentru

este ecient.

Xi ,

numrul de succese n

incercri.

i=1
S se arate c

Soluie:

este

un estimator sucient pentru

p.

Pentru vericarea sucienei, utilizm deniia. Avem succesiv:

L(x1 , x2 , . . . , xn ; p) =

n
Y

pxi (1 p)1xi

i=1
n
X

n
(1 p)

= g(x) h((x),
p),
xi

= p i=1

unde

g(x) 1

Exerciiu 16.5

n
X

xi

i=1

h((x),
p) = p(x) (1 p)n(x) .

S presupunem c aruncm o moned despre care nu tim dac este sau nu corect

(adic, probabilitatea de apariie a feei cu stema nu este neaprat

0.5).

Fie

variabila aleatoare ce

reprezint numrul de apariii ale feei cu stema la aruncarea repetat a unei monede. Notm cu
babilitatea evenimentului ca la o singur aruncare a monedei apare stema. Realizm
acelei monede i obinem valorile (1 nseamn c faa cu stema a aprut iar

80

pro-

de aruncri ale

dac nu a aprut):

109

Laborator 8 [Dr. Iulian Stoleriu]

0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0
1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0
p

(1) S se gseasca un estimator absolut corect pentru

i a se studieze eciena acestuia.

(2) S se gseasc estimaii punctuale i intervale ncredere pentru


din

Matlab.

Soluie:

(1) Repartiia lui

este Bernoulli,

E(X) = p,

B(1, p).

E(X) = E(X)

X,

Aadar, pentru selecia dat, valoarea


(2) Utiliznd funciile

Matlab astfel:

x=

n
X

folosind funciile

mle

binofit

Astfel,

D2 (X) = p(1 p).

Considerm variabilele de selecie repetat de volum,


Un estimator absolut corect pentru medie este

p,

(Xk )k=1 n .

deoarece

D2 (X) =

p(1 p)
0.
n
n2

xk = 0.5125.

k=1

[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)
cu rezultatul:

p =
0.5125

sau, folosind comanda

pCI =

0.3981
0.6259

binofit,

[p,pCI] = binofit(sum(Y),length(Y),0.05)
cu rezultatul:

p =
0.5125

Exerciiu 16.6

pCI =
0.3981
0.6259

Considerm un vector ale crui componente sunt:

X = 2*rand(1e6,1) - 1;
Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a.
atunci estimm parametrii si astfel:

normale

N (, ),

110

Laborator 8 [Dr. Iulian Stoleriu]


[mu, sigma] = normfit(X)
Gsim estimrile

mu = 0.0006425
sigma =0.5771
Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a.

U(a, b),

atunci estimm parametrii si astfel:

[a, b] = unifit(X)
a = -1.0000
b = 1.0000

uniforme continuu

111

STATS 8 [Dr. Iulian Stoleriu]

17 Statistic Aplicat (C9)


Estimarea parametrilor prin intervale de ncredere
(o singur populaie)
S considerm o caracteristic

a crei lege de probabilitate este dat de

necunoscut. Pentru a estima valoarea real a lui

efectum

f (x, ),

cu

parametru

observaii, obinnd selecia:

x1 , x2 , . . . , xn .
1 , x2 , . . . , xn ). ns, o
(x
1 , x2 , . . . , xn ) fa de valoarea
estimaie punctual nu ne precizeaz ct de aproape se gsete estimaia (x
real a parametrului . De exemplu, dac dorim s estimm masa medie a unor produse alimentare
Dup cum am vzut anterior, putem gsi o estimaie punctual a parametrului,

fabricate de o anumit main, atunci putem gsi un estimator punctual (e.g., media de selecie) care s
ne indice c aceasta este de
masa medie este

500

de grame. Ideal ar  dac aceast informaie ar  prezentat sub forma:

500g10g.

Putem obine astfel de informaii dac vom construi un interval n care, cu o probabilitate destul de mare,
s gsim valoarea real a lui

S considerm o selecie repetat de volum

n, X1 , X2 , . . . , Xn ,

ce urmeaz repartiia lui

gsim un interval aleator care s acopere cu o probabilitate mare (e.g.,

0.95, 0.98, 0.99

X.

Dorim s

etc) valoarea

posibil a parametrului necunoscut.

Deniia 17.1 Fie (0, 1), foarte apropiat de 0 (de exemplu, = 0.01, 0.02, 0.05 etc). Numim
interval de ncredere (en., condence interval) pentru parametrul cu probabilitatea de ncredere 1 ,
un interval aleator

(, ),

astfel nct

P ( < < ) = 1 ,
unde

(X1 , X2 , . . . , Xn )
(n)

Pentru o observaie

(X1 , X2 , . . . , Xn )

(17.1)

sunt statistici.

xat, capetele intervalului (aleator) de ncredere vor  funcii de valorile de

selecie. De exemplu, pentru datele observate,

x1 , x2 , . . . , xn ,

intervalul


(x1 , x2 , . . . , xn ), (x1 , x2 , . . . , xn )
se numete

valoare a intervalului de ncredere

pentru

Pentru simplitate ns, vom folosi termenul

de "interval de ncredere" att pentru intervalul propriu-zis, ct i pentru valoarea acestuia, nelesul
desprinzndu-se din context.
Valoarea

se numete

Observaia 17.2

nivel de semnicaie sau probabilitate de risc.

Pentru a determina un interval de ncredere, metoda de lucru este dup cum urmeaz:

se va considera funcie de selecie


cut i independent de
depind de

),

S(X1 , X2 , . . . , Xn ; ), convenabil aleas, care s urmeze o lege cunosg(s) aceast repartiie. Se determin apoi valorile s1 i s2 (care

S notm cu

astfel nct

Zs2
g(s) ds = 1 .

P (s1 < S < s2 ) =


s1

(17.2)

112

STATS 8 [Dr. Iulian Stoleriu]


Cum statistica

depinde de

relaia (17.2) determin un interval aleator

(, )

ce satisface (17.1).

Intervalul de ncredere variaz de la o selecie la alta.

Cu ct

sau

= 0.01 sau 0.02 sau 0.05),


s se gseasc n intervalul

este mai mic (de regul,

ca valoarea real a parametrului

99.99%

cu att ansa (care este


gsit este mai mare.

(1 ) 100%)
99%

Dei ansele

par a  foarte apropiate i ar da rezultate asemntoare, sunt cazuri n care ecare sutime

conteaz. De exemplu, s presupunem c ntr-un an calendaristic un eveniment are ansa de

99%

de a se

realiza, n orice zi a anului, independent de celelalte zile. Atunci, ansa ca acest eveniment s se realizeze

0.99365 2.55%.
96.42%, ceea ce

n ecare zi a anului n tot decursului acestui an este de


ecare zi ar  fost de

99.99%,

atunci rezultatul ar  fost

Dac ansa de realizare n


nseamn o diferen foarte

mare generat de o diferen iniial foarte mic.


Intervalul de ncredere pentru valoarea real a unui parametru nu este unic.

Dac ni se dau condiii

suplimentare (e.g., xarea unui capt), atunci putem obine intervale innite la un capt i nite la
cellalt capt.
n continuare, vom cuta intervale de ncredere pentru parametrii unor caracteristici normale.

Interval de ncredere pentru medie, cnd dispersia este cunoscut


X N (, ) caracteristica unei populaii statistice, unde este necunoscut i este cunoscut. Pentru
, efectum o selecie repetat de volum n i
xm nivelul de ncredere 1 1, (0, 1). Alegem urmtoarea statistic:
Fie

a construi un interval de ncredere pentru media teoretic

Z=

X
N (0, 1)

Putem determina un interval numeric

(conform Propoziiei

(z1 , z2 )

11.23).

astfel nct

P (z1 < Z < z2 ) = (z2 ) (z1 ) = 1 ,


unde

: R [0, 1]

este

(z1 , z2 )

y2
2

dy.

(17.5)

X
< z2 ) = 1 ,




P X z2 < < X z1
= 1 ,
n
n

de unde intervalul de ncredere pentru

(1 )


X z1
.
n

cu nivelul de semnicaie

(, ) = X z2 ,
n
Mai ramne de stabilit cum determinm valorile
Distingem trei cazuri:

este determinat, putem scrie:

P (z1 <

echivalent cu

(17.4)

funcia lui Laplace,


1
(x) =
2

De ndat ce intervalul

(17.3)

z1

z2 .

este

113

STATS 8 [Dr. Iulian Stoleriu]

(1)

Dac nu se cunoate o alt informaie suplimentar despre


de lungime minim pentru

xat.

Aceasta se obine cnd

, atunci alegem (z1 , z2 ) ca ind interval


z1 = z2 (vezi Observaia 17.3), de unde:

(z2 ) (z2 ) = 1 .
Tinnd cont c

(z) = 1 (z),

ultima relaie se reduce la

(z2 ) = 1
de unde gsim pe

z2

ca ind cuantila de ordin

,
2

2 , i anume

z1 2 .

Aadar,

z1 = z1 2 ,

z2 = z1 2 ,

cnd este cunoscut





(, ) = X z1 2 , X + z1 2
.
n
n

i intervalul de ncredere pentru media teoretic

(2)

este:

(17.6)

Dac pentru media teoretic nu se precizeaz o limit superioar, atunci n (17.4) aleg intervalul
aleator

(z1 , z2 )

de forma

(, z2 ).

nlocuind n (17.4) obinem:

P ( < Z < z2 ) = (z2 ) () = 1 ,


| {z }
=0

de unde

z2 = z1 .

n acest caz, intervalul de ncredere este:


(, ) =

(3)

X z1

,
n


.

Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci n (17.4) aleg intervalul
aleator

(z1 , z2 )

de forma

(z1 , ).

nlocuind n (17.4) obinem:

P (z1 < Z < ) = () (z1 ) = 1 ,


| {z }
=1

de unde

z1 = z = z1 .

n acest caz, intervalul de ncredere este:


(, ) =

Observaia 17.3

n cazul

(1)

X + z1
n


.

de mai sus, am ales intervalul aleator de lungime minim, unde aceast

lungime este

l = (z2 z1 ).
n

Pentru a gsi acest interval, avem de rezolvat problema:




min (z2 z1 )

n
Zz2

g(z) dz = 1 ,

z1

114

STATS 8 [Dr. Iulian Stoleriu]


unde

este desitatea de repartiie pentru

N (0, 1).

Pentru a o rezolva, folosim metoda multiplicatorilor lui Lagrange. Fie funcia

L(z1 , z2 ; ) = (z2 z1 ) +
n
Dorim s am

z1

z2

ce realizeaz

min L(z1 , z2 ; ). Acestea

=0

z1
L
= 0,

z2

= 0,

de unde

z2

g(z) dz.

(17.7)

z1
sunt soluiile sistemului:

g(z1 ) = 0
n

+ g(z2 ) = 0.
n

Deoarece funcia

Observaia 17.4
aceasta nseamn

este simetric, soluiile sunt

(1)

z1 = z2

(ce nu convine) i

z1 = z2 .

n cazul n care volumul seleciei este mare (de cele mai multe ori n practic,

n 30)

metoda de determinare a unui interval de ncredere prezentat mai sus se

poate aplica i pentru selecii dintr-o colectivitate ce nu este neaprat normal. Aceasta este o consecin
faptului c, pentru
caracteristicii

mare, statistica

urmeaz repartiia

N (0, 1)

pentru orice form a repartiiei

(conform teoremei limit central).

(2) Intervalele de ncredere determinate mai sus sunt valide pentru selecia (repetat sau nerepetat) dintro populaie innit, sau pentru selecii repetate dintr-o populaie nit. n cazul seleciilor nerepetate

N al populaiei.
n 0.05N , atunci

din colectiviti nite, n estimarea intervalelor de ncredere vom ine cont i de volumul
Spre exemplu, dac selecia de volum

se face dintr-o populaie nit de volum

un inteval de ncredere centrat pentru media populaiei este:

(, ) =

X z1 2

N n
,
N 1

X + z1 2

N n
N 1

!
.

(17.8)

Interval de ncredere pentru medie, cnd dispersia este necunoscut


Ne am n condiiile din seciunea precedent (i.e., o caracteristic normal,
faptul c

este cunoscut. Dac deviaia standard

deja c o estimaie absolut corect pentru

este statistica

v
u
u
d (X) = t

X N (, )),

mai puin

nu este cunoscut, atunci ea va trebui estimat. tim

d (X),

dat prin

1 X
(Xi X)2 .
n1
i=1

Pentru a estima media teoretic necunoscut

T =

X
t(n 1),
d (X)

printr-un interval de ncredere, alegem statistica

(conform Propoziiei

13.9).

(17.9)

n mod analog cu cazul precedent, gsim intervalul de ncredere n funcie de cele trei cazuri amintite mai
sus:

115

STATS 8 [Dr. Iulian Stoleriu]

(1)

Dac nu se cunoate o alt informaie suplimentar despre


media teoretic

cnd

(, ) =

(2)

atunci intervalul de ncredere pentru


d (X)
X t1 2 ; n1 ,
n

d (X)
X + t1 2 ; n1
n


.

(17.10)

Dac pentru media teoretic nu se precizeaz o limit superioar, atunci intervalul de ncredere
este:

(3)

este necunoscut este:


d (X)
(, ) = X t1; n1 ,
n


.

Dac pentru media teoretic nu se precizeaz o limit inferioar, atunci intervalul de ncredere este:


(, ) =
Aici, prin

t; n1

am notat cuantila de ordin

Observaia 17.5

X t; n1

pentru repartiia

d (X)

cu


.

(n 1)

grade de libertate.

Formulele din aceast seciune sunt practice atunci cnd selecia se face dintr-o colecti-

n este mare, atunci va  o diferen foarte mic ntre valorile z1 2


i t1 ; n1 , de aceea am putea folosi z1 n locul valorii t1 ; n1 . Mai mult, pentru un n mare (n 30),
2
2
2
intervalele de ncredere obinute mai sus rmn aceleai pentru orice form a repartiiei caracteristicii X ,
vitate gaussian de volum

n mic.

Cnd

nu neaprat pentru una gaussian. Aadar, pentru o selecie de volum mare dintr-o colectivitate oarecare,
un interval de ncredere pentru media populaiei, cnd dispersia nu este cunoscut, este:


d (X)
(, ) = X z1 2 ,
n

X +z

1
2

d (X)


.

(17.11)

Interval de ncredere pentru dispersie, cnd media este cunoscut


X N (, ) o caracteristic a unei populaii studiate, pentru care cunoatem media teoretic dar
2 . Dorim s estimm dispersia prin construirea unui interval de ncredere. Alegem o
selecie repetat X1 , X2 , . . . , Xn ce urmeaz repartiia lui X . Fixm nivelul de semnicaie .
2
2
Pentru estimarea punctual a lui cnd media este cunoscut folosim statistica d (X) denit prin
Fie

nu i dispersia

1X
d (X) =
[Xi ]2 .
n
2

i=1

Intervalul de ncredere pentru dispersie se construiete cu ajutorul statisticii

n
n 2
1 X
d
(X)
=
(Xi )2 2 (n),
2
2

(conform Propoziiei 13.3).

i=1

Determinm intervalul aleator din condiia:



n
P 21 < 2 d2 (X) < 22 = Gn (22 ) Gn (21 ) = 1 ,

unde aici

Gn (x)

reprezint funcia de repartiie teoretic pentru repartiia

cu

grade de libertate.

n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie (analog ca anterior), gsim
c intervalul de ncredere pentru

2,

dup cum urmeaz:

116

STATS 8 [Dr. Iulian Stoleriu]

(1)

nu avem informaii suplimentare despre dispersie:

n d2 (X)
2 ; n

n d2 (X)
,
21 ; n

( 2 , 2 ) =

(2)

(17.12)

avem informaii c dispersia este nemrginit superior:

( ,

(3)

2)

n d2 (X)
,
2; n


+ ;

(17.13)

avem informaii c dispersia este nemrginit inferior:

2)

( ,

unde prin

2; n

am notat cuantila de ordin

n d2 (X)
21; n

pentru repartiia

cu

(17.14)

grade de libertate.

Interval de ncredere pentru dispersie, cnd media este necunoscut


X N (, ) o caracteristic a unei populaii studiate, pentru care nu cunoatem media sau dispersia.
De exemplu, X reprezint timpul de producere a unei reacii chimice. Dorim s estimm dispersia prin
construirea unui interval de ncredere. Alegem o selecie repetat X1 , X2 , . . . , Xn ce urmeaz repartiia
lui X . Fixm nivelul de semnicaie .
2
2
Pentru estimarea punctual a lui cnd media este necunoscut folosim statistica d (X) denit prin

Fie

d2 (X) =

1 X
[Xi X]2 .
n1
i=1

Intervalul de ncredere pentru dispersie se construiete cu ajutorul statisticii

n
n1 2
1 X
d (X) = 2
(Xi X)2 2 (n 1),
2

(conform Propoziiei 13.6).

i=1

Determinm intervalul aleator din condiia:

P
unde

Gn1 (x)



n1 2
2
2
2
21 <
d
(X)
<

2 = Gn1 (2 ) Gn1 (1 ) = 1 ,
2

reprezint funcia de repartiie teoretic pentru repartiia

cu

(n 1)

grade de libertate.

n funcie de faptul dac avem sau nu informaii suplimentare despre dispersie, gsim c intervalul de
ncredere pentru

(1)

este:

nu avem informaii suplimentare despre dispersie:

( 2 , 2 ) =

(n 1)d2 (X)
,
21 ; n1
2

unde prin

2; n1

am notat cuantila de ordin

(n 1)d2 (X)
2 ; n1

!
,

(17.15)

pentru repartiia

cu

(n 1)

grade de libertate.

117

STATS 8 [Dr. Iulian Stoleriu]

(2)

avem informaii c dispersia este nemrginit superior:

( ,

(3)

2)

(n 1)d2 (X)
,
2; n1

!
+ ;

(17.16)

avem informaii c dispersia este nemrginit inferior:

( , 2 ) =

Observaia 17.6

(n 1)d2 (X)
21; n1

!
.

(17.17)

Intervale de ncredere pentru deviaia standard se obin prin extragerea rdcinii p-

trate din capetele de la intervalele de ncredere pentru dispersie.

Interval de ncredere pentru proporii ntr-o populaie binomial


Pentru o populaie statistic, prin

proporie a populaiei vom nelege procentul din ntreaga colectivitate

ce satisface o anumit proprietate (sau are o anumit caracteristic) (e.g., proporia de studeni integraliti
dintr-o anumit facultate). Pe de alt parte, prin

proporie de selecie nelegem procentajul din valorile de

selecie ce satisfac o anumit proprietate (e.g., proporia de studeni integraliti dintr-o selecie aleatoare
de

40

p),

iar proporia de selecie este o statistic (pe care o notm aici prin

Fie

de studeni ai unei faculti). Proporia unei populaii este un parametru (pe care l vom nota cu

o caracteristic binomial a unei colectiviti, cu probabilitatea de succes

steme aprute la aruncarea unei monede ideale, caz n care


de ncredere pentru proporia populaiei,

p.

variabilei aleatoare

X=

n
X

Xi ,

unde

E(X) = np,

este

Xi

(e.g., numrul de

Dorim s construim un interval

este proporia de selecie, adic

pb = p =
Printr-un "volum mare" vom nelege un

p = 0.5).

Pentru aceasta, avem nevoie de selecii de volum mare din

aceast colectivitate. Un estimator potrivit pentru

ind

p).

X
.
n

ce satisface:

iar dispersia este

n 30, n pb > 5 i n (1 pb) > 5. Media


D2 (X) = np(1 p). Putem scrie pe X ca

sunt variabile aleatoare Bernoulli

B(1, p).

Pentru un volum

mare, variabila

i=1
aleatoare

satisface (conform teoremei limit central aplicat irului

{Xi }i ):

X
p
X np
pb p
p
= rn
=r
N (0, 1).
n p (1 p)
p (1 p)
p (1 p)
n
n

p, de
!
pb (1 pb)
.
n

Pe baza acestui rezultat, putem construi un interval de ncredere pentru

r
pb z1 2
Deoarece

nu este

pb (1 pb)
,
n

r
pb + z1 2

a priori cunoscut, p a fost nlocuit sub radical cu estimatorul su.


r
E = z1 2

se numete

forma:

eroarea standard a proporiei. E

de ncredere dat de (17.18).

(17.18)

Valoarea

pb (1 pb)
n

este eroarea care se face prin estimarea lui

(17.19)

prin intervalul

118

STATS 8 [Dr. Iulian Stoleriu]

Observaia 17.7
n  N,

de regul

Acest interval de ncredere este valabil pentru selecie dintr-o populaie innit (sau

n < 0.05N )

sau pentru selecia cu repetiie dintr-o populaie nit.

se realizeaz fr repetiie dintr-o populaie nit (cu

astfel nt

n 0.05N ),

Dac selecia

atunci intervalul de

ncredere este:

r
pb z1 2

pb (1 pb)
n

N n
,
N 1

r
pb + z1 2

pb (1 pb)
n

N n
N 1

!
.

(17.20)

119

Laborator 9 [Dr. Iulian Stoleriu]

18 Statistic Aplicat (L9)


Estimaii prin intervale de ncredere n
Exemplu 18.1
aib masa de

Matlab

O main de ngheat umple cupe cu ngheat. Se dorete ca ngheat din cupe s

= 250g.

Desigur, este practic imposibil s umplem ecare cup cu exact

250g

de nghe-

at. Presupunem c masa coninutului din cup este o variabil aleatoare repartizat normal, cu masa

= 3g. Pentru a verica dac maina este ajustat bine, se aleg la


30 de nghetate i se cntrete coninutul ecreia. Obinem astfel o selecie repetat, x1 , x2 ,

necunoscut i dispersia cunoscut,


ntmplare

. . . , x30

dup cum urmeaz:

257 249
248 256

251 251
247 250

252
247

251 251
251 247

249 248 248


252 248 253

251 253
251 247

Se tie c un estimator absolut corect pentru masa medie este media de selecie,
Se cere s se gseasc un interval de ncredere pentru

Soluie:

cu nivelul de conden

Dup cum am vzut mai sus, un interval de ncredere pentru


(, ) =
Urmtorul cod

x z1 2 ,
n

x + z1 2
n

248 245 251


253 244 253
X = 250.0667.
0.99.

este:

Matlab furnizeaz un interval de ncredere bazat pe datele de selecie observate.

n=30; sigma=3; alpha = 0.01;


x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ...
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];
z = icdf('norm',1-alpha/2,0,1);
% cuantila de ordin 1-alpha/2 pentru normala
m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n); % capetele intervalului
fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
% afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru

cnd

este cunoscut:

(, ) = (248.659, 251.478).

Observaia 18.2

Exist funcii predenite n

Matlab ce furnizeaz estimatori punctuali i intervale de

ncredere. A se compara rezultatul din acest exerciiu cu cel din Exemplul 18.3 (estimare a intervalului de
ncredere cnd

Exemplu 18.3

nu este cunoscut) sau Exerciiul 18.5 (intervale furnizate de funcii

Matlab predenite).

S se gseasc un interval de ncredere pentru masa medie din Exerciiul 18.1, n cazul

n care abaterea standard

nu mai este cunoscut.

120

Laborator 9 [Dr. Iulian Stoleriu]

Figura 18.1: Intervalul de ncredere pentru Exerciiu 18.1.


Soluie:

Dup cum am vzut mai sus, un interval de ncredere pentru


(, ) =
Urmtorul cod

xt

1
; n1
2

d (X)
,
n

x+t

1
; n1
2

este:

d (X)


.

Matlab furnizeaz un interval de ncredere bazat pe datele de selecie observate.

n=30; alpha = 0.01;


x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ...
248 256 247 250 247 251 247 252 248 253 251 247 253 244 253];
dev = std(X);
% deviatia standard de selectie
t = icdf('t',1-alpha/2,n-1);
% cuantila de ordin 1-alpha/2 pentru t(n-1)
m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n);
% capetele intervalului
fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
% afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru

cnd

este cunoscut:

(, ) = (248.572, 251.561).

Observaia 18.4

A se compara rezultatul din acest exemplu cu cel din Exemplul 18.1 (estimare a in-

tervalului de ncredere cnd

este cunoscut) sau Exerciiul 18.5 (intervale furnizate de funcii

Matlab

predenite).

Exemplu 18.5 Suntem, din nou, n cadrul Exerciiului 18.1, cu meniunea c dispersia nu este cunoscut
a priori (vezi Exerciiu 18.3). Dorim s obinem o estimaie printr-un interval de ncredere pentru cnd

nu este cunoscut. Folosind funcia

estimaii punctuale pentru

normfit

obinem chiar mai mult dect ne propunem, i anume:

i cte un interval de ncredere pentru ambele. Rulnd funcia, adic

121

Laborator 9 [Dr. Iulian Stoleriu]


[m,s,mCI,sCI] = normfit(X,0.01)
Observm c valorile furnizate pentru intervalul de ncredere pentru

, (mCI),

sunt exact aceleai ca cele

obinute n Exerciiu 18.3.

m =
250.0667

Observaia 18.6

2.9704

S presupunem c facem

diferite cte o selecie de

= 0.01)

s =

30

mCI =
248.572
251.561

sCI =
2.2111
4.4159

50 de selecii repetate de volum 30 (adic alegem n 50 de zile

de ngheate) i am intervalele de ncredere (toate cu nivelul de conden

pentru masa medie a coninutului. Figura 18.2 reprezint grac cele

50

de intervale.

Dup cum se observ din gur, se poate ntmpla ca un interval de ncredere generat s nu conin
valoarea pe care acesta ar trebui s o estimeze. Aceasta nu contrazice teoria, deoarece probabilitatea cu
care valoarea estimat este acoperit de intervalul de ncredere este


P < < = 1 = 0.99,
deci exist anse de a grei n estimare, n cazul de fa de

1%.

Figura 18.2: 50 de realizri ale intervalului de ncredere pentru

Exemplu 18.7
nscrii, doar
conden de

Soluie:

ntr-un institut politehnic, s-a determinat c dintr-o selecie aleatoare de

100 de studeni

67 au terminat studiile, obinnd o diplom. Gsii un interval de ncredere care, cu o


95% s determine procentul de studeni absolveni dintre toi studenii ce au fost nscrii.
67
= 0.05, n > 30, pb = 100
= 0.67, nb
p = 67 > 5 i n(1 pb) = 33 > 5.
informaie despre N (numrul total de studeni nscrii), putem presupune c

Mai nti, observm c

Deoarece nu ni se d vreo

122

Laborator 9 [Dr. Iulian Stoleriu]


n < 0.005N

i putem aplica formula (17.18). Gsim c intervalul de ncredere cutat este:

r
0.67 z0.975

Exemplu 18.8

0.67 (1 0.67)
,
100

Dintr-o selecie de

0.67 + z0.975

200

0.67 (1 0.67)
100

1276

de elevi ai unei coli cu

= (59.27%, 74.73%).

de elevi,

65%

arm c dein cel

puin un telefon mobil. S se gseasc un interval de ncredere pentru procentul de copii din respectiva
coal ce dein cel puin un telefon mobil, la nivelul de semnicaie

Soluie:
interval

= 0.05.

n = 200, N = 1276, p = 0.65. Deoarece n 0.05N , folosind (17.20) i gsim c


de ncredere la nivelul de semnicaie 0.05 este
!
r
r
r
r
0.65 (1 0.65) 1276 200
0.65 (1 0.65) 1276 200
0.65 1.96
, 0.65 + 1.96
200
1276 1
200
1276 1
Avem:

= (58.93%, 71.07%).

Observaia 18.9
p

un

Dac se dorete estimarea volumului seleciei pentru care se obine estimarea proporiei

printr-un interval de ncredere cu o eroare maxim

ghici proporia populaiei,

p,

E,

atunci folosim formula (17.19). Dac am putea

atunci gsim urmtoarea estimare a volumului seleciei:

"

n = p(1 p)
[ ] este partea ntreag. Dac p
pentru p = 0.5 i estimm pe n prin
unde

z1 2

2 #

(18.1)

nu poate  ghicit, atunci folosim faptul c

p(1 p)

este maxim

" 
 #
1 z1 2 2
n=
.
4
E

Exemplu 18.10

Un studiu susine c ntre

35%

40%

dintre elevii de liceu din ar fumeaz. Ct de

mare ar trebui s e volumul unei selecii dintre elevii de liceu pentru a estima procentul real de elevi ce
fumeaz, cu o eroare de estimare maxim de

Soluie:

Folosim formula (18.1), pentru

Cuantila este

z0.95 = 1.28.

0.5%.

p = 0.4

(se alege valoarea

40%,

= 0.1.

cea mai apropiat de

50%).

n este:
 #

Gsim c o estimaie pentru

"

n = 0.4(1 0.4)

Exemplu 18.11

Se va alege nivelul de semnicaie

1.64
0.005

O fabric produce batoane de ciocolat cntrind

terea masei de la aceast valoare, s-a fcut o selecie de

100.12; 99.92; 100.1;


99.89; 100.15; 99.9;
99.76; 100.1; 99.24;
100.12; 98.63; 99.03;

99.89;
99.7;
98.19;
100.3;

= 25820.

35

100g

ecare. Pentru a se estima aba-

de batoane, obinndu-se valorile:

100.07; 99.88; 100.11; 99.90; 99.97; 100.2;


100.2; 99.7;
100.2; 100.1; 100.04; 99.89;
100.15; 100.5; 99.79; 98.95; 100.23; 99.89;
98.68.

123

Laborator 9 [Dr. Iulian Stoleriu]


Gsii un interval de ncredere (cu

= 0.05)

pentru deviaia standard masei batoanelor produse de res-

pectiva fabric.

Soluie:

Mai nti, calculm

d2 (x).

Avem:

35

d2 (x) =

1 X
[Xi 100]2 = 0.3.
35
i=1

Din tabele, sau utiliznd

Matlab, gsim cuantilele:


20.975; 35 = 53.2033;

20.025; 35 = 20.5694.

Matlab, cuantilele se calculeaz astfel:


icdf('chi2',0.975, 35);

icdf('chi2',0.025, 35)

Intervalul de ncredere pentru dispersie este (folosind formula (17.12)):

( 2 , 2 ) = (0.20, 0.51).
Pentru variaia standard, intervalul de ncredere este:

(, ) = ( 0.2, 0.51) = (0.44, 0.71).

Exemplu 18.12

Gsii un interval de ncredere (cu

nicotin a unui anumit tip de igri, dac o selecie


de nicotin de

Soluie:

= 0.05) pentru deviaia standard a coninutului de


de 24 de buci are deviaia standard a coninutului

1.6mg.

Mai nti,

s = d (x) = 1.6.

Din tabele, sau utiliznd

20.975; 24 = 39.3641;

Matlab, gsim:

20.025; 24 = 12.4012.

Intervalul de ncredere pentru dispersie este (folosind formula (17.15)):

( 2 , 2 ) = (1.56, 4.95).
Pentru variaia standard, intervalul de ncredere este:

( 1.5608, 4.9544) = (1.25, 2.22).

Tabelul 18.1 sumarizeaz intervalele de ncredere prezentate pn acum. n ecare caz, nivelul de semnicaie este

124

Laborator 9 [Dr. Iulian Stoleriu]

Param.

Ali param.

Interval de ncredere cu nivelul de semnicaie

2
cunoscut

X z1 2 n , X + z1 2 n


X z1 n , +


, X + z1 n

2
necunoscut

cunoscut

necunoscut

p
12

/22

1 2
1 2
1 2

mare

1 , 2

necunoscui

12 , 22

cunoscui

12 6= 22

necunoscui

12 = 22

necunoscui

p1 p2

n1 , n 2
mari


d (X)

X t1 2 ; n1 d(X)
X
+
t
,
1
;
n1
n
n
2


X t1; n1 n , ;


, X t; n1 d(X)
n


2
2
n d (X)
, nd2 (X)
21 ; n
;n
2
 22

n d (X)
,
+
2; n


n d2 (X)
, 2
1; n


(n1) d2 (X)
(n1) d2 (X)
,
21 ; n1
2 ; n1
2

 2
(n1) d2 (X)
, +
2
 ; n1

(n1) d2 (X)
,
21; n1


q
q
pb (1b
p)
pb (1b
p)
, pb + z1 2
pb z1 2
n
n
 2

2
d1
d1
fn 1, n2 1; 2 , 2 fn1 1, n2 1; 1 2
d22 1
d2

s
s
2
2
2
2
X1 X2 z1 1 + 2 , X1 X2 + z1 1 + 2
2s n
2

s
n2
n1 n2
1
2
2
2
2
d
d
d
d
1
1
X1 X2 t1 ; N
+ 2 , X1 X2 + t1 2 ; N
+ 2
2
n
n
n
n2
1
2
1



X1 X2 t1 2 ; n1 +n2 2 d(X1 , X2 ), X1 X2 + t1 2 ; n1 +n2 2 d(X1 , X2 )




q
q
pb2 (1pb2 )
pb2 (1pb2 )
pb1 (1pb1 )
pb1 (1pb1 )

pb1 pb2 z1 2
+
, pb1 pb2 + z1 2
+
n1
n2
n1
n2

Tabela 18.1: Tabel cu intervale de ncredere.

Mai sus, prin

d(X1 , X2 )

am notat:

q
d(X1 , X2 ) = (n1 1)d21 + (n2 1)d22

n1 + n2 2
1
1
n1 + n2

! 1

125

STATS 10 [Dr. Iulian Stoleriu]

19 Statistic Aplicat (C10)


Estimarea parametrilor prin intervale de ncredere
(dou populaii)
Interval de ncredere pentru diferena mediilor
Fie

X1

X2

caracteristicile a dou populaii normale,

se cunosc mediile teoretice.

N (1 , 1 ),

respectiv,

N (1 , 1 ),

Alegem din prima populaie o selecie repetat de volum

pentru care nu

n1 ,

notat prin

(X1k )k=1, n1 , ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie repetat de volum
n2 , notat prin (X2k )k=1, n2 , ce urmeaz repartiia lui X2 . Fixm nivelul de semnicaie . S notm
dispersiile de selecie pentru ecare caracteristic prin

d21

1
1 X
=
(X1k X1 )2
n1 1

d22

i=1

2
1 X
=
(X2k X2 )2 .
n2 1

i=1

Pentru a gsi un interval de ncredere pentru diferena mediilor, precizm mai nti statisticile care stau
la baza construirii intervalului. Putem avea urmtoarele trei cazuri:

(1) dispersiile

Z=

12

22

sunt cunoscute

a priori.

Alegem statistica

(X1 X2 ) (1 2 )
s
N (0, 1).
12 22
+
n1 n2

(conform Propoziiei

11.27).

(19.1)

Intervalul de ncredere pentru diferena mediilor este:

X1 X2 z1
2

(2) dispersiile

12 = 22 = 2

n1

22
n2

s
X1 X2 + z1 2

12
n1

22
n2

i necunoscute. Pentru a gsi un interval de ncredere pentru diferena

mediilor, alegem statistica

T =q

12

(vezi Propoziia 13.12):

(X1 X2 ) (1 2 )
(n1 1)d21 + (n2 1)d22

Intervalul de ncredere pentru

1 2

n1 + n2 2
1
1
n1 + n2

t (n1 + n2 2),

(19.2)

este:

q
X1 X2 t1 ; n +n 2 (n1 1)d21 + (n2 1)d22
1
2
2
q

X1 X2 + t1 2 ; n1 +n2 2 (n1 1)d21 + (n2 1)d22

n1 + n2 2
1
1
n1 + n2
n1 + n2 2
1
1
n1 + n2

! 1
2

! 1
2

126

STATS 10 [Dr. Iulian Stoleriu]


(3) dispersiile

12 6= 22 ,

1 2 ,

necunoscute. Pentru un interval de ncredere pentru

T =

alegem statistica

(X1 X2 ) (1 2 )
s
t(N ),
d21 d22
+
n1
n2

(19.3)

unde

2
s21
s22
+
n1 n2
N =  2
2
 2 2
s21
1
s2
1
+
n1
n1 1
n2
n2 1


n acest caz, un interval de ncredere pentru

X1 X2 t1 ; N
2

Observaia 19.1


s21 = d2 (x1 ), s22 = d2 (x2 ) .

1 2

d21 d22
+
,
n1
n2

Pentru un volum de selecie

la nivelul de semnicaie

X1 X2 + t1 2 ; N

(19.4)

este:

d21 d22
+
.
n1
n2

n mare (n 30), intervalele de ncredere obinute mai sus


X , nu neaprat pentru una gaussian.

rmn aceleai pentru orice form a repartiiei caracteristicii

Interval de ncredere pentru raportul dispersiilor


Fie

X1

X2

caracteristicile a dou populaii normale,

N (1 , 1 ),

respectiv,

N (2 , 2 ),

pentru care nu

n1

se cunosc mediile i dispersiile teoretice. Alegem din prima populaie o selecie repetat de volum
urmeaz repartiia lui
repartiia lui

X2 .

X1 ,

iar din a doua populaie alegem o selecie repetat de volum

Fixm nivelul de semnicaie

n2

ce

ce urmeaz

Pentru a gsi un interval de ncredere pentru raportul

dispersiilor,

12 /
22
considerm statistica

F =

22 d21
F(n1 1, n2 1),
12 d22

Determinm apoi un interval aleator

(f1 , f2 )

(conform Propoziiei 13.15).

(19.5)

astfel nct

P (f1 < F < f2 ) = Fn1 1, n2 1 (f2 ) Fn1 1, n2 1 (f1 ) = 1 ,


unde

Fn, m

este funcia de repartiie pentru repartiia

f1 = f 2 , n1 1, n2 1
unde

fn, m;

reprezint cuantila de ordin

Fisher cu (n, m) grade de libertate.

Alegem:

f2 = f1 2 , n1 1, n2 1 ,

pentru repartiia

F isher

cu

(n, m)

grade de libertate.

2
2
Intervalul de ncredere pentru raportul dispersiilor, 1 /2 este:

d21
f , n 1, n2 1 ,
d22 2 1


d21

f
1 2 , n1 1, n2 1 .
d22

(19.6)

127

STATS 10 [Dr. Iulian Stoleriu]

Interval de ncredere pentru diferena proporiilor ntr-o populaie binomial


X2 dou caracteristici binomiale independente ale unei populaii, cu volumele i probabilitile
de succes n1 , p1 i, respectiv, n2 , p2 . Dorim s am un interval de ncredere pentru diferena proporiilor,
p1 p2 . Pentru a reui aceasta, avem nevoie de selecii mari, de aceea utilizarea testului Z este oportun.
Condiiile testului sunt: n1 30, n2 30, n1 pb1 > 5, n2 pb2 > 5, n1 (1 pb1 ) > 5, n2 (1 pb2 ) > 5. La un
nivel de semnicaie , un interval de ncredere pentru p1 p2 este:

s
s
pb1 pb2 z1 pb1 (1 pb1 ) + pb2 (1 pb2 ) , pb1 pb2 + z1 pb1 (1 pb1 ) + pb2 (1 pb2 ) . (19.7)
2
2
n1
n2
n1
n2
Fie

X1

Vericarea ipotezelor statistice


[Ambiia de o via a unui statistician este de a nu da gre
. . . n mai mult de 5% din cazuri.]

Punerea problemei
Testarea ipotezelor statistice este o metod prin care se iau decizii statistice, utiliznd datele experimentale
culese. Testele prezentate mai jos au la baz noiuni din teoria probabilitilor. Aceste teste ne permit
ca, plecnd de la un anumit sau anumite seturi de date culese experimental, s se putem valida anumite
estimri de parametri ai unei repartiii sau chiar putem prezice forma legii de repartiie a caracteristicii
considerate.

X este caracteristica studiat


f (x, ), unde Rp . Dup

Presupunem c

a unei populaii statistice i c legea sa de probabilitate

este dat de

cum precizam n capitolul anterior, aceast funcie poate

 specicat (adic i cunoatem forma, dar nu i parametrul


asupra acestui parametru, sau

f (x, )

),

caz n care putem face anumite ipoteze

este necunoscut, caz n care putem face ipoteze asupra formei

sale.
S presupunem c

Deniia 19.2

(xk )k=1, n

(1) Numim

sunt datele observate relativ la caracteristica

ipotez statistic

X.

o presupunere relativ la valorile parametrilor ce apar n

legea de probabilitate a caracteristicii studiate sau chiar referitoare la tipul legii caracteristicii.
(2) O

ipotez neparametric

o ipotez de genul
(3)

Numim

este o presupunere relativ la forma funcional a lui

f (x, ).

De exemplu,

Normal.

ipotez parametric

o presupunere fcut asupra valorii parametrilor unei repartiii.

Dac

mulimea la care se presupune c aparine parametrul necunoscut este format dintr-un singur element,

ipotez parametric simpl. Altfel, avem o ipotez parametric compus.


ipotez nul este acea ipotez pe care o intuim a  cea mai apropiat de realitate i o presupunem a

avem de-a face cu o


(4) O

priori a  adevrat.

Cu alte cuvinte, ipoteza nul este ceea ce doreti s crezi, n cazul n care nu exist

suciente evidene care s sugereze contrariul. Un exemplu de ipotez nul este urmtoarul: "presupus
nevinovat, pn se gsesc dovezi care s ateste o vin".

ipotez alternativ

este orice alt ipotez

128

STATS 10 [Dr. Iulian Stoleriu]


admisibil cu care poate  confruntat ipoteza nul.
De exemplu, n Exerciiul 18.1, putem presupune c ipoteza (parametric) nul este

(H0 )

= 250 grame,

iar o ipotez alternativ (bilateral) poate 

6= 250 grame.

(H1 )
n general, pentru teste parametrice considerm

A = A0

A1 , A 0

A1 =

i spunem c

(H0 )

A0

este ipoteza nul,

iar

(H1 )
(5) A

A1

este ipoteza alternativ.

testa o ipotez statistic (en., statistical inference) nseamn a lua una dintre deciziile:

ipoteza nul se respinge


ipoteza nul se admite (sau, nu sunt motive pentru respingerea ei)

semnicativ din punct de vedere statistic dac este improbabil ca


diferen semnicativ dac exist suciente
dovezi statistice pentru a dovedi diferena, i nu datorit faptului c diferena ar  mare. Numim nivel de
semnicaie probabilitatea de a respinge ipoteza nul cnd, de fapt, aceasta este adevrat. n general,
(6) n Statistic, un rezultat se numete

el s se  realizat datorit ansei. ntre dou valori exist o

nivelul de semnicaie este ales ca ind una dintre valorile:

= 0.01, 0.02, 0.05

etc.

regiune critic mulimea tuturor valorilor care cauzeaz respingerea ipotezei nule.
o submulime U R se numete regiune critic cu un nivel de semnicaie (0, 1) dac

Vom numi

P ((x1 , x2 , . . . , xn ) U | H0

admis)

Matematic,

= .

Dac putem scrie regiunea critic sub forma

U = {(x1 , x2 , . . . , xn ) Rn | S(x1 , x2 , . . . , xn ) c},


atunci valoarea

se numete

valoare critic iar S(x1 , x2 , . . . , xn ) se numete statistic test sau criteriu.

Construirea unui test statistic revine la construirea unei astfel de mulimi critice. Folosind datele observate
i

determinat ca mai sus, putem avea dou cazuri:

(i)
(ii)

(x1 , x2 , . . . , xn ) 6 U,
(x1 , x2 , . . . , xn ) U,

ceea ce implic faptul c


ceea ce implic faptul c

(H0 )
(H0 )

este acceptat (pn la o alt testare);


este respins (adic

(H1 )

este acceptat);

n urma unor astfel de decizii pot aparea dou tipuri de erori:

eroarea de spea (I)

sau riscul furnizorului (en.,

false positive)

este eroarea care se poate comite

respingnd o ipotez (n realitate) adevrat. Se mai numete i

risc de genul (I).

acestei erori este nivelul de semnicaie, adic:

= P ((x1 , x2 , . . . , xn ) U | H0

admis).

Probabilitatea

129

STATS 10 [Dr. Iulian Stoleriu]


eroarea de spea a (II)-a

sau riscul beneciarului (en.,

false negative) este eroarea care se poate


risc de genul al (II)-lea. Proba-

comite acceptnd o ipotez (n realitate) fals. Se mai numete i


bilitatea acestei erori este

= P ((x1 , x2 , . . . , xn ) 6 U | H1

admis).

Gravitatea comiterii celor dou erori depinde de problema studiat. De exemplu, riscul de genul (I) este
mai grav dect riscul de genul al (II)-lea dac vericm calitatea unui articol de mbracminte, iar riscul de genul al (II)-lea este mai grav dect riscul de genul (I) dac vericm concentraia unui medicament.

Fie

o caracteristic ce urmeaz legea de probabilitate

de selecie de volum

Deniia 19.3

f (x; ),

cu

(x1 , x2 , . . . , xn )

valori

n.

puterea unui test

Vom numi

probabilitatea respingerii unei ipoteze false (sau, probabili-

tiatea de a nu comite eroarea de spea a II-a). Notm prin

= 1 = P ((x1 , x2 , . . . , xn ) U | H0 fals) .

Deniia 19.4

Denumim

valoare P

sau

P valoare (en.,

(19.8)

P-value) probabilitatea de a obine un rezultat

cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Valoarea
cea mai mic valoare a nivelului de semnicaie

pentru care ipoteza

(H0 )

este

ar  respins, bazndu-ne

Pv , atunci respingem ipoteza nul la nivelul de semnicaie , iar dac


(H0 ). Cu ct Pv este mai mic, cu att mai mari anse ca ipoteza nul s e
respins. De exemplu, dac valoarea P este Pv = 0.045 atunci, bazndu-ne pe observaiile culese, vom
respinge ipoteza (H0 ) la un nivel de semnicaie = 0.05 sau = 0.1, dar nu o putem respinge la un
nivel de semnicaie = 0.02. Dac ne raportm la P valoare, decizia ntr-un test statistic poate 
fcut astfel: dac aceasta valoare este mai mic dect nivelul de semnicaie , atunci ipoteza nul este
respins, iar dac P value este mai mare dect , atunci ipoteza nul nu poate  respins. De reinut
faptul c, cu ct valoarea P este mai mic, cu att mai semnicativ este rezultatul testului.
pe observaiile culese. Dac

Pv > ,

atunci admitem

Un exemplu simplu de test este testul de sarcin. Acest test este, de fapt, o procedur statistic ce ne
d dreptul s decidem dac exist sau nu suciente evidene s concluzionm c o sarcin este prezent.
Ipoteza nul ar  lipsa sarcinii. Majoritatea oamenilor n acest caz vor cdea de acord cum c un

negative este mai grav dect un false positive.

false

S presupunem c suntem ntr-o sal de judecat i c judectorul trebuie s decid dac un inculpat este
sau nu vinovat. Are astfel de testat urmtoarele ipoteze:

(
(H0 )
(H1 )

inculpatul este nevinovat;


inculpatul este vinovat.

Posibilele stri reale (asupra crora nu avem control) sunt:


[1]

inculpatul este nevinovat (H0 este adevrat i

[2]

inculpatul este vinovat (H0 este fals i

H1

H1

este fals);

este adevrat)

Deciziile posibile (asupra crora avem control putem lua o decizie corect sau una fals) sunt:

130

STATS 10 [Dr. Iulian Stoleriu]

[i] H0
[ii] H0

se respinge (dovezi suciente pentru a ncrimina inculpatul);


nu se respinge (dovezi insuciente pentru a ncrimina inculpatul);

n realitate, avem urmtoarele posibiliti, sumarizate n Tabelul 19.1:

Decizii
Respinge H0
Accept H0

Situaie real
H0 - adevrat H0 - fals
[1]&[i]
[2]&[i]
[1]&[ii]
[2]&[ii]

Tabela 19.1: Posibiliti decizionale.


Interpretrile datelor din Tabelul 19.1 se gsesc n Tabelul 19.2.

Situaie real
Decizii
H0 - adevrat
H0 - fals
Respinge H0 nchide o persoana nevinovat
nchide o persoana vinovat
Accepta H0 elibereaz o persoana nevinovat elibereaz o persoana vinovat
Tabela 19.2: Decizii posibile.
Erorile posibile ce pot aparea sunt cele din Tabelul 19.3.

Situaie real
Decizii
H0 - adevrat
H0 - fals
Respinge H0

judecat corect
Accepta H0 judecat corect

Tabela 19.3: Erori decizionale.

Tipuri de teste statistice


Tipul unui test statistic este determinat de ipoteza alternativ

(H1 ).

test unilateral stnga, atunci cnd ipoteza alternativ este

test unilateral dreapta, atunci cnd ipoteza alternativ este

test bilateral, atunci cnd ipoteza alternativ este

6= 0

Avem astfel:

< 0
> 0

(vezi Figura 19.1

(a));

(vezi Figura 19.1

(vezi Figura 19.2);

(b));

131

STATS 10 [Dr. Iulian Stoleriu]

Figura 19.1: Regiune critic pentru test (a) unilateral stnga, (b) unilateral dreapta.

Figura 19.2: Regiune critic pentru test bilateral.

Aadar, pentru a construi un test statistic vom avea nevoie de o regiune critic. Pentru a construi aceast
regiune critic vom utiliza metoda intervalelor de ncredere. Dac valoarea observat se a n regiunea
critic (adic n afara intervalului de ncredere), atunci respingem ipoteza nul.

Testul cel mai puternic


S presupunem c

f (x; ),

este caracteristica unei colectiviti statistice ce urmeaz o lege de probabilitate

i avem de testat ipoteza nul

Deniia 19.5

(H0 )

vs. ipoteza alternativ

Spunem c testul bazat pe regiunea critic

toate testele bazate pe regiunea critic

U,

(H1 ),

este

la nivelul de semnicaie

cu probabilitatea de risc

cel mai puternic test

P ((x1 , x2 , . . . , xn ) U | (H0 )

(b)

U U .

n raport cu

dac sunt ndeplinite urmtoarele

condiii:

(a)

se admite)

= ;

132

STATS 10 [Dr. Iulian Stoleriu]

(adic, dintre toate testele de nivel de semnicaie


puterea testului este maxim). Regiunea

Observaia 19.6

se numete

xat, cel mai puternit test este cel pentru care

regiunea critic cea mai bun.

Nu ntotdeauna exist un cel mai puternic test.

n cazul ipotezelor simple, lema urmtoare ne confer un cel mai bun test. n cazul general, nu se poate
construi un astfel de criteriu.

Lema 19.7 (Neyman19 -Pearson)

Presupunem c avem de testat

(H0 ) :
la nivelul de semnicaie

Notm cu

= 0

= 1 ,

L(x; ) = L(x1 , x2 , . . . , xn ; )
S(x) =

Atunci regiunea

(H1 ) :

vs.

funcia de verosimilitate i e

L(x; 1 )
.
L(x; 0 )

denit prin

U = {x Rn | S(x) c},
cu

astfel nct

semnicaie

P (x U | (H0 )

adevrat)

= ,

este cea mai bun regiune critic la nivelul de

Exemplu 19.8

Fie

x1 , x2 , . . . , xn

valori de selecie pentru o caracteristic

X N (, ),

unde

este

cunoscut. Dorim s testm ipoteza nul:

(H0 ) :

= 0

(H1 ) :

= 1 .

versus ipoteza alternativ simpl

Soluie:

Funcia de verosimilitate asociat seleciei este:

12
2

1
L(x1 , x2 , . . . , xn ; ) =
n e
n
(2) 2
Calculnd

S(x),

n
X

(xk )2

k=1

obinem:

L(x; 1 )
S(x) =
=
L(x; 0 )

0
1

n

12

1
1
2 2
1
0

n
X
k=1

(xk )2
.

Utiliznd Lema Neyman-Pearson, cel mai puternit test este bazat pe o regiune ce depinde de

De asemenea, observm c dac

vom respinge ipoteza

(H0 )

dac

1 > 0 ,
n
X

atunci

S(x)

(xi )2 .

i=1

(xi )2 .

Aadar,

i=1

(xi )2

este sucient de mare.

i=1
19 Jerzy

este o funcie cresctoare de

n
X

n
X

Neyman (1894 1981), matematician polonez

133

Laborator 10 [Dr. Iulian Stoleriu]

20 Statistic Aplicat (L10)


Estimarea prin intervale de ncredere n
Exemplu 20.1

Matlab

Dou strunguri sunt potrivite s produc piese identice pentru o comand.

Pentru a

estima dac abaterile diametrelor pieselor produse de cele dou maini sunt sensibil egale, s-au luat la
ntamplare dou seturi de volume

n1 = 7

n2 = 10

de piese din cele dou loturi. Msurtorile au condus

la urmtoarele rezultate:

Lotul
Lotul

1
2

25.06
25.01

24.95
25.09

25.01
25.02

25.05
24.95

24.98
24.97

24.97
25.03

25.02
24.99

24.97

25.03

24.98

S se determine un interval de ncredere pentru raportul dispersiilor diametrelor pieselor produse de cele
dou loturi (

Soluie:

= 0.1).

Se va presupune c diametrele pieselor urmeaz o repartiie normal.

Folosim (19.6). Determinm mai nti dispersiile empirice. Acestea sunt:

d21 =

10

1X
(L1i L1i )2 = 0.0412
6

f0.05, 6, 9 = 0.2440

d22 =

i=1

1X
(L2j L2j )2 = 0.0409.
9
j=1

Cuantilele sunt:

Folosind

Matlab, putem calcula cuantilele astfel:

f0.95, 6, 9 = 3.3738.

f1 = finv(0.05, 6, 9);

f2 = finv(0.95, 6, 9);

Gsim intervalul de ncredere:

(f1 , f2 ) (0.25, 3.4).

Exemplu 20.2

Dintr-o selecie de 45 de baiei ai unei coli, 21 au spus c le place Matematica, iar dintr-o
65 de fete ale aceleiai coli, 37 au susinut c le place aceast disciplin. Construii un interval
de ncredere la nivelul de semnicaie = 0.02 pentru diferena proporiilor de baiei i fete din respectiva
selecie de

coal crora le place Matematica.

Soluie:

Folosim formula (19.7). Mai nti,

21 37 2.33
45 65

21
45

24
45
+
45

37
65

28
65
,
65

pb1 =

23
45 ,

pb2 =
s

21 37

+ 2.33
45 65

37
65 i

z0.99 2.33. Intervalul cutat este:

21 24
37 28

45 45
+ 65 65 = (0.1990, 0.0061).
45
65

134

Laborator 10 [Dr. Iulian Stoleriu]

Exerciiu 20.3
de volum

n = 25
= 2.

O selecie aleatoare de volum

N = 1000,

ce are deviaia standard

cu media se selecie

x = 50

se ia dintr-o populaie

(a) Dac presupunem c populaia este normal, gsii un interval de ncredere pentru media populaiei,
cu

= 0.05.

(b) Gsii un interval de ncredere pentru media populaiei (

= 0.05)

n cazul n care populaia nu este

normal.

Soluie:

(a) Folosim formula (17.6). Gsim intervalul de ncredere


(, ) =

50 z0.975

2
,
25

50 + z0.975

25


= (48.4, 51.6).

(b) Deoarece populaia nu este normal distribuit i nici volumul populaiei nu este mare (n
estima intervalul de ncredere bazndu-ne pe inegalitatea lui Cebev (5.4).
valorile lui

s e aproximate prin

X =

cu o eroare de cel mult

P ({|X X | < kX }) 1
Lund

< 30),

Avem c probabilitatea ca

deviaii standard este:

1
.
k2

1
= 0.95, gsim k = 20. Astfel, un interval de ncredere pentru media populaiei va
2
k


 

2
2
= (46.42, 53.58).
(, ) = x k , x + k
= 50 20 , 50 + 20
n
n
25
25

Am folosit faptul c

2 = D 2 (X) =
X

2
.
n

vom

Observm c acest interval este mai mare dect cel gsit ante-

rior, de aceea inegalitatea lui Cebev este rar folosit pentru a determina intervale de ncredere. Totui,
n acest caz nu aveam o alt alternativ de calcul. Dac se dorete o precizie mai bun, ar  indicat ca
volumul seleciei s e de cel puin

30, caz n care putem folosi aproximarea cu repartiia normal.

Testarea tipului de date experimentale


Pentru a putea efectua un test statistic n mod corect, este necesar s tim care este tipul (tipurile) de
date pe care le avem la dispoziie.

Pentru anumite teste statistice (e.g., testul

sau testul

t,

datele

testate trebuie s e normal distribuite i independente. De multe ori, chiar i ipoteza ca datele s e
normal repartizate trebuie vericat.

De aceea, se pune problema realizrii unei legturi ntre funcia

de repartiia empiric i cea teoretic (teste de concordan). Vom discuta mai pe larg aceste teste de
concordan ntr-o seciune urmtoare.
n

Matlab sunt deja implementate unele funcii ce testeaz dac datele sunt normal repartizate. Funcia

normplot(X)

reprezint grac datele din vectorul

versus o repartiie normal. Scopul acestei funcii

este de a determina grac dac datele din observate sunt normal distribuite. Dac aceste date sunt selectate dintr-o repartiie normal, atunci acest grac va  liniar, dac nu, atunci va  un grac curbat. De
exemplu, s reprezentm cu

normplot

vectorii

X = normrnd(100,2,200,1);
subplot(1,2,1); normplot(X)
Y = exprnd(5,200,1);

de mai jos. Gracele sunt cele din Figura 20.1.

135

Laborator 10 [Dr. Iulian Stoleriu]

Figura 20.1: Reprezentarea normal a datelor.


subplot(1,2,2); normplot(Y)
Observm c primul grac este aproape liniar, pe cnd al doilea nu este. Putem astfel s concluzionm
c datele date de
din

sunt normal repartizate (fapt conrmat i de modul cum le-am generat), iar datele

nu sunt normal repartizate.

Funcia

chi2gof

determin, n urma unui test

nivel de semnicaie

= 0.05.

2 ,

dac datele observate sunt normal repartizate, la un

Astfel, comanda

h = chi2gof(x)
ne va furniza rezultatul
admis), sau
ipoteza nul

h = 1.

h = 1,

dac datele nu sunt normal repartizate (i.e., ipoteza alternativ

h = 0, dac nu putem respinge ipoteza c datele


(H0 ) este admis). Aplicnd testul pentru X i Y

(H1 )

este

observate sunt normal distribuite (i.e.,


de mai sus, obinem

h = 0,

respectiv,

De asemenea, putem verica dac datele statistice ar putea proveni i din alte repartiii dect cea normal.
De exemplu, funcia

probplot(distribution,Y)
creaz un grac ce compar repartiia datelor din vectorul

tre repartiiile ce pot  comparate folosind aceast comand menionm:

'weibull'

'lognormal'.

distribution = 'normal'.
wblplot(Y)

Y s e pozitive pentru compararea


probplot(Y), care presupune n mod

Trebuie avut grij ca valorile vectorului

cu oricare dintre ultimele trei repartiii. Comanda simplicat este


implicit c

distribution. Prin'normal', 'exponential',

cu repartiia dat de

O alt comand util este

136

Laborator 10 [Dr. Iulian Stoleriu]


care este echivalent cu comanda

probplot(weibull,Y).

n continuare, prezentm un exemplu de utilizare a acestor comenzi. Figura 20.2, vericm dac ecare
dintre cele dou selecii generate, una exponenial i cealalt normal, ar putea proveni dintr-o repartiie
exponenial.

x = exprnd(0.5, 250,1);
% selectie exponentiala
y = normrnd(3, 1, 250,1);
% selectie normala
probplot('exponential',[x y])
legend('Selectie exponentiala','Selectie normala','Location','SE')

Figura 20.2: Reprezentarea exponenial a datelor.


Urmtoarea funcie

Matlab compar un set de date cu o repartiie precizat. Funcia

histfit(X, n, 'tip_repartitie')
reprezint datele din vectorul

'tip_repartitie'

printr-o histogram ce are numrul de bare egal cu

n.

Dac opiunea

apare (valabil doar pentru lucrul cu Statistics Toolbox!), atunci peste histogram

se va desena densitatea de repartiie a repartiiei precizate (e.g.,

exponential, gamma, lognormal

etc).

n caz n care opiunea nu apare, se consider implicit c repartiia cu care se compar datele este cea
normal. Exemplul de mai jos produce gracul din Figura 20.3.

X = binornd(1e3, 0.1, 1e4, 1); histfit(X, 100)

137

STATS 11 [Dr. Iulian Stoleriu]

Figura 20.3: Compararea prin histograme.

21 Statistic Aplicat (C11)


Teste parametrice
S presupunem c datele statistice colectate provin dintr-o repartiie probabilistic dat, ns nu cunoatem parametrul sau parametrii acestei repartiii. De multe ori, avem anumite intuiii asupra valorilor
parametrilor ce intr n formula densitii de repartiie, pe care dorim s le vericm ntr-un cadru riguros.
Astfel de teste, ce au la baz testarea parametrilor unor repartiii cunoscute, se numesc

teste parametrice.

n continuare, vom prezenta cele mai folosite teste parametrice. ncepem prin a prezenta paii care apar
ntr-o testare parametric.

Etapele unei testri parametrice

Considerm o selecie ntmpltoare

x1 , x2 , . . . , xn

de observaii asupra caracteristicii de interes.

De multe ori, aceast selecie provine dintr-o repartiie normal. n caz contrar, va trebui ca volumul
seleciei s e mare, de regula

Alegem o statistic (criteriu)

n 30.

Fie

X1 , X2 , . . . , Xn

S(X1 , X2 , . . . , Xn )

variabile aleatoare de selecie;

care, dup acceptarea ipotezei

(H0 ),

o repartiie cunoscut, independent de parametrul testat;

Alegem un nivel de semnicaie

Gsim regiunea critic

Calculm valoarea

Lum decizia:

s0

apropiat de

0.

De regul,

= 0.01, 0.02, 0.05.

U;

a statisticii

S(X1 , X2 , . . . , Xn )

pentru selecia considerat;

aceast are

138

STATS 11 [Dr. Iulian Stoleriu]




Dac

s0 U ,

Dac

s0 6 U , atunci ipoteza nul, (H0 ), se admite (mai bine zis, nu avem motive s o respingem

(H0 ),

atunci ipoteza nul,

se respinge;

i o admitem pn la efectuarea eventual a unui test mai puternic).

Observaia 21.1
valorii

(sau

O alt modalitate de testare a unei ipoteze statistice parametrice este prin intermediul

P valoarea

sau valoare critic). Reamintim,

P valoarea

este probabilitatea de a obine

un rezultat cel puin la fel de extrem ca cel observat, presupunnd c ipoteza nul este adevrat. Pentru
testul bilateral,

P valoarea

se poate calcula dup formula:

Pv = P (|S| > |s0 |) = P (S > |s0 |) + P (S < |s0 |),


unde

este statistica folosit n testare i

s0

(21.1)

este valoarea acestei statistici pentru selecia dat (respectiv,

seleciile date, n cazul testrii cu dou selecii).


Pentru testul unilateral stnga,

P valoarea

se poate calcula dup formula:

Pv = P (S < s0 ),
iar pentru testul unilateral dreapta,

P valoarea

(21.2)

este dat de:

Pv = P (S > s0 ),
Utiliznd

P valoarea,

(21.3)

testarea se face astfel:

Ipoteza nul va  respins dac

Pv <

i va  admis dac

Pv .

Aadar, cu ct

Pv

este mai mic, cu

att mai multe dovezi de respingere a ipotezei nule.

Testul Z pentru medie (o selecie)


Testul Z bilateral
Testul

pentru medie se folosete pentru selecii normale sau pentru selecii de volum mare (n

orice tip de variabile aleatoare, atunci cnd dispersia populaiei este cunoscut
Fie caracteristica

ce urmeaz legea normal

N (, )

cu

necunoscut i

c avem deja culese datele de selecie (observaiile) asupra lui

a priori.

>0

30) din

cunoscut. Presupunem

X:

x1 , x2 , . . . , xn .
Dorim s vericm ipoteza nul

(H0 ) :

= 0

(H1 ) :

6= 0 ,

vs. ipoteza alternativ

cu probabilitatea de risc

Pentru a efectua acest test, considerm statistica

Z=

Dac ipoteza

(z1 , z2 )

(H0 )

se admite, atunci

X
.

Z N (0, 1), (conform

(21.4)

Propoziiei

11.23).

Cautm un interval

astfel nct

P (z1 < Z < z2 ) = 1 .

(21.5)

139

STATS 11 [Dr. Iulian Stoleriu]


Gsim c acest interval este:

unde

este cuantila de ordin

z1 2 ,

pentru repartiia


z1 2 ,

N (0, 1).

Denim regiunea critic pentru ipoteza nul (relativ la valorile statisticii


care ipoteza
pentru

(H0 )

se respinge, dac media

va conine valoarea real 0

aparine acelui interval.

cu o probabilitate destul de mare,

Z)

ca ind acea regiune pentru

tim c un interval de ncredere

1.

Este de ateptat ca regiunea

critic s e complementara acestui interval, adic

n
U = z R;
Astfel,

o

= {z; |z| z1 2 }.
z 6 z1 2 , z1 2

(21.6)

este acea regiune n care:

X 0 + z1 2
n
Notm cu

z0

valoarea statisticii

X 0 z1 2 .
n

pentru observaia considerat.

Decizia nal se face astfel:

dac


z0 z1 2 ,

z1 2

, (echivalent,

z0 6 U ),

atunci admitem

z0 U ),

atunci respingem

(H0 )

(pentru c nu sunt su-

ciente dovezi s o respingem).

dac


z0 6 z1 2 ,

z1 2

, (echivalent,

(H0 )

(exist suciente dovezi

s o respingem).

Etapele testul Z bilateral


{x1 , x2 , . . . , xn } (date repartizate
z1 2 astfel nct

(1)

Se dau:

(2)

Determinm valoarea

normal),

0 ,




z1 2 = 1 .
2
(3)

Calculez valoarea

z0 =
(4)

x 0

Dac:
(i)
(ii)

|z0 | < z1 2 , atunci (H0 ) este admis (nu poate  respins);


|z0 | z1 2 , atunci (H0 ) este respins (adic (H1 ) este admis);

Testul Z unilateral
n condiiile din seciunea anterioar, dorim s vericm ipoteza nul

(H0 ) :

= 0

vs. ipoteza alternativ

(H1 )s :

< 0 ,

(unilateral stnga)

140

STATS 11 [Dr. Iulian Stoleriu]


sau ipoteza alternativ

(H1 )d :
cu probabilitatea de risc

> 0 ,

(unilateral dreapta)

Pentru a realiza testele, avem nevoie de denirea unor regiuni critice corespunztoare. Acestea vor  chiar
intervalele de ncredere pentru condiiile din ipotezele alternative. Cu alte cuvinte, o regiune critic pentru
ipoteza nul (ceea ce semnic o regiune n care, dac ne am, atunci respingem ipoteza nul la pragul
de semnicaie

este o regiune n care realizarea ipotezei alternative este favorizat. Dac ipoteza nul

este vericat vs. ipoteza alternativ


statisticii

pentru care

(H1 )s

(H1 )s , atunci regiunea critic va  regiunea acelor posibile valori ale


1 1, adic:

se realizeaz cu probabilitatea

U = (, z1 ).

(21.7)

ntr-adevr, se observ cu uurin c:

P (z U) = P ( < Z < z1 ) = (z1 ) = 1 .


(H1 )d ,

n mod similar, dac avem ipoteza alternativ

atunci alegem regiunea critic:

U = (z1 , +).

(21.8)

La fel ca mai sus, decizia se determin astfel (n ambele cazuri):

dac

z0 =

dac

z0 =

x 0

x 0

Observaia 21.2

6 U ,

atunci admitem

U,

atunci respingem

Testul

(H0 ).
(H0 ).

(bilateral sau unilateral) poate  aplicat cu succes i pentru populaii non-

normale, dac volumul seleciei observate este

n 30.

Testul Z pentru diferena mediilor a dou selecii


Testul

pentru diferena mediilor se folosete pentru selecii independente de volum mare (n

orice tip de variabile aleatoare, atunci cnd dispersiile populaiilor considerate sunt cunoscute
Fie

X1

X2

caracteristicile (independente) a dou populaii normale,

N (1 , 1 ),

30)

din

a priori.

N (2 , 2 ),
de volum n1 ,

respectiv,

pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat

x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie
repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i
1
(X2j )j=1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie
. Dorim s testm ipoteza nul c mediile sunt egale
(H0 ) :

1 = 2

(H1 ) :

1 6= 2 .

vs. ipoteza alternativ

Pentru a testa aceast ipotez, alegem statistica

Z=

(X1 X2 ) (1 2 )
s
.
12 22
+
n 1 n2

(21.9)

141

STATS 11 [Dr. Iulian Stoleriu]


Dac

(H0 )

este admis (adic admitem c

1 = 2 ),

Z N (0, 1).
Fie

(u1 u2 )
.
z0 = q 2
22
1
+
n1
n2

atunci (vezi (19.3)):

(conform Propoziiei

11.28).

(21.10)

Regiunea critic pentru ipoteza nul, exprimat n valori ale statisticii

U =

este:

o

z 6 z1 2 , z1 2
.

n
z;

Dac valoarea statisticii

pentru seleciile date nu se a n

Dac valoarea statisticii

pentru seleciile date se a n

U,

U,

atunci admitem

atunci respingem

(H0 ).

(H0 ).

Etapele testul Z pentru diferena mediilor


{x1 1 , x1 2 , . . . , x1 n1 }, {x2 1 , x2 2 , . . . , x2 n2 }
z1 2 astfel nct, funcia lui Laplace,

(1)

Se dau datele normale

(2)

Determinm valoarea

0 , 1 , 2 ,




z1 2 = 1 .
2
(3)

Calculez valoarea

(4)

Dac:
(i)
(ii)

Observaia 21.3

(1)

x1 x2
z0 = q 2
.
1
22
n1 + n2

|z0 | < z1 2 , atunci 1 = 2 ;


|z0 | z1 2 , atunci 1 6= 2 .

n cazul n care

1 , 2

sunt necunoscute, atunci utilizam testul

pentru dou

selecii, prezentat mai jos.


(2) Regiunile critice pentru testele unilaterale sunt prezentate n Tabelul 21.2.
(3) Testul

pentru dou selecii, bilateral sau unilateral, poate  aplicat cu succes i pentru populaii

non-normale, dac volumele seleciilor observate sunt


(4) Pentru testul

Z , P valoarea

n1 30, n2 30.

se poate calcula dup urmtoarele formule:

Pv = P (|Z| > |z0 |) = 1 (|z0 |) + (|z0 |)


Pv = P (Z < z0 ) = (z0 )

(pentru testul

Pv = P (Z > z0 ) = 1 (z0 )

(pentru testul

bilateral);

(21.11)

unilateral stnga);

(pentru testul

(21.12)

unilateral dreapta).

(21.13)

Testul t pentru medie (o selecie)


Testul

pentru medie se folosete pentru selecii normale de volum mic, de regul

populaiei este necunoscut


Fie caracteristica

a priori.

ce urmeaz legea normal

datele de selecie (observaiile) asupra lui

n < 30,

cnd dispersia

N (, ) cu necunoscut i > 0 necunoscut.

X:
x1 , x2 , . . . , xn .

Considerm

142

STATS 11 [Dr. Iulian Stoleriu]


Vrem s vericm ipoteza nul

(H0 ) :

= 0

(H1 ) :

6= 0 ,

vs. ipoteza alternativ

cu probabilitatea de risc

Pentru a efectua acest test, considerm statistica

X
.
d (X)

T =

Dac ipoteza

(H0 )

se admite (adic

Cutm un interval

(t1 , t2 )

ia valoarea

0 ),

(21.14)

atunci

T t(n 1),

(conform Propoziiei

astfel inct

P (t1 < T < t2 ) = 1 .


Gsim c acest interval este:

unde

t; n

reprezint cuantila de ordin

(21.15)


t1 2 ; n1 , t1 2 ; n1 ,
pentru repartiia

t(n).

Regiunea critic este complementara intervalului de ncredere. Decizia se ia astfel:

dac

t0 =

dac

t0 =

x 0
d (X)

x 0
d (X)



t1 2 ; n1 , t1 2 ; n1


6 t1 2 ; n1 , t1 2 ; n1

(echivalent,

(echivalent,

t0 6 U ),

atunci admitem

t0 U ),

(H0 ).

atunci respingem

(H0 ).

Etapele testul t bilateral


(1)
(2)

(3)

{x1 , x2 , . . . , xn } (date normale), 0 , ;


Determinm valoarea t1 ; n1 astfel nct funcia de
2



Fn1 t1 2 ; n1 = 1 .
2

Se dau:

(4)

repartiie pentru

t(n 1),

Calculez valoarea

t0 =

x 0
d (X)

unde,

v
u
u
d (X) = t

1 X
(xi x)2 .
n1
k=1

Dac:
(i)
(ii)

13.9).

|t0 | < t1 2 ; n1 , atunci (H0 ) este admis (nu poate  respins);


|t0 | t1 2 ; n1 , atunci (H0 ) este respins (adic (H1 ) este admis);

Testul t unilateral
n condiiile de mai sus, dorim s vericm ipoteza nul

(H0 ) :

= 0

143

STATS 11 [Dr. Iulian Stoleriu]


vs. ipoteza alternativ

(H1 )s :

< 0 ,

(H1 )d :

> 0 ,

(unilateral stnga)

sau ipoteza alternativ

cu probabilitatea de risc

(unilateral dreapta)

Pentru a realiza testele, avem nevoie de regiuni critice corespunztoare.


Regiunea critic pentru ipoteza nul va trebui s e mulimea valorilor favorabile realizrii ipotezei alternative, adic este acel interval ce conine doar valori ale statisticii

ce vor duce la respingerea ipotezei

nule i acceptarea ipotezei alternative. Aadar, dac alegem ipoteza alternativ

(H1 )s ,

atunci regiunea

critic pentru ipoteza nul va  mulimea valorilor favorabile realizrii ipotezei alternative

(H1 )s ,

adic

intervalul:

U = (, t1; n1 ).
Dac alegem ipoteza alternativ

(H1 )d ,

(21.16)

atunci regiunea critic pentru ipoteza nul va :

U = (t; n1 , +).

(21.17)

La fel ca mai sus, testarea este (n ambele cazuri):

dac

t0 =

dac

t0 =

x 0
d (X)

x 0
d (X)

Observaia 21.4

6 U ,

atunci admitem

U,

atunci respingem

Testul

(H0 ) :
(H1 )

6= 0

cunoscut

< 0
> 0

(H0 ).

(bilateral sau unilateral) poate  aplicat cu succes i pentru populaii non-

normale, dac volumul seleciei observate este

Ali parametri

(H0 ).

n 30.
= 0

Tipul testului

Regiunea critic

iSh

, z1 2
z1 2 , +

6= 0

(, z1 )
(z1 , +)
iSh


t1 2 ; n1 , +
, t1 2 ; n1

necunoscut

< 0
> 0

(, t1; n1 )
(t1; n1 , +)

Testul
Testul
Testul

bilateral

Z unilateral stnga
Z unilateral dreapta

Testul
Testul
Testul

bilateral

t unilateral stnga
t unilateral dreapta

Tabela 21.1: Teste pentru valoarea medie a unei colectiviti.


Testul t pentru diferena mediilor a dou selecii
Testul

t pentru diferena mediilor se folosete pentru selecii normale independente de volum mic (n < 30),

atunci cnd dispersiile populaiilor considerate sunt necunoscute


Fie

X1

X2

a priori.

caracteristicile (independente) a dou populaii normale,

N (1 , 1 ),

respectiv,

N (2 , 2 ),

144

STATS 11 [Dr. Iulian Stoleriu]

n1 ,
x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a dou populaie alegem o selecie
repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i
1
(X2j )j=1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie
. Dorim s testm ipoteza nul c mediile sunt egale
pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum

(H0 ) :

1 = 2

(H1 ) :

1 6= 2 .

vs. ipoteza alternativ

Cazul I

Presupunem c

1 6= 2

sunt necunoscute. Pentru a testa aceast ipotez, alegem statistica

T =

Aici,

(X1 X2 ) (1 2 )
s
.
d21 d22
+
n1
n2

d21 i d21 sunt dispersiile de selecie (modicate).

Dac

(21.18)

(H0 ) este admis (adic admitem c 1 = 2 ),

atunci (vezi relaia (19.3)):

T t(N ),
cu

(21.19)

ca n relaia (19.4). Regiunea critic este complementara intervalului de ncredere pentru diferena

mediilor, adic:



U = R \ t1 2 ; N , t1 2 ; N .

Cazul II

Presupunem c

1 = 2

i sunt necunoscute. Pentru a testa aceast ipotez, alegem statistica

(X1 X2 ) (1 2 )

T =q
(n1 1)d21 + (n2 1)d22
Dac

(H0 )

este admis (adic admitem c

1 = 2 ),

n1 + n2 2
.
1
1
n1 + n2

(21.20)

atunci (vezi relaia (19.2)):

T t (n1 + n2 2).

(21.21)

Regiunea critic este complementara intervalului de ncredere pentru diferena mediilor, adic:



U = R \ t1 2 ; n1 +n2 2 , t1 2 ; n1 +n2 2 .

Etapele testul t pentru diferena mediilor


(1)
(2)
funcia de

{x1 1 , x1 2 , . . . , x1 n1 }, {x2 1 , x2 2 , . . . , x2 n2 } (date normale), 0 , ;


Determinm valoarea t1 ; m (unde m = N sau m = n1 + n2 2, dup caz) astfel
2
repartiie pentru repartiia Student t(m),



Fm t1 2 ; m = 1 .
2
Se dau:

nct

145

STATS 11 [Dr. Iulian Stoleriu]


(3)

Calculez valoarea

t0 =

(4)

x x2

q 12

d1 + d22
n1

n2

x1 x2

p(n 1)d2 + (n 1)d2


2
1
2
1

n1 + n2 2
1
1
n1 + n2

, dac

1 6= 2

, dac

1 = 2

Dac:
(i)
(ii)

Observaia 21.5

|t0 | < t1 2 ; m , atunci 1 = 2 ;


|t0 | t1 2 ; m , atunci 1 6= 2 .

(1) n practic, nu putem ti

a priori dac dispersiile teoretice a celor dou populaii

ce urmeaz a  testate sunt egale sau nu. De aceea, pentru a ti ce test s folosim, va trebui s testm
mai nti ipoteza c cele dou dispersii sunt egale, vs. ipoteza ca ele difer. Pentru aceasta, va trebui s
utilizm un test pentru raportul dispersiilor. Dup ce acest prim test a fost realizat, putem decide dac
n testarea egalitii mediilor folosim statistica (21.18) sau statistica (21.20).
(2)

Z pentru diferena mediilor,


t pentru diferena mediilor, cu diferena c statistica ce se consider este dat
dup acceptarea ipotezei nule, urmeaz repartiia N (, ).

n cazul n care dispersiile sunt cunoscute, atunci se utilizeaz testul

care urmeaz paii testului


de relaia (19.1) care,
(3) Testul

pentru dou selecii, bilateral sau unilateral, poate  aplicat cu succes i pentru populaii

non-normale, dac volumele seleciilor observate sunt

Z , P valoarea

(4) Pentru testul

n1 30, n2 30.

se poate calcula dup urmtoarele formule:

Pv = P (|T | > |t0 |) = 1 Fm (|t0 |) + Fm (|t0 |)


Pv = P (T < t0 ) = Fm (t0 )

(pentru testul

Pv = P (T > t0 ) = 1 Fm (t0 )
unde

m=N

sau

m = n1 + n2 2,

Ali parametri

1 , 2

1 6= 2

cunoscute

1 < 2
1 > 2

1 6= 2

1 6= 2

necunoscute

1 < 2
1 > 2

bilateral);

unilateral stnga);

(pentru testul

(21.22)
(21.23)

unilateral dreapta).

(21.24)

dup caz.

(H0 ) :
(H1 )

(pentru testul

1 = 2

Tipul testului

Regiunea critic

|X1 X2 | z1 2 n11 + n22


q 2

2
X1 X2 < z1 n11 + n22
q 2

2
X1 X2 > z1 n11 + n22
q
2
2

|X1 X2 | t1 2 ; N d n(X1 1 ) + d n(X2 2 )


q
2
2
X1 X2 < t1; N d n(X1 1 ) + d n(X2 2 )
q
2
2
X1 X2 > t1; N d n(X1 1 ) + d n(X2 2 )

Testul

Testul
Testul

Testul

Tabela 21.2: Teste pentru egalitatea a dou medii.

bilateral

unilateral stnga
unilateral dreapta

Testul
Testul

bilateral

unilateral stnga
unilateral dreapta

146

STATS 11 [Dr. Iulian Stoleriu]

Testul 2 pentru dispersie


Fie caracteristica

N (, )
X , x1 , x2 , . . . , xn .

ce urmeaz legea normal

selecie (observaiile) asupra lui

cu

>0

necunoscute. Considerm datele de

Vrem s vericm

2 = 02

(H0 ) :
cu probabilitatea de risc

2 6= 02 ,

(H1 ) :

vs. ipoteza alternativ

Pentru a efectua acest test, considerm statistica

2 =

n1 2
d (X),
2

(21.25)

(H0 ) (adic 2 ia valoarea 02 ), atunci 2 2 (n 1), (conform Propoziiei


2
ncredere pentru este


2 ; n1 , 21 ; n1 ,

care, dup acceptarea ipotezei


(13.6). Intervalului de

unde

2; n1

este cuantila de ordin

Regiunea critic

2
S notm prin 0
urmtoarea:

2 (n).

pentru repartiia

va  complementara acestui intervalul de ncredere.

n1 2
d (x) valoarea statisticii 2
02

dac



20 2 ; n1 , 21 ; n1 ,

dac



20 6 2 ; n1 , 21 ; n1 ,

Observaia 21.6

pentru selecia dat. Atunci, regula de decizie este

atunci admitem

(H0 )

atunci respingem

(i.e.,

(H0 )

2 = 02 );

(i.e.,

2 6= 02 ).

Se pot considera, dup caz, i ipotezele alternative unilaterale

(H1 )s :

2 < 02

2 > 02 .

(H1 )d :

Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.3.

(H0 ) :
(H1 )

2 6= 02

necunoscut

2 < 02
2 > 02

2 = 02

Tipul testului

Regiunea critic

iSh


, 2 ; n1
21 ; n1 , +
2
2 
, 21; n1
2; n1 , +

Testul
Testul
Testul

bilateral

2 unilateral stnga
2 unilateral dreapta

Tabela 21.3: Teste pentru dispersie.


Testul F pentru raportului dispersiilor
Fie

X1

X2

caracteristicile (independente) a dou populaii normale,

N (1 , 1 ),

respectiv,

N (2 , 2 ),
n1 ,

pentru care nu se cunosc mediile teoretice. Alegem din prima populaie o selecie repetat de volum

147

STATS 11 [Dr. Iulian Stoleriu]

x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaz repartiia lui X1 , iar din a doua populaie alegem o selecie
repetat de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaz repartiia lui X2 . Fie (X1i )i=1, n i
1
(X2j )j=1, n2 variabilele aleatoare de selecie corespunztoare ecrei selecii. Fixm pragul de semnicaie
. Dorim s testm ipoteza nul c dispersiile sunt egale
(H0 ) :

12 = 22

(H1 ) :

12 6= 22 .

vs. ipoteza alternativ

Pentru a testa aceast ipotez, alegem statistica

F =
Dac

(H0 )

este admis (adic

12 = 22 ),

22 d2 (X1 )
.
12 d2 (X2 )

(21.26)

atunci:

F F(n1 1, n2 1)

(repartiia

Fisher).

(21.27)

Intervalul de ncredere pentru raportul dispersiilor este

;
2

n1 1, n2 1 ,

1
;
2

n1 1, n2 1

i se determin astfel nct



P f 2 ; n1 1, n2 1 F f1 2 ; n1 1, n2 1 = 1 .
Extremitile intervalului se determin din relaiile



Fn1 1; n2 1 f 2 ; n1 1, n2 1 =
2
(f; n1 1, n2 1 este cuantila de ordin
Regiunea critic
Notm prin

f0




Fn1 1; n2 1 f1 2 ; n1 1, n2 1 = 1 .
2

pentru repartiia Fisher

F(n1 1, n2 1)).

este complementara intervalului de ncredere pentru raportul dispersiilor.

valoarea lui

pentru observaiile date,

f0 =

x1

x2 .

Avem:

d2 (x1 )
.
d2 (x2 )

Regula de decizie este:

dac



f0 f 2 ; n1 1, n2 1 , f1 2 ; n1 1, n2 1 ,

dac



f0 6 f 2 ; n1 1, n2 1 , f1 2 ; n1 1, n2 1 ,

Observaia 21.7

atunci admitem

(H0 )

atunci respingem

(i.e.,

(H0 )

1 = 2 );

(i.e.,

1 6= 2 ).

Se pot considera, dup caz, i ipotezele alternative unilaterale

(H1 )s :

12 < 22 ,

(H1 )d :

12 > 22 .

Regiunile critice (pe baza crora se pot face decizii) pentru acestea se gsesc n Tabelul 21.4.

148

STATS 11 [Dr. Iulian Stoleriu]


(H0 ) :
1 , 2

necunoscute

(H1 )
2
1 6= 22
12 < 22
12 > 22

12 = 22

Tipul testului

Regiunea
 S  critic

Testul F bilateral
Testul F unilateral stnga
Testul F unilateral dreapta


, f 2 ; n1 1, n2 1
f1 2 ; n1 1, n2 1 , +
(, f1; n1 1, n2 1 )
(f1; n1 1, n2 1 , +)

Tabela 21.4: Teste pentru raportul dispersiilor.

Teste pentru proporii ntr-o populaie binomial


O singur populaie
Fie

o caracteristic binomial a unei colectiviti, cu probabilitatea de succes

ale populaiei, dorim s testm urmtoarea ipotez asupra lui

(H0 ) : p = p0

p.

Pe baza unor selecii

p:

(H1 ) : p 6= p0 .

vs.

De asemenea, putem considera i ipoteze alternative unilaterale:

(H1 )s : p < p0

(H1 )d : p > p0 .

sau

Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem
c volumul populaiei (N ) este mult mai mare posibil innit) dect volumul
Fixm un nivel de semnicaie

al seleciilor considerate.

Vom construi testul pentru proporia populaiei pe baza intervalului

de ncredere (17.18).

Etapele testului sunt:

Pe baza seleciei, calculm proporia de selecie

Calculm valoarea

P0 = r

Calculm cuantila

Dac

pb,

care este o estimare a proporiei populaiei,

pb p0
p0 (1 p0 )
n

p;

z1 2 ;


P0 z1 2 , z1 2 ,

atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic
este complementara intervalului de ncredere.

Observaia 21.8

Pentru testul unilateral stnga regiunea critic pentru

testul unilateral dreapta este

(z1 , ).

P0

este

(, z1 ),

iar pentru

149

STATS 11 [Dr. Iulian Stoleriu]

Testul proporiilor pentru dou populaii


X2 dou caracteristici binomiale independente ale unei populaii, cu volumele
succes n1 , p1 i, respectiv, n2 , p2 . Pe baza unor selecii, dorim s testm ipotezele:

Fie
de

X1

(H0 ) : p1 = p2

vs.

i probabilitile

(H1 ) : p1 6= p2 .

De asemenea, putem considera i ipoteze alternative unilaterale:

(H1 )s : p1 < p2

sau

(H1 )d : p1 > p2 .

Pentru a putea testa acest ipotez, ne vom folosi de rezultatele din cursul precedent. S presupunem c
volumul populaiei (N ) este mult mai mare (posibil innit) dect volumele seleciilor considerate. Fixm
un nivel de semnicaie

Dac ipoteza nul este admis, atunci

p1 = p2 = p.

Un estimator pentru

este frecvena relativ a numrului de succese cumulate n cele dou selecii, i.e.,

p =

n1 pb1 + n2 pb2
.
n1 + n2

Etapele testului sunt:

Calculm proporiile de selecie

Calculm valoarea

Calculm cuantila

Dac

pb1

pb2 ,

care sunt estimri pentru

pb1 pb2
P0 = r

p (1 p ) n11 +

1
n2

p1 ,

respectiv,

p2 ;

;

z1 2 ;


P0 z1 2 , z1 2 ,

atunci admitem ipoteza nul la acest nivel de semnicaie. Altfel, o respingem. Regiunea critic
este complementara intervalului de ncredere.

150

Laborator 11 [Dr. Iulian Stoleriu]

22 Statistic Aplicat (L11)


Teste parametrice rezolvate n Matlab

Testul Z n
Testul

Matlab

pentru o selecie poate  simulat n

Matlab utiliznd comanda

[h, p, ci, zval] = ztest(X,m0,sigma,alpha,tail)


unde:

h = 1,

este rezultatul testului. Dac

atunci ipoteza nul se respinge, dac

h = 0,

atunci ipoteza

nul nu poate  respins pe baza observaiilor facute (adic, se admite, pn la un test mai puternic);

este valoarea

ci

value);

este un interval de ncredere pentru

zval
X

P (P

este valoarea statisticii

pentru observaia considerat;

este un vector sau o matrice, coninnd observaiile culese.

multe teste

m0 = 0 ,

sunt efectuate, de-alungul ecrei coloane a lui

Dac

este matrice, atunci mai

X;

valoarea testat;

sigma

este deviaia standard teoretic a lui

alpha

este nivelul de semnicaie;

tail

la nivelul de semnicaie

X , a priori

cunoscut;

poate  unul dintre urmtoarele iruri de caractere:

 'both', pentru un test bilateral (poate s nu e specicat, se subnelege implicit);


 'left', pentru un test unilateral stnga ( < 0 );
 'right', pentru un test unilateral dreapta ( > 0 );
Exemplu 22.1

Spre exemplicare, s presupunem c datele discrete din Tabelul 1.1 sunt obinute n

urma unui sondaj care contabilizeaz notele la Matematic obinute de elevii unei anumite coli. Dorim
s testm, la nivelul de semnicaie
este

= 6.8

Soluie:

dac media tuturor notelor la Matematic a elevilor colii

sau mai mare. Se tie c deviaia standard este

= 2.5.

Aadar, avem de testat

(H0 )
Vectorul

= 0.05,

= 6.8

vs.

(H1 )

> 6.8.

de mai jos cuprinde toate notele obinute n urma sondajului.

151

Laborator 11 [Dr. Iulian Stoleriu]


X = [2*ones(2,1); 3*ones(4,1); 4*ones(8,1); 5*ones(15,1); 6*ones(18,1); ...
7*ones(17,1); 8*ones(15,1); 9*ones(7,1); 10*ones(4,1)];
[h, p, ci, zval] = ztest(X, 6.8, 2.5, 0.05, 'right')
Acest cod aeaz

h =
0

p =
0.9500

ci =

stats =

5.9332
Inf

-1.6444

Aceasta nseamn faptul c ipoteza nul este admis la acest nivel de semnicaie.

Observaia 22.2

(1) Dac ipoteza alternativ este bilateral ((H1 )

: 6= 6.8),

atunci comanda ar :

[h, p, ci, zval] = ztest(X, 6.8, 2.5)


n acest caz, gsim c ipoteza nul este respins (i.e., rezultatul este

(2) Decizia testului putea  luat i pe baza

P valorii.

h = 1).

Aceasta este:

Pv = P (Z > z0 ) = 1 P (Z z0 ) = 1 (z0 ) = 0.95 > 0.05 = .


n

Matlab, aceast valoare poate  calculat astfel:


m0 = 6.8; sigma = 2.5; n = 90; z0 = (mean(X) - m0)/(sigma/sqrt(n));
Pv = 1 - normcdf(z0, 0, 1)

(3) Pentru efectuarea testului, nu este neaprat necesar s am toate cele patru variabile din membrul
stng. Putem aa, dup preferin, doar trei, dou, sau numai o variabil, dar doar n ordinea precizat.
De exemplu, comanda

h = ztest(X, m0, sigma, alpha, tail)


ne va furniza doar rezultatul testului (h
(4) Nu exist o funcie n

Testul t n

=0

sau

h = 1),

fr a aa alte variabile.

Matlab care s simuleze testul Z pentru dou selecii.

Matlab

Testul t pentru o selecie


Testul

poate  simulat n

Matlab utiliznd comanda general

152

Laborator 11 [Dr. Iulian Stoleriu]


[h, p, ci, stats] = ttest(X,m0,alpha,tail)
unde:

h, p, ci, m0, alpha, tail

variabila

stats

sunt la fel ca n funcia

ztest;

nmagazineaz urmtoarele date:

 tstat - este valoarea statisticii T pentru observaia considerat;


 df - numrul gradelor de libertate ale testului;
 sd - deviaia standard de selecie;
Exemplu 22.3

Dorim s testm dac o anumit moned este corect, adic ansele ecrei fee de a

apare la orice aruncare sunt

59

de exact

50% 50%.

Aruncm moneda n caza de

100

de ori i obinem faa cu stema

de ori. Pe baza acestei experiene, cutm s testm ipoteza nul

(H0 ) :

moneda este corect

vs. ipoteza alternativ

(H1 ) :
la un prag de semnicaie

Soluie:

= 0.05.

X variabila aleatoare
X = 1, dac apare faa cu
E(X) = 0.5, D2 (X) = 0.25.
Fie

spunem c
de unde

monedal este msluit,

ce reprezint faa ce apare la o singur aruncare a monedei.


stema i

X = 0,

dac apare faa cu banul. Teoretic,

X B(1, 0.5),

n = 100 i scriem observaiile fcute ntr-un vector x ce conine


41 de valori 0. Deoarece n = 100 > 30, putem utiliza testul t pentru o selecie. Rescriem
(H0 ) i (H1 ) astfel:
(H0 ) : = 0.5

Prin ipotez, ni se d o selecie de volum

59

de

ipotezele

6= 0.5.

(H1 ) :
Dac

{X1 , X2 , . . . , Xn }

sunt variabilele aleatoare de selecie, atunci alegem statistica

T =
Dac ipoteza

(H0 )

se admite, atunci

este xat,

statistici pentru selecia dat este:

t0 =
Din t1 ; n1
2

= t0.975; 99 = 1.9842,

P valoarea

d (X)

= 0.5

x
d (X)

i statistica

T t(n 1).

Valoarea acestei

= 1.8207.

|t0 | < t1 2 ; n1 ,
).

rezult c

poate  respins la nivelul de semnicaie

i decidem c ipoteza

(H0 ) este admis (nu

este

Pv = 1 Fn1 (t0 ) + Fn1 (t0 ) = 1 F99 (1.8207) + F99 (1.8207) = 0.0717.


Codul

Matlab pentru calculul analitic de mai sus este urmtorul:

153

Laborator 11 [Dr. Iulian Stoleriu]


n=100; mu = 0.5; alpha = 0.05; x = [ones(59,1); zeros(41,1)];
t0 = (mean(x) - mu)/(std(x)/sqrt(n));
tc = tinv(1-alpha/2, n-1);
% cuantila
if (abs(t0) < tc)
disp('moneda este corecta')
else disp('moneda este masluita')
end
Pv= 1 - tcdf(t0,n-1) + tcdf(-t0,n-1)
% P-valoarea
Rulnd codul, obinem rezultatul:

moneda este corecta


n loc s folosim codul de mai sus, am putea folosi funcia

ttest

din

Matlab, dup cum urmeaz:

[h, p, ci, stats] = ttest(X,0.5,0.05,'both')


i obinem

h =
0

p =
0.0717

Observaia 22.4
0.08,

(1)

ci =

Deoarece

P valoarea

stats =

0.4919
0.6881

este

p = 0.0717,

tstat: 1.8207
df: 99
sd: 0.4943

deducem c la un prag de semnicaie

ipoteza nul ar  fost respins.

(2) Dac dintre cele

100 de observri aveam o apariie n plus a stemei,

atunci ipoteza nul ar  respins,

adic moneda ar  fost catalogat a  msluit.

Testul t pentru dou selecii


Testul

pentru egalitatea a dou medii poate  simulat n

Matlab utiliznd comanda

[h, p, ci, stats] = ttest2(X, Y, alpha, tail, vartype)


unde:

h, p, ci, alpha, stats


X

tail

sunt la fel ca mai sus;

sunt vectori sau o matrice, coninnd observaiile culese. Dac ele sunt matrice, atunci mai

multe teste

sunt efectuate, de-alungul ecrei coloane;

vartype ia valoarea equal dac dispersiile teoretice sunt egale sau unequal pentru dispersii inegale.

154

Laborator 11 [Dr. Iulian Stoleriu]

Exemplu 22.5

0
Caracteristicile X1 i X2 reprezint notele obinute de studenii de la Master M F 08,
0
respectiv, M F 09 la examenul de Statistic Aplicat. Conducerea universitii recomand ca aceste note s
urmeze repartiia normal i examinatorul se conformeaz dorinei de sus. Presupunem c
i

X2 N (2 , 2 ), cu 1 6= 2 , necunoscute a priori.

X1 N (1 , 1 )

Pentru a verica modul cum s-au prezentat studenii

la acest examen n doi ani consecutivi, selectm aleator notele a

25

de studeni din prima grup i

note din a doua grup. distribuctii de frecvene ale notelor sunt cele din Tabelul 22.1.

(i)
(ii)
(ii)

Vericai dac ambele seturi de date provin dintr-o repartiie normal;


Gsii un interval de ncredere pentru diferena mediilor, la nivelul de semnicaie
S se testeze (cu

(H0 ) :

= 0.01)

= 0.05;

ipoteza nul

(n medie, studenii sunt la fel de buni)

1 = 2 ,

versus ipoteza alternativ

(H1 ) :

(n medie, studenii au note din ce n ce mai mari)

1 < 2 ,

Frecvena absolut

Nota obinut

Grupa

5
6
7
8
9
10

M F 0 08
3
4
9
7
2
0

Grupa

M F 0 09
5
6
8
6
3
2

Tabela 22.1: Tabel cu note.


Soluie:

(i)

h = chi2gof(u)
k = chi2gof(v)

%
%

h = 0, deci u N
k = 0, deci v N

Matlab de mai jos)

(u i

(ii)

Un interval de ncredere la acest nivel de semnicaie se obine apelnd funcia

sunt vectorii din codul

Matlab

[h, p, ci, stats] = ttest2(u, v, 0.05, 'both', 'unequal')


Acesta este:

(-0.7294, 0.6760)

Altfel, se calculeaz intervalul de ncredere (vezi Tabelul 18.1)

x1 x2 t1 ; N
2

Codul

Matlab:

d21
n1

d22
n2

s
,

x1 x2 + t1 2 ; N

d21
n1

d22
n2

30

de

155

Laborator 11 [Dr. Iulian Stoleriu]

n1=25; n2=30; alpha = 0.05;


u = [5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)];
v = [5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)];
d1 = var(u); d2 = var(v); N = (d1/n1+d2/n2)^2/((d1/n1)^2/(n1-1)+(d2/n2)^2/(n2-1))-2;
t = tinv(1-alpha/2,N);
m1 = mean(u)-mean(v)-t*sqrt(d1/n1+d2/n2); m2 = mean(u)-mean(v)+t*sqrt(d1/n1+d2/n2);
fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
(iii)

Comanda

Matlab este:

[h,p,ci,stats] = ttest2(u, v, 0.01, 'left', 'unequal')


n urma rulrii comenzii, obinem:

h =
0

p =
0.4698

Observaia 22.6

Valoarea

ci =
-Inf
0.8137

stats =

tstat: -0.0761
df: 52.7774
sd: 2x1 double

poate  calculat i cu formula:

Pv = P (T < t0 ) = FN 1 (t0 ) = 0.4698.


n

Matlab,
t0 = (mean(u)-mean(v))/sqrt(d1/n1+d2/n2);

Testul 2 pentru dispersie n


Exemplu 22.7
strung.

tim c

Pv = tcdf(t0, N-1)

Matlab

Se cerceteaz caracteristica X, ce reprezint diametrul pieselor (n mm) produse de un

urmeaz legea normal

N (, ).

Alegem o selecie de volum

n = 11

i obinem

distribuia empiric:

S se testeze (cu

= 0.1)

10.50

10.55

10.60

10.65


.

ipoteza nul

(H0 ) :

2 = 0.003,

(H1 ) :

2 6= 0.003.

versus ipoteza alternativ

Soluie:

Intervalul de ncredere pentru

este

(0.0012, 0.0055)

iar valoarea critic este

20 = 7.2727.

Deoarece aceasta aparine intervalului de ncredere, concluzionm c ipoteza nul nu poate  respins la

156

Laborator 11 [Dr. Iulian Stoleriu]


acest nivel de semnicaie.
Aceeai concluzie poate  luat n urma inspeciei valorii

P,

care este mai mare dect nivelul

Pv = P (|2 | > |20 |) = P (2 > 20 ) = 1 Fn1 (7.2727) = 0.6995.

Testul

poate  simulat n

Avem:

Matlab utiliznd comanda

[h, p, ci, stats] = vartest(X,var,alpha,tail)


unde:

h, p, ci, m0, alpha, stats, tail


var

sunt la fel ca n funcia

ttest;

este valoarea testat a dispersiei;

Spre exemplicare, codul

Matlab pentru exerciiul anterior este:

X = [10.50*ones(2,1); 10.55*ones(3,1); 10.60*ones(5,1); 10.65];


[h, p, ci, stats] = vartest(X,0.003,0.1,'both')
Rularea acestuia ne d:

h =
0

p =
0.6011

ci =

0.0012
0.0055

stats =
chisqstat: 7.2727
df: 10

adic ipoteza nul este acceptat la acest nivel de semnicaie.


Folosind

Matlab, putem calcula P valoarea astfel:


c0 = (n-1)/0.003*var(X);

Testul F n

Pv = 1 - chi2cdf(c0,10)

Matlab

Testul raportului dispersiilor poate  simulat n

Matlab utiliznd comanda

[h, p, ci, stats] = vartest2(X, Y, alpha, tail)


unde variabilele sunt la fel ca n funcia

Exemplu 22.8

ttest2.

Revenim la Exerciiul 22.5 i vericm dac cele dou selecii de note (Tabelul 22.1)

157

Laborator 11 [Dr. Iulian Stoleriu]


provin din populaii cu dispersii egale. Aadar, avem de testat (la nivelul de semnicaie

12 = 22

(H0 )

Soluie:

12 6= 22 .

(H1 )

vs.

Utiliznd notaiile din Exerciiul 22.5, comanda

= 0.01)

Matlab care rezolv acest test este:

[h, p, CI, stats] = vartest2(u, v , 0.01 , 'both')


(pentru teste unilaterale, folosim

'left'

sau

'right'

n locul lui

'both'.)

Rezultatul comenzii anterioare este:

h =
0

Deoarece

p =
0.2119

h = 0,

stats =
fstat: 0.6047
df1: 24
df2: 29

0.2191
1.7426

decidem c dispersiile teoretice ale celor dou populaii pot  considerate a  egale la

nivelul de semnicaie

Observaia 22.9
mai mare dect

CI =

= 0.01.

Decizia testului poate  luat i pe baza inspeciei valorii

P,

observnd c aceasta este

Aceasta este:

Pv = 1 Fn1 1, n2 1 (|f0 |) + Fn1 1, n2 1 (|f0 |) = 1 Fn1 1, n2 1 (|f0 |).


n

Matlab, calculm astfel:


f0 = var(u)/var(v); Pv = 1 - fcdf(abs(f0),n1-1,n2-1)

Teste parametrice pentru proporii


Exemplu 22.10

ntr-un sondaj naional de opinie,

5000

de persoane au fost rugate s rspund la o

ntrebare legat de apartenena religioas. La ntrebarea "Suntei cretini?", rspunsul a fost armativ n

4893

dintre cazuri. Rezultatul acestui sondaj este utilizat n estimarea procentului de cretini din ar.

S notm cu

Soluie:

p acest procent.

La nivelul de semnicaie

= 0.05, testai dac p este de 95% sau mai mare.

Avem de testat ipoteza

(H0 ) : p = 0.95
Procentul de selecie este

pb =

4893
5000

= 0.9786,

vs.

(H1 ) : p > 0.95.

cuantila este

z1 = 1.6449

i valoarea statisticii este

0.9786 0.95
P0 = r
= 9.2791 [1.6449, ),
0.95 (1 0.95)
5000

158

Laborator 11 [Dr. Iulian Stoleriu]


aadar ipoteza nul este respins la acest nivel de semnicaie. Admitem c
Aceeai concluzie poate  dedus i prin inspecia

P valorii.

p > 0.95.

Aceasta este

Pv = P (Z > P0 ) = 1 P (Z P0 ) = 1 (9.2791) 0 < = 0.05.

Aadar, ipoteza nul va  respins la toate nivele de semnicaie practice.

Exemplu 22.11

Revenim la Exemplul 20.2. S se testeze, la nivelul de semnicaie

= 0.02 dac exist

diferene semnicative ntre proporiile de baiei i fete din respectiva coal crora le place Matematica.

Soluie:

Avem:

pb1 =

23
45 ,

pb2 =

P0 = q

37
65 ,

6
11 (1

p =
23
45

6
11 )

23+37
45+65

37
65
1
45

1
65

6
11 i

z0.99 2.33.

Valoarea statisticii este:

 = 0.6019 [2.3263, 2.3263],

deci ipoteza nul nu poate  respins la acest nivel de semnicaie.


Aceeai concluzie o putem lua dac vericm

P valoarea.

Aceasta este:

Pv = P (|Z| > |P0 |) = 1 P (Z < |P0 |) + P (Z < |P0 |) = 0.5472 > 0.02 = .

Laborator 11 [Dr. Iulian Stoleriu]

159

160

STATS 12 [Dr. Iulian Stoleriu]

23 Statistic Aplicat (C12)


Teste de concordan
Testele de concordan (en., goodness-of-t tests) realizeaz concordana ntre repartiia empiric (repartiia datelor observate) i repartiia teoretic.
sunt testul

Dou dintre cele mai des utilizate teste de concordan

de concordan i testul Kolmogorov-Smirnov.

Testul 2 de concordan
Acest test de concordan poate  utilizat ca un criteriu de vericare a ipotezei potrivit creia un ansamblu de observaii urmeaz o repartiie dat. Se aplic la vericarea normalitii, a exponenialitii,
a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit i

testul

al celei mai bune potriviri (en., goodness of t test).

testul 2 al lui Pearson

sau

Acest test poate  aplicat pentru orice tip

de date pentru care funcia de repartiie empiric poate  calculat.

Cazul neparametric
S considerm o caracteristic
necunoscut

a priori,

a unei populaii statistice

1
2

Repartiia variabilei aleatoare

este

ns intuim (sau avem anumite informaii) cum c aceasta ar  dat de legea

de probabilitate complet specicat


(x5)2
18

f (x, )

(e.g.,

f (x) =

e2 2x
x! ,

x N

( X P(2) )

sau

f (x) =

( X N (5, 3) )).

Deoarece legea de probabilitate ipotetic este complet specicat,


punem n eviden dependena lui

este cunoscut i vom omite s mai

de acesta n decursul aceste seciuni.

Pentru a verica ipoteza fcut asupra repartiiei lui

X,

x1 , x2 , . . . , xn

setul de date observate. S notm cu

X i
f (x). Fie
F 0 = f . n

considerm un set de observaii asupra lui

testm concordana dintre repartiia empiric a datelor observate cu legea teoretic dat de

F (x)

funcia de repartiie teoretic, i.e.,

2
cele ce urmeaz, urmrim s aplicm testul de concordan, ale crui etape sunt:

Descompunem n clase mulimea observaiilor fcute asupra lui

X,

astfel nct ecare element al

mulimii aparine unei singure clase. Scriem aadar,

{x1 , x2 , . . . , xn } =

k
[

Oi ,

Oi

Oj = , i 6= j.

i=1
Determinm frecvenele empirice absolute, i.e., numerele

Oi .

n mod evident, va trebui s avem c

k
X

ni

de observaii ce aparin ecrei clase

ni = n.

i=1
n general, se dorete ca

n 30

ni 5,

pentru ca testul s e concludent.

numrul de apariii ntr-o anumit clas nu depete valoarea

5,

n cazul n care

atunci se vor cumula dou sau

mai multe clase, astfel nct n noua clas s e respectat condiia. Dei, dac avem cel puin
clase, atunci sunt suciente cel puin

de modicarea numrului de clase, iar numrul


noul numr, notat aici tot cu

k ).

valori n ecare clas. n ambele cazuri, trebuie inut cont

trebuie modicat corespunztor (l nlocuim cu

161

STATS 12 [Dr. Iulian Stoleriu]

i {1, 2, . . . , k}, determinm probabilitatea teoretic pi ca un element al populaiei


Oi . Aceast probabilitate este obinut cu ajutorul funciei f (x). Astfel, frecvenele teoretice absolute sunt n pi , i {1, 2, . . . , k}. Altfel spus, n pi este numrul estimat de valori
ale repartiiei cercetate ce ar cdea n clasa Oi .

Pentru ecare

s se ae n clasa

Formulm ipoteza nul,

(H0 ) :

este

F (x).

Oi

este

pi .

Funcia de repartiie a lui

Aceasta este echivalent cu

(H0 ) :

probabilitatea unei observaii de a aparine clasei

(i = 1, 2, . . . , k).

Ipoteza alternativ este negaia ipotezei nule.

Deviaia ntre cele dou situaii (empiric i teoretic) este msurat de statistica

2 =

k
X
(ni n pi )2
i=1

(Fiecare dintre termenii

(ni n pi )2
n pi

n pi

(23.1)

poate  privit ca ind o eroare relativ de aproximare a valorilor

ateptate ale repartiiei cu valorile observate.)


Statistica

urmeaz repartiia

2 (k 1).

Uneori, statistica

Alegem nivelul de semnicaie

Alegem regiunea critic, ca ind regiunea pentru care valoarea

p
2

se numete

discrepan.

de regul, foarte apropiat de zero.

20

a acestei statistici pentru obser-

vaiile date satisface

20 > 21; k1 ,
unde

21; k1

este cuantila de ordin

pentru repartiia

2 (k 1).

Dac ne am n regiunea critic, atunci datele observate sunt semnicativ diferite de datele ateptate (calculate teoretic). n consecin, ipoteza nul

(H0 )

se respinge la nivelul de semnicaie

Altfel, nu sunt dovezi statistice suciente s se resping.

Cazul parametric
pi nu sunt a priori cunoscute, atunci ele vor trebui estimate. Acest caz apare
probabilitate f (x, ) nu este complet specicat, ci doar specicat (tim forma lui

Cnd probabilitile teoretice


atunci cnd legea de

f,

dar nu tim unul sau, eventual, mai muli parametri ai si). Folosind datele observate, va trebui s

estimm parametrii necunoscui ai repartiiei ipotetice. Fiecare estimare ne va costa un grad de libertate.
Cu alte cuvinte, dac avem de estimat un singur parametru, atunci pierdem un grad de libertate, pentru
doi parametri, pierdem dou grade etc.
S presupunem c legea de probabilitate a lui

p ) R p

sunt parametri necunoscui.

culese asupra lui

X.

de mai sus este

f (x, ),

unde

= (1 , 2 , . . . ,

Pentru a aproxima aceti parametri, folosim observaiile

O metod la ndemn pentru estimri parametrice este metoda verosimilitii ma-

xime.
Dup ce am estimat parametrii repartiiei teoretice ipotetice, determinm probabilitile estimate. Stabilim apoi ipoteza nul:

(H0 ) :

pi = pi ,

(i = 1, 2, . . . , k),

162

STATS 12 [Dr. Iulian Stoleriu]


unde

pi

este probabilitatea unei observaii de a aparine clasei

Din acest moment, etapele testului


tric, cu deosebirea c statistica

2 cazul parametric

pi

dat prin (23.1) urmeaz repartiia

sunt valorile estimate.

cu

(k p 1) grade de libertate.

p grade de libertate din cauza folosirii observaiilor date pentru

Aceasta este urmare a faptului c se pierd


estimarea celor

sunt asemntoare cu cele din cazul neparame-

parametri necunoscui.

Etapele aplicrii testului 2 de concordan (neparametric sau parametric)

Se dau:

Formulm ipotezele statistice:

x1 , x2 , . . . , xn .

(H0 )
(H1 )

Dac

Intuim

F (x; 1 , 2 , . . . , p );

funcia de repartiie teoretic a variabilei aleatoare

este

F (x; 1 , 2 , . . . , p )

ipoteza nul nu este adevrat.

1 , 2 , . . . , k (k p) nu
1 , 2 , . . . , k

sunt parametri cunoscui, atunci determinm estimrile de vero-

similitate maxim

pentru acetia (doar n

cazul parametric;

altfel srim peste acest

pas);

Scriem distribuia empiric de selecie (tabloul de frecvene),

clasa

ni

Se calculeaz probabilitatea

Oi = [ai1 , ai ),

pi ,

Oi


,
i=1, n

n
X

ni = n, ni 5;

i=1

ca un element luat la ntmplare s se ae n clasa

Oi .

Dac

atunci

pi = F (ai ; ) F (ai1 ; ), n cazul neparametric;


F (ai1 ; )
, n cazul parametric.
pi = F (ai ; )

2
Se calculeaz 0

k
X
(ni n pi )2
i=1

Determinm valoarea

n pi

care este

(
21; k1
=
21; kp1

unde

2; n

Dac

20 < ,

este cuantila de ordin


atunci acceptm

, n cazul neparametric,
, n cazul parametric,

pentru repartiia

(H0 ),

2 (n);

altfel o respingem.

Test de independen folosind tabele de contingen


n aceast seciune, vom prezenta un test de independen ntre dou criterii dup care se face mprirea
datelor observate. S presupunem c avem un set de observaii ce sunt mprite n categorii determinate
de dou criterii diferite. De exemplu, conducerea unui liceu este indecis n ce privete alegerea unui curs
de limbi strine potrivit pentru introducerea n programa colar. Pentru aceasta, s-a realizat un sondaj
de opinie la care au participat

350

de elevii, n care acetia au avut de precizat cursul de limbi strine

163

STATS 12 [Dr. Iulian Stoleriu]

preferat i nivelul de studiu ce consider c li s-ar potrivi. Identicm aici dou caracteristici (atribute):

este limba strin (e.g., Englez, Francez, German, Italian, Spaniol i Rus) i

reprezint nivelul

de studiu (e.g., nceptor, mediu i avansat). Numrul de elevi ce intr n ecare categorie este aat n
Tabelul 23.1.

Nivel @
@Limba

Englez

Francez

German

Italian

Spaniol

Rus

Total

nceptor

33
65
43
141

19
37
15
71

11
10
7
28

12
14
17
43

11
24
12
47

6
7
7
20

92
157
101
350

mediu
avansat
Total

Tabela 23.1: Tabel cu repartizarea elevilor la cursurile de limbi strine.


n general, dac datele observate sunt clasicate n categorii ce depind de dou atribute diferite, atunci
putem forma un tabel de genul Tabelului 23.2, numit

Xi , i = 1, r, Yj , j = 1, s,

tabel de contingen.

Aici

sunt atributele i

sunt diverse categorii n care ecare atribut n parte poate  mprit.

@
@Y

Y1 Y2 . . .
n11 n12 . . .
n21 n22 . . .
..
..
.
.
.
..
ni1 ni2 . . .
.
..
..
..
.
.
nr1 nr2 . . .
n1 n2 . . .

X1
X2
..
.

Xi
..
.

Xr
Suma pe coloan

Yj . . .
n1j . . .
n2j . . .
..
.
.
..
nij . . .
.
..
..
.
nrj . . .
nj . . .

Ys
n1s
n2s

Suma pe linie

nis

ni

nrs
ns

nr

n1
n2

..
.

..
.

..
.

..
.

(suma total)

Tabela 23.2: Tabel de contingen.


nij pentru numrul (frecvena absolut) de observaii ce
Yj pentru atributul Y (i = 1, r, j = 1, s), iar nj , ni i n

n Tabelul 23.2 am folosit urmtoarele notaii:


au valoarea

Xi

pentru atributul

sunt

nj =

i valoarea

r
X

nij ,

ni =

i=1

s
X
j=1

nij ,

n=

r X
s
X

nij .

i=1 j=1

Fiecare individ din selecia aleas aparine unei singure categorii caracterizat de atributul
gure categorii caracterizat de atributul
cele

rs

Y.

i unei sin-

n concluzie, ecare individ poate aparine doar uneia dintre

celule.

Dorim acum s testm dac atributele

sunt independente (n exemplul de mai sus, aceasta ar

nsemna determinarea faptului dac alegerea cursului de limba strin este independent de nivelul de
studiu).

164

STATS 12 [Dr. Iulian Stoleriu]


pij

S notm prin

Xi , Yj ,

probabilitatea ca o dat observat s cad n categoriile

probabilitile marginale,

pi =

s
X

pij ,

pj =

j=1
Avem c

r X
s
X

pij , pi

pij =

r
X

pi =

i=1

pj

pj

pij .

i=1

i=1 j=1
n general, valorile reale pentru

r
X

pi

i prin

s
X

pj = 1.

j=1

nu sunt cunoscute (specicate)

folosind datele din tabelul de contingen. Vom nota prin

pbij , pbi

i, respectiv,

nj
n

(j = 1, s).

a priori

pbj

i se vor estima

estimaiile lor. Valorile

probabilitilor marginale le estimm prin:

pbi =

ni
n

(i = 1, r)

pbj =

(23.2)

Ipoteza nul este:

(H0 ) :

pbij = pbi pbj ,

(H1 ) :

(H0 )

Astfel, pentru

i = 1, r, j = 1, s

(i.e.,

nu exist nicio asociere ntre atributele

Y ).

nu este adevrat.
xai, valoarea ateptat n celula

Eij = n pbij =

ni nj
,
n

(i, j)

este

i = 1, r, j = 1, s.

(23.3)

Calculm valoarea statisticii

ni nj 2
n

X ij
n
H2 =
ni nj
i, j
n


unde, n parantez,

Oij = nij

X (Oij Eij )2
=
,
Eij

(23.4)

i, j

este numrul de valori observate n celula

en., expected) n celula (i, j).

(i, j)

iar

Eij

numrul de valori

ateptate (

Dac n ecare celul numrul de valori ce i apain este de cel puin

2
repartiia cu

(r 1)(s 1)

5,

atunci statistica

H2

urmeaz

grade de libertate.

Etapele testului de independen sunt urmtoarele:

Se dau

Pe baza observaiilor

Calculm

Dac

nij ,

H2

i = 1, r, j = 1, s
nij ,

i pragul de semnicaie

calculm estimaiile (23.2);

cu formula (23.4);

Eij 5, i, j i H 2 2; (r1)(s1) , atunci se admite (H0 )


Altfel, respingem (H0 ) la acest prag de semnicaie.

Exemplu 23.1
= 0.05,
estimaiile

Revenim la datele din Tabelul 23.1.

la pragul de semnicaie

Pentru a stabili dac, la un nivel de semnicaie

alegerea cursului de limba strin este independent de nivelul de studiu, calculm mai nti

Eij .

Acestea sunt scrise n paranteze n Tabelul 23.3.

165

STATS 12 [Dr. Iulian Stoleriu]


Calculm

H 2:
H2 =

3 X
6
X
(nij Eij )2
(33 37.06)2
(7 5.77)2
=
+ +
Eij
37.06
5.77
i=1 j=1

= 10.1228 > 3.9403 = 20.05, 10


deci respingem ipoteza nul conform creia tipul cursului i nivelul su sunt atribute independente.
Pentru calculul acestor valori n

Matlab, putem proceda astfel:

n = [33 19 11 12 11 6; 65 37 10 14 24 7; 43 15 7 17 12 7];
E = [37.06 18.66 7.36 11.30 12.35 5.26; 63.25 31.85 12.56...
19.29 21.08 8.97; 40.69 20.49 8.08 12.41 13.56 5.77];
H2 = sum(sum((n-E).^2./E)); crit = chi2inv(0.05,2*5);
Nivel @
@Limba
nceptor
mediu
avansat
Total

Englez

Francez

German

Italian

Spaniol

Rus

33
(37.06)
65
(63.25)
43
(40.69)
141

19
(18.66)
37
(31.85)
15
(20.49)
71

11
(7.36)
10
(12.56)
7
(8.08)
28

12
(11.30)
14
(19.29)
17
(12.41)
43

11
(12.35)
24
(21.08)
12
(13.56)
47

6
(5.26)
7
(8.97)
7
(5.77)
20

Total

92
157
101
350

Tabela 23.3: Tabel cu repartizarea i estimaia elevilor la cursurile de limbi strine.


Cazul tabelelor de contingen 2 2. Testul exact al lui Fisher
n cazul particular n care

r = s = 2,

tabelul de contingen este de forma:

@
@Y

X1
X2
Suma pe coloan

Y1
Y2
a
b
c
d
a+c b+d

Suma pe linie

a+b
c+d
a+b+c+d

Tabela 23.4: Tabel de contingen 2 2.

unde

a, b, c, d

sunt valorile observate pentru ecare celul n parte. Valorile ateptate

Eij

(vezi formula

(23.3)) sunt:

E11 =

(a + b)(a + c)
,
n

E12 =

(a + b)(b + d)
,
n

E21 =

(c + d)(a + c)
,
n

E22 =

(c + d)(b + d)
,
n

166

STATS 12 [Dr. Iulian Stoleriu]


unde

n = a + b + c + d.

Statistica

H2


H =
i urmeaz repartiia
poate utiliza

2 (1).

dat de relaia (23.4) devine:

ad bc
n

Din faptul c

2 

1
1
1
1
+
+
+
E11 E12 E21 E22

H 2 2 (1),

rezult c statistica

H =

H 2 N (0, 1),

pentru testul statistic de independen.

Dei acest test poate  realizat, n cazul tabelelor de contingen

Fisher.

22

se utilizeaz

testul exact al lui

Acest test poate  utilizat chiar i n cazul n care valorile observaiilor sunt mai mici dect

alegem un prag de semnicaie

i se

5.

Testm ipoteza nul

(H0 ) :

nu exist nicio asociere ntre atributele

Y.

versus ipoteza alternativ

(H1 ) :

(H0 )

nu este adevrat.

(test bilateral)

Rezultatele obinute le putem scrie sub forma unei matrice, pe care o vom numi
Aceasta este:

S presupunem acum c, pentru o matrice

priori.

a b
c d

M=
2 2,

matricea conguraiei.

sumele valorilor pe linii i pe coloane sunt xate

Atunci, putem alege elementele matricei ce satisface aceste condiii n mai multe moduri (este

greu de precizat n cte moduri, n cazul cel mai general). n cazul problemei de fa, s presupunem c

a + b, c + d, a + c i b + d sunt xate.

Atunci, dac ipoteza nul este adevrat, probabilitatea de a obine

exact valorile din Tabelul 23.4 este:

P =

a Cc
Ca+b
c+d

Cna+c

(23.5)

Aceast probabilitate se obine prin utilizarea schemei hipergeometrice.

2 2 care au o conguraie xat


a + b, c + d, a + c i b + d sunt xate). Pentru

Exist ns mai multe matrice de tip

a sumelor pe ecare linie i

pe ecare coloan (i.e.,

ecare matrice de acest tip,

putem calcula o probabilitate (condiionat de realizarea ipotezei nule) de genul celei de mai sus. n cazul
testului bilateral,

P valoarea

testului (notat prin

Pv )

este suma tuturor probabilitilor condiionate

astfel calculate, care sunt mai mici sau egale cu probabilitatea obinut pentru conguraia dat (inclusiv
probabilitatea conguraiei date).
Dac
Dac

P valoarea este mai mare dect ,


Pv , atunci respingem (H0 ).

atunci ipoteza nul este admis la acest prag de semnicaie.

n cazul n care ipoteza alternativ este una specic (e.g., unul dintre atribute este preferat celuilalt),
atunci

P valoarea este doar jumtate din suma anterioar.

Exemplu 23.2

Spunem n acest caz c avem un test unilateral.

Se testeaz efectele unui anumit tip de medicamente pe un grup de voluntari ce prezint

simptome de rceal. Acetia sunt n numr de


Pacienilor din primul grup,

G1 ,

14

administrat nimic. Dup o sptmn, s-a testat starea sntii celor


din Tabelul 23.5.

7 persoane.
G2 nu li s-au

i au fost mprii n dou grupuri de

li s-au administrat medicamentul iar pacienilor din grupul

14

pacieni, rezultatele ind cele

S se determine dac administrarea medicamentului are vreun efect asupra strii de

sntate a voluntarilor. Se va folosi nivelul de semnicaie

= 0.05.

167

STATS 12 [Dr. Iulian Stoleriu]

@
@Y

sntos

bolnav

Suma pe linie

6
4
10

1
3
4

7
7
14

G1
G2
Suma pe coloan

Tabela 23.5: Tabel de contingen pentru testarea unui medicament.

Ipoteza nul este:

(H0 ) :

Starea de sntate a voluntarilor este independent de administrarea medicamentului.

Ipoteza alternativ (bilateral) este:

(H1 ) :

Ipoteza

(H0 )

este fals.

Matricea conguraiei este


M1 =

6 1
4 3

Folosind relaia (23.5), probabilitatea apariiei acestei conguraii, tiind c sumele pe linii i pe coloane
sunt xate, este

P1 =
Alte conguraii cu suma


M2 =

4 3
6 1

10 pe prima coloan i 4 pe a doua






7 0
3 4
.
,
M5 =
M4 =
3 4
7 0

pe ecare linie i sumele


,

C76 C74
10 = 0.2448.
C14

M3 =

5 2
5 2


,

coloan sunt:

Probabilitile condiionate corespunztoare acestora sunt:

P2 = 0.2448;
P valoarea

P3 = 0.4404,

P4 = 0.0350,

este suma tuturor probabilitilor mai mici sau egale cu

P5 = 0.0350.
P1 :

Pv = P1 + P2 + P4 + P5 = 0.2448 + 0.2448 + 0.0350 + 0.0350 = 0.5596 > 0.05 = .

Aadar, la acest prag de semnicaie admitem ipoteza nul.

Observaia 23.3

P1 + P2 + P3 + P4 + P5 = 1, ceea ce
matricea M5 i ipoteza alternativ este

(1) A se observa c suma

(2) Dac rezultatul experimentului ar 

(H1 ) :

era de ateptat.

exist evidene c medicamentul are efecte benece,

atunci avem un test unilateral. n acest caz,

P valoarea

este

Pv = P5 /2 = 0.0152 < ,

la respingerea ipotezei nule i, deci, exist evidene c medicamentul are efecte benece.

ceea ce conduce

168

Laborator 12 [Dr. Iulian Stoleriu]

24 Statistic Aplicat (L12)


Teste de concordan (probleme)
Exemplu 24.1

Se arunc un zar de

nivelul de semnicaie

= 0.02,

60

de ori i se obin rezultatele din Tabelul 24.1. S se decid, la

dac zarul este corect sau fals.

Faa (clasa

Oi )

Frecvena absolut (ni )

1
2
3
4
5
6

15
7
4
11
6
17

Tabela 24.1: Tabel cu numrul de puncte obinute la aruncarea zarului.

Soluie:

(aplicm testul

de concordan, cazul neparametric)

Zarul este corect doar dac ecare fa a sa are aceeai ans de a aparea, adic probabilitile ca ecare
fa n parte s apar sunt:

1
pi = ,
6

(H0 ) :
Altfel, notm cu

(i = 1, 2, . . . , 6).

variabila aleatoare ce are valori numrul punctelor ce apar la aruncarea zarului. Un

X urmeaz repartiia uniform discret U(6).


60 de rezultate obinute n urma aruncrii zarului pot  mprite
Oi = {i}, i {1, 2, . . . , 6}. Ipoteza nul este (H0 ) sau, echivalent,

zar corect ar nsemna c


Toate cele
sunt:

(H0 ) :

Funcia de repartiie a lui

este

n ase clase. Aceste clase

U(6).

Ipoteza alternativ este "(H0 ) nu are loc", adic:

(H1 ) :
Calculez valoarea statisticii

Exist un

j,

cu

1
pj 6= ,
6

(j {1, 2, . . . , 6}).

dat de (23.1) pentru observaiile date:

(15 10)2 (7 10)2 (4 10)2 (11 10)2 (6 10)2 (17 10)2


+
+
+
+
+
10
10
10
10
10
10
= 13.6.

20 =

Repartiia statisticii

dat de (23.1) este

cu

k1=5

grade de libertate. Regiunea critic este:

U = (20.98; 5 ; +) = (13.3882, +).


Deoarece
Codul

20

se a n regiunea critic, ipoteza nul se respinge la nivelul

Matlab:

= 0.02,

aadar zarul este fals.

169

Laborator 12 [Dr. Iulian Stoleriu]


n = 60; k=6; alpha = 0.02; x = 1:6;
chi2 = sum((f-n*p).^2)./(n*p));
val = chi2inv(1-alpha,k-1);
H = (chi2 > val)

Observaia 24.2

f
%
%
%

= [15,7,4,11,6,17]; p = 1/6*ones(1,6);
valoarea 20
cuantila 20.99; 5
afiseaza 0 daca zarul e corect si 1 daca nu

Dac nivelul de semnicaie este ales

= 0.01,

atunci

20.99; 5 = 15.0863,

ceea ce de-

termin acceptarea ipotezei nule (adic zarul este corect) la acest nivel.

Teste de concordan n
Am vzut deja c funcia

Matlab

chi2gof(x)

testeaz (folosind testul

dintr-o repartiie normal, cu media i dispersia estimate folosind


Pentru testul

2 ,

forma general a funciei

al lui Pearson) dac vectorul

provine

x.

Matlab este:

[h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)
unde:

h, p

sunt la fel ca n exemplele anterioare;

namei pot : numrul de clase, 'nbins', un vector


'ctrs', sau un vector cu capetele claselor, 'edges'.
Alte variabile ce pot  utilizate: 'cdf', 'expected', 'nparams', 'emin', 'frequency', 'alpha'.
variabila de memorie stats aeaz: chi2stat - statistica 2 , df - gradele de libertate, edges - un
vector cu capetele intervalelor claselor dup triere, O - numrul de valori observate n ecare clas, E perechile

namei/valuei sunt opionale.

Variabilele

de valori centrale ale intervalelor ce denesc clasele,

numrul de valori ateptate n ecare clas.

Exemplu 24.3

Spre exemplicare, revenim la Exerciiul 24.1, dar cu valoarea nivelului de ncredere din

Observaia 24.2. Codul

Matlab ce folosete funcia de mai sus este:

x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01;


[h, p, stats] = chi2gof(x,'ctrs', x,'frequency', f,'expected',e, 'alpha',alpha)
Acest cod returneaz:

h =
0

p =
0.0184

stats =
chi2stat:
df:
edges:
O:
E:

13.6000
5
[0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000]
[15 7 4 11 6 17]
[10 10 10 10 10 10]

Acest rezultat conrm c ipoteza nul (zarul este corect) este acceptat la nivelul

Exemplu 24.4

(din [3]) La campionatul mondial de fotbal din

= 0.01.

2006 au fost jucate n total 64 de meciuri,

iar repartiia numrului de goluri nscrise ntr-un meci are tabelul de distribuie ca n Tabelul 24.2.

170

Laborator 12 [Dr. Iulian Stoleriu]


Determinai (la nivelul de semnicaie

= 0.05)

dac numrul de goluri pe meci urmeaz o distribuie

Poisson.

Nr. de goluri pe meci

Nr. de meciuri

0
1
2
3
4
5
6

8
13
18
11
10
2
2

Tabela 24.2: Tabel cu numrul de goluri pe meci la FIFA WC 2006.


Soluie:

2 parametric) Fie X variabila aleatoare ce reprezint numrul


de goluri nscrise ntr-un meci. Teoretic, X poate lua orice valoare din mulimea N. Mulimea observaiilor
fcute asupra lui X este {1, 2, 3, 4, 5, 6}, cu frecvenele respective din tabel. n total, au fost inscrise 144
= x = 144 = 2.25. Pe baza datelor
de goluri. Estimm numrul de goluri pe meci prin media lor, adic
64
observate, dorim s testm dac X urmeaz o repartiie Poisson.
Avem astfel de testat ipoteza nul:
(aplicm testul de concordan

(H0 ) :

urmeaz o lege Poisson

P().

vs. ipoteza alternativ

(H1 ) :
Dac admitem ipoteza

(H0 )

(adic

nu urmeaz o lege Poisson

X P(2.25),

atunci

pi = pi ()

Clasa

ni

pi

n pi

0
1
2
3
4
5
6
5

8
13
18
11
10
2
2
4

0.1054
0.2371
0.2668
0.2001
0.1126
0.0506
0.0274
0.0780

6.7456
15.1775
17.0747
12.8060
7.2034
3.2415
1.7514
4.9926

P().
i distribuia valorilor variabilei este

(ni n pi )2
n pi
0.2333
0.3124
0.0501
0.2547
1.0857

0.1973

Tabela 24.3: Tablou de distribuie pentru P(2.25).


pi este P (X = i), adic probabilitatea ca variabila aleatoare X P(2.25)
i (i = 0, 1, 2, 3, 4). Am putea forma 7 clase. Deoarece pentru ultimele dou clase din
Tabelul 24.3, anume {X = 5} i {X 6}, numerele ni nu depec valoarea 3, le tergem din tabel i le
unim ntr-o singur clas, n care {X 5}, cu ni = 4 > 3. Vom nota prin p5 probabilitatea
dat de Tabelul 24.3. Valoarea

s ia valoarea

p5 = P (X 5) = 1 P (X < 5) = 1 P (X 4) = 1

4
X
i=0

P (X = i).

171

Laborator 12 [Dr. Iulian Stoleriu]


Rmnem aadar cu

(H0 ) :

clase. Ipoteza nul

(H0 )

se poate rescrie astfel:

p0 = 0.1054, p1 = 0.2371, p2 = 0.2668, p3 = 0.2001, p4 = 0.1126, p5 = 0.0780.

Ipoteza alternativ este

(H1 ) :

ipoteza

(H0 )

nu este adevrat.

Calculm acum valoarea statisticii (23.1) pentru observaiile date:

(8 6.7456)2 (13 15.1775)2 (18 17.0747)2 (11 12.8060)2


+
+
+
+ ...
6.7456
15.1775
17.0747
12.8060
(10 7.2034)2 (4 4.9926)2
+
= 2.1337.
7.2034
4.9926

20 =
+

Deoarece avem 6 clase i am estimat parametrul , deducem c numrul gradelor de libertate este
6 1 1 = 4. Cuantila de referin (valoarea critic) este 20.95; 4 = 9.4877. Regiunea critic pentru
2 este intervalul (20.95; 4 , +). Deoarece 20 < 20.95; 4 , urmeaz c ipoteza nul (H0 ) nu poate 
respins la nivelul de semnicaie . Aadar, este rezonabil s armm c numrul de goluri marcate
urmeaz o repartiie Poisson.

Prezentm mai jos un cod

Matlab ce rezolv aceast problem.

X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);...
5*ones(2,1);6*ones(2,1)];
f = [8 13 18 11 10 4];
% vectorul de frecvente absolute
n = 64;
alpha = 0.05; lambda = mean(X);
for i=1:5
% probabilitatile P(X=i), i=0,1,2,3,4
p(i) = poisspdf(i-1,lambda);
end
p(6)= 1 - poisscdf(4,lambda);
% probabilitatea P(X5)
H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4);
if (H2 < Hstar)
disp('X urmeaza repartitia Poisson');
else
disp('X nu urmeaza repartitia Poisson');

end

Observaia 24.5

Dac ipoteza nul este respins, atunci motivul poate  acela c unele valori observate

au deviat prea mult de la valorile ateptate.

n acest caz, este interesant de observat care valori sunt

extreme, cauznd respingerea ipotezei nule. Putem deni astfel

reziduurile standardizate:

Oi n pi
Oi Ei
ri = p
=p
,
n pi (1 pi )
Ei (1 pi )
Oi am notat valorile observate i prin Ei valorile ateptate. Dac ipoteza nul ar  adevrat,
ri N (0, 1). n general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observate

unde prin
atunci

extreme.

Exemplu 24.6

ntr-o anumit zi de lucru, urmrim timpii de ateptare ntr-o staie de tramvai, pn la

ncheierea zilei de lucru (adic, pn trece ultimul tramvai). Fie

caracteristica ce reprezint numrul de

minute ateptate n staie, pn sosete tramvaiul. Rezultatele observaiilor sunt sumarizate n Tabelul
24.4. Se cere s se cerceteze (

= 0.05)

dac timpii de ateptare sunt repartizai exponenial.

172

Laborator 12 [Dr. Iulian Stoleriu]


Durata

ni

05
39

5 10
35

10 15
14

15 20
7

20 25
5

Tabela 24.4: Timpi de ateptare n staia de tramvai.


Soluie:

(folosim testul

de concordan, parametric)

(H0 )

Avem de testat ipoteza nul

F (x)
= F0 (x) = 1 e x , x > 0

vs. ipoteza alternativ

(H1 )
Deoarece parametrul

ipoteza

(H0 )

este fals.

este necunoscut, va trebui estimat pe baza seleciei date. Pentru aceasta, folosim

metoda verosimilitii maxime. Funcia de verosimilitate pentru

L(t1 , t2 , . . . , tn ; ) =

n
Y

exp()

este

e ti = n e n t .

k=1
Mai sus, am notat prin
Punctele critice pentru

t1 , t2 , . . . , tn valorile de selecie
L() sunt date de ecuaia

pentru variabila aleatoare

T.


ln L

= 1.
= 0 =
n ln n t =

t
Se observ cu uurin c

de unde concluzionm c

2 ln L
2
|= = n t < 0,
2

este punct de maxim pentru funcia de verosimilitate.

Tabelul de distribuie pentru caracteristica

Calculm media de selecie,


Dac variabila

t=

2.5
39

este:

7.5
35

12.5
14

17.5
7

22.5
5


.
= 0.1299.
= 7.7, adic
ca T s ia valori n ecare

1
100 (2.5 39 + 7.5 35 + 12.5 14 + 17.5 7 + 22.4 5)

ar urma repartiia exponenial

,
exp()

atunci probabilitile

clas sunt, n mod corespunztor:

= P (X (ai , ai+1 ] | F = F0 ) = F0 (ai+1 ; )


F0 (ai ; ),

pi = pi ()
unde

i = 1, 2, 3, 4, 5.

a6 = +.

n Tabelul 24.5 am nregistrat urmtoarele date:

clasele (de notat c ultima clas este (20, +), deoarece se dorete o concordan a datelor observate
cu date repartizate exponenial, iar mulimea valorilor pentru repartiia exponenial este R+ ),
extremitile

din stnga ale claselor (ai ),

frecvenele absolute ni

probabilitile

erorile relative

(sau valorile observate n ecare clas),

pi , valorile ateptate

n ecare clas (n pi ),

de aproximare ale datelor ateptate cu cele observate.

173

Laborator 12 [Dr. Iulian Stoleriu]


Numrul gradelor de libertate este

k p 1 = 3.

Calculm valoarea critic

20.95; 3 = 7.8147

i, de

asemenea, valoarea

H0 =

k
X
(ni n pi )2
i=1

Deoarece
Codul

20 < 20.95; 3 ,

ipoteza

(H0 )

n pi

= 6.5365.

nu poate  respins la acest nivel de semnicaie.

Matlab este urmtorul:

T =
% sau
% T =
n =
a =
for

[2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)];
[5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)];
100; alpha = 0.05; m = mean(T); lambda = 1/m;
[0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5];
i =1:5
p(i) = expcdf(a(i+1),m)-expcdf(a(i),m);

end
H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3);
if (H2 < cuant)
disp('Timpii de asteptare sunt exponential repartizati');
else
disp('ipoteza (H0) se respinge');
end

Clasa
(0, 5]
(5, 10]
(10, 15]
(15, 20]
(20, +)
(0, +)

ai

ni

0 39
5 35
10 14
15 7
20 5
100

pi

n pi

0.4776 47.7615
0.2495 24.9499
0.1303 13.0334
0.0681 6.8085
0.0745 7.4467
1
100

(ni n pi )2
n pi
1.6072
4.0483
0.0717
0.0054
0.8039
6.5365

Tabela 24.5: Tabel de distribuie pentru timpii de ateptare.

174

STATS 13 [Dr. Iulian Stoleriu]

25 Statistic Aplicat (C13)


Teste neparametrice
Multe dintre testele discutate anterior au ca cerin condiia ca datele selectate s urmeze o repartiie
normal (dac selecia este mic).

Se pune problema urmtoare: Ce se ntmpl dac aceast cerin

(posibil i altele) nu este vericat i nu tim nimic despre repartiia datelor sau despre parametrii variabilei? Testele neparametrice sunt cele n cadrul crora nu se fac presupuneri asupra formei repartiiei.
Aceste teste nu estimeaz parametrii necunoscui, de aceea mai sunt cunoscute i sub titulatura de

fr parametri (en.,

parameter-free methods) sau

metode fr repartiie (en.,

metode

distribution-free methods).

Se pot construi teste neparametrice corespunztoare ecrui test parametric studiat mai sus, ns aceste
teste neparametrice sunt, n general, grupate n urmtoarele categorii:

teste pentru diferena dintre grupuri (pentru selecii independente). Este cazul comparrii mediilor
a dou selecii ce provin din populaii independente. De regul, se utilizeaz testul
acestuia sunt ndeplinite.

Variante neparametrice ale acestui test sunt:

t dac ipotezele

testul Wald-Wolfowitz,

testul Mann-Whitney sau testul Kolmogorov-Smirnov pentru dou selecii;

teste pentru diferena dintre variabile (pentru selecii dependente). Utilizat la compararea a dou
variabile ce caracterizeaz populaia din care s-a luat selecia. Teste neparametrice utilizate: testul
semnelor, testul Wilcoxon.

teste pentru relaii ntre variabile. Pentru a gsi corelaia ntre variabile, se utilizeaz coecientul de
corelaie. Exist variante neparametrice ale coecientului de corelaie standard, e.g., coecientul
(Spearman), coecientul
coecientul de corelaie:

(Kendall) sau coecientul Gamma.


2 sau testul Fisher exact.

Exist, de asemenea, i teste privind

Testul semnelor
Este un test neparametric bazat pe semnele anumitor caracteristici i nu pe valorile lor. Este unul dintre
cele mai simple teste statistice neparametrice.

x1 , x2 , . . . , xn asupra unei caracteristici continue ce are


M e valoarea median observaiilor (i.e., acea valoare pentru
F (M e) = 0.5). Suntem interesai n a testa ipoteza c mediana M e

Presupunem c avem observaiile independente


funcia de repartiie teoretic

F.

Notm cu

care funcia de repartiie satisface


are o valoare dat

m0 .

Aadar, ipoteza nul este

(H0 ) :

M e = m0 .

(H1 ) :

M e 6= m0 .

Ipoteza alternativ bilateral este

Pentru a testa ipotez nul, inem cont de faptul c ecare observaie n parte va  mai mic dect
cu probabilitatea

p = F (m0 ).

Astfel, putem considera c

(
1,
yi =
0,

dac
dac

xi < m0
xi m0 ,

i = 1, n,

m0

175

STATS 13 [Dr. Iulian Stoleriu]


sunt valorile observate ale unei variabile aleatoare ce urmeaz repartiia

B(n, p).

Ipoteza nul devine

echivalent cu ipoteza

1
p= .
2

(H0 ) :
Notm prin

y0 =

n
X

yi

i e

o variabil aleatoare

B(n, 0.5).

Valoarea critic

Pv

utilizat n luarea

i=1
deciziei este

Pv = 2 min{P (Y y0 ), P (Y y0 )}.
Dac

< Pv ,

atunci ipoteza nul

(H0 )

este admis la nivelul de semnicaie

Altfel, respingem ipoteza

nul.
Testul se numete

Exemplu 25.1

testul semnelor deoarece se ine cont de semnele valorilor xi m0 .

Dorim s testm preferinele clienilor dintr-o anumit pizzerie pentru pizza cu blat

subire sau gros. S spunem c aceste preferine sunt reprezentate n Tabelul 25.1. n acest tabel, ecrei
mrime

subire

gros

gros

gros

subire

gros

gros

subire

gros

gros

semn

Tabela 25.1: Tabel cu preferine pentru blatul de pizza.


preferine i se atribuie un semn,

pentru "blat gros" i

pentru "blat subire". Dintr-o privire n tabel,

se pare c marea parte (70%) a clienilor prefer blatul gros. Dorim s testm semnicaia acestor date.
Cu alte cuvinte, care este ansa obinerii acestor rezultate dac, de fapt, nu exist vreo diferen ntre
preferine? Sau, dac am presupune c preferinele pentru cele dou tipuri sunt mprite n mod egal,
care sunt ansele de a obine un rezultat de genul prezentat n tabelul de mai sus? Presupunem c pragul
de semnicaie

Soluie:

= 0.05

Stabilim ipoteza nul

(H0 ) :

preferinele pentru cele dou blaturi sunt

50% 50%;

versus ipoteza alternativ bilateral

(H1 ) :

exist diferene semnicative n preferinele pentru cele dou blaturi;

p = 0.5.
Y variabila aleatoare ce reprezint alegerea blatului de ctre clienii care au comandat
Y B(10, 0.5) (aici avem o selecie de n = 10). Calculm valoarea critic Pv , adic

Presupunem c ipoteza nul este adevrat, deci ansa ca cineva s aleag un blat subire este
Dac notm cu
pizza, atunci

valoarea maxim pentru pragul de semnicaie pentru care ipoteza nul nu poate  respins.
valoare este de dou ori probabilitatea

P (Y 3)

Aceasta

(de dou ori, pentru ca testul este bilateral), adic

probabilitatea de a obine un rezultat ca cel din tabel. Putem interpreta aceast probabilitate ca ind
probabilitatea de a obine un rezultat cel puin la fel de extrem ca cel observat. Gsim c
este

Pv = 2 min{P (Y 3), P (Y 3)} = 2 P (Y 3) = 0.3438.

ipoteza nul nu poate  respins la acest nivel de semnicaie.

Deoarece

< Pv ,

P valoarea

concluzionm c

176

STATS 13 [Dr. Iulian Stoleriu]

Observaia 25.2

Putem testa i ipoteze unilaterale. De exemplu, presupunem c avem de testat

(H0 ) :
Ca mai sus, notm prin

y0 ) .

< Pv ,

Dac

M e m0

p = F (m0 ).

Y
(H0 )

Pentru

atunci ipoteza nul

(H1 ) :

vs.
i

y0

M e > m0 .

ca mai sus, valoarea critic a testului este

este admis la nivelul de semnicaie

Pv = P (Y

Altfel, respingem

ipoteza nul.
Revenind la exemplul prezentat, dac ipoteza alternativ ar  fost

(H0 ) :

clienii prefer pizza cu blat subire,

(H1 ) :

clienii prefer pizza cu blat gros,

Pv = P (Y 3) = 1 - binocdf(3,10,0.5) = 0.1719.
nivelul de semnicaie = 0.05.

atunci valoarea critic a testului va 


Aadar, ipoteza

(H0 )

este admis la

Testul seriilor pentru caracterul aleator


en., runs test) este un test neparametric ce veric ipoteza c un ir de date bivariate este

Testul seriilor (

aleator generat.
Dac o anumit valoare a unui anumit ir de caractere este inuenat de poziia sa sau de valorile ce o
preced, atunci selecia generat nu poate  aleatoare.
Denim noiunea de

serie

sau

faz (en.,

run) ca ind o succesiune a unuia sau mai multe simboluri de

acelai tip, care sunt precedate i urmate de simboluri de alt tip sau de niciun simbol. De exemplu:

001111010010

sau

MFFFFFMMMF

++-+---++++--+--++-

sau

Numrul de faze i lungimea lor pot  folosite n determinarea gradului de stochasticitate a unui ir de
simboluri. Prea puine sau prea multe faze, sau de lungimi excesiv de mari sunt rare n serii cu adevrat
aleatoare, de aceea ele pot servi drept criterii statistice pentru testarea stochasticitii.

Aceste criterii

sunt adiacente: prea puine faze implic faptul c unele faze sunt prea lungi, prea multe faze implic
prea multe secvene.

Aadar, ne vom preocupa doar de numrul total de faze.

Fiecare numr din ir

+ pentru numere mai mari dect


pentru cele mai mici. Numerele egale cu mediana nu sunt considerate n calcul. Fie n1 i n2
numrul de semne +, respectiv, din ir, i e n = n1 + n2 . Fie R1 i R2 numrul de faze ce corespund
semnului +, respectiv, din ir. Numrul total de faze este R = R1 + R2 .
este comparat cu mediana sau valoarea medie a irului, scriind astfel
mediana i

Alegem ipoteza nul:

(H0 ) :

observaiile din ir sunt aleatoare (ecare aranjament de

este echiprobabil).

vs. ipoteza alternativ

(H1 ) :
Putem gsi repartiiile vectorilor aleatori
atunci secvena datele observate,
Pentru

observaiile din ir nu sunt aleatoare.

(R1 , R2 ), R1 , R2

x1 , x2 , . . . , xn ,

sau

R.

va  una dintre cele

avem funcia de probabilitate:

f (r) =

numrul de permutri ce au ca rezultat

Cnn1

Dac ipoteza nul ar  adevrat,

n1 !n2 !
n!

k faze

permutri echiprobabile.

r = 0, n.

177

STATS 13 [Dr. Iulian Stoleriu]


Explicit, putem scrie:

k1 k1
C
C

2 n1 1 n1 n2 1

Cn

f (r) = h
i

k1
k1
k
k

C
C
+
C
C
n1 1 n2 1
n1 1 n2 1

n1
Cn
Cnd

n1

n2

sunt mari, atunci

R N (, ),

Aadar,

Aceast statistic poate  utilizat n

r = 2k;

, dac

r = 2k + 1.

unde

n1 n2
=2
+ 1,
n

, dac

2 n1 n2 (2 n1 n2 n)
.
n2 (n 1)

R
N (0, 1).

testarea ipotezei nule (H0 ).

Altfel, dac numrul observat de faze este

r0 ,

atunci valoarea critic

Pv

a testului este

Pv = 2 min{P (R r0 ), P (R r0 )}.
Dac

< Pv ,

atunci ipoteza nul

(H0 )

este admis la nivelul de semnicaie

Altfel, respingem ipoteza

nul.

Corelaie i regresie
Introducere
n acest capitol vom discuta msuri i tehnici de determinare a legturii ntre dou sau mai multe variabile
aleatoare. Pentru lecturi suplimentare, se pot consulta materialele [13], [14], [15].
Primele metode utilizate n studiul relaiilor dintre dou sau mai multe variabile au aprut de la nceputul

20 i Gauss21 , n ce privete metoda celor mai mici ptrate

secolului al XIX-lea, n lucrrile lui Legendre

pentru aproximarea orbitelor astrelor n jurul Soarelui. Un alt mare om de tiin al timpului, Francis

22 , a studiat gradul de asemnare ntre copii i prini, att la oameni, ct i la plante, observnd c

Galton

nlimea medie a descendenilor este legat liniar de nlimea ascendenilor. Este primul care a utilizat
conceptele de

corelaie

regresie (

(lat.)

regressio

- ntoarcere). Astfel, a descoperit c din prini a

cror nlime este mai mic dect media colectivitii provin copii cu o nlime superioar lor i viceversa. Astfel, a concluzionat c nlimea copiilor ce provin din prini nali tinde s "regreseze" spre
nlimea medie a populaiei. Din lucrrile lui Galton s-a inspirat un student de-al su, Karl Pearson, care
a continuat ideile lui Galton i a introdus coecientul (empiric) de corelaie ce i poart numele. Acest
coecient a fost prima msur important introdus ce cuantica tria legturii dintre dou variabile ale
unei populaii statistice.

20 Adrien-Marie

Legendre (1752 1833), matematician francez


Carl Friedrich Gauss (1777 1855), matematician i zician german
22 Sir Francis Galton (1822 1911), om de tiin britanic
21 Johann

178

STATS 13 [Dr. Iulian Stoleriu]


Un ingredient fundamental n studiul acestor dou concepte este diagrama prin puncte, aa-numita

plot.

scatter

n probleme de regresie n care apare o singur variabila rspuns i o singur variabil observat,

diagrama scatter plot (rspuns vs. predictor) este punctul de plecare pentru studiul regresiei. O diagram

scatter plot

ar trebui reprezentat pentru orice problem de analiz regresional, deoarece aceasta ne va

da o prim idee despre ce tip de regresie vom folosi. Un exemplu de astfel de diagram este reprezentat
n Figura 25.1, n care am reprezentat coecientul de inteligen (IQ) a

200

de perechi so-soie. Fiecare

cruciuli din diagram reprezint IQ-ul pentru o pereche so-soie.

Figura 25.1: Scatter plot pentru IQ n familie.


Corelaie
Corelaie i coecient de corelaie
Corelaia

este un termen statistic folosit pentru a deni interdependena sau legtura ntre dou sau

mai multe variabile aleatoare.

Totodat, corelaia este i o metod statistic de descriere i analiz a

legturilor de tip statistic ntre dou sau mai multe variabile.


Dac

X, Y sunt dou variabile aleatoare ce admit medie, atunci corelaia


Y se denete prin:
cov(X,

Observaia 25.3
atunci cov(X,

sau

covariana (teoretic) dintre

Y ) = E [(X E(X)) (Y E(Y ))] = E(X Y ) E(X) E(Y ).

(i) Din punct de vedere teoretic, dac

sunt variabile aleatoare independente,

Y ) = 0.
X U(1, 1) i Y = X 2 , atunci cov(X, Y ) =
asemenea, c E(X Y ) = E(X) E(Y )).

Reciproca nu este, n general, adevrat. De exemplu, dac

0,

ns

sunt dependente. (se poate verica, de

X i Y
aleatoare X i Y

(ii) n cazul n care

sunt, n plus, variabile aleatoare normal repartizate, atunci independena

variabilelor

este echivalent cu cov(X,

Y ) = 0.

179

STATS 13 [Dr. Iulian Stoleriu]


O

relaie liniar

ntre dou variabile este acea relaie ce poate  reprezentat cel mai bine printr-o linie.

corelaie pozicorelaie negativ, nsemnnd c X i Y se

Corelaia detecteaz doar dependene liniare ntre dou variabile aleatoare. Putem avea o

tiv, nsemnnd c X

cresc sau descresc mpreun, sau o

modic n direcii opuse.


O msur a corelaiei dintre dou variabile este coecientul de corelaie.

Acesta este foarte utilizat n

tiine ca ind o msur a dependenei liniare ntre dou variabile. Din punct de vedere teoretic, denim

coecientul de corelaie a dou variabile aleatoare X


cov(X,

X,Y =

Y)

X Y

prin:

= cov(X, Y ),

1/2

2 1/2
X = E(X X)2
i Y = E(Y Y )
sunt deviaiile standard corespunztoare variabilelor aleatoare X , respectiv Y . Proprietile coecientului
unde

sunt variabilele aleatoare standardizate iar

de corelaie au fost prezentate anterior.


n practic, pentru a stabili dac exist sau nu vreo legtura ntre dou variabile aleatoare, se fac observaii
asupra acestora, urmnd apoi a cuantica relaia dintre observaii.

(xk , yk ), k {1, 2, . . . , n} un set de date bidimensionale, ce reprezint observaii asupra vectorului


(X, Y ). O msur a legturii dintre {xk }k i {yk }k este coecientul de corelaie empiric introdus
K. Pearson (n literatura de specialitate mai este cunoscut i sub denumirea de coecientul r ):

Fie

aleator
de

n
X
(xk x)(yk y)

r =

v k=1
v
u n
u n
uX
uX
t (xk x)2 t (yk y)2
k=1

cove (x,

sx sy

(25.1)

k=1

y)

(25.2)

unde

1
cove (x, y) =
n1
sunt

n
X
(xk x)(yk y),
k=1

v
u
u
sx = t

1
n1

n
X

(xk

x)2 ,

v
u
u
sy = t

k=1

n
1 X
(yk y)2
n1
k=1

covariana (corelaia) empiric i deviaiile standard empirice pentru X

Y.

Spre exemplu, pentru seleciile

x = [0.49
y = [1.31
coecientul

-0.45 0.39 0.05 -0.49


1.20 -2.58 -2.09 0.39

0.24
-0.86

0.72
-1.23

0.15
0.13 -1.01];
2.64 -0.90 -1.22];

al lui Pearson este

r = 0.0905.
X,Y , coecientul r al lui Pearson ia valori doar n intervalul
[1, 1]. Cazurile limit pentru r sunt r = 1 sau r = 1, cazuri n care putem trage concluzia c variabilele
X i Y sunt pozitiv, respectiv, negativ) perfect corelate (vezi Figura 25.2). Pentru valori ale lui r ntre
1 i 1, nu putem vorbi de gradul de corelare ntre X i Y fr a efectua un test statistic asupra valorii
coecientulul teoretic de corelaie, . De multe ori ns, putem arma ca avem o corelaie pozitiv dac
Asemeni coecientului de corelaie teoretic,

180

STATS 13 [Dr. Iulian Stoleriu]


r

este apropiat de valoarea

o corelaie negativ dac

(e.g.,

r = 0.85,

caz n care norul de date are panta ascendent) i avem

este apropiat de valoarea

(e.g.,

r = 0.98,

caz n care norul de date are

panta descendent).

r = 0.0905 de mai sus ar putea sugera faptul c cele dou selecii au fost obinute independent
= 0), fapt ce va trebui conrmat folosind un test statistic n care testm ipoteza
= 0, cu ipoteza alternativ 6= 0.

Rezultatul

una fa de cealalt (i.e.,


nul

Figura 25.2: Scatter plots i coecieni de corelaie.


Test statistic pentru coecientul de corelaie
(xk , yk ), k {1, 2, . . . , n} asupra variabilelor alea0. Plecnd doar de la acest informaie,
nu putem extrapola i decide gradul de corelare ntre X i Y . Pentru aceasta, vom construi un test statistic, care va decide dac valoarea real a lui (coecientul teoretic de corelaie) este 0 sau semnicativ
diferit de 0.

Presupunem c avem un set de date bidimensionale


toare

X, Y ,

i am calculat

r,

obinnd o valoare

r0

apropiat de

Considerm ipoteza nul

(H0 )

X,Y = 0

(variabilele aleatoare nu sunt corelate)

vs. ipoteza alternativ

(H1 )

X,Y 6= 0

Alegem un nivel de semnicaie

(variabilele aleatoare sunt corelate)

<< 1

(e.g.,

r
T =r
Calculez valoarea statisticii
de ordin

2 a repartiiei

T
t

n2
1 r2

i considerm statistica

t(n 2).

r = r0 (o notm cu T0 ) i, de asemenea, calculm cuantila t1 2 ; n2 ,


(n 2) grade de libertate.

pentru
cu

= 0.05)

181

STATS 13 [Dr. Iulian Stoleriu]


Decizia nal este urmtoarea:

|T0 | < t1 2 ; n2 ,
|T0 | t1 2 ; n2 ,

Observaia 25.4

(i)

(H0 )
(H0 )

atunci ipoteza
atunci ipoteza

Coecientul lui Pearson,

r,

este acceptat;
este respins.

este un numr adimensional ce stabilete doar dac

exist o legtura liniar ntre dou seturi de date statistice. Totodat, n denirea acestui coecient se
presupune c datele statistice urmeaz o repartiie normal. De multe ori, n practic, doar coecientul

sigur nu poate  edicator asupra triei legturii ntre dou seturi de date statistice, ba chiar poate

genera informaii false n cazul n care cele dou seturi date nu depind liniar unul de cellalt. De aceea,
i ali coecieni pentru determinarea corelaiei sunt luai n consideraie, cum ar :

r2 , coecientul de determinare

(notat n Statistic prin

R2 ),

care stabilete care este procentul din

variaia uneia dintre datele statistice ce determina (sau explic) pe celelalte date. De exemplu, un
coecient de determinare

R2 = 0.42

semnic faptul c variabila independent explic doar

42%

din variaia variabilei dependente. n Statistic, acest coecient este denit n mai multe moduri,
unele nu tocmai ntr-un mod echivalent;

coecientul lui Spearman23 , coecientul lui Kendall24

etc. (acestea nu presupun c datele statistice

sunt normale)

(ii) Se poate testa, de asemenea, ipoteza nul

(H0 ) :

X, Y = 0 ,

cu

0 6= 0,

ns aceasta nu este foarte des ntlnit n practic.


n acest sens, se poate utiliza statistica

1
Z = ln
2

1+r
1r


N

1
ln
2

1 + 0
1 0

1
,
n3


.

(iii) Corelaia a dou variabile aleatoare nu implic o cauzare. Cu alte cuvinte, exist o corelaie ntre
vrst i nlime la copii, ns niciuna dintre aceastea nu o cauzeaz pe cealalt. Corelaia poate  luat
n eviden pentru o posibil relaie cauzal, ns nu este determinant i nu poate preciza relaia cauzal,
dac aceast exist.
(iv)

Volumul seleciei este un factor foarte important n testarea ipotezei c dou variabile aleatoare

sunt necorelate. Spre exemplu, o relaie poate  puternic (avnd un


semnicativ, dac valoarea lui
de

0),

nu foarte aproape de

0), ns nu
r aproape

nu este sucient de mare. Invers, o relaie poate  slab (un

dar semnicativ. Exemplul (25.5) poate  edicator.

Exemplu 25.5

S presupunem c dorim s stabilim dac exist vreo legtura ntre vrst unei persoane

i coecientul su de inteligen. Culegem astfel dou seturi de datele asupra acestor caracteristici, de
volum

n = 10,

i s presupunem c am gsit un coecient de corelaie empiric

(a) Este aceast legtur puternic?


(b) Este aceast legtur semnicativ?

23 Charles

24 Sir

Edward Spearman (1863 1945), psiholog britanic


Maurice George Kendall (1907 1983), statistician britanic

r = 0.62.

Se cere:

182

STATS 13 [Dr. Iulian Stoleriu]

Soluie:

(a) Calculm coecientul de determinare,

R2 ,

R2 = 0.3844.

i gsim

Asta semnic faptul c

doar

38.44%

(b)

Aplicm testul pentru coecientul de corelaie la un nivel de semnicaie

din variaia coecientului de inteligen este explicat de vrst.

considerat va avea

grade de libertate,

concluzionm c ipoteza nul

=0

T0 = 0.62

8
0.3844

= 0.05.

= 2.2351 < 2.3060 = t0.975; 8 ,

de unde

este admis (i.e., nu sunt dovezi suciente pentru ca ipoteza s poate

 respins la acest nivel de semnicaie).


(v)

Statistica

Se poate testa i ipoteza c doi coecieni de corelaie ce corespund a dou selecii diferite difer

semnicativ unul de cellalt. Presupunem c avem de testat ipoteza

(H0 ) :

1 = 2 ,

(H1 ) :

1 6= 2 .

vs. ipoteza alternativ

n1

Presupunem c volumele seleciilor folosite n testare sunt

n2

i c

r1 , r2

sunt coecienii de corelaie

empirici calculai. Pentru a testa ipoteza de mai sus, considerm statistica

Z1 Z2 (Z1 Z2 )
q
N (0, 1) ,
1
1
+
n1 3
n2 3

Z=

unde

1
Zi = ln
2

1 + ri
1 ri


,

Zi

1
= ln
2

1 + i
1 i


,

i = 1, 2.

Coecientul de corelaie Spearman


n cazul datelor calitative, unde nu se pot asocia valori numerice pentru caracteristica de interes, coecientul de corelaie Pearson nu mai poate  calculat. Pentru aceste date, este util de calculat

corelaie Spearman, sau coecientul de corelaie a rangurilor.

coecientul de

Acest coecient poate  calculat att pentru

date calitative, ct i pentru date cantitative. Pentru a calcula acest coecient, ecrui atribut sau ecrei
valori a caracteristicii i se desemneaz un rang. Coecientul de corelaie Spearman este coecientul de
corelaie Pearson pentru aceste ranguri.
n general, dac

(xi , yi )i=1, n

este un set de date bidimensionale, reprezentnd rangurile corespunztoare

variabilelor cercetate, i notm cu

rS

coecientul de corelaie Spearman, atunci

n
X
(xk x)(yk y)

v
rS = v k=1
.
u n
u n
uX
uX
t (xk x)2 t (yk y)2
k=1

(25.3)

k=1

La fel ca i coecientul lui Pearson, coecientul Spearman ia valori reale n intervalul


nsemnnd corelaie pozitiv perfect a rangurilor, iar valoarea

[1, 1];

valoarea

nsemnnd corelaie negativ perfect

a rangurilor.
n cazul n care avem

perechi de observaii i nu exist valori egale pentru rangurile aceleiai variabile,

atunci formula alternativ pentru calcului lui

rS

este:

6
rS = 1

n
X

d2i

i=1

n(n2 1)

(25.4)

183

STATS 13 [Dr. Iulian Stoleriu]


unde

di = xi yi ,

i.e., diferena dintre rangurile corespunztoare pentru poziia

i.

Vezi exemplele (25.6)

i (25.7).

Exemplu 25.6

Doi degusttori de vinuri (denumii

D1

D2)

au fost rugai s testeze

s le claseze n ordinea preferinelor. S notm mostrele testate cu

A, B , C , D , E , F

soiuri de vin i

G.

Preferinele

acestora sunt cele din Tabelul 25.2, n ordinea descresctoare a preferinelor. Tabelul 25.3 conine rangurile
preferinelor celor doi degusttori, iar Figura 25.3 reprezint grac rangurile (diagrama
Mostra

Mostra A B C D E F G H I
D1
E B A G C H F D I
D2
B E C G A H D I F
Tabela 25.2: Preferinele degusttorilor de
vin.

rang

D1

scatter plot).

rang

D2

Tabela 25.3: Tabel cu rangurile preferinelor.


Din diagrama

scatter plot

se observ o corelaie pozitiv ntre ranguri, ceea ce implic o oarecare con-

cordan ntre preferinele celor doi degusttori. Coecientul de corelaie Spearman va atribui o valoare
numeric acestei concordane, aceasta ind

Tem!

rS = 0.8667.

Utilizai testul semnelor pentru a testa ipoteza c preferinele celor doi degusttori nu sunt

semnicativ diferite (

= 0.05).

Figura 25.3: Scatter plot pentru ranguri.


Exist cazuri (n special pentru date cantitative) cnd valorile caracteristicii se repet, aa nct pentru
valori egale desemnm acelai rang. n aceste cazuri nu mai putem utiliza formula (25.4) pentru calculul
coecientului Spearman, ci va trebui s utilizm formula (25.3) (vezi exemplul urmtor).

184

STATS 13 [Dr. Iulian Stoleriu]

Exemplu 25.7

Datele din Tabelul 25.4 reprezint numrul de accidente rutiere (A) i numrul de decese

(D) nregistrate ntr-un anumit ora, n primele

6 luni ale anului.

Rangurile corespunztoare valorilor sunt

prezentate n Tabelul 25.5. Datele au fost introduse n tabel n ordinea invers a numrului de accidente.
De notat c, deoarece numrul de decese nregistrate n luna Mai este egal cu numrul de decese din
Aprilie, rangul pentru ecare dintre cele dou luni este media celor dou poziii n care s-ar aa. Folosind
formula (25.3), calculm coecientul de corelaie Spearman. Acesta este
Luna
Ian.

Luna Ian. Feb. Mar. Apr. Mai Iun.


A
D

27
8

24
6

15
5

11
3

17
3

Feb.

12
2

Mai
Mar.

Tabela 25.4: Evenimente rutiere n primele 6 luni.

Iun.
Apr.

A
27
24
17
15
12
11

rS = 0.8117.
rang

6
5
4
3
2
1

D
8
6
3
5
2
3

rang

2+3
2

2+3
2

6
5
= 2.5
4
1
= 2.5

Tabela 25.5: Tabel cu rangurile pentru accidente.


Regresie
Punerea problemei
Regresia este o metod statistic utilizat pentru descrierea naturii relaiei ntre variabile. De fapt, regresia
stabilete modul prin care o variabil depinde de alt variabil, sau de alte variabile.

Analiza regresional

cuprinde tehnici de modelare i analiz a relaiei dintre o variabil dependent (variabila rspuns) i una
sau mai multe variabile independente. De asemenea, rspunde la ntrebri legate de predicia valorilor
viitoare ale variabilei rspuns pornind de la o variabil dat sau mai multe. n unele cazuri se poate preciza

variabil
independent o variabil ce poate  manipulat (numit i variabil predictor, stimul sau comandat), iar
o variabil dependent (sau variabila prezis) este variabila care dorim s o prezicem, adic o variabil
care dintre variabilele de plecare sunt importante n prezicerea variabilei rspuns. Se numete

crei rezultat depinde de observaiile fcute asupra variabilelor independente. S lum exemplul unei cutii

black box) (vezi Figura 25.4).

negre (

n aceasta cutie intr (sunt nregistrate) informaiile

care sunt prelucrate (n timpul prelucrrii apar anumii parametri,


nregistrat ntr-o singur variabila rspuns,

y.

x1 , x2 , . . . , xm ,

1 , 2 , . . . , k ), iar rezultatul nal este

De exemplu, se dorete a se stabili o relaie ntre valoarea

pensiei (y ) n funcie de numrul de ani lucrai (x1 ) i salariul avut de-alungul carierei (x2 ). Variabilele
independente sunt msurate exact, fr erori. n timpul prelucrrii datelor sau dup aceasta pot apra
distorsiuni n sistem, de care putem ine cont dac introducem un parametru ce s cuantice eroarea ce
poate aprea la observarea variabilei

y.

Se stabilete astfel o legtur ntre o variabil dependent,

i una sau mai multe variabile independente,

x1 , x2 , . . . , xm ,

y,

care, n cele mai multe cazuri, are forma

matematic general

y = f (x1 , x2 , . . . , xm ; 1 , 2 , . . . , k ) + ,
unde

1 , 2 , . . . , k

(25.5)

a priori (denumii parametri de regresie) i este o


este o eroare de msur, considerat modelat printr-o
Funcia f se numete funcie de regresie. Dac aceasta nu este

sunt parametri reali necunoscui

perturbaie aleatoare. n cele mai multe aplicaii,


variabil aleatoare normal de medie zero.
cunoscut

a priori,

atunci poate  greu de determinat iar utilizatorul analizei regresionale va trebui s o

trial and error (prin ncercri). Dac avem doar


spunem c avem o regresie simpl. Regresia multipl face

intuiasc sau s o aproximeze utiliznd metode de tip


o variabila independent (un singur

x),

atunci

referire la situaia n care avem multe variabile independente.

185

STATS 13 [Dr. Iulian Stoleriu]

Figura 25.4: Black box.


Dac observarea variabilei dependente s-ar face fr vreo eroare, atunci relaia (25.5) ar deveni (cazul
ideal):

y = f (x1 , x2 , . . . .., xm ; 1 , 2 , . . . , k ).

(25.6)

Forma vectorial a dependenei (25.5) este:

y = f (x; ) + .

(25.7)

Pentru a o analiz complet a regresiei (25.5), va trebui sa intuim forma funciei

i apoi s determinm

(aproximm) valorile parametrilor de regresie. n acest scop, un experimentalist va face un numr sucient
de observaii (experimente statistice), n urma crora va aproxima aceste valori. Dac notm cu

n numrul

de experimente efectuate, atunci le putem contabiliza pe acestea n urmtorul sistem stochastic de ecuaii:

yi = f (x, ) + i ,
n ipoteze uzuale, erorile
dou cte dou (
i

> 0).

i = 1, 2, . . . , n.

sunt variabile aleatoare identic repartizate

Astfel, sistemul (25.8) cu

(25.8)

N (0, ),

independente stochastic

ecuaii stochastice algebrice are necunoscutele

{j }j

n cazul n care numrul de experimente este mai mic dect numrul parametrilor ce trebuie aproximai
(n

< k ),

atunci nu avem suciente informaii pentru a determina aproximrile.

problema se reduce la a rezolva

ecuaii cu

avem un sistem cu valori nedeterminate.


n funcie de forma funciei de regresie

regresie liniar simpl,

f,

putem avea:

n cazul n care avem doar o variabil independent i

f (x; ) = 0 + 1 x.
regresie liniar multipl,

dac

f (x; ) = 0 + 1 x1 + 2 x2 + + m xm .
regresie ptratic multipl

(cu dou variabile), dac

f (x; ) = 0 + 1 x1 + 2 x2 + 11 x21 + 12 x1 x2 + 22 x22 .


regresie polinomial,

dac

f (x; ) = 0 + 1 x + 2 x2 + 3 x3 + + k xk .
Vom avea

Dac

n = k,
n > k,

necunoscute. n cel de-al treilea caz posibil,

regresie ptratic pentru k = 2, regresie cubic pentru k = 3 etc.

atunci
atunci

186

STATS 13 [Dr. Iulian Stoleriu]


regresie exponenial,
regresie logaritmic,

cnd

f (x; ) = 0 e1 x .

dac

f (x; ) = 0 log1 x.

i altele.

De remarcat faptul c primele patru modele sunt liniare n parametri, pe cnd ultimele dou nu sunt liniare
n parametri. Modelele determinate de aceste funcii se vor numi
n cadrul analizei regresionale, se cunosc datele de intrare,
regresie

{j }j

i deviaia standard a erorilor,

modele de regresie (curbe, suprafee etc).

{xi }i ,

i cutm s estimm parametrii de

Dac funcia de regresie

atunci metode statistice folosite pentru estimarea necunoscutelor sunt:

este cunoscut (intuit),

metoda verosimilitii maxime,

metoda celor mai mici ptrate i metoda lui Bayes. Dac f este necunoscut, metode ce duc la estimarea
necunoscutelor sunt: metoda celor mai mici ptrate sau metoda minimax.

187

Laborator 13 [Dr. Iulian Stoleriu]

26 Statistic Aplicat (L13)


Teste neparametrice (probleme)
Testul semnelor n
n

Matlab

Matlab, testul semnelor poate  realizat cu ajutorul funciei


[p, h] = signtest(x, m)

unde:

este un numr real;

este un ir de caractere sau vector, asupra cruia facem testul semnelor;

h este rezultatul testului. Dac rezultatul aat este h = 0, atunci ipoteza


(H0 ): setul de date x provine dintr-o distribuie continu de median egal cu m, este admis
la acest nivel de semnicaie. Dac rezultatul aat este h = 1, atunci ipoteza nul este respins.
Se va admite astfel ipoteza alternativ (H1 ): setul de date x provine dintr-o distribuie continu
care nu are median egal cu m. Dac m nu apare, atunci se subnelege c m = 0.
variabila de memorie

nul,

variabila de memorie

este

P- valoarea,

adic valoarea maxim pentru pragul de semnicaie

pentru care ipoteza nul este admis. Deoarece aici


aeaz

h = 0.

Altfel, se aeaz

= 0.05

este subneles, pentru un

p > 0.05

se

h = 1.

O variant mbuntit a comenzii anterioare este urmtoarea:

[p, h, stats] = signtest(x, y,'alpha',alpha,'method',method)


Aici, n plus fa de precizrile de mai sus, mai adugm c:

Ipoteza nul este

0,

(H0 ):

variabila

stats

x y provine dintr-o distribuie continu de median egal cu


mediana lui x y nu este 0;

setul de date

cu ipoteza alternativ c

nmagazineaz urmtoarele date:

 zval - este valoarea statisticii Z


volum mare,

pentru observaia considerat (apare doar pentru selecii de

n 30);

 sign - este valoarea statisticii test;


alpha

este nivelul de semnicaie;

method

este metoda folosit n testare. Putem avea o metod exact, cnd

sau aproximativ pentru

'approximate';

method

este

'exact',

188

Laborator 13 [Dr. Iulian Stoleriu]

Exemplu 26.1

Pentru problema cu pizza, de mai sus, codul

Matlab ce genereaz testul semnelor este:

x = [-1 1 1 1 -1 1 1 -1 1 1];
[p, h, stats] = signtest(x, 0)
Rezultatul testului este:

p =
0.3438

h =
0

stats =
sign: 3

Observaia 26.2

Revenim la Exerciiul 24.1 i urmrim testarea ipotezei nule folosind funcia

Soluie:

Matlab este simplu:

Codul

signtest.

x = [ones(59,1); zeros(41,1)];
[p, h, stats] = signtest(x,.5)
Obinem rezultatele:

p =
0.0891

h =
0

stats =
zval: 1.7000
sign: 41

ceea ce conrm c ipoteza nul este admis la nivelul de semnicaie

Testul seriilor n
Funcia

= 0.05.

Matlab

Matlab ce simuleaz testul de vericare a stochasticitii unui ir de caractere este


[h, p, stats] = runstest(x)

Acesta este un test ce veric dac valorile ce compun irul de caractere


abilele

h, p

sunt ca n testul

signtest.

Aici, variabila

stats

apar n ordine aleatoare. Vari-

aeaz urmtoarele: numrul de faze,

lungimile ecrei faze i valoarea statisticii pentru selecia considerat.


n urma rulrii comenzii, se va aa valoarea

h = 0

dac ipoteza c valorile apar n ordine aleatoare nu

poate  respins (este acceptat la nivelul de semnicaie

= 0.05)

h = 1 n caz contrar.

De exemplu,

rularea codului

x = '011010100010001001010101110010101001010101010010111';
[h, p, stats] = runstest(x)

189

Laborator 13 [Dr. Iulian Stoleriu]


aeaz

h =
1

p =
0.0014

stats =
nruns:
n1:
n0:
z:

38
24
27
3.2899

Acest rezultat se traduce astfel: ipoteza c irul considerat este aleator generat este respins la nivelul
de semnicaie

= 0.05

(subneles),

nivel de semnicaie mai mic de

Pv

P valoarea

este

Pv = 0.0014

(asta nsemnnd c doar pentru un

irul poate  considerat aleator). Variabila de memorie

stats aeaz

datele folosite n aplicarea testului.

Comanda urmtoare

[h, p, stats] = runstest(x, v, alpha, tail)


aeaz

decizia testului, ori

h = 0

ori

h = 1,

cu semnicaia de mai sus;

este valoarea de referin a irului de caractere. Sunt numrate valorile ce sunt mai mici sau mai

mari dect

alpha
tail

v,

cele care sunt exact egale cu

nu sunt contabilizate;

este nivelul de semnicaie;

poate  una dintre urm toarele ipoteze alternative:

 'both',

irul nu este aleator (test bilateral).

Aceasta opiune poate s nu e specicat,

deoarece se subnelege implicit.

 'left', dac valorile tind s se adune n ciorchine (test unilateral stnga);


 'right', dac valorile tind s se separe (test unilateral dreapta);
De exemplu, s considerm urmtoarele comenzi:

y = 0:10;
y = 0:10;
y = 0:10;

[h, p] = runstest(y,median(y),0.02,'left')
[h, p] = runstest(y,median(y),0.02,'right')
[h, p] = runstest(y,median(y),0.02,'both')

Rezultatele rulrii lor sunt (n ordine):

h = 1
h = 0
h = 1
Ipoteza nul este aceea c valorile din irul

median(y) = 5.

p = 0.0043
p = 1
p = 0.0087
[0 1 2 3 4 5 6 7 8 9 10]

sunt aleatoare n jurul valorii mediane,

190

Laborator 13 [Dr. Iulian Stoleriu]

Observm mai sus c testul unilateral stnga respinge ipoteza nul i admite ipoteza c valorile irului se
strng ciorchine n jurul acestei valori. Testul unilateral dreapta admite ipoteza nul, iar testul bilateral
o respinge, admind ipoteza c numerele nu vin n ordine aleatoare, raportat la valoarea median.

Exerciiu 26.1

Se dau urmtoarele date:

x 3
y 9

(a) Testai dac

2 1 0 1 2
4
1 0 1 4

= 0 (coecientul de corelaie teoretic).


x i y sunt legate prin relaia y = x2

(b) Este faptul c

n contradicie cu rezultatul de la punctul (a)

(datele sunt perfect necorelate)?


(c) Calculai coecientul de corelaie Spearman.

Exerciiu 26.2

Tabelul 26.1 conine calicativele obinute de un elev de clasa I la cele

n ecare dintre cele dou semestre. (a)


Discipline

Sem. I
Sem. II

10

discipline,

Utilizai testul semnelor pentru a testa ipoteza c rezultatele

FB

FB

FB

FB

FB

FB

FB

FB

FB

Tabela 26.1: Calicative din anul I de studiu


elevului din cele dou semestre nu sunt semnicativ diferite (
(b)

= 0.05);

S se gseasc o msur a legturii dintre cele dou seturi de calicative (e.g., coecientul de corelaie

Spearman).

Exerciiu 26.3

Timpii de funcionare continu a

25 de baterii produse succesiv de o anumit rm sunt:

149 155 148 165 176 144 174 142 145 162 165 154
188 154 198 199 194 201 169 182 209 201 188 198 191.
Testai dac aceste valori sunt observaii aleatoare asupra unei caracteristici (

Exerciiu 26.4

= 0.05).

Numrul de accidente pe zi ce au loc ntr-un ora ntr-o anumit lun sunt :

8 1 0 1 3 4 0 2 10 5 1 7 0 2 0 1 11 3 4 5 3 2 4 7 4 0 2 3 1 2
La nivelul de semnicaie

= 0.05,

testai ipoteza c numrul de accidente pe zi n acel ora urmeaz o

repartiie Poisson.

Exerciiu 26.5

n concordan cu teoria lui Mendel din Genetic, o anumit specie de plant ar trebui

s produc doar ori albe, roz sau roii, cu probabilitile


au fost observate plantele dintr-o selecie de
purpurii, iar
vericat.

124

546

0.25, 0.5,

0.25. Pentru a testa teoria,


132 au ori albe, 290 au ori
= 0.05 dac teoria lui Mendel este
respectiv

de plante, observnd c

au ori roii. Testai la un nivel de semnicaie

191

Laborator 13 [Dr. Iulian Stoleriu]

Exerciiu 26.6

Datele urmtoare reprezint punctajele unor elevi dintr-o coal (din max.

puncte) obinute la un test de Matematic.


nivelul de semnicaie

100 de
72 la

Testai ipoteza c mediana notelor studenilor este

= 0.05.

71 67 55 64 82 66 74 58 79 61 78 46 84 93 72 54 78 86 48 52 67 95 70 43 70 73 57 64 60
83 73 40 78 70 64 86 76 62 95 66

192

STATS 14 [Dr. Iulian Stoleriu]

27 Statistic Aplicat (C14)


Regresie
Regresie liniar simpl
x,

Este cel mai simplu tip de regresie, n care avem o singur variabil independent,

i variabila depen-

{(xi , yi )}i=1, n . Reprezentm grac


(a)) i observm o dependen aproape
liniar a lui y de x. Dac valoarea coecientului de corelaie liniar, r , este aproape de 1 sau 1 (indicnd
o corelaie liniar strns), atunci se pune problema stabilirii unei relaii numerice exacte ntre x i y de
dent

y.

S presupunem c ni se d familia de date bidimensionale

aceste date ntr-un sistem

x0y

(de exemplu, vezi Figura 27.1

forma

y = 0 + 1 x.
O astfel de dreapt o vom numi

(27.1)

dreapta de regresie a lui y n raport cu x.

bidimensionale ca mai sus, putem reprezenta aceast dreapt ca n Figura 27.1

Pentru un set de date

(b).

Figura 27.1: Aproximarea unui nor de date prin dreapta de regresie.

Exemplu 27.1

Te hotrti s cumperi maina favorit, ce se vinde acum la preul de

semnarea contractului de vnzare-cumprare, plteti suma iniial de

650 RON, timp de 5 ani.

Dac notm cu

pe main, atunci ntre

15000 RON

numrul lunilor pn la ultima rat i cu

12500 EUR.

La

i apoi rate lunare de

suma total pltit

exist relaia:

Y = 15000 + 650 X.
n acest exemplu, relaia ntre
bidimensionale

{(xi , yi )}i=1, n

este una perfect liniar.

O relaie perfect liniar ntre datele

reprezentate n Figura 27.1 ar nsemna c toate acestea s-ar aa pe dreapta

de regresie, ceea ce nu se ntmpl.

De cele mai multe ori, datele reale nu urmeaz o astfel de relaie

perfect (spre exemplu, rata lunar poate  una variabil, n funcie de rata de schimb
care parametrii din dependena liniar trebuie a  estimai.

EUR-RON),

caz n

193

STATS 14 [Dr. Iulian Stoleriu]


Aadar, va trebui s inem cont i de eventualele perturbaii din sistem.
dependena lui

de

Putem presupune astfel c

este de forma

y = 0 + 1 x + ,
cu

N (0, ).

o variabil aleatoare repartizat

Plecnd de la

{xi , yi }i ,

(27.2)

elul nostru este s gsim o dreapt ce se apropie cel mai mult (ntr-un sens bine

precizat) de aceste date statistice. Cu alte cuvinte, va trebui s estimm valorile parametrilor de regresie

1 .

Procedm dup cum urmeaz.

nlocuind datele bidimensionale n (27.2), avem urmtorul sistem:

y i = 0 + 1 x i + i ,

i = 1, n,

(27.3)

unde

i N (0, ), i

sunt independente stochastic.

Deoarece

i = yi (0 + 1 xi ),
putem interpreta

i = 1, n,

ca ind erorile de aproximare a valorilor observate (yi ) cu cele prezise de dreapta de

0 + 1 xi ).
i N (0, ) i 0 , 1

regresie (adic de valorile


innd cont c

sunt valori deterministe, din (27.3) rezult c:

yi N (0 + 1 xi , ),

pentru ecare

de unde, probabilitatea ca ntr-o singur msurtoare a

xi

i,

s obinem rspunsul

yi

este



1
(yi 0 1 xi )2
Pi = exp
.
2 2
2
{i }i sunt independente stochastic, probabilitatea ca n cele n observaii independente s obinem
de valori (y1 , y2 , , . . . , yn ) este (funcia de verosimilitate):
!
n
n
Y
X
1
(yi 0 1 xi )2
L(0 , 1 , ) =
.
Pi = n
exp
2 2
(2)n/2

Deoarece
vectorul

i=1

i=1

Avem de estimat urmtoarele cantiti:

maxime.

0 , 1

Pentru aceasta, vom folosi

Urmrim s gsim acele valori ale parametrilor

0 , 1

metoda verosimilitii

care maximizeaz funcia de verosi-

militate. Aadar, problema de maximizare este urmtoarea:

max L(0 , 1 , ).

0 , 1 ,
Condiiile de extrem (impuse pentru

ln L)

sunt:

n
1 X
(yi 0 1 xi )
2 2

ln L
0

ln L
1

ln L

1
2 2

i=1
n
X

xi (yi 0 1 xi )

0;
=

0;

i=1

n
n
1 X
+ 2
(yi 0 1 xi )2

0.

i=1

Rezolvnd primele dou ecuaii n raport cu

sxy
b1 = 2
sx

1 ,

obinem estimaiile:

b0 = y b1 x,

(27.4)

194

STATS 14 [Dr. Iulian Stoleriu]

Figura 27.2: Estimarea dreptei de regresie.

unde,

1X
x=
xi ,
n
i=1

1X
y=
yi ,
n

s2x

i=1

1 X
=
(xi x)2 ,
n1

sxy

i=1

Astfel, gsim c dreapta de regresie a lui

n raport cu

1 X
=
(xi x)(yi y).
n1
i=1

este aproximat de dreapta:

sxy
y = y b1 x + 2 x,
sx
sau, altfel scris,

y=y+

(27.5)

sxy
(x x).
s2x

(27.6)

Din ultima condiie de extrem, gsim c o estimaie pentru dispersia

este:

1X

=
(yi b0 b1 xi )2 .
n
2

(27.7)

i=1

ns, estimaia pentru

2 dat prin formula (27.7) este una deplasat.

n practic, n locul acestei estimaii

se utilizeaz urmtoarea estimaie nedeplasat:

c2 =

1 X
(yi b0 b1 xi )2 .
n2

(27.8)

i=1

Observaia 27.2

(1) Terminologie:

dreapta de regresie, y = 0 + 1 x, este dreapta ce determin dependena


lui x, pentru ntreaga populaie de date (dac acasta exist);

liniar a lui

de valorile

195

STATS 14 [Dr. Iulian Stoleriu]

aproximarea dreptei de regresie (sau

dreapta de tare, en., tting line), y = b0 + b1 x, este dreapta

care se apropie cel mai mult (n sensul metodei celor mai mici ptrate) de datele experimentale (de

selecie)

{xi , yi }i .

Valorile

yi

(i

Aceast dreapt este o aproximare a dreptei de regresie;

se numesc

= 1, n);

valorile

bi = yi ybi

valori observate, iar valorile ybi = b0 + b1 xi , i = 1, n se numesc valori prezise

se numesc

reziduuri.

Un reziduu msoar deviaia unui punct observat de la

valoarea prezis de estimarea dreptei de regresie (dreapta de tare);

suma ptratelor erorilor,

n
X

b2i ,

se noteaz de obicei prin

SSE (sum of squared errors);

i=1

eroarea medie ptratic

MSE

rdcina ptrat a

se poate demonstra c

sau

rezidual este

se numete

SSE
,
n2

notat

MSE (mean squared error);

eroarea standard a regresiei;

c2

SSE
= (n 2) 2 2 (n 2).
2

cu autorul acestei relaii se pot gsi intervale de ncredere pentru valoarea real a lui
n formula (27.8),

(2)

(n 2)

reprezint numrul gradelor de libertate ale variabilei

Estimaia dispersiei este o msur a gradului de mprtiere a punctelor

(x, y)

2.

SSE.

n jurul dreptei de

regresie. Mai subliniem faptul c valorile din formulele (27.4) i (27.8) sunt doar estimaii ale parametrilor
necunoscui, i nu valorile lor exacte. Formula pentru

b1

mai poate  scris sub forma:

sy
b1 = xy .
sx
(3) Dac deviaia standard

ar  cunoscut a priori, atunci putem estima parametrii 0 i 1 n urmtorul

mod. Estimm aceti doi parametri prin acele valori ce realizeaz minimumul sumei ptratelor erorilor

SSE.

metoda celor mai mici ptrate):

Vom avea astfel problema de minimizare (

min

n
X

0 , 1

Notnd cu

F (0 , 1 ) =

n
X

(yi 0 1 xi )2 .

i=1

(yi 0 1 xi )2 ,

condiiile de extrem sunt:

i=1

F
0

= 2

F
1

= 2

n
X
(yi 0 1 xi )
i=1
n
X

xi (yi 0 1 xi )

0;
=

0.

i=1

Rezolvnd acest sistem de ecuaii algebrice n raport cu

1 ,

gsim soluiile

b0

i, respectiv,

b1

de

mai sus. Aceasta dovedete c, n cazul n care erorile sunt identic normal repartizate i independente
stochastic, metoda verosimilitii maxime este, n fapt, totuna cu metoda celor mai mici ptrate.

196

STATS 14 [Dr. Iulian Stoleriu]

Caracteristici ale parametrilor de regresie


Estimaiile pentru parametrii de regresie

populaie, se vor utiliza testri statistice.

valorilor ambilor parametri,


dreptei de regresie,

1 ,

1 depind de observaiile folosite. Pentru a decide dac va{xi , yi }i pot  considerate valorile potrivite pentru ntreaga

lorile calculate pe baza datelor experimentale

Mai jos, vom construi teste statistice cu privire la testarea

ns cel mai uzual test este testul pentru vericarea valorii pantei

1 .

Mai nti, vom calcula media i dispersia pentru ecare dintre


Avem succesiv,


E(b1 ) = E

sxy
s2x

b1

b0 .

n
X

(xi x)(yi y)

i=1

.
= E
n

(xi x)2
i=1

Aici,

xi

sunt valori deterministe, iar

yi

variabile aleatoare. Deoarece

y = 0 + 1 x +

1X
i ,
n
i=1

obinem c

E(y) = 0 + 1 x.

ns,

E(yi y) = 0 + 1 xi (0 + 1 x) = 1 (x1 x),


Aadar,

n
X

E(b1 ) =

(xi x)E[yi y]

i=1
n
X

n
X

i=1
Pentru

b0

(xi x)2

i=1

=
(xi x)

n
X

i.

= 1 .

(xi x)

i=1

avem:

E(b0 ) = E(y) x E(b1 ) = 0 + 1 x x1 = 0 .


Prin urmare, att

b0 ,

ct i

Calculm acum dispersiile

b1 ,

sunt estimatori nedeplasai pentru

 
D2 b1

 
D2 b0 .

Deoarece

n
X

i, respectiv,

(xi x)y = 0,

1 .

avem:

i=1

n
X

(xi x)yi

 

i=1
=
D2 b1 = D2
n
X

(xi x)2
i=1

n
X

(xi x)2 D2 (yi )

i=1
n
X
(xi x)2

!2 =

2 s2x
2
=
.
s4x
s2x

(27.9)

i=1

Utiliznd urmtoarea proprietate,

D2 (X + Y ) = D2 (X) + 2 cov(X, Y ) + D2 (Y ),
putem scrie:

 
 
D2 b0 = D2 (y b1 x) = D2 (y) 2 x cov(y, b1 ) + x2 D2 b1 .

(27.10)

197

STATS 14 [Dr. Iulian Stoleriu]


Dar,

D2 (y) = D2

1X
i
n

!
=

i=1

1
2
2
n

=
n2
n

cov

y, b1

n
X

n
1 X

i ,
cov
n
i=1

i=1

(xi x)(0 + 1 xi + i )

2
(xi x)
i=1

n
X

(xi x)i
X
1 n

cov
i , i=1
n
n

X
i=1

(xi x)2

i=1

=
n

n
X

n
X

cov

i=1

(xi x)

n
X
i ,
(xi x)i

i=1

i=1
n
X

(xi x) 2

i=1
n
X

= 0.
2

(xi x)

i=1
nlocuind n (27.10), gsim c



 
2
2
1 x2
2
2
b
D 0 = x 2 +
=
+
.
sx
n
n s2x
2

innd cont c estimatorii


pentru

2,

b0

b1

(27.11)

sunt nedeplasai, de relaiile (27.11) i (27.9), i de estimatorul

c2

se poate demonstra c:

b 0
q0
t(n 2)
2

b n1 + xs2

(27.12)

b1 1

b
sx
Aici, am notat prin

t(n 2).

(27.13)

cantitatea:

b=

1 X
(yi b0 b1 xi )2
n2

!1
2

i=1

Putem folosi aceste statistici pentru a determina intervale de ncredere pentru


ncredere pentru

la nivelul de semnicaie

"
b0 t1 2 ; n2
b

1 .

Un interval de

este:

1 x2
+ ,
n s2x

s
b0 + t1 2 ; n2
b

#
1 x2
+
.
n s2x

(27.14)

198

STATS 14 [Dr. Iulian Stoleriu]


Un interval de ncredere pentru

Observaia 27.3

1 la nivelul de semnicaie este:





b
b
b
.
1 t1 2 ; n2 , 1 + t1 2 ; n2
sx
sx

(1) n general, dispersia

(27.15)

a erorilor de regresie nu este cunoscut

a priori.

n cazul

n care aceasta este cunoscut, atunci n loc de (27.12) i (27.13) am avea:

b 0
q0
N (0, 1),
2
n1 + xs2

b1 1

sx

N (0, 1).

(27.16)

n acest caz, intervalele de ncredere pentru


cu diferena c
i

z1 2

1
; n2
2

este nlocuit prin

0 i 1 vor  similare cu cele din relaiile (27.14) i (27.15),


z1 2 . Oricum, pentru n sucient de mare, valorile t1 2 ; n2

sunt foarte apropiate.

(2) Coecientul de determinare

R2 (= r2 )

se poate calcula i folosind urmtoarea formul:

R2 = 1
unde

s2y/x
s2y

s2y/x

(27.17)

1 X
=
(yi b0 b1 xi )2 ,
n1

s2y

i=1

1 X
=
(yi y)2 .
n1
i=1

2
n analiza regresional, coecientul R este folosit pentru a determina ct de bine poate  construit o
valoare prezis pe baza valorilor independente.

Test statistic pentru 1


Mai jos prezentm testul ce veric dac

10

ia o valoare dat

sau nu, la un nivel de semnicaie

Dispersia erorilor de regresie este necunoscut.


Testm

(H0 ) :

1 = 10

(H1 ) :

versus

1 6= 10 .

Considerm statistica

T =
care urmeaz repartiia

t(n 2).

b1 1

b
sx

Etapele testului sunt urmtoarele:

Calculm valoarea critic

T0 =

Calculm cuantila de ordin

Dac

b1 10

b
sx

2 pentru repartiia

cu

.
(n 2)

grade de libertate,

|T0 | < t1 2 ; n2 ,

atunci acceptm ipoteza

(H0 );

|T0 | t1 2 ; n2 ,

atunci acceptm ipoteza

(H1 );

Dac

t1 2 ; n2 ;

199

STATS 14 [Dr. Iulian Stoleriu]

Observaia 27.4

(1) O ipotez alternativ poate  considerat i una dintre urmtoarele:

(H1 )s :
(2)

Dac

10 = 0,

1 < 10 ,

(H1 )d :
1 6= 0

atunci ipoteza alternativ

1 > 10 .
x

este ipoteza c ntre

exist o dependen

liniar.

Test statistic pentru 0


Mai jos prezentm testul ce veric dac

ia o valoare dat

sau nu, la un nivel de semnicaie

Dispersia erorilor de regresie este necunoscut.


Testm

(H0 ) :

0 = 0

(H1 ) :

versus

0 6= 0 .

Considerm statistica

b0 0
T = q
t(n 2),
2

b n1 + xs2
x

care urmeaz repartiia

t(n 2).

Etapele testului sunt urmtoarele:

Calculm valoarea critic

b0 0
t(n 2).
T0 = q
2

b n1 + xs2
x

Calculm cuantila de ordin

Dac

2 pentru repartiia

cu

(n 2)

grade de libertate,

|T0 | < t1 2 ; n2 ,

atunci acceptm ipoteza

(H0 );

|T0 | t1 2 ; n2 ,

atunci acceptm ipoteza

(H1 );

t1 2 ; n2 ;

Dac

Observaia 27.5
n cazul n care

De asemenea, teste unilaterale pot  considerate i n cazul testrii valorii lui


este cunoscut

a priori

atunci, graie relaiilor (27.16), putem utiliza testul

testarea ipotezelor de mai sus, att pentru

0 ,

ct i pentru

0 .
pentru

1 .

Predicie prin regresie


[Pe scurt, predicia prin regresie este precum ai conduce maina legat la ochi,
ghidat de un copilot care privete doar n lunet]

n anumite cazuri, putem folosi regresia n predicia unor valori ale variabilei dependente. De exemplu,
putem prezice temperatura ntr-un anumit ora plecnd de la observaiile temperaturilor din oraele
nvecinate. Regresia poate  utilizat pentru predicie dup cum urmeaz. S presupunem ca datele pe
care le deinem,
valoarea

xp

{(xi , yi }i=1, n ,

pot  modelate de o dreapt de regresie de forma (27.1).

ce nu se a printre valorile

independente,

xmin

xmax ,

xi ,

Dat ind o

dar este o valoare cuprins ntre valorile extreme ale variabilei

dorim s prezicem valoarea rspuns,

y p = 0 + 1 x p + p .

200

STATS 14 [Dr. Iulian Stoleriu]


b0 i b1 sunt estimaiile pentru parametrii
pentru yp pentru un xp observat va  o valoare y
bp
Dac

de regresie

0 ,

respectiv,

1 ,

atunci

valoarea prezis

de pe dreapta de regresie, dat de formula:

ybp = b0 + b1 xp .
Un interval de ncredere pentru

"
ybp t1 2 ; n2
b

Observaia 27.6
i

xmax .

pentru

1+

pentru un

xp

(xp [xmin , xmax ])


s
#
1 (xp x)2
.

b 1+ +
n
s2x

dat, la nivelul de senicaie

1 (xp x)2
+
,
n
s2x

ybp + t1 2 ; n2

(1) De notat faptul c este foarte important ca

Dac se folosete formula (27.18) i pentru valori ale lui

x,

(27.18)

atunci erorile de de aproximarea a lui

27.3 (a) am folosi doar primele

cu

ybp

(27.19)

s e o valoare cuprins ntre

xmin

n afara range-ului valorilor predictor

pot  foarte mari. De exemplu, dac n Figura

pentru a construi un model de regresie, atunci acesta poate  utilizat

doar pentru predicia valorilor variabilei

pentru orice

n acest range, i.e.

dreapta de regresie gsit anterior, am ncerca o predicie pentru


pe cnd valoarea observat este

xp

este:

y(19) 6.5,

x = 19,

x [0, 10].

Dac, folosind

atunci am gsi c

yb(19) 10,

ceea ce determin o eroare foarte mare de aproximare. Mai

mult, dac inem cont i de urmtoarele valori observate (vezi Figura 27.3(b)), atunci curba de regresie
pare s nu e o dreapt. Pentru estimarea de valori viitoare ale variabilei dependente folosind valori ale

Figura 27.3: Predicie prin extrapolare.


variabilelor independente ce ies din range se utilizeaz termenul de

prognoz (en., forecasting).

Aceasta

este folosit des n analiza seriitor de timp.


(2)
lui

Valoarea prezis

pentru un

xp

ybp

dat.

nu este una stabilit cu exactitate, ci este doar o medie ateptat a valorilor


n cazul n care

R2 = 1

(coecientul de determinare), atunci valoarea pentru

va  prezis fr eroare, deoarece toate punctele se a pe dreapta de regresie. n general, punctele

(x, y)
ybp este

bidimensionale

se a mprtiate n jurul dreptei de regresie.

(3)

determinat doar pe baza seleciei date, de aceea, pentru a verica dac aceast

Valoarea

valoare poate  extrapolat la ntreaga populaie este nevoie de inferen statistic (test statistic). Prezentm, n continuare, un test ce compar valoarea

ybp

cu o constant dat.

201

STATS 14 [Dr. Iulian Stoleriu]


Testm

(H0 )

ybp = y0

ybp 6= y0 .

(H1 )

versus

Etapele testului sunt urmtoarele:

Estimm

Considerm statistica

ybp

utiliznd formula (27.18).

ybp y
T =q
t(n 2);
2
p x)
MSE( n1 + P(x(x
)
2
i x)
i

Calculez valoarea

ybp y0
;
T0 = q
2
p x)
MSE( n1 + P(x(x
)
2
i x)
i

Dac

|T0 | < t1 2 ; n2 ,

atunci acceptm ipoteza

(H0 );

|T0 | t1 2 ; n2 ,

atunci acceptm ipoteza

(H1 );

Dac

(4) n concluzie, regresia este o unealt dibace pentru predicie. Economitii care o utilizeaz pot prezice
cu succes chiar

10

Exemplu 27.7

dintre ultimele

recesiuni!

Un interval de ncredere pentru

ybp

la nivelul de ncredere

h
ybp S t1 2 ; n2 ,
unde

s
S=

este:

i
ybp + S t1 2 ; n2 ,

(27.20)


(xp x)2
1
MSE 1 + + P
.
2
n
i (xi x)


(de vericat!)

Observaia 27.8

Pn acum am vzut cum putem estima valoarea lui

putem inversa rolurile lui

y,

i putem vorbi astfel de

folosind pe

x.

n unele cazuri,

regresie a lui x n raport cu y .

De exemplu,

n Exerciiul 28.1 am putea estima notele la Probabiliti n funcie de notele la Statistic.


obinute pentru dreapta de regresie a lui
regresie a lui

n raport cu

x,

n raport cu

n care rolurile lui

Formulele

sunt cele gsite anterior pentru dreapta de

sunt inversate.

202

Laborator 14 [Dr. Iulian Stoleriu]

28 Statistic Aplicat (L14)


Regresie (exerciii rezolvate)
Fie

doi vectori de acelai tip. Urmtoarele funcii din

Matlab sunt utile pentru analiza corelaiei

i regresiei:

scatter(X,Y)

reprezint grac valorile lui

vs. valorile lui

X;

R = corrcoef(X,Y) calculeaz coecientul de corelaie ntre X i Y. Rezultatul este aat sub forma:
>> ans =
1.0000

1.0000
unde

1.0000 este coecientul de corelaie dintre X i X, respectiv Y i Y, iar este coecientul cutat.

cov(X,Y) pentru matricea de covarian empiric dintre X i Y (formula (9.2));


Funcia cov(X,Y,1) este tot matrice de covarian, ns n acest caz formula folosit

este (9.3).

b = regress(Y,X) aeaz estimarea coecienilor pentru care Y = b X . Aici, X este o matrice


n k i Y un vector coloana n 1. Coloanele vectorului X corespund observaiilor (i.e., variabilelor
independente).
Dac
Dac

X este un vector coloan de aceeai dimensiune cu Y, atunci b este doar un scalar.


X este matrice, atunci putem folosi aceast comand pentru a estima coecienii de

liniar multipl.

regresie

Spre exemplu, s presupunem c se dorete estimarea coecienilor de regresie

liniar simpl, i.e.,

observaii. n acest caz,

1 pentru care y = 0 + 1 x, unde pentru ecare


k = 2. Fie X, respectiv, Y vectorii ce conin aceste

Matlab care estimeaz cei doi coecieni este

dintre

avem

observaii. Comanda

B = regress(Y', [ones(n,1)'; X]')


0 i 1 ce fac urmtoarea

1
x1
x2
1

.
. + 1 .
.
.
.
.
1
xn

Comanda furnizeaz aproximri pentru parametrii


bun:

y1
y2

..
.
yn

aproximare ct mai

p = polyfit(X,Y,n) gsete coecienii unui polinom p(x) de grad n ale crui valori p(xi ) se apropie
cel mai mult de datele observate yi , n sensul celor mai mici ptrate.
va aa n acest
caz un vector linie de lungime n + 1, coninnd coecienii polinomiali n ordinea descresctoare a

Matlab

puterilor. Spre exemplu, dac

p(x) = 0 + 1 x + 2 x2 + + n xn ,
atunci

Matlab va aa

n , . . . , 1 , 0 .

203

Laborator 14 [Dr. Iulian Stoleriu]

Y = polyval(p,X) aeaz valorile unui polinom p(x) pentru valorile din vectorul X . Polinomul
p(x) este dat prin coecienii si, ordonai n ordine descresctoare a puterilor. De exemplu, dac
p(x) = 3x2 + 2x + 4 i dorim s evalum acest polinom pentru trei valori, 3, 1 i 5, atunci scriem
n

Matlab:

p = [3

2 4];

polyval(p,[-3 1 5])

obinnd rezultatul:

ans =

Exerciiu 28.1

37

Dorim s determinm dac exist vreo corelaie ntre notele la examenul de Probabiliti

i cele de la Statistic obinute de studenii unui an de studiu.


obinute de

10

n acest sens, au fost observate notele

studeni la aceste dou discipline i au fost trecute n Tabelul 28.1 de mai jos. Se cere:

(a) Stabilii dac exist o legtur puternic ntre aceste note (r i


(b)

69

r2 );

Determinai dreapta de regresie a notelor de la Statistic n raport cu notele la Probabiliti i

desenai-o n acelai sistem de axe ca i notele obinute (

scatter plot).

(c) Testai dac exist sau nu vreo corelaie ntre notele de la Statistic i Probabiliti.

Student

Probabiliti

82
84

36
42

72
50

58
64

70
68

48
54

44
46

94
80

60
60

40
32

Statistic

Tabela 28.1: Notele la Statistic i Probabiliti.


Soluie:
n codul

(a) Calculm r cu formula (25.1). Funcia Matlab pentru coecientul Pearson este corrcoef.
Matlab de mai jos l-am calculat pe r folosind aceast funcie, dar i n dou alte modaliti,

folosind formula (25.2) sau scriind desfurat expresia lui


(b) Coecienii de regresie se pot obine n

r.

Matlab

3 moduri, e folosind funcia


polyfit, care realizeaz
S(P ) = 0 + 1 P . O alt variant

tarea datelor cu un polinom, n cazul liniar ind un polinom de forma


de calcul a coecienilor

este simpla implementare n

treia variant este folosirea funciei

regress

din

Matlab.

Matlab a formulelor pentru acetia.

Reprezentarea grac a datelor poate  realizat folosind ori funcia


funcii predenite din

Matlab. Gracul este cel din Figura 28.1.

plot,

ori funcia "scatter", ambele

P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32];
mp = mean(P); ms = mean(S);
%%%~~~~~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~~~~
CC = corrcoef(P,S); r = CC(1,2)
%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
% C = cov(P,S)/(std(P)*std(S)); r = C(1,2);
% r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2));
%%%~~~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~
B = polyfit(P,S,1)
%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
% b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms - b1*mp;

204

Laborator 14 [Dr. Iulian Stoleriu]

% B = regress(S',[P;ones(10,1)']');
%%%~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-')
% scatter(P,S)
% varianta pentru scatter plot
%%%~~~~~~~~~~~~~~~~~~~~~~~ Testul pentru = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2)); quant = tinv(1-alpha/2,n-2);
if (abs(T0) < quant)
disp('P si S nu sunt corelate')
else
disp('P si S sunt corelate')
end
Rulnd codul de mai sus, obinem:

r =
0.8247

B =
0.7553

P si S sunt corelate

10.3816

Figura 28.1: Notele i dreapta de regresie.

Exerciiu 28.2

Fie irul de date:

x =
y =

0.3
3.52

0.8
4.53

S se studieze existena unei dependene ntre

Soluie:

Calculm

ln y =

ln y .

1.2
5.58
x

1.6
6.62

de forma

2.1
8.27

2.4
10.18

2.7
11.80

y = a eb x .

Obinem:

1.2585

1.5107

1.7192

1.8901

2.1126

2.3204

2.4681

205

Laborator 14 [Dr. Iulian Stoleriu]


Se observ c

r = 0.9988 1

(coecientul de corelaie ntre

avem o regresie liniar ntre variabilele


gsim:

0 = 1.1074,

1 = 0.4980.

ln y .

ln y ),

de unde bnuim c e posibil s

Estimm coecienii de regresie ai lui

Aceasta poate  realizat n

Matlab prin comanda

ln y

fa de

regress(log(y)',[x',ones(7,1)])
Aadar,

ln y = 0.4980 x + 1.1074,

de unde

y = e1.1074 e0.4980 x 3 ex/2 .

n Figura 28.2 am reprezentat

grac datele observate i aproximrile lor.

Figura 28.2: Aproximarea datelor din Exerciiul 28.2

Exerciiu 28.3
la ecare

1km

Prognoza spune c temperatura ntr-o anumit zon muntoas descrete cu cca.

ctigat n nlime.

Pentru o vericare, au fost msurate simultan temperaturile

6 C
n 10

localiti diferite din acea zon, acestea ind nregistrate n Tabelul 28.2. Dac temperatura se presupune

hi
Ti

500
15

1000
14

1500
11

2000
6

2500
1

3000
2

3500
0

4000
4

4500
8

5000
14

Tabela 28.2: Tabel cu temperaturi (Ti ) la diverse altitudini (hi ).


a  o funcie liniar (regresie liniar) de altitudine, se cere:
(i) S se estimeze parametrii
(ii) S se testeze (

= 0.05)

1 ;

dac prognoza din enun este adevarat (i.e.,

1 = 0.006);
1 ;

(iii) S se gseasc un interval de ncredere pentru panta dreptei de regresie,

(iv) Ct de bun este aproximarea temperaturii cu o funcie liniar de altitudine?


(v) Estimai temperatura la altitudinea

h = 2544.

Gsii, de asemenea, un interval de ncredere pentru

aceasta temperatur.

Soluie:

polyfit

(i)

Estimm parametrii necunoscui folosind formulele (27.4) sau folosind funcia

(vezi codul de mai jos).

(ii) Pentru testarea ipotezei nule

(H0 ) : 1 = 0.006

utilizm testul din Seciunea .

Matlab

206

Laborator 14 [Dr. Iulian Stoleriu]


(iii) Un interval de ncredere pentru

se poate calcula folosind formula (27.15).

(iv) Pentru a decide ct de bun este aproximarea, calculm coecientul de determinare,

R2

= 94.83,

Codul

Acesta este

ceea ce nseamn c temperatura real este foarte aproape de cea prognozat.

(v) Utilizm formulele (27.18) i (27.19), pentru


jos)

R2 .

xp = 2544.

(vezi rezultatele generate de codul de mai

Matlab este urmtorul:

h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000];
T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T);
%%%~~~~~~ Calculez coeficientul de corelatie empiric si coeficientul de determinare ~~~
CC = corrcoef(h,T); r = CC(1,2)
R2 = r^2
%%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
B = polyfit(h,T,1)
%%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
% B = regress(T',[h;ones(10,1)']');
% b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT - b1*mh;
%%%~~~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~
x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-')
%%%~~~~~~ Testul pentru panta dreptei de regresie, (H0 ) : 1 = 0.006 ~~~~~~~~~~~~~~~~
alpha = 0.05; n = 10;
sigmahat = sqrt(sum((T-B(2) - B(1)*h).^2)/(n-2));
sigmax = std(h);
T0 = (B(1)+0.006)*sigmax/sigmahat; quant = tinv(1-alpha/2,n-2);
if (abs(T0) < quant)
disp('ipoteza (H0 ) se accepta')
else
disp('ipoteza (H0 ) se respinge')
end
%%%~~~~~~~~~~~~~~~
Interval de incredere pentru 1 ~~~~~~~~~~~~~~~~~~~~~~~
CI = [B(1) - quant*sigmahat/sigmax,\;B(1) + quant*sigmahat/sigmax]
hp = 2544; Tp = B(2) + B(1)*hp
CI_T = [Tp - quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}, ...
Tp + quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}]
Rulnd codul de mai sus, obinem:

r =
-0.9738

R2 =
94.83
Tp =
3.3610

B =

[-0.0061, 18.9333]
CI_T =

CI =

[-0.0096, -0.0026]

[-2.2335, 8.9555]

ipoteza nula se accepta


Alte funcii utile n

Statistics Toolbox):

Matlab pentru analiza regresional (unele disponibile doar n pachetul de programe

polytool(x, y) - determin o dreapt de regresie pentru datele coninut n vectorii x i y .

Desenul

aat este interactiv i apare ntr-o interfa grac.

polytool(x, y, n, alpha, xname, yname)

- aproximeaz datele bivariate

(x, y)

cu un polinom

207

Laborator 14 [Dr. Iulian Stoleriu]

Figura 28.3: Diagrama de temperaturi n funcie de altitudine, i dreapta de regresie.

de grad

i deseneaz intervale de ncredere (la nivelul

sunt denumite prin

Exemplu 28.4

xname,

respectiv

pentru valorile prezise. Valorile lui

yname.

Urmtoarele comenzi aeaz gracul din Figura 28.4.

x = [-3 -2 -1 0 1 2]; y = [8.75 3.8 1.2 0.05 1.01 4.02];


polytool(x,y,2,0.05,'observatii pt X','observatii pt Y')
rstool(x, y, model, alpha, xname, yname)

- deschide o interfa interactiv pentru a deter-

(x, y), dup modelul precizat. Aici, model


linear, pure quadratic, interaction sau full quadratic.

mina suprafeele de rspuns pentru datele din vectorii


poate  una dintre urmtoarele:

Exemplu 28.5

Urmtoarele comenzi aeaz gracul din Figura 28.5.

X = [2 2 2; 2.5 2 2; 2 4.5 2; 2.5 4.5 2; 2 7 2; 2.5 7 2;...


2 2 5; 2.5 2 5; 2 4.5 5; 2.5 4.5 5; 2 7 5; 2.5 7 5];
Y = [291 353 400 400 504
442
273 304
397 424
402 431]';
xn = {'x1', 'x2', 'x3'}; yn = {'Y'};
rstool(X,Y, 'interaction', 0.05, xn, yn)

Laborator 14 [Dr. Iulian Stoleriu]

Figura 28.4: Curba de ordinul al doilea care aproximeaz datele (x, y).

Figura 28.5: Suprafee de rspuns pentru datele (x, y).

208

209

Anexa 1 [Dr. Iulian Stoleriu]

29

Anexa 1

Scurt introducere n

Matlab

Matlab este un pachet comercial de programe de nalt performan produs de The MathWorks, Inc.,
dedicat calculului numeric i reprezentrilor grace n domeniul tiinelor i ingineriei. Elementul de baz
cu care opereaz

Matlab-ul este matricea (Matlab este acronim de la MATrix LABoratory). Matlab

este un software standard n mediile universitare, precum i n domeniul cercetrii i rezolvrii practice a
problemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea datelor
experimentale, matematici nanciare, matematici aplicate n diverse domenii etc. Cea mai important
caracteristic a

Matlab-ului

este uurina cu care poate  extins.

La programele deja existente n

Matlab, utilizatorul poate aduga propriile sale coduri, dezvoltnd aplicaii specice domeniului n care
lucreaz. Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de
funcii Matlab (iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva
probleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz, cu
interpretor propriu, n jurul cruia sunt construite toolbox-urile.
Prezentm mai jos o scurt introducere n

Matlab a principalelor funcii i comenzi folosite n aceast

lucrare. Pentru o tratare mai detaliat, putei consulta un manual de utilizare sau [9]. Mai menionm
aici i lucrarea [1], unde putei gsi diverse modaliti de implementare n

Matlab ale unor noiuni de

Teoria Probabilitilor i Statistic matematic.


Folosind comanda

demo din Matlab, putei urmri o demonstraie a principalelor faciliti din Matlab,

toolbox)

ct i a pachetelor de funcii (

Toolbox,

de care ai putea  interesai. Dintre acestea, amintim

Statistics

care este o colecie de funcii folosite pentru analiza, modelarea i simularea datelor. Conine:

analiza gracelor (GUI), diverse repartiii probabilistice (beta, binomial, Poisson,

2 ),

generarea nume-

relor aleatoare, analiza regresional, descrieri statistice.

Comenzile

Matlab pot  scrise n iere cu extensia .m, ce urmeaz apoi a  compilate. Un ier-m

const dintr-o succesiune de instruciuni, cu posibilitatea apelrii altor iere-M precum i a apelrii
recursive. De asemenea,

Matlab poate  folosit ca pe un mediu computaional interactiv, caz n

care ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot  vizualizate sau
evaluate imediat. De exemplu, introducnd la linia de comand

>> a = sqrt((sqrt(5)+1)/2)

Matlab denete o variabil de memorie a, creia i atribuie valoarea


a =
1.2720

Variabilele sunt denite cu ajutorul operatorului de atribuire,

=,

i pot  utilizate fr a declara

de ce tip sunt. Valoarea unei variabile poate : o constant, un ir de caractere, poate reiei din
calculul unei expresii sau al unei funcii.

Pentru a gsi informaii imediate despre vreo funcie predenit, comanda


De exemplu,

help

va vine n ajutor.

210

Anexa 1 [Dr. Iulian Stoleriu]


>> help length
aeaz urmtoarele:

LENGTH Length of vector.


LENGTH(X) returns the length of vector X. It is equivalent
to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones.
See also numel.

help poate  utilizat doar dac se cunoate exact


lookfor este recomandat. De exemplu, comanda

Comanda
menzii

numele funciei. Altfel, folosirea co-

>> lookfor length


produce:

NAMELENGTHMAX Maximum length of MATLAB function or variable name.


VARARGIN Variable length input argument list.
VARARGOUT Variable length output argument list.
LENGTH Length of vector.

Matlab este un mediu computaional orientat pe lucru cu vectori i matrice.

O linie de cod de

forma

>> v = [1,3,5,7,9]

% sau

v = [1 3 5 7 9]
1, 3, 5, 7, 9. Aceasta poate  realizat i folosind
de la 1 la 9, cu pasul 2. Pentru un vector coloan,

denete un vector linie ce are componentele


comanda

v = 1:2:9

adic aeaz numerele

folosim punct-virgul ntre elemente, adic

>> v = [1;3;5;7;9]

% vector coloana

O alt variant de a deni un vector este

>> v = linspace(x1,x2,n)
adic

este un vector linie cu

componente, la intervale egale ntre

x1

x2.

Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instruciuni i funcii. La denirea explicit, trebuie inut cont de urmtoarele: elementele matricei sunt
cuprinse ntre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaii libere sau
virgule, liniile se separ prin semnul punct-virgul. De exemplu, comanda

>> A = [1 2 3; 4, 5, 6]

211

Anexa 1 [Dr. Iulian Stoleriu]


denete matricea

A =

2
5

3
6

Apelul elementelor unei matrice se poate face prin comenzile

A(i,:)

coloan

j)

Funcia

Matlab ones(m,n)
zeros(m,n) denete

Funcia
ordin

1
4

sau

(elementele de linia

A(i,j)

sau

A(:,j)

(elementele de

i);
m n, avnd toate componentele egale cu 1.
m n. Funcia eye(n) denete matricea unitate de

denete o matrice
o matrice zero

n.

Dup cum vom vedea mai jos,

Matlab permite denirea unor funcii foarte complicate prin scri-

erea unui cod. Dac funcia ce o avem de denit este una simpl, atunci avem varianta utilizrii
comenzii

inline.

Spre exemplu, denim funcia

f (x, y) = e5x sin 3y :

>> f = inline('exp(5*x).*sin(3*y)')
f =
Inline function:
f(x,y) = exp(5*x).*sin(3*y)
Putem apoi calcula

>> f(7,pi)

f (7, )

prin

0.5827

Un program

Matlab poate  scris sub forma ierelor script sau a ierelor de tip funcie. Ambele

tipuri de iere sunt scrise n format ASCII. Aceste tipuri de iere permit crearea unor noi funcii,
care le pot completa pe cele deja existente. Un ier
ven de comenzi

script este un ier extern care conine o sec-

Matlab. Prin apelarea numelui ierului, se execut secvena Matlab coninut

n acesta. Dup execuia complet a unui ier script, variabilele cu care acesta a operat rmn
n zona de memorie a aplicaiei. Fiierele script sunt folosite pentru rezolvarea unor probleme care
cer comenzi succesive att de lungi, nct ar putea deveni greoaie pentru lucrul n mod interactiv,
adic n modul linie de comand.

Pentru a introduce date n

Matlab, putem copia datele direct ntr-un ier Matlab, prin denirea unui

vector sau a unei matrice de date. De exemplu, urmtoarele date au fost introduse prin "copy-paste" n
matricea

data:

>> data =
21.3 24.1
18.4 20.5
22.1 16.6
];
Datele din

[
19.9 21.0
17.5 23.2
23.5 19.7

Matlab pot  salvate astfel:

% atribuirea valorilor matricei data


% prima linie a datelor copiate
% ultima linie a datelor copiate
% inchidem paranteza ce defineste matricea de date

212

Anexa 1 [Dr. Iulian Stoleriu]


>> cd('c:\fisierul_de_lucru');
>> save Timpi_de_reactie data;

% alegem fisierul unde salvam datele


% salveaza in fisierul Timpi_de_reactie.mat

Datele pot  rencrcate folosind comanda

load Timpi_de_reactie
Timpi_de_reactie

% incarca datele din fisier


% afiseaza datele incarcate

Fiierele funcie

Matlab creaz cadrul propice extinderii funciilor sale, prin posibilitatea crerii de noi iere.
dac prima linie a ierului
ier funcie.
acesteia.

.m

conine cuvntul

function,

Astfel,

atunci ierul respectiv este declarat ca ind

Variabilele denite i manipulate n interiorul ierului funcie sunt localizate la nivelul

Prin urmare, la terminarea execuiei unei funcii, n memoria calculatorului nu rmn dect

variabilele de ieire ale acesteia. Forma general a primei linii a unui ier este:

function[param_iesire] = nume_functie(param_intrare)
unde:

function

este este cuvntul care declar ierul ca ier funcie;

nume_functie

este numele funciei, care este totuna cu numele sub care se salveaz ierul;

param_iesire

sunt parametrii de ieire;

param_intrare

sunt parametrii de intrare.

Comenzile i funciile care sunt utilizate de nou funcie sunt nregistrate ntr-un ier cu extensia

Exemplu 29.1
tor

Fisierul

.m.

medie.m calculeaz media aritmetic a sumei ptratelor componentelor unui vecmean(X.^2)):

(alternativ, aceast lucru poate  realizat prin comanda

function m2 = medie(X)
n = length(X); m2 = sum(X.^2)/n;

Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab
(iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din
domenii variate.

Statistics Toolbox

reprezint o colecie de funcii folosite pentru analiza, modelarea i

simularea datelor i conine: generarea de numere aleatoare; distribuii, analiza grac interactiv (GUI),
analiza regresional, descrieri statistice, teste statistice.
n Tabelul 29.1 am adunat cteva comenzi utile n

Matlab.

213

Anexa 1 [Dr. Iulian Stoleriu]


%
help rand
lookfor normal
X=[2 4 6 5 2 7 10]
X=[3; 1; 6.5 ;0 ;77]
X = -10:2:10
length(X)
t=0:0.01:3*pi
X.^2
X.*Y
cumsum(X)
cumprod(X)
min(X)
max(X)
sort(X)
sort(X, 'descend')
erf(X)
exp(x)
log(x)
sqrt(x)
num2str(x)
factorial(n)
A = ones(m,n)
B = zeros(m,n)
I = eye(n)
A = [3/2 1 3 7; 6 5 8 8; 3 6 9 12]
size(A)
det(A)
inv(A)
A'
A(:,7)
A(1:20,1)
nchoosek(n,k)
1e5
exp(1)
bar(X) sau barh(X)
hist(X)
hist3(x,y,z)
plot(X(1:5),'*m')
plot(t,X,'-')
plot3(X,Y,Z)
stairs(X)
subplot(m,n,z)
semilogx i semilogy
hold on
clf
clear all
title('Graficul functiei')
find
legend

%
%
%

permite adaugarea de comentarii in cod

rand
normal

help specic pentru funcia

cauta intrarile n

Matlab pentru

vector linie cu

vector coloan cu

10

7
5

elemente

2 n 2
% lungimea vectorului X
% denete o diviziune a [0, 3] cu diviziunea 0.01
% ridic toate componentele vectorului X la puterea a doua
% produsul a doi vectori
% suma cumulat a elementelor vectorului X
% produsul cumulativ al elementelor vectorului X
% realizeaz minimum dintre componentele lui X
% realizeaz maximum dintre componentele lu X
% ordoneaz componentele lui X n ordine crescatoare
% ordoneaz componentele lui X n ordine descrescatoare
% funcia eroare
% calculeaz exponenial ex
% calculeaz logaritmul natural ln(x)
% calculeaz radicalul ordinului doi dintr-un numr
% furnizeaz valoarea numeric a lui x
% n!
% A e matrice m n, cu toate elementele 1
% matrice m n zero
% matrice unitate, n n
% matrice 3 3
% dimensiunea matricei A
% determinantul matricei A
% inversa matricei A
% transpusa matricei A
% coloana a 7-a a matricei A
% scoate primele 20 de linii ale lui A
% combinri de n luate cte k
% numarul 105
% numarul e
% reprezentarea prin bare
% reprezentarea prin histograme
% reprezentarea prin histograme 3-D
% deseneaz primele 5 componente ale lui X , cu * magenta
% deseneaz gracul lui X versus t, cu linie continua
% deseneaz un grac n 3-D
% deseneaz o funcie scara
% mparte gracul n m n zone & deseneaz n zona z
% logaritmeaz valorile de pe absci, resp., ordonata
% reine gracul pentru a realiza o nou gura
% terge gura
% terge toate variabilele denite
% adaug titlu gurii
% gsete indicii elementelor nenule ale unui vector
% ataeaz o legend la un grac
vector cu numerele intregi de la

Tabela 29.1: Funcii

Matlab utile

la

10,

elemente

din

214

Anexa 2 [Dr. Iulian Stoleriu]

Anexa 2

30

Exemple de repartiii discrete


n dreptul ecrei repartiii, n parantez, apare numele cu care aceasta care poate  apelat n

(1)

Repartiia uniform discret, U(n)

Scriem c

X U(n),

dac valorile lui

sunt

(unid)

{1, 2, . . . , n},

P (X = k) =
Media i dispersia sunt:

Exemplu:
(2)

E(X) =

n+1
2 ,

1
,
n

cu probabilitile

k = 1, 2, . . . , n.

n2 1
12 .

D2 (X) =

numrul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat

Repartiia Bernoulli25 , B(1, p)

Scriem

Matlab.

X B(1, p).

V.a.

U(6).

(bino)

de tip Bernoulli poate lua doar dou valori,

X = 1

(succes) sau

X = 0

P (X = 1) = p; P (X = 0) = 1 p.
E(X) = p; D2 (X) = p(1 p).

(insucces), cu probabilitile
Media i dispersia sunt:

Exemplu:
(3)

aruncarea o singur dat a unei monede ideale poate  modelat ca ind o v.a.

Repartiia binomial, B(n, p):

Scriem

B(1, 0.5).

(bino)

X B(n, p) (schema bilei revenite sau schema


X sunt {0, 1, . . . , n}, cu probabilitile

extragerilor cu repetiie)

(n > 0, p (0, 1)),

dac valorile lui

P (X = k) = Cnk pk (1 p)nk , k = 0, 1, . . . , n.
Media i dispersia sunt:
Dac

(Xk )k=1,n B(1, p)

Exemplu:
(4)

E(X) = np; D2 (X) = np(1 p).


i

(Xk )k

independente stochastic, atunci

Xk B(n, p).

k=1
aruncarea de

15 ori a unei monede ideale poate  modelat ca ind o v.a.

Repartiia hipergeometric, H(n, a, b)

X H(n, a, b)

Cak Cbnk
,
n
Ca+b

pentru orice

binomial

B(15, 0.5).

(hyge)

(schema bilei nerevenite sau schema extragerilor fr repetiie)

P (X = k) =
25 Jacob

X=

n
X

ce satisface

Bernoulli (1654 1705), matematician elveian

(n, a, b > 0)

dac

max(0, n b) k min(a, n).

215

Anexa 2 [Dr. Iulian Stoleriu]


EX =

Media i dispersia sunt:

n
X

E(Xi ) = np; D2 (X) = np(1 p)

i=0

Observaia 30.1

(i)

Dac

(Xk )k=0,n B(1, n),


n
X

X=

cu

p=

a+bn
.
a+b1

a
a+b (v.a. dependente stochastic), atunci

Xi H(n, a, b).

i=1
n cazul schemei bilei nerevenite, nu mai putem scrie egalitate ntre

D2 (X)

n
X

D2 (Xi ),

deoarece

(Xi )i

i=0
nu sunt independente stochastic.
(ii)

Pentru

N = a + b  n,

putem face aproximarea

a+bn
a+b1

a+bn
a+b

=1

n
N , de unde


n
.
D2 (X) np(1 p) 1
N

(30.1)

Observm c repartiiile binomial i hipergeometric au aceeai medie, ns dispersiile difer prin terme-

N n
N 1 . n cazul n care numrul de bileeste mult mai mare dect numrul de extrageri (N  n), atunci
n
acest termen devine aproximativ 1
N . n plus, dac N este foarte mare, atunci trecnd N n

nul

(30.1), gsim c i dispersiile celor dou repartiii coincid. Cu alte cuvinte, cnd numrul de bile din urn
este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiie sau nu. Acest fapt l vom
utiliza n Teoria seleciei, cnd extragerile se fac dintr-o colectivitate de volum foarte mare.

(5)

Repartiia Poisson26 , P()

(poiss)

) realizate ntr-un anumit interevenimentelor rare) dac X ia valori naturale,

Valorile sale reprezint numrul evenimentelor spontane (cu intensitatea


val de timp. Pentru un

> 0,

spunem c

X P()

(legea

cu probabilitile

P (X = k) = e

k
, k N.
k!

E(X) = ; D2 (x) = .
(6)

Repartiia geometric, Geo(p)

(geo)

Valorile sale reprezint numrul de insuccese avute pn la obinerea primului succes,


stiind probabilitatea de obinere a unui succes,
Spunem c

X Geo(p),

(p (0, 1))

dac

P (X = k) = p(1 p)k ,
E(X) =

p.
ia valori n

N,

pentru orice

cu probabilitile

k N,

unde

p 0.

1p
1p
; D2 (X) =
.
p
p2

Observaia 30.2
primul succes.
26 Simon-Denis

Dac

X Geo(p),

atunci variabila aleatoare

Y =X +1

reprezint

ateptarea pn la

Poisson (1781 1840), matematician i zician francez, student al lui Laplace

216

Anexa 2 [Dr. Iulian Stoleriu]


(7)

Repartiia binomial cu exponent negativ, BN (m, p)

(nbin)

Valorile sale reprezint numrul de insuccese obinute nainte de a se realiza succesul de rang
n cazul particular
Pentru

m = 1,

m.

obinem repartiia geometric.

m 1, p (0, 1),

spunem c

X BN (m, p)

dac

ia valorile

{m, m + 1, m + 2, . . . },

cu

probabilitile

m1
P (X = k) = Cm+k1
pm (1 p)k , k m, p 0.
Media i dispersia sunt:

E(X) =

m(1 p)
m(1 p)
; D2 (X) =
.
p
p2

Exemple de repartiii continue


(1)

Repartiia uniform, U(a, b)

V.a.

X U(a, b) (a < b)

(unif)

dac funcia sa de densitate este

1
ba


f (x; a, b) =
E(X) =

, dac x (a, b)
, altfel.

(b a)2
a+b
, D2 (X) =
.
2
12

Exemplu:

Alegerea la ntmplare a unei valori din intervalul

aceeai ans de a  aleas, urmeaz o repartiie

U(0, 1).

(0, 1),

Comanda

n cazul n care orice valoare are

rand

din

Matlab realizeaz acest

experiment (vezi capitolul urmtor).

(2)

Repartiia normal, N (, )

Spunem c

X N (, ),

dac

(norm)

are densitatea:
(x)2
1
f (x; , ) = e 22 , x R.
2

E(X) = i D2 (X) = 2 .
Se mai numete i repartiia gaussian. n cazul

= 0, 2 = 1

densitatea de repartiie devine:

x2
1
f (x) = e 2 , x R.
2

n acest caz spunem c

urmeaz

repartiia normal standard, N (0, 1).


clopotul lui Gauss

Gracul densitii de repartiie pentru repartiia normal este

(30.2)

(vezi Figura 30.1). Din

= 1), se observ c majoritatea valorilor nenule ale repartiiei normale standard


( 3, + 3) = (3, 3). Aceast armaie se poate demonstra cu ajutorul relaiei

grac (pentru

se a

n intervalul

(5.5).

Z N (0, 1), atunci X = Z + N (, ). n mod similar, dac X N (, ), atunci Z =


N (0, 1). Pentru o v.a. N (0, 1) funcia de repartiie este tabelat (valorile ei se gsesc n tabele)
are o notaie special, (x). Ea e denit prin:
Z x
y2
1
(x) =
e 2 dy.
(30.3)
2

Dac

217

Anexa 2 [Dr. Iulian Stoleriu]

Figura 30.1: Clopotul lui Gauss pentru X N (0, ), ( = 1, 2, 3)

Funcia de repartiie a lui

X N (, )

este dat prin

F (x) = (
(3)

x
),

Repartiia log-normal, logN (, )

x R.

(30.4)

(logn)

Repartiia log-normal este foarte util n Matematicile Financiare, reprezentnd o repartiie de preuri
viitoare pentru un activ nanciar.

Dac

X N (, ),

atunci

Y = eX

este o v.a.

nenegativ, avnd

densitatea de repartiie

(
f (x; , ) =

e
2

(ln x)2
2 2

0
Aadar,

Y logN (, )

dac

ln Y N (, ).
2
E(X) = e+ /2 ,

Media i dispersia sunt date de

(4)

, dac x > 0
, dac x 0
2

D2 (X) = e2+ (e 1).

Repartiia exponenial, exp()

(exp)

Valorile sale sunt timpi realizai ntre dou valori spontane repartizate
Spunem c

X exp() ( > 0)

dac are densitatea de repartiie


f (x; ) =
Media i dispersia sunt:

Observaia 30.3

E(X) =

P().

D2 (X) =

ex , dac x > 0
0
, dac x 0
1
.
2

Repartiia exponenial satisface proprietatea aa-numitei

lips de memorie, i.e.,

P ({X > x + y}|{X > y}) = P ({X > x}), x, y 0.

218

Anexa 2 [Dr. Iulian Stoleriu]

Este unica distribuie continu cu aceast proprietate. Distribuia geometric satisface o variant discret
a acestei proprieti. [

(5)

Vericai!]

Repartiia Gamma, (a, )

O v.a.

X (a, ), a, > 0,

(gam)

dac densitatea sa de repartiie este:

a a1 x
e
(a) x

, dac

x > 0,

, dac

x 0.

(
f (x; a, ) =
unde

este funcia lui Euler,

Z
: (0, ) (0, ),

(a) =

xa1 ex dx.

0
Media i dispersia sunt:

Observaia 30.4
(ii) Dac v.a.

(i)

E(X) =

a
a
, D2 (X) = 2 .

(1, ) exp().

{Xk }k=1,n exp()

sunt independente stochastic, atunci suma lor

n
X

Xk (n, ).

k=1

(6)

Repartiia Weibull27 , W bl(k, )

(wbl)

Aceast repartiie este asemntoare cu repartiia exponenial (aceast obinndu-se n cazul particular

k = 1)

k = 3.4, distribuia Weibull


k , aceast repartiie se apropie de funcia lui Dirac.
Vom spune c X W bl(k, ) (k > 0, > 0) dac are densitatea de repartiie
(

x k
k x k1 (
) , dac x 0
e

f (x; k, ) =
0
, dac x < 0.


1
Media pentru repartiia X W bl(k, ) este E(X) = 1 +
.
k
i poate modela repartiia mrimii particulelor. Cnd

este asemn-

toare cu cea normal. Cnd

(7)

Repartiia 2 , 2 (n)

O v.a.

X 2 (n)

(se citete

(chi2)

repartiia hi-ptrat cu n grade de libertate)

este:

f (x; n) =

n
( n
)2 2
2

0
unde

x 2 1 e 2

dac densitatea sa de repartiie

, dac

x > 0,

, dac

x 0.

este funcia lui Euler. Gracul acestei repartiii (pentru diverse valori ale lui

n Figura 30.2.
Media i dispersia sunt:

27 Ernst

E(2 ) = n, D2 (2 ) = 2n.

Hjalmar Waloddi Weibull (1887 1979), matematician i inginer suedez

n)

este reprezentat

219

Anexa 2 [Dr. Iulian Stoleriu]

Observaia 30.5
(b)

(a)

2 (n) este, de fapt, repartiia ( n2 , 21 ).


Xk N (0, 1) pentru k = 1, 2, . . . , n, atunci

Repartiia

Dac v.a. independente

X12 + X22 + + Xn2 2 (n).


n particular, dac

X N (0, 1),

atunci

X 2 2 (1).

Figura 30.2: Repartiia 2 (n) pentru patru valori ale lui n.

(8)

Repartiia Student (W. S. Gosset28 ), t(n)

Spunem c

X t(n)

(cu

(t)

grade de libertate) dac densitatea de repartiie este:

 
 n+1
2 2
n+1
x
2
 1+
f (x; n) =
,
n
n n2
E(X) = 0, D2 (X) =
(9)

n
.
n2

Repartiia Fisher29 , F(m, n)

Spunem c

E(X) =

X F(m, n)

(f)

m, n grade de libertate) dac densitatea de repartiie


m m m+n
 m+n
( n ) 2 ( 2 ) m2 1
m
2
x
1
+
x
, x > 0;
m
n
n
( 2 )( 2 )
f (x) =

0
, x 0.
(cu

este:

n
2n2 (n + m 2)
, D2 (X) =
.
n2
m(n 2)2 (n 4)

28 William
29 Sir

x R.

Sealy Gosset (1876 1937), statistician britanic, care a publicat sub pseudonimul Student
Ronald Aylmer Fisher (1890 1962), statistician, eugenist, biolog i genetician britanic

220

Anexa 2 [Dr. Iulian Stoleriu]


(10)

Repartiia Cauchy30 , C(, )

Spunem c

X C(, )

(fr corespondent n

dac densitatea de repartiie este:

f (x; , ) =

,
[(x )2 + 2 ]

NU admite medie, dispersie sau momente!!!

30 Augustin

Matlab)

Louis Cauchy (1789 1857), matematician francez

x R.

221

Bibliografie [Dr. Iulian Stoleriu]

Bibliograe
[1] Petru Blaga,

Statistic. . . prin Matlab, Presa universitar clujean, Cluj-Napoca, 2002.

[2] David Brink,

Statistics compendium, David Brink & Ventus Publishing ApS, 2008.

[3] David Brink,

Statistics exercises, David Brink & Ventus Publishing ApS, 2008.

[4] Gheorghe Ciucu, Virgil Craiu,


i Pedagogic, Bucureti,
[5] Steve Dobbs, Jane Miller,

Teoria estimaiei i vericarea ipotezelor statistice, Editura Didactic

1968.

Statistics 1, Cambridge University Press, Cambridge 2000.

[6] Jay L. DeVore, Kenneth N. Berk,

Modern Mathematical Statistics with Applications (with CD-ROM),

2006.

Duxbury Press,

[7] Robert V. Hogg, Allen Craig, Joseph W. McKean,


Hall, 6th edition,

Introduction to Mathematical Statistics, Prentice

2004.

[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu,

tistic, Editura tiinic i enciclopedic, Bucureti, 1985.

[9]

Mic enciclopedie de sta-

http://www.mathworks.com

[10] Gheorghe Mihoc, N. Micu,


[11] Elena Nenciu,

Teoria probabilitilor i statistica matematic, Bucuresti, 1980.

Lecii de statistic matematic, Universitatea A. I. Cuza, Iai, 1976.

[12] Octavian Petru,

Probabiliti i Statistica matematic - Computer Applications, Iai, 2000.

[13] Sanford Weisberg,

Applied Linear Regression,

Wiley series in Probability and Statistics,

3rd

ed.,

2nd

ed.,

2005.
[14] Larry J. Stephens,

Theory and problems of Beginning Statistics,

The McGraw-Hill Companies, Inc.,

[15] Dominick Salvatore, Derrick Reagle,


Outline Series,

2nd

Schaum's Outline Series,

1998.

Theory and problems of Statistics and Econometrics, Schaum's

ed., The McGraw-Hill Companies, Inc.,

2002.

Matlab. MatrixRom, Bucureti, 2010.

[16] Iulian Stoleriu,

Statistic prin

[17] Gbor Szkely,

Paradoxes in Probability Theory and Mathematical Statistics,

Applications), Springer Verlag,


[18] David Williams,
Press,

2001.

(Mathematics and its

1987.

Weighing the Odds: A Course in Probability and Statistics,

Cambridge University

S-ar putea să vă placă și