Sunteți pe pagina 1din 85

Iulian STOLERIU

Statistic Aplicat

1 Statistic Aplicat (C1) Introducere n Statistic


Scurt istoric
Statistica este o ramur a tiinelor ce se preocup de procesul de colectare de date i informaii, de organizarea i interpretarea lor, n vederea explicrii unor fenomene reale. n general, prin date (sau date statistice) nelegem o mulime de numere ce au o anumit nsemntate. Aceste numere pot  legate ntre ele sau nu. Suntem interesai de studiul acestor date, cu scopul de a nelege anumite relaii ntre diverse trsturi ce msoar datele culese. De regul, oamenii au anumite intuiii despre realitatea ce ne nconjoar, pe care le doresc a  conrmate ntr-un mod ct mai exact. De exemplu, dac ntr-o anumit zon a rii rata somajului este ridicat, este de ateptat ca n acea zon calitatea vieii persoanelor de acolo s nu e la standarde ridicate. Totui, ne-am dori s m ct mai precii n evaluarea legturii dintre rata somajului i calitatea vieii, de aceea ne-am dori s construim un model matematic ce s ne conrme intuiia. Un alt gen de problem: ardem de nerbdare s am cine va  noul preedinte, imediat ce seciile de votare au nchis porile (exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea i unicarea tuturor datelor ntr-un timp record nu este o msur deloc practic. n ambele probleme menionate, observaiile i culegerea de date au devenit prima treapt spre nelegerea fenomenului studiat. De cele mai multe ori, realitatea nu poate  complet descris de un astfel de model, dar scopul este de a oferi o aproximare ct mai del i cu costuri limitate. n ambele situaii menionate apar erori n aproximare, erori care in de ntmplare. De aceea, ne-am dori s putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecnd de la coleciile de date obinute dintr-o colectivitate, Statistica introduce metode de predicie i prognoz pentru descrierea i analiza proprietilor ntregii colectiviti. Aria de aplicabilitate a Statisticii este foarte mare: tiine exacte sau sociale, umanistic sau afaceri etc. O disciplin strns legat de Statistic este Econometria. Aceasta ramur a Economiei se preocup de aplicaii ale teoriilor economice, ale Matematicii i Statisticii n estimarea i testarea unor parametri economici, sau n prezicerea unor fenomene economice. Statistica a aprut n secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre populaiile pe care le reprezentau sau de a studia mersul economiei locale, n vederea unei mai bune administrri. Datorit originii sale, Statistica este considerat de unii ca ind o tiin de sine stttoare, ce utilizeaz aparatul matematic, i nu este privit ca o subramur a Matematicii. Dar nu numai originile sale au fost motivele pentru care Statistica tinde s devin o tiin separat de Teoria Probabilitilor. Datorit revoluiei computerelor, Statistica a evoluat foarte mult n direcia computaional, pe cnd Teoria Probabilitilor foarte puin. Aa cum David Williams scria n [18], "Teoria Probabilitilor i Statistica au fost odat cstorite; apoi s-au separat; n cele din urm au divorat. Acum abia c se mai ntlnesc". Din punct de vedere etimologic, cuvntului statistic i are originile n expresia latin statisticum collegium (nsemnnd consiliul statului) i cuvntul italian statista, nsemnnd om de stat sau politician. n 1749, germanul Gottfried Achenwall a introdus termenul de Statistik, desemnat pentru a analiza datele referitoare la stat. Mai trziu, n secolul al XIX-lea, Sir John Sinclair a extrapolat termenul la colecii i clasicri de date. Metodele statistice sunt astzi aplicate ntr-o gam larg de discipline. Amintim aici doar cteva

C1 & L1 [Dr. Iulian Stoleriu]

exemple:
n Agricultur, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a  folosite

pe un anumit teren arabil;

n Economie, pentru studiul rentabilitii unor noi produse introduse pe pia, pentru core-

larea cererii cu ofert, sau pentru a analiza cum se schimb standardele de via; pentru selectarea unor noi specii;

n Biologie, pentru clasicarea din punct de vedere tiinic a unor specii de plante sau n tiinele educaiei, pentru a gsi cel mai ecient mod de lucru pentru elevi sau pentru a

studia impactul unor teste naionale asupra diverselor caregorii de persoane ce lucreaz n nvmnt; sau pentru a studia efectele nclzirii globale;

n Meteorologie, pentru a prognoza vremea ntr-un anumit inut pentru o perioad de timp, n Medicin, pentru testarea unor noi medicamente sau vaccinuri; n Psihologie, n vederea stabilirii gradului de corelaie ntre timiditate i singurtate; n Politologie, pentru a verica dac un anumit partid politic mai are sprijinul populaiei; n tiinele sociale, pentru a studia impactul crizei economice asupra unor anumite clase

sociale;

etc.

Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai nti care este colectivitatea asupra creia se dorete studiul. Aceast colectivitate (sau populaie) poate  populaia unei ri, sau numai elevii dintr-o coal, sau totalitatea produselor agricole cultivate ntr-un anumit inut, sau toate bunurile produse ntr-o uzin. Dac se dorete studiul unei trsturi comune a tuturor membrilor colectivitii, este de multe ori aproape imposibil de a observa aceast trstur la ecare membru n parte, de aceea este mult mai practic de a strnge date doar despre o submulime a ntregii populaii i de a cuta metode eciente de a extrapola aceste observaii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cu descrierea acestei colecii de date, numit Statistic descriptiv. Aceast descriere a trsturilor unei colectiviti poate  fcut att numeric (media, dispersia, mediana, cuantile, tendine etc), ct i grac (prin puncte, bare, histograme etc). De asemenea, datele culese pot  procesate ntrun anumit fel, nct s putem trage concluzii foarte precise despre anumite trsturi ale ntregii colectiviti. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale ntregii colectiviti, studiind doar o parte din ea, se numete Statistic inferenial. n contul Statisticii infereniale putem trece i urmtoarele: luarea de decizii asupra unor ipoteze statistice, descrierea gradului de corelare ntre diverse tipuri de date, estimarea caracteristicilor numerice ale unor trsturi comune ntregii colectiviti, descrierea legturii ntre diverse caracteristici etc. Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract a Statisticii. Din datele culese pe cale experimental, Statistica Matematic va cuta s extrag

C1 & L1 [Dr. Iulian Stoleriu]

informaii i s le interpreteze. Un cercettor ntr-un domeniul teoretic al Statisticii, cum este i Statistica Matematic, va cuta s mbunteasc metodele teoretice existente sau s introduc altele noi. Aceasta va utiliza noiuni din Teoria probabilitilor, dar i noiuni din alte ramuri ale Matematicii, cum ar : Algebra liniar, Analiza matematic, Teoria optimizrii. De asemenea, partea computaional este deosebit de util n studiul Statisticii moderne, fr de care cercetarea ar  ngreunat sau, uneori, chiar imposibil de realizat. n aceast lucrare vom utiliza pachetele de programe pentru efectuarea calculelor, n versiunea 7.1. Acest software este introdus i dezvoltat de compania The MathWorks (vezi [9]).

Matlab

Matlab

Modelare Statistic
De obicei, punctul de plecare este o problem din viaa real, e.g., care partid are o susinere mai bun din partea populaiei unei ri, dac un anumit medicament este relevant pentru boal pentru care a fost creat, dac este vreo corelaie ntre numrul de ore de lumina pe zi i depresie. Apoi, trebuie s decidem de ce tipuri date avem nevoie s colectm, pentru a putea da un rspuns la ntrebarea ridicat i cum le putem colecta. Modurile de colectare a datele pot  diverse: putem face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este nevoie de o metod bine stabilit de colectare a datelor i s construim un model statistic potrivit pentru analiza acestora. n general, date culese de noi pot  potrivite ntr-un model statistic prin care Data observat = f (x, ) + eroare de aproximare, (1.1) unde f este o funcie ce veric anumite proprieti i este caracteristic modelului, x este vectorul ce conine variabilele msurate i e un parametru (sau un vector de parametri), care poate  determinat sau nedeterminat. Termenul de eroare apare deseori n pratic, deoarece unele date culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, i eventual revizuit, astfel nct s se potriveasc ntr-o msur ct mai precis datelor culese. Denim o populaie (colectivitate) statistic ca ind o mulime de elemente ce posed o trasatur comun. Aceasta poate  nit sau innit, real sau imaginar. Elementele ce constituie o colectivitate statistic se vor numi uniti statistice sau indivizi. Volumul unei colectiviti statistice este dat de numrul indivizilor ce o constituie. Caracteristica (variabila) unei populaii statistice este o anumit proprietate urmrit la indivizii ei n procesul prelucrrii statistice. Caracteristicile pot : cantitative (msurabile sau variabile) (e.g., 2, 3, 5, 7, 11, . . . ) i calitative (nemsurabile sau atribute) (e.g., rou, verde, albastru etc). La rndul lor, variabilele cantitative pot  discrete (numrul de sosiri ale unui tramvai n staie) sau continue (timpul de ateptare ntre dou sosiri ale tramvaiului n staie). Caracteristicile pot depinde de unul sau mai multi parametri, parametrii ind astfel caracteristici numerice ale colectivitii. Suntem interesai n a msura una sau mai multe variabile relative la o populaie, ns aceasta s-ar putea dovedi o munc extrem de costisitoare, att din punctul de vedere al timpului necesar, ct i din punctul de vedere al depozitrii datelor culese, n cazul n care volumul colectivitii este mare sau foarte mare (e.g., colectivitatea este populaia cu drept de vot a unei ri i caracteristica urmrit este candidatul votat la alegerile prezideniale). De aceea, este foarte ntemeiat alegerea unei selecii de date din ntreaga populaie i s urmrim ca pe baza datelor selectate s putem trage o concluzie n ceea ce privete variabila colectivitii. O selecie (sau eantion) este o colectivitate parial de elemente extrase (la ntmplare sau nu)

C1 & L1 [Dr. Iulian Stoleriu]

din colectivitatea general, n scopul cercetrii lor din punctul de vedere al unei caracteristici. Dac extragerea se face la ntmplare, atunci spunem c am facut o selecie ntmpltoare. Numrul indivizilor din selecia aleas se va numi volumul seleciei. Dac se face o enumerare sau o listare a ecrui element component al unei a populaii statistice, atunci spunem c am facut un recensmnt. Selecia ar trebui s e reprezentativ pentru populaia din care face parte. Numim o selecie repetat (sau cu repetiie) o selecie n urma creia individul ales a fost reintrodus din nou n colectivitate. Altfel, avem o selecie nerepetat. Selecia nerepetat nu prezint interes dac volumul colectivitii este nit, deoarece n acest caz probabilitatea ca un alt individ s e ales ntr-o extragere nu este aceeai pentru toi indivizii colectivitii. Pe de alt parte, dac volumul ntregii populaii statistice este mult mai mare dect cel al eantionului extras, atunci putem presupune c selecia efectuat este repetat, chiar dac n mod practic ea este nerepetat. Spre exemplu, dac dorim s facem o prognoz a cine va  noul preedinte la alegerile din toamn, eantionul ales (de altfel, unul foarte mic comparativ cu volumul populaiei cu drept de vot) se face, n general, fr repetiie, dar l putem considera a  o selecie repetat, n vederea aplicrii testelor statistice. Seleciile aleatoare se pot realiza prin diverse metode, n funcie de urmtorii factori: disponibilitatea informaiilor necesare, costul operaiunii, nivelul de precizie al informaiilor etc. Mai jos prezentm cteva metode de selecie.
selecie simpl de un volum dat, prin care toi indivizii ce compun populaia au aceeai

ans de a  alei. Aceast metod mininimizeaz riscul de a  prtinitor sau favorabil unuia dintre indivizi. Totui, aceast metod are neajunsul c, n anumite cazuri, nu reect componena ntregii populaii. Se aplic doar pentru colectiviti omogene din punctul de vedere al trsturii studiate.

selecie sistematic, ce presupune aranjarea populaiei studiate dup o anumit schem ordonat i selectnd apoi elementele la intervale regulate. (e.g., alegerea a ecrui al 10-lea

numr dintr-o carte de telefon, primul numr ind ales la ntmplare (simplu) dintre primele 10 din list).

selecie straticat, n care populaia este separat n categorii, iar alegerea se face la ntm-

plare din ecare categorie. Acest tip de selecie face ca ecare grup ce compune populaia s poata  reprezentat n selecie. Alegerea poate  facut i n funcie de mrimea ecrui grup ce compune colectivitatea total (e.g., aleg din ecare jude un anumit numr de persoane, proporional cu numrul de persoane din ecare jude). anumite straturi (nu din toate). de pe o encefalogram).

selecie ciorchine, care este un eantion straticat construit prin selectarea de indivizi din selecia de tip experien, care ine cont de elementul temporal n selecie. (e.g., diveri timpi selecie de convenien: de exemplu, alegem dintre persoanele care trec prin faa universitii. selecie de judecat: cine face selecia decide cine ramne sau nu n selecie. selecie de cot: selecia ar trebui s e o copie a ntregii populaii, dar la o scar mult mai

mic. Aadar, putem selecta proporional cu numrul persoanelor din ecare ras, de ecare

C1 & L1 [Dr. Iulian Stoleriu]

gen, origine etnic etc) (e.g., persoanele din Parlament ar trebui s e o copie reprezentativ a persoanelor ntregii ri, ntr-o scar mult mai mic).

Organizarea i descrierea datelor


Presupunem c avem o colectivitate statistic, creia i se urmrete o anumit caracteristic. (e.g., colectivitatea este mulimea tuturor studenilor dintr-o universitate nrolai ntr-un anumit an de studii, iar caracteristica este numrul de credite obinute de studeni n decursul acelui an). Vom numi date informaiile obinute n urma observaiei valorilor acestei caracteristici. Datele pot  calitative sau cantitative, dup cum caracteristica (sau variabila) observat este calitativ sau, respectiv, cantitativ. Aceste date pot  date discrete, dac sunt obinute n urma observrii unei caracteristici discrete (o variabila aleatoare discret), sau date continue, dac aceast caracteristic este continu (o variabil aleatoare de tip continuu). n cazul din exemplu, datele vor  cantitative i discrete. Primul pas n analiza datelor proaspt culese este de a le ordona i reprezenta grac, dar i de a calcula anumite caracteristici numerice pentru acestea. Datele nainte de prelucrare, adic exact aa cum au fost culese, se numesc date negrupate. De exemplu, numrul de apeluri la 112 n luna Iulie, specicat zilnic, este:
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948 598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731

De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmrete a se grupa datele, pentru o mai uoar gestionare. Imaginai-v c enumerm toate voturile unei selecii ntmpltoare de 15000 de votani, abia ieii de la vot. Mai degrab, este util s grupm datele dup numele candidailor, preciznd numrul de voturi ce l-a primit ecare.

Gruparea datelor
Datele prezentate sub form de distribuie (tabel) de frecvene se numesc date grupate. Datele de selecie obinute pot  date discrete sau date continue, dup cum caracteristicile studiate sunt variabile aleatoare discrete sau, respectiv, continue. (1) Dac datele de selecie sunt discrete (e.g., {x1 , x2 , . . . , xn }) i au valorile distincte x1 , x2 , . . . , xr , r n, atunci ele pot  grupate ntr-un aa-numit tabel de frecvene (vezi exemplul din Figura 1.1) sau ntr-un tablou de frecvene, dup cum urmeaz:
data :
x1 f1 x2 f2 ... ... xr fr

unde fi este frecvena apariiei valorii xi , (i = 1, 2, . . . , r), i se va numi distribuia empiric de selecie a lui X . Aceste frecvene pot  absolute sau de relative. Un tabel de frecvene (sau o distribuie de frecvene) conine toate categoriile ce sunt observate din datele colectate i numrul de elemente ce aparine ecrei categorii n parte, adic frecvena absolut. O frecven relativ se obine prin mprirea frecvenei absolute a unei categorii la suma tuturor frecvenelor din tabel.

C1 & L1 [Dr. Iulian Stoleriu]


nota 2 3 4 5 6 7 8 9 10 Total frecvena 2 4 8 15 18 17 15 7 4 90 frecvena relativ 2.22% 4.44% 8.89% 16.67% 20.00% 18.89% 16.67% 7.78% 4.44% 100%

Tabela 1.1: Tabel cu frecvene pentru date discrete. Astfel, suma tuturor frecvenelor relative este egal cu 1. Elementele unui tabel sunt, de regul: valori pentru variabile, frecvene sau frecvene relative. n Tabelul 1.1, sunt prezentate notele studenilor din anul al III-lea la examenul de Statistic. Acesta este exemplu de tabel ce reprezent o caracteristic discret.

Observaia 1.1 (o glum povestit de G. Plya,1 despre cum NU ar trebui interpretat frecvena

relativ) Un individ suferind merge la medic. Medicul l examineaz ndelung i, balansnd dezamgit capul, i spune pacientului: "Of... drag domnule pacient, am dou veti: una foarte proast i una bun. Mai nti v aduc la cunotin vestea proast: suferii de o boal groaznic. Statistic vorbind, din zece pacieni ce contracteaz aceast boal, doar unul scap." Pacientul, deja n culmea disperrii, este totui consolat de doctor cu vestea cea bun: "Dar, i pe pace! Dumneavoastr ai venit la mine, i asta v face tare norocos", continu optimist doctorul. "Am avut deja nou pacieni ce au avut aceeai boal i toi au murit, aa c... vei supravieui!" (2) Dac X este de tip continuu, atunci se obinuieste s se fac o grupare a datelor de selecie n clase. De exemplu, ni se dau datele din Tabelul 1.2, reprezentnd timpi (n min.sec) de ateptare pentru primii 100 de clieni care au ateptat la un ghieu pn au fost servii. Putem grupa datele de tip continuu ntr-un tablou de distribuie de forma:
data :
[a0 , a1 ) f1 [a1 , a2 ) f2 ... ... [ar1 , ar ) fr

sau sub forma unui tabel de distribuie (vezi Tabelul 1.3). Aadar, putem grupa datele de tip continuu de mai sus n tablou de distribuie:
[0, 1) 14
1 Gyrgy

[1, 2) 17

[2, 3) 21

[3, 4) 18

[4, 5) 16

[5, 6) 14

(1.2)

Plya (1887 1985), matematician ungur

C1 & L1 [Dr. Iulian Stoleriu]


1.02 0.13 2.98 0.94 1.12 3.79 3.12 5.36 2.01 5.32 4.33 3.44 4.75 1.48 0.71 1.32 2.08 3.97 5.08 1.35 2.88 2.65 2.76 3.78 3.36 4.67 3.64 4.30 1.55 1.95 2.03 4.31 0.79 2.92 4.55 3.95 0.10 0.92 3.58 3.14 2.67 5.87 5.88 4.22 4.08 5.64 0.99 2.86 0.70 1.58 5.69 2.35 1.95 0.78 2.41 5.04 5.49 5.41 1.30 0.91 2.34 3.19 5.33 0.48 1.68 4.50 1.26 4.51 5.41 2.40 2.77 2.46 4.06 0.74 3.53 5.14 1.50 3.20 1.40 3.55 3.64 4.55 2.75 0.83 2.51 2.16 2.63 4.77 1.89 1.67 3.74 5.80 4.98 1.76 2.14 3.28 3.89 4.85 4.12 0.88

Tabela 1.2: Date statistice negrupate


clasa frecvena valoare medie

[a0 , a1 ) [a1 , a2 )
. . .

f1 f2
. . .

x1 x2
. . .

[ar1 , ar )

fr

xr

Tabela 1.3: Tabel cu frecvene pentru date continue. Uneori, tabelul de distribuie pentru o caracteristic de tip continuu mai poate  scris i sub forma:
data :
x1 f1 x2 f2 ... ... xr fr

unde
xi = ai1 + ai este elementul de mijloc al clasei [ai1 , ai ); 2
r

fi este frecvena apariiei valorilor din [ai1 , ai ), (i = 1, 2, . . . , r),


i=1

f i = n.

Aadar, dac ne este dat o niruire de date ale unei caracteristici discrete sau continue, atunci le putem grupa imediat n tabele sau tablouri de frecvene. Invers (avem tabelul sau tabloul de repartiie i vrem s enumerm datele) nu este posibil, dect doar n cazul unei caracteristici de tip discret. De exemplu, dac ni se d Tabelul 1.4, ce reprezint rata somajului ntr-o anumit regiune a rii pe categorii de vrste, nu am putea ti cu exactitate vrsta exact a persoanelor care au fost selecionate pentru studiu. Observm c acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi valoare de mijloc pentru o clas, valoarea obinut prin media valorilor extreme ale clasei. n cazul Tabelului 1.4, valorile de mijloc sunt scrise n coloana cu vrsta medie. Frecvena cumulat a unei clase este suma frecvenelor tuturor claselor cu valori mai mici. Vom numi o serie de timp (sau serie dinamic ori cronologic) un tablou de forma
data :
x1 t1 x2 t2 ... ... xn tn ,

C1 & L1 [Dr. Iulian Stoleriu]


vrsta frecvena 34 76 124 87 64 385 frecvena relativ 8.83% 19.74% 32.21% 22.60% 16.62% 100% frecvena cumulat 8.83% 28.57% 60.78% 83.38% 100.00% vrsta medie 21.5 30 40 50 60 -

[18, 25) [25, 35) [35, 45) [45, 55) [55, 65)
Total

Tabela 1.4: Tabel cu frecvene pentru rata somajului. unde xi sunt variabile de rspuns, iar ti momente de timp (e.g., rspunsurile citite de un electrocardiograf).

Motive serioase pentru care merit s devii statistician


(top 10)

(10) Pentru statisticienii, deviaiile sunt considerate a  normale. (9) Statisticienii lucreaz discret i continuu. (8) Putem concluziona orice dorim, la un nivel de semnicaie potrivit. (7) Nu trebuie s spunem niciodat ca suntem siguri; e sucient doar 95%. (6) Normalitatea nu este o condiie sine qua non. (5) Suntem semnicativ diferii. (4) Putem testa, fr probleme i folosind o lege bine stabilit, distribuia posterioar a cuiva. (3) Statistica este arta de a nu  nevoit s spui vreodat c ai greit. (2) Un statistician poate sta cu capul ntr-un cuptor incandescent i cu picioarele npte n ghea i s spun c, n medie, se simte bine. (1) Aproape nimeni nu dorete jobul nostru important, deci nu vei avea emoii c vei rmne omer.

Laborator 1 [Dr. Iulian Stoleriu]

2 Statistic Aplicat (L1)


Reprezentri grace
Un tabel de frecvene sau o distribuie de frecvene (absolute sau relative) sunt de cele mai multe ori baza unor reprezentri grace, pentru o mai bun vizualizare a datelor. Aceste reprezentri pot  fcute n diferite moduri, dintre care amintim pe cele mai uzuale.

0.6

0.4

0.2

10

Figura 2.1: Reprezentarea cu puncte.

Reprezentare prin puncte


Reprezentarea prin puncte (en., dot plot) este folosit pentru selecii de dimensiuni mici. Sunt reprezentate puncte aezate unul peste celalalt, reprezentnd numrul de apariii ale unei valori pentru caracteristica dat. Un astfel de grac este reprezentat n Figura 2.1. Aceste reprezentri sunt utile atunci cnd se dorete scoaterea n eviden a anumitor plcuri de date (en., clusters) sau chiar lipsa unor date (goluri). Au avantajul de a conserva valoarea numeric a datelor reprezentate. O funcie util pentru reprezentarea datelor discrete este funcia stem. Aceast funcie reprezint datele sub forma unor linii verticale terminate cu un un cercule gol (n mod implicit) la extremitatea opus axei. Are formatul general:
stem(X, Y, 'fill', 'type') % deseneaza pe Y vs. X

Matlab

Opiunea 'fill' poate lipsi; dac ea apare, atunci coloreaz cercurile din grac. Opiunea 'type' se refer la tipul de linie folosit; poate  linie continu (n mod implicit), punctat (:) sau de tip linie-punct (.). Spre exemplu, linia de cod
x = -pi:pi/10:pi; stem(x, sin(x), 'fill', '--')

Laborator 1 [Dr. Iulian Stoleriu]

10

produce Figura 2.2.

Figura 2.2: Reprezentarea datelor discrete.

Reprezentarea stem-and-leaf
S presupunem c urmtoarele date sunt punctajele (din 100 de puncte) obinute de cei 20 de elevi ai unei grupe la o testare semestrial:
50 34 55 41 59 61 62 64 68 18 68 73 75 77 44 77 62 77 53 79 81 48 85 96 88 92 39 96

Tabelul 2.1 reprezint aceste date sub forma stem-and-leaf (ramur-frunz). Se observ c acest tabel arat att cum sunt repartizate datele, ct i forma repartiiei lor (a se privi gracul c avnd pe OY drept axa absciselor i OX pe cea a ordonatelor). Aadar, 7|5 semnic un punctaj de 75. Pentru un volum prea mare de date, aceast reprezentare nu este cea mai bun metod de vizualizare a datelor. n seciunile urmtoare vom prezenta i alte metode utile.
stem leaf

10 9 8 7 6 5 4 3 2 1 0

2 1 3 1 0 1 4 8

6 5 5 2 3 4 9

6 7 2 5 8

8 779 488 9

Tabela 2.1: Tabel stem-and-leaf reprezentnd punctajele studenilor.

Laborator 1 [Dr. Iulian Stoleriu]

11

Reprezentarea cu bare
Este util pentru reprezentarea variabilelor discrete cu un numr mic de valori diferite. Barele sunt dreptunghiuri ce reprezint frecvenele i nu sunt unite ntre ele. Fiecare dreptunghi reprezint o singur valoare. ntr-o reprezentare cu bare, categoriile sunt plasate, de regul, pe orizontal iar frecvenele pe vertical. n Figura 2.31 sunt reprezentate datele din tabelul cu note. Se poate schimba orientarea categoriilor i a claselor; n acest caz barele vor aprea pe orizontal (vezi Figura 2.32 ). Pentru reprezentri grace vom folosi aplicaia . n capitolul urmtor vom

Matlab

Figura 2.3: Reprezentrile cu bare. prezenta o scurt introducere n . Pentru mai multe detalii, se poate consulta ghidul online de utilizare [9]. Comenzile uzuale pentru reprezentarea cu bare sunt:

Matlab

Matlab

bar(X, Y, 'style'); barh(X, Y); bar(X, w); bar3(Y, w, 'style')

% % % % %

deseneaza vectorul Y vs. vectorul X deseneaza pe orizontala vectorul Y vs. vectorul X deseneaza vectorul X vs. 1:N (N este lungimea lui X); deseneaza vectorul Y prin bare 3D w este latimea barelor, 'style' este modul reprezentarii

Mai sus,

alturat), sau

'style' poate  una dintre urmtoarele: 'detached' (bare separate), 'grouped' (bare grupate 'stacked' (bare suprapuse).
(1) Comanda care produce primul grac din Figura 2.3 este:

Exemplu 2.1

bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)


Aici, vectorul este

X este vectorul linie [2 3 4 5 6 7 8 9 10], [2 4 8 15 18 17 15 7 4]. Limea barelor este 0.5.

scris prescurtat prin

[2:10],

iar vectorul

Laborator 1 [Dr. Iulian Stoleriu]


(2) Comanda

12

Matlab urmtoare realizeaz al doilea grac din Figura 2.3, corespunztor datelor din

Tabelul 2.1:

barh(5:9, [3 5 6 4 2], 0.5)


3D trei vectori: X (numerele naturale de la 1 la 7), Y (permutare aleatoare a elementelor lui X ) i Z (numere naturale pare, de la 14 la 2). Cei trei vectori formeaz coloanele matricei M . Comanda subplot(m,n,p) divizeaz fereastra grac n m n zone dreptunghiulare i se poziioneaz pe zona de rang p, unde va executa comanda ce urmeaz. Figura 2.4
(3) n Figura 2.4, am reprezentat prin bare este generat de codul urmtor:

X = 1:7; Y = randperm(7); Z = 14:-2:2; M = [X'; Y'; Z']; subplot(1,3,1); bar3(M, 0.75, 'detached') subplot(1,3,2); bar3(M, 0.75, 'grouped') subplot(1,3,3); bar3(M, 0.75, 'stacked')

Figura 2.4: Reprezentare 3D prin bare.

Histograme
Cuvntul "histogram" a fost introdus pentru prima oar de Karl Pearson cuvintele greceti

histos (gr.,

ridicat n sus) i

gramma (gr.,

2 n

1895.

desen, nregistrare). O

histogram

Acesta deriv din este o

form pictorial a unui tabel de frecvene, foarte util pentru selecii mari de date de tip continuu. Se aseamn cu reprezentarea prin bare, cu urmtoarele dou diferene: nu exist spaii ntre bare (dei, pot aprea bare de nalime zero ce arat a  spaiu liber) i ariile barelor sunt proporionale cu frecvenele corespunztoare. Numrul de dreptunghiuri este egal cu numrul de clase, limea dreptunghiului este

2 Karl

Pearson (1857 1936), statistician, avocat i eugenist britanic

Laborator 1 [Dr. Iulian Stoleriu]

13

nlimea (n cm) frecvena


[0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30) 5 13 23 17 10 2

Tabela 2.2: Tabel cu nlimile plantelor. Tabela 2.3: Histograme pentru datele din Tabelul 2.2.
intervalul clasei, iar nlimea este aa nct aria ecrui dreptunghi reprezint frecvena. Aria total a tuturor dreptunghiurilor este egal cu numrul total de observaii. Dac barele unei histograme au toate aceeai lime, atunci nlimile lor sunt proporionale cu frecvenele. nlimile barelor unei histogramei se mai numesc i

densiti de frecven.
=k

n cazul n care limile barelor nu sunt toate egale, atunci nlimile lor satisfac: frecvena limea clasei

nlimea

k = factor

de proporionalitate.

Comenzile

Matlab uzuale pentru crearea histogramelor sunt:


% % % % % % % unde X este un vector, n este numarul de bare deseneaza distributia vectorului X, cu numarul de bare egal cu lungimea vectorului Y, centrate in elementele lui Y returneaza numarul N de valori ale vectorului X, care se afla intre elementele vectorului E reprezinta grafic pe N determinat anterior realizeaza o histogram 3D, unde Y este vector bidimensional

hist(X, n); hist(X, Y); N = histc(X,E); bar(E,N,'histc') hist3(Y)

Datele din Tabelul 2.2 reprezint nlimile unui eantion de plante culese de un cercettor dintr-o anumit regiune a rii. Reprezentarea cu histograme asociat acestor date este cea din Figura 2.3. Codul

Matlab care produce acest grac este:

X = [5*rand(5,1); 5*rand(13,1)+5; 5*rand(23,1)+10; 5*rand(17,1)+15; ... 5*rand(10,1)+20; 5*rand(2,1)+25]; % genereaza un vector X ca in Tabelul C = [2.5 7.5 12.5 17.5 22.5 27.5]; % mijloacele latimilor barelor hist(X,C); % deseneaza 6 histograme axis([-1 31 0 30]) % fixeaza axele

2.2

S presupunem c altcineva ar  grupat datele din Tabelul 2.2 ntr-o alt manier, n care clasele nu sunt echidistante (vezi Tabelul 2.4). n Tabelul 2.4, datele din ultimele dou clase au fost cumulate ntr-o singur clas, de lime mai mare dect celelalte, deoarece ultima clas din Tabelul 2.2 nu avea

Laborator 1 [Dr. Iulian Stoleriu]


suciente date. Histograma ce reprezint datele din Tabelul 2.4 este cea din Figura 2.5.

14
Conform cu

regula proporionalitii ariilor cu frecvenele, se poate observa c primele patru bare au nlimi egale cu frecvenele corespunztoare, pe cnd nlimea ultimei bare este jumtate din valoarea frecvenei corespunztoare, deoarece limea acesteia este dublul limii celorlalte. n general, pentru a construi o histogram, vom avea n vedere urmtoarele:

datele vor  mprite (unde este posibil) n clase de lungimi egale.


alteori va trebui s le fabricm.

Uneori aceste divizri sunt naturale,

numrul de clase este, n general, ntre

20.

nregistrai numrul de date ce cad n ecare clas (numite

frecvene).

gura ce conine histograma va avea clasele pe orizontal i frecvenele pe vertical.

Liniile de cod urmtoare simuleaz histograma reprezentat n Figura 2.5:

x = randn(1000, 2); hist3(x)

% numere repartizate normal

Figura 2.5: Histogram 3D.

Observaia 2.2
[20, )),
lui precedent.

(1)

Dac lungimea unei clase este innit (e.g., ultima clas din Tabelul 2.4 este

atunci se obinuiete ca limea ultimului interval s e luat drept dublul limii intervalu-

(2) n multe situaii, capetele intervalelor claselor sunt nite aproximri, iar n locul acestora vom putea utiliza alte valori. Spre exemplu, s considerm clasa ce au nlimea cuprins ntre i

[15, 20).

Aceast clas reprezint clasa acelor plante

15cm

20cm.

Deoarece valorile nlimilor sunt valori reale, valorile

15

20

sunt, de fapt, aproximrile acestor valori la cel mai apropiat ntreg. Aadar, este posibil ca aceast

clas s conin acele plante ce au nlimile situate ntre

14.5cm

(inclusiv) i

putea face referire la aceste valori ca ind valorile reale ale clasei, numite

frontierele clasei.

20.5cm

(exclusiv).

Am

n cazul n

care am determinat frontierele clasei, limea unei clase se denete ca ind diferena ntre frontierele ce-i

Laborator 1 [Dr. Iulian Stoleriu]


corespund. n concluzie, n cazul clasei de frecven

15
[15, 20),
aceasta are frontierele

14.5 - 20.5,

limea

i densitatea

17 6 .

Pentru exemplicare, n Tabelul 2.6 am prezentat frontierele claselor, limile lor i

densitile de frecven pentru datele din Tabelul 1.4.

nlimea (n cm) frecvena


[0, 5) [5, 10) [10, 15) [15, 20) [20, 30) 5 13 23 17 12

Tabela 2.4: Tabel cu nlimile plantelor. Tabela 2.5: Histograme pentru datele din Tabelul 2.4. nlimea (n cm)
[18, 25) [25, 35) [35, 45) [45, 55) [55, 65)

frontierele
17.5 25.5 24.5 35.5 34.5 45.5 44.5 55.5 54.5 65.5

limea frecvena densitatea de frecven


8 11 11 11 11 34 76 124 87 64 4.25 6.91 11.27 7.91 5.82

Tabela 2.6: Tabel cu frontierele claselor.

Reprezentare prin sectoare de disc


pie charts),
este Se poate reprezenta distribuia unei caracteristici i folosind sectoare de disc (diagrame circulare) (

en.,

ecare sector de disc reprezentnd cte o frecven relativ. Aceast variant este util n

special la reprezentarea datelor calitative. Comanda

pie(X).

Matlab pentru un pie chart pentru un vector X

De exemplu, comanda care produce Figura 2.6 este:

T = [10 11.11 15.56 25.55 22.22 15.56]; pie(T,{'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10'})

Matlab. n Figura 2.7 am reprezentat datele din Tabelul 1.4.


pie3([34 76 124 87 64])

Exist i posibilitatea de a reprezenta datele prin sectoare 3 dimensionale, folosind comanda

pie3(x)

din

Laborator 1 [Dr. Iulian Stoleriu]


10% Nota 5 Nota 6 Nota 7 Nota 8 Nota 9 Nota 10

16
16%

11%

22% 16%

26%

Figura 2.6: Reprezentarea pe disc a frecvenelor relative ale notelor din tabelul cu note

Figura 2.7: Reprezentare pe disc 3D

STATS 2 [Dr. Iulian Stoleriu]

17

3 Statistic Aplicat (C2) Elemente de Teoria probabilitilor


Experiene aleatoare
Numim

experien aleatoare

(sau

experiment aleator)

orice act cu rezultat incert, care poate  repetat n

anumite condiii date. Opusul noiunii de experiment aleator este

experimentul determinist,

semnicnd

un experiment ale crui rezultate sunt complet determinate de condiiile n care acesta se desfoar. Rezultatul unui experiment aleator depinde de anumite circumstante ntmpltoare ce pot aparea. Exemple de experiene aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de via a unui individ, observarea vremii de a doua zi, observarea numrului de apeluri telefonice recepionate de o centrala telefonic ntr-un timp dat. Aplicarea experienei asupra unei colectiviti date se numete zultatul potenial al unei experiene aleatoare se numete duble

eveniment aleator.

prob.

Re-

De exemplu: apariia unei

(6, 6)

la aruncarea a dou zaruri, extragerea unei bile albe dintr-o urn. Se numete

caz favorabil eveniment

pentru evenimentul aleator un caz n care respectivul eveniment se realizeaz. Un eveniment aleator poate avea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz favorabil se numete

elementar.
Fie

o mulime nevid, pe care o vom numi mulimea tuturor evenimentelor elementare. Un element

al lui

l vom nota cu

Vom numi

oricrei experiene aleatoare.

evenimentul sigur, acel eveniment care se poate realiza n urma Evenimentul imposibil este acel eveniment ce nu se realizeaz n nicio prob.
A, B, C, . . . .
Prin

Evenimentele aleatoare le vom nota cu care se realizeaz atunci cnd

nu se realizeaz. Avem:

Ac vom nota Ac = \ A.

evenimentul complementar lui

A,

Pentru a putea cuantica ansele de realizare a unui eveniment aleator, s-a introdus noiunea de

litate.

probabi-

n literatura de specialitate, probabilitatea este denit n mai multe moduri: cu deniia clasic

(apare pentru prima oar n lucrrile lui P. S. Laplace ), folosind o abordare statistic (cu frecvene relative) sau utiliznd deniia axiomatic (Kolmogorov).

Probabilitatea clasic

este denit doar pentru cazul n care experiena aleatoare are un numr nit de

cazuri posibile i echiprobabile (toate au aceeai ans de a se realiza). n acest caz, probabilitatea de realizare a unui eveniment este raportul dintre numrul cazurilor favorabile realizrii evenimentului i numrul cazurilor egal posibile ale experimentului aleator.

Exemplu 3.1

Se cere probabilitatea obinerii unei duble la o singur aruncare a unei perechi de zaruri

ideale. Mulimea cazurilor posibile este mulimea tuturor perechilor elemente. Cazurile favorabile sunt cele din mulimea elemente. Probabilitatea apariiei unei duble este

{(i, j); i, j = 1, 6}, care are 36 de {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)}, adic 6 6 1 P = 36 = 6 .

Sunt ns foarte multe cazuri n care deniia clasic nu mai poate  utilizat. Spre exemplu, n cazul n care se cere probabilitatea ca, alegnd la ntmplare un punct din ptratul favorabile este innit, fcnd deniia clasic a probabilitii inutilizabil.

[0, 1] [0, 1],

acesta s se

situeze deasupra primei bisectoare. n acest caz, att numrul cazurilor posibile, ct i numrul cazurilor

Probabilitatea statistic exprim probabilitatea cu ajutorul frecvenelor de realizare a unui eveniment ntrun numr mare de experimente aleatoare realizate n aceleai condiii.

3 Pierre-Simon,

marquis de Laplace (1749 1827), matematician i astronom francez

STATS 2 [Dr. Iulian Stoleriu]

18

S considerm o experien aleatoare (e.g., aruncarea unui zar) al crei rezultat posibil este evenimentul aleator

(e.g., apariia feei cu

puncte).

Aceste experiment aleator l putem efectua de S notm cu

ori n

condiii identice (spunem c efectum nu inueneze rezultatul alteia ( a lui

probe independente).

probe ale experimentului), astfel nct rezultatul unei probe s

N (A) frecven absolut

de realizare

n cele

probe independente. Raportul

acest raport, ce are urmtoarele proprieti:

N (A) N

se va numi

frecven relativ.

Notm cu

fN (A)

(a) (b) (c) (d)


Mai mult, exist notat

0 fN (A) 1; fN () = 1; fN (Ac ) = 1 fN (A), A; fN (A B) = fN (A) + fN (B),


dac

B = .

lim fN (A) i aceasta este denit ca ind probabilitatea de realizare a evenimentului A,

P (A).

Aadar, n cazul deniiei statistice a probabilitii, aceasta este limit irului frecvenelor

relative de producere a respectivului eveniment cnd numrul de probe tinde la innit (vezi Teorema 7.4). n cele ce urmeaz, vom deni noiunea de probabilitate din punct de vedere axiomatic. Aceast axiomatic a fost introduse de matematicianul rus A. N. Kolmogorov

4 (1929) i are la baza teoria msurii.

Deniia axiomatic a probabilitii


Reamintim,

este o mulime abstract, nevid.

Deniia 3.2
(a)

Numim

algebr sau cmp o colecie F

de submulimi ale lui

astfel nct:

F; c (b) dac A F , atunci A F; (Ac = \ A) (c) dac A, B F , atunci A BF

(nchidere la complementariere) (nchidere la reuniune nit).

Propoziia 3.3

(c) implic

n
(c') dac

(Ai )i=1, n F,

atunci

Ai F.
i=1

(3.1)

Deniia 3.4
(c') dac

Numim

algebr

sau

cmp

(sau

corp borelian)

o colecie

de submulimi ale lui

astfel nct (a), (b) din deniia anterioar sunt satisfcute i, n plus, avem

(An )nN F,

atunci

An F;
n=1

(nchidere

la reuniune numrabil)

(3.2)

Exemplu 3.5
(2)

(1) = R i F = {A; A R} este o algebr; F = {, } este o algebr; c (3) Dac A , F = {A, A , , } este o algebr; (4) Dac A R, atunci mulimea tuturor prilor lui A, P(A), formeaz o -algebr. (5) Dac e o mulime nevid i F este o algebr pe , atunci perechea (, F) msurabil. Elementele unei -algebre se numesc mulimi msurabile.

se numete

spaiu

4 Andrei

Nikolaevich Kolmogorov (1903 1987), matematician rus

STATS 2 [Dr. Iulian Stoleriu]

19
.
Numim

Deniia 3.6
algebr

Fie

o colecie de submulimi ale lui

algebr generat de F

cea mai mic

ce conine

F.

O notm prin

(F)

i este, de fapt,

(F) =
AF

A.

(3.3)

Dac Dac

e un spaiu topologic, vom numi

mulimilor deschise din

E = Rd , atunci A Bd se numete mulime borelian.

E , i.e., cea mai B(Rd ) (sau B d )

-algebr Borel5 , notat B(E), -algebra mic -algebr ce conine deschiii lui E . este -algebra generat de cuburile deschise

generat de familia din

Rd .

O mulime

Deniia 3.7
proprietile:

O funcie

P : (, F) R,

care asociaz oricrui eveniment

AF

numrul real

P (A),

cu

(a) (b) (c)


se numete

P (A) 0, A F; P () = 1; P (A B) = P (A) + P (B), A, B F, A B = ,

probabilitate. cmp de probabilitate n sens Kolmogorov i l vom nota cu (, F, P ).


(c)
avem:

Aceasta este deniia axiomatic dat de A. N. Kolmogorov. Un cmp de evenimente o probabilitate

(, F)

nzestrat cu

se numete

Observaia 3.8
(c)
dac

Dac n locul condiiei

(An )nN F

disjuncte dou cte dou (Ai

Aj = , i = j )

P(
nN

An ) F

, atunci

P(
nN

An ) =
nN

P (An ).

( aditivitate)
iar

(3.4)

atunci P se va numi probabilitate aditiv pe corpul borelian (, F), borelian de probabilitate.

(, F, P )

se va numi

cmp

Observaia 3.9

(1) Fie

o mulime cu

elemente,

F = P() A

A .

Atunci

P (A) =
denete o msur de probabilitate pe

card card

(3.5)

F (probabilitatea n sens clasic). (b) din deniia probabilitii lipsete, atunci spunem ca P denete o msur pe spaiul msurabil (, F ), iar tripletul (, F, P ) se va numi spaiu cu msur. O probabilitate este astfel un caz particular al noiunii de msur, n cazul n care msura ntregului spaiu este P () = 1.
(2) n cazul n care condiia Spunem c o proprietate

are loc a.s.

(aproape sigur) dac are loc ntotdeauna, cu excepia unei mulimi

pentru care

P (A) = 0.

O astfel de mulime se va numi mulime

P -nul.

5 Flix

douard Justin mile Borel (1871 1956), matematician si politician francez

STATS 2 [Dr. Iulian Stoleriu]

20

Cmp de probabilitate
Principalul concept al teoriei probabilitilor este proprieti: (i) (ii)

spaiu probabilistic sau cmp de probabilitate.


(, F, P ),

n cele ce

urmeaz, cnd ne vom referi la cmp de probabilitate, vom nelege un triplet

cu urmtoarele

este o mulime abstract (mulimea tuturor evenimentelor elementare ale unui experiment ndeplinite urmtoarele condiii:

stochastic);

F P () este o -algebr, i.e., sunt (1 ) F ; c (2 ) A F = A F ; (3 ) (An )nN F = An F ;


nN

(iii)

P : F R e o funcie satisfcnd condiiile: (P1 ) P () = 1; (P2 ) A F , P (A) 0; (P3 ) (An )nN , An Am = , n = m, avem P (
nN

An ) =
nN

P (An ).

F se numesc evenimente iar sunt elemente de prob. A F , cu A -algebr, o vom numi sub- -algebr a lui F . (iii) A F , P (A) se va numi probabilitatea lui A. (iv) Dac P (A) = 0, atunci A se va numi mulime P -nul. (v) Dac P (A) = 1, atunci A este evenimentul sigur sau A se realizeaz aproape sigur (a.s.).
(i) Elementele lui (ii) O mulime Dat ind un ir

Terminologie:

(An )nN

denim

lim inf An =
n n=1 mn

Am

lim sup An =
n n=1 mn

Am .

(3.6)

n general,

lim inf An lim sup An .


n n

n caz de egalitate vom spune c irul

(An )nN

are limit i vom scrie

lim An = lim inf An = lim sup An .


n n

(3.7)

Observaia 3.10
toate

Din punct de vedere euristic,

lim inf An
n

reprezint evenimentul care se realizeaz cnd

An

se realizeaz, mai puin un numr nit. Pe de alt parte,

lim sup An
n

nseamn realizarea unei

inniti de evenimente din irul

A1 , A2 , . . . .

Cmp de probabilitate geometric


S presupunem c am dispune de un procedeu prin care putem alege la ntmplare un punct dintr-un interval

[a, b]. n plus, vom presupune c acest procedeu ne asigur c nu exist poriuni privilegiate ale intervalului [a, b], i.e., oricare ar  dou subintervale de aceeai lungime, este la fel de probabil ca punctul
s cad n oricare dintre aceste intervale. Dac am folosi de mai multe ori procedeul pentru a alege un numr mare de puncte, acestea vor  repartizate aproximativ uniform n

[a, b],

i.e., nu vor exist puncte

n vecintatea crora punctul ales s cad mai des, ori de cte ori este ales. De aici reiese c probabilitatea

STATS 2 [Dr. Iulian Stoleriu]


ca un punct s cad ntr-un subinterval al lui poziia sa n interiorul lui

21
[a, b] este dependent de lungimea acelui subinterval i nu de

[a, b].

Mai mult, aceasta este chiar proporional cu lungimea subintervalului.

Se poate observa analogia cu experiena alegerii dintr-un numr de cazuri egal posibile. Dac

[a, b]

e mulimea cazurilor egal posibile i

[c, d] [a, b]

este mulimea cazurilor favorabile, atunci

probabilitatea ca punctul ales s cad n

[c, d]

este

P (A) =
n particular, dac

d]) dc = . msura ([a, b]) ba


msura ([c,

x (c, d),

atunci probabilitatea ca punctul ales aleator dintr-un interval s coincid

cu un punct dinainte stabilit este zero i, astfel, ntrezrim posibilitatea teoretic ca un eveniment s aib probabilitatea nul, far ca el s e evenimentul imposibil

. D, astfel ca s nu existe

n mod cu totul analog, dac se ia la ntmplare un punct dintr-un domeniu planar

puncte sau poriuni privilegiate n acest domeniu, atunci probabilitatea ca punctul s cad n subdomeniul D D este aria D . aria D n trei dimensiuni, o probabilitate similar este raportul a dou volume: volumul mulimii cazurilor favorabile i volumul mulimii cazurilor egal posibile.

Probabiliti condiionate
Fie spaiul probabilistic (, F, P ) i A, B F , cu P (B) > 0. Denim probabilitatea evenimentului A condiionat de realizarea evenimentului B , notat P (A|B) sau PB (A), prin:

PB (A) =

P (A B) . P (B)

(3.8)

Observaia 3.11
de probabilitate.

PB (A)

astfel denit va  o probabilitate pe

F,

iar tripletul

(, F, PB )

este un cmp

Propoziia 3.12
P (Bi ) > 0, i I .

(a)

(formula probabilitilor totale) Fie (Bi )iI , (I N) o partiie a lui , astfel nct
P (A) =
iI

Atunci

P (Bi ) PBi (A), A F. P (A) > 0,


avem:

(3.9)

(b)

(formula lui

Bayes6 ) n condiiile de la (a) i, n plus,


PA (Bi ) =

P (Bi ) PBi (A) P (Bj ) PBJ (A)


jI

, i I.

(3.10)

(c) Dac

B1 , B2 , . . . , Bn F , P (B1 B2

astfel nct

P (B1

B2

Bn ) > 0,

atunci:

Bn ) = P (B1 ) PB1 (B2 ) . . . PB1

Bn1 (Bn ).

(3.11)

6 Thomas

Bayes, (1702 1761) matematician britanic

STATS 2 [Dr. Iulian Stoleriu]

22

Variabile aleatoare
Din punct de vedere euristic, o

variabil aleatoare

este o funcie ce ia valori ntmpltoare. n via de

zi cu zi ntlnim numeroase astfel de funcii, e.g., numerele ce apar la extragerea loto, numrul clienilor deservii la un anumit ghieu ntr-o anumit perioad, timpul de ateptare a unei persoane ntr-o staie de autobuz pn la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfritul alfabetului

X, Y, Z
Fie

sau

, ,

i altele.

O funcie

(, F, P ) un cmp de probabilitate i (E, E) un spaiu msurabil. X : (, F, P ) (E, E) se numete variabil aleatoare (v.a.)
pentru orice

dac (3.12)

B E, X 1 (B) F

(mai spunem c

este o funcie

Fmsurabil).

n particular, dac:

(E, E) (R, B(R)),

atunci

este o

variabil aleatoare real; vector aleator (sau v.a.) d-dimensional();


este o

(E, E) (Rd , B(Rd )),

atunci

este

(E, E) (Rnm , B(Rnm ),

atunci

matrice aleatoare.
pentru ca

Deoarece mulimile este sucient ca

{(, x], x R}

genereaz

B(R),

X : (, F, P ) R

s e o v.a. real (3.13)

x R, { | X() x} F.
Vom utiliza notaiile

{X x} = { | X() x}
not

not

i, n general,

{X B} = { | X() B}
Dac

X : (, F, P ) Rd

este o v.a., atunci

F(X) = {X 1 (B), B Bd }
este o a lui Dac

algebr, denumit algebra generat de v.a. X . F astfel nct X este msurabil. (Xn )nN
este un ir de v.a. reale astfel nct

Astfel,

(X) este cea mai mic subalgebr


aproape pentru toi

Xk () X(),

atunci

este tot o v.a. real.

Xi : (, F, P ) (E, E), (i I) o familie de v.a.. Denim algebra generat de notat (Xi , i I), cea mai mic algebr pentru care Xi , i I , sunt msurabile.
Fie

familia

{Xi , i N},

Variabilele aleatoare pot lua o mulime cel mult numrabil de valori (i le numim poate lua o mulime continu de valori (un interval nit sau innit din

continuu).

R),

i le

v.a. discrete) sau vom numi (v.a. de tip

Exemple de v.a. discrete: numrul feei aprute la aruncarea unui zar, numrul de apariii

ale unui tramvai ntr-o staie ntr-un anumit interval, numrul de insuccese aprute pn la primul succes etc. Din clasa v.a. de tip continuu amintim: timpul de ateptare la un ghieu pn la servire, preul unui activ nanciar ntr-o perioad bine determinat. O v.a. discret

se poate scrie sub forma

X() =
iJ

xi Ai (), , J N.

(3.14)

STATS 2 [Dr. Iulian Stoleriu]


Aici

23
A,
iar

este funcia indicatoare a mulimii

Ak = X 1 ({xk }). Ai

Observm cu uurin c

Ai =
i=1

Aj = , i = j.

Uneori, unei o v.a. discrete i se atribuie urmtorul

tablou de repartiie:
xi pi ,
(3.15)

X:
n
unde

pi = P (X = xi ), i J N,
i=1

pi = 1.

Spre exemplu, tabloul de repartiie pentru v.a. ce reprezint

numrul de puncte ce apare la aruncarea unui zar ideal este:

1 2 3 4 5 6 1/6 1/6 1/6 1/6 1/6 1/6


O v.a.

real se numete

de tip continuu
(a) (b)
R

dac exist

f : Rd R

msurabil Borel ce ndeplinete

condiiile:

f (x) 0,

a.s.

f (x) dx = 1 PX (B) =
B

(c)
Funcia

f (x) dx,

B F.

se numete

densitatea de repartiie a lui X .


X : (, F, P ) (Rd , B(Rd )).

n urmtoarele dou seciuni, vom deni cele mai importante caracteristici funcionale i numerice ale unei variabile aleatoare

Caracteristici funcionale ale variabilelor aleatoare

Repartiia
Repartiia
prin (sau

legea,

sau

distribuia)

lui

este o msur de probabilitate pe

Bd , PX : Bd [0, 1],

dat

PX (B) = P (X B), B Bd .
Repartiia unei v.a. de tip discret (de forma 3.14) este astfel:

(3.16)

PX (B) =
jJ
unde

P (Aj )xj (B),

(3.17)

a (B) =
Repartiia unei v.a.

1, 0,

dac

aB

n rest

de tip continuu este:

PX (B) =
B

f (x) dx,

B Bd ,

(3.18)

STATS 2 [Dr. Iulian Stoleriu]


unde

24
X.
n limba englez, pentru repartiie se folosesc termenii:

distribution sau law.

f (x)

este densitatea de repartiie a lui

Funcia de repartiie (sau funcia de repartiie cumulat)


Numim

funcie de repartiie

ataat v.a reale

o funcie

F : R [0, 1],

dat prin

F (x) = P (X x).
Astfel, Dac

F (x) = PX ((, x]),

adic este repartiia mulimii

Termenul n englez pentru funcia de repartiie este

X = (X1 , X2 , . . . , Xd ) : (, F, P ) Rd d denete ca ind F : R [0, 1], dat prin

cumulative distribution function (cdf ).

(, x].

este un vector aleator, atunci funcia de repartiie se

F ((x1 , x2 , . . . , xd )) = P (X1 x1 ; X2 x2 ; . . . , Xd xd ).
Proprieti ale funciei de repartiie:

este cresctoare (F (x)

F (y), x, y R, x y );
y x

este continu la dreapta ( lim

F (y) = F (x), x R);

lim F (x) = 0

lim F (x) = 1.

n cazul unei variabile aleatoare discrete, cu tabloul de repartiie dat de (3.15), funcia sa de repartiia ntr-un punct

este:

F (x) =
{i; xi x}
Dac

pi .

(3.19)

este o variabil aleatoare continu i

este densitatea sa de repartiie, atunci funcia de repartiie

este dat de formula:

F (x) =

f (t) dt,

x R.

(3.20)

Observaia 3.13

x R dat. Numim funcie de repartiie complementar, x) = 1 F (x), x R.

Deseori n calcule probabilistice, avem de calculat evenimentul funcia

P (X > x), pentru un Fc : R [0, 1], dat prin F (x) = P (X >

Funcia caracteristic
Numim

funcie caracteristic ataat v.a reale X


X (t) =
kJ

o funcie

X : R C,

dat prin: discret)

ei t xk pk ,

dac

X=
kJ

xk Ak , (X =

X (t) =
R
Aici,

ei t x f (x) dx, (i2 = 1).

dac

X=

variabil aleatoare continu.

este numrul imaginar,

Proprieti ale funciei caracteristice:

STATS 2 [Dr. Iulian Stoleriu]


|X (t)| = 1, t R; a X (t) = X (a t), t R, a R; a X+b (t) = X (a t)eibt , t R, a R; X (t) = X (t), t R; X : R C
este uniform continu;

25

ti , tj R, zi , zj C

avem

X (ti tj )zi zj 0.
i, j=1

Funcia de probabilitate (sau de frecven)


Fie

o variabil aleatoare discret,

X() =
iJ

xi Ai (), , Ai F, J N.
o funcie

Numim

funcie de

probabilitate (de frecven) ataat variabilei aleatoare discrete X


f (xi ) = pi ,
Funcia de probabilitate ( unde

f : R R,

denit prin

pi = P (Ai ), i J.

en., probability distribution function) pentru o variabil aleatoare discret este


f (xi ) 0, i J,
n

similara densitii de repartiie pentru o variabil aleatoare continu. ntr-adevar, proprietile pe care le satisface funcia de probabilitate sunt:

f (xi ) = 1.
i=1

Caracteristici numerice ale variabilelor aleatoare

Media
Deniia 3.14
Dac

este o v.a. de tip discret,

X() =
iJ

xi Ai (), , J N,

atunci

media
(3.21)

acestei v.a. se denete prin:

E(X) =
iJ

xi P (Ai ).

Deniia 3.15

(teoretic) acestei v.a., dac exist (!)


se denete astfel:

Dac

este o v.a. de tip continuu, cu densitatea de repartiie

f : R R,

atunci

media

(nu toate v.a. de tip continuu admit medie - vezi repartiia Cauchy),

E(X) =
R

xf (x)dx,

(dac

aceast integral exist).

(3.22)

besque.

Observaia 3.16

Deniia mediei poate  dat ntr-un cadru mult mai general, folosind

integrala Le-

Aceast integral este generalizarea integralei Riemann.

Sumarizm mai jos, gradual i fr

demonstraiile aferente, construcia mediei unei v.a. reale.

STATS 2 [Dr. Iulian Stoleriu]


n

26
cu

Pasul 1:

O v.a.

X() =
i=1

xi Ai ()

se numete

v.a. simpl.
n

Pentru v.a. simpl

denim

media (notat cu

E(X))

astfel:

E(X) =

not

X() dP () =
i=1

xi P (Ai ). Xn : R, (n N)
de v.a. simple astfel

Pasul 2:
nct

Dac

X :R

X 0,

atunci exist un ir

0 X1 () Xn () X(),
i

n
Denim

lim Xn () = X().

E(X) = lim E(Xn ).


n

Pasul 3:

Fie

X:R

o v.a.. Atunci

X=

X+

X ,

unde

X + () = max{X(), 0},
n acest caz denim

X () = max{X(), 0} = (X)+ ().

media lui X ,

E(X) = E(X + ) E(X ),


i

ori de cte ori mcar una dintre

este o

v.a. integrabil.

E(X + )

E(X )

este nit. Cnd ambele sunt nite, atunci spunem c

Dac

X = X1 + iX2 : C,

denim media v.a. complexe

prin

E(X) = E(X1 ) + iE(X2 ),


ori de cte ori ambele medii exist i sunt nite. Dac

este un vector aleator,

X = (X1 , X2 , . . . , Xd )T : Rd ,

atunci denim media lui

prin

E(X) = (E(X1 ), E(X2 ), . . . , E(Xd ))T .

Propoziia 3.17
Atunci

Fie

X : Rd

o v.a. cu densitatea de repartiie

i o funcie msurabil

g : Rd R.

E(g(X)) =
n particular, dac

g(x)f (x) dx.


Rd

g:RR

este funcia identic, atunci:

E(X) =

X() dP () =
R

xf (x) dx,

i astfel redescoperim deniia mediei unei v.a. de tip continuu din Deniia 3.15. Relaia anterioar se mai numete i pe mulimea

formula de transport

pentru integral, deoarece integrala abstract

este "transportat" ntr-o integrala Riemann pe

R.

Dispersia (sau variana) i abaterea standard


X este o variabil aleatoare i X = X E(X) (numit abaterea lui X de la media sa), atunci E(X) = 0. Aadar, nu putem msur gradul de mprtiere a valorilor lui X n jurul mediei sale doar calculnd X E(X). Avem nevoie de o alt msur. Aceasta este dispersia variabilei aleatoare.
Dac

STATS 2 [Dr. Iulian Stoleriu]

27
X
este o v.a. discret,

Deniia 3.18
denim

Dac

X() =
iJ

xi Ai (), , J N, cu media E(X) = m,

dispersia lui X

ca ind:

D2 (X) =
iJ

(xi m)2 pi ,

unde

pi = P (Ai ), i J.

(3.23)

Deniia 3.19
E(X) = m R).

Fie

X : R

o v.a.

de tip continuu pentru care media poate  denit (exist (sau variana lui

Denim dispersia lui

X)

cantitatea

D2 (X) = E[(X m)2 ] =


R

(x m)2 f (x) dx.

(3.24)

Notaiile consacrate pentru dispersie sunt

D2 (X)

sau

2.

Observaia 3.20

Dispersia scris ca integral abstract (vezi propoziia anterioar) este:

2 =

(X() m)2 dP ().

Numim

abatere standard (sau deviaie standard) cantitatea = 2 .

Laborator 2 [Dr. Iulian Stoleriu]

28

Experiene aleatoare n Matlab


Generarea de numere (pseudo-)aleatoare
Numerele generate de el vor 

4 Statistic Aplicat (L2)

pseudo-aleatoare.

Matlab sunt rezultatul compilrii unui program deja existent n Matlab, aadar
Putem face abstracie de modul programat de generare ale acestor numere i

s considerm c acestea sunt numere aleatoare.

Generarea de numere uniform repartizate ntr-un interval, U(a, b)


Funcia rand
rand

Funcia

genereaz un numr aleator repartizat uniform n

[0, 1].

De exemplu, comanda X =

(rand < 0.5)


X
astfel generat este un

simuleaz aruncarea unei monede ideale. Mai putem spune ca numrul numr aleator repartizat

B(1, 0.5).

De asemenea, numrul Y = urmeaz repartiia

sum(rand(10,1) < 0.5)


10
aruncri ale unei monede ideale).

B(10, 0.5)

(simularea a

rand(m, n)
Comanda

genereaz o matrice aleatoare cu

mn

componente repartizate

U(0, 1). [a, b].

a + (b a) rand

genereaz un numr pseudo-aleator repartizat uniform n

Folosind comanda

s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-

zentnd starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimba starea curent a generatorului sau iniializarea lui, putem folosi comanda

rand(method, s)
unde method este metoda prin care numerele aleatoare sunt generate (aceasta poate  'state', 'seed' sau 'twister'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului. De exemplu,

rand('state', 125)
xeaz generatorul la starea

125.

Laborator 2 [Dr. Iulian Stoleriu]

29
(a, b)
nelegem

Observaia 4.1

Printr-o generare de numere aleatoare uniform distribuite n intervalul

numere aleatoare care au aceeai ans de a  oriunde n

(a, b),

i nu numere la intervale egale.

Figura 4.1 reprezint cu histograme date uniform distribuite n intervalul

Matlab:

[2, 3],

produse de comanda

hist(5*rand(1e4,1)-2,100)

Figura 4.1: Reprezentarea cu histograme a datelor uniforme.

Generarea de numere repartizate normal, N (, )


Funcia randn
randn

Funcia

genereaz un numr aleator repartizat normal

N (0, 1). N (0, 1).

randn(m, n)

genereaz o matrice aleatoare cu

mn

componente repartizate

Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generatorului, folosim comanda:

randn(method, s)
unde unde sau

method este metoda prin care numerele aleatoare sunt generate (aceasta poate  'state' 'seed'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului.
m+ randn genereaz un numr aleator repartizat normal N (m, ).
De exemplu, codul

Comanda

urmtor produce Figura 4.2:

x = 0:0.05:10; y = 5 + 1.1*randn(1e5,1); hist(y,x)

% date distribuite N (5, 1.1)

Laborator 2 [Dr. Iulian Stoleriu]


250

30

200

150

100

50

10

Figura 4.2: Reprezentarea cu histograme a datelor normale.

Generarea de numere aleatoare de o repartiie dat


Comenzile

Matlab
legernd(<param>, m, n)

random('lege',

<param>, m, n).

Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu numere aleatoare ce urmeaz repartiia din Figura 6.1. De exemplu,

m linii i n coloane, avnd componente

lege.

n loc de

lege putem scrie oricare dintre expresiile din tabelul

normrnd (5, 0.2,


genereaz o matrice aleatoare cu

100, 10);

100 10

componente repartizate

N (5, 0.2).

random ('poiss',0.01, 200, 50);


genereaz o matrice aleatoare cu Utiliznd comanda

200 50

componente repartizate

P(0.01).

randtool
putem reprezenta interactiv selecii aleatoare pentru diverse repartiii. generate de parametri Comanda deschide o interfa

grac ce reprezint prin histograme seleciile dorite, pentru parametrii dorii (vezi Figura 4.3). Datele

Matlab pot  exportate n ierul Workspace cu numele dorit. De exemplu, folosind datele
10000
de numere ce urmeaz repartiia lognormal de i

din Figura 4.3, am generat o selecie aleatoare de

=2

= 0.5

i am salvat-o (folosind butonul

Export) ntr-un vector L.

Laborator 2 [Dr. Iulian Stoleriu]

31

Figura 4.3: Interfa pentru generarea de numere aleatoare de o repartiie dat.

Simularea aruncrii unei monede

Comanda X = (rand < 0.5); simuleaz aruncarea unei monede ideale. Vom mai spunem c numrul numr aleator repartizat

astfel generat este un

B(1, 0.5)

(similar cu schema bilei revenite, n cazul n care o urn are bile

albe i negre n numr egal i extragem o bil la ntmplare)

Numrul Y = urmeaz repartiia

sum (rand(30,1)<0.5)
30
aruncri ale unei monede ideale).

B(30, 0.5)

(simularea a

Acelai experiment poate  modelat i prin comanda

round(rand(30,1))
Pentru a numra cte fee de un anumit tip au aprut, folosim

sum(round(rand(30,1)))

Exemplu 4.2

Dorim s scriem o funcie

MATLAB care s simuleze aruncarea repetat a unei monede


p (0, 1).
S se determine

msluite, pentru care probabilitatea teoretic de a obine o anumit fa este

Laborator 2 [Dr. Iulian Stoleriu]


probabilitatea ca la aruncarea monedei s obinem faa cu

32
stema
i s deseneze o gur care s justice

grac convergena irului frecvenelor relative la aceast probabilitate.

function moneda(N,p); x = rand(1, N); V = (x < p); Sn = cumsum(V); A = 1:N; Fn = Sn./A; semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:'); axis([0 N 0 1]); title('moneda') xlabel('aruncari');ylabel('probabilitatea')
moneda 1 1 5/6 3/4 probabilitatea probabilitatea

% % % % % % % % % %

functia moneda.m aruncam moneda valoarea de adevar a lui (x<p) suma cumulata vectorul nr de aruncari frecventa relativa a stemei reprezinta grafic Fn axele numele figurii numele axelor
zar

0.5

0.5

1/4 1/6 0 0

10

10 10 aruncari

10

10

10

10 10 aruncari

10

10

Figura 4.4: Simularea aruncrii unei monede corecte (a) i a unui zar corect (b)
O rulare a funciei, e.g.,

moneda(1e5,0.5),

produce gracul din Figura 4.4(a). De asemenea, se poate

simula i aruncarea unei monede msluite, dac alegem ca parametrul

al funciei s e diferit de

0.5.

Simularea n Matlab a unei v.a. de tip discret


S considerm o variabil aleatoare ce poate avea doar realizare

rezultate posibile,

a, b

c,

cu probabilitile de

0.5, 0.2

i, respectiv,

0.3.

Tabloul de repartiie asociat este:

X:
Pentru a modela aceast variabil aleatoare n un numr

a b c 0.5 0.2 0.3

din intervalul

[0, 1].

Dac

x < 0.5,

Matlab, procedm astfel: alegem uniform la ntmplare


atunci convenim c rezultatul

s-a realizat, dac

Laborator 2 [Dr. Iulian Stoleriu]


0.5 < x < 0.7,
atunci rezultatul

33
b
s-a realizat. Altfel, rezultatul v.a.

este

c.

Dac acest experiment se

repet de multe ori, atunci rezultatele pot  folosite n estimarea probabilitilor de realizare a variabilei aleatoare. Cu ct vom face mai multe experimente, cu att vom aproxima mai bine valorile teoretice ale probabilitilor, deci putem spune c am aproximat variabila aleatoare n

Matlab, scriem:

X.

syms a b c % declaram a, b si c ca variabile simbolice r = rand; X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)
Folosind aceast metod, putem simula aruncarea unui zar ideal. Avem apariia unei fee cu

rezultate posibile, i anume,

1, 2, 3, 4, 5

sau n

6 6

puncte.

Pentru a simula acest experiment, modicm n mod

convenabil problema. Vom considera c punctele din intervalul posibile i mprim intervalul

[0, 1] formeaz mulimea tuturor cazurilor

[0, 1]

subintervale de lungimi egale:

(0,

1 1 2 2 3 3 4 4 5 5 ), ( , ), ( , ), ( , ), ( , ), ( , 1) . 6 6 6 6 6 6 6 6 6 6

corespunztoare, respectiv, celor ase fee, s zicem n ordinea cresctoare a punctelor de pe ele. Vom vedea mai trziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete nchise, deschise sau mixte nu are efect practic asupra calculului probabilitii dorite. Acum, dac dorim s simulm n

Matlab apariia feei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numr "la Matlab
ntmplare" din intervalul

[0, 1]

i vericm dac acesta se a n intervalul

2 ( 6 , 3 ). 6

Aadar, comanda

u = rand; (u < 3/6 & u > 2/6)


6
fee sunt identice, putem simplica

simuleaz aruncarea unui zar ideal. Ca o observaie, deoarece cele aceast comanda i scrie

(rand < 1/6).

Exemplu 4.3

Dorim s simuleze n

Matlab aruncarea repetat a unui zar corect. S se determine pro-

babilitatea ca la aruncarea zarului s obinem faa cu trei puncte i s deseneze o gura care s justice grac convergena irului frecvenelor relative la aceast probabilitate (vezi Figura 4.4(b)).

function dice(N); % functia dice.m u = rand(1, n); % probabilitatea aparitiei fetei Z1 = (u < 3/6 & u > 2/6); % aparitia fetei freq = cumsum(Z1)./(1:n); % frecventa relativa subplot(1,2,2); % activeaza fereastra din stanga semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:'); axis([0 n 0 1]); % axele title('zar') % numele figurii xlabel('aruncari');ylabel('probabilitatea')
Fiierul

dice.m simuleaz aruncarea unui zar dice(1e5) produce gracul din Figura 4.4(b).

corect de un numr

de ori.

O rulare a funciei, e.g.,

Laborator 2 [Dr. Iulian Stoleriu]

34

Metoda Monte Carlo


Metoda Monte Carlo este o metod de simulare statistic, ce produce soluii aproximative pentru o mare varietate de probleme matematice prin efectuarea de experimente statistice pe un computer. Se poate aplica att problemelor cu deterministe, ct i celor probabilistice i este folositoare n obinerea de soluii numerice pentru probleme care sunt prea dicile n a  rezolvate analitic. Este o metod folosit de secole, dar a cptat statutul de metod numeric din anii

1940.

1946,

S. Ulam

7 a devenit primul matema-

tician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatul Monaco, unde se practic foarte mult jocurile de noroc, n special datorit jocului de rulet (ruleta = un generator simplu de numere aleatoare). De asemenea, Nicholas Metropolis metodei. Are la baz generarea de numere aleatoare convenabile i observarea faptului c o parte dintre acestea veric o proprietate sau anumite proprieti. n general, orice metod care are la baz generarea de numere aleatoare n vederea determinrii rezultatului unui calcul este numit o metod Monte Carlo. Orice eveniment zic care poate  vzut ca un proces stochastic este un candidat n a  modelat prin metoda MC.

8 a adus contribuii importante

Integrarea folosind metoda Monte Carlo


Dorim s folosim metode Monte Carlo pentru evaluarea integralei

I=
a

f (x) dx.

(4.1)

n general, pentru a evalua numeric integral, metoda Monte Carlo nu este prima alegere, nsa este foarte util n cazul n care integral este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient dect alte metode de aproximare cnd dimensiunea spaiului e mare. Dac dorim aplicarea metodei MC, atunci avem de ales una din urmtoarele variante:

Varianta 1
funciei

(poate  aplicat doar pentru

f 0.

Dac

i valori negative, dar este mrginit inferior,

atunci putem utiliza o translaie, astfel nct s avem de integrat o funcie nenegativ) ncadrm gracul

ntr-un dreptunghi

D = [a, b] [0, d],


unde

d > sup f .
[a, b]

Evalum integrala folosindu-ne de calculul probabilitii evenimentului

A,

c un punct

ales la ntmplare n interiorul dreptunghiului

s se ae sub gracul funciei

experien aleatoare: alegem n mod uniform (comanda experiena de un numr

rand

f (x).

Facem urmtoarea

ne ofer aceast posibilitate n

un punct din interiorul dreptunghiului i testm dac acest punct se a sub gracul lui

f (x).

Matlab)
Repetm

(mare) de ori i contabilizm numrul de apariii

f (N ) ale punctului sub grac.

Pentru un numr mare de experiene, probabilitatea ca un punct generat aleator n interiorul dreptunghiului s se ae sub gracul funciei va  aproximat de frecvena relativ a realizrii evenimentului, adic

P
8 Nicholas 7 Stanislaw

f (N ) . N

Marcin Ulam (1909 1984), matematician de origine polonez, nscut n Lvov, Ucraina Constantine Metropolis (1915 1999), zician grec

Laborator 2 [Dr. Iulian Stoleriu]


Pe de alt parte, probabilitatea teoretic este

35

P =
de unde aproximarea

I
aria dreptunghi

I
bun.

aria dreptunghi

f (N ) . N

(4.2)

Totui, aceast metod nu e foarte ecient, deoarece

trebuie s e foarte mare pentru a avea o precizie

Exemplu 4.4

Utiliznd metoda Monte Carlo, s se evalueze integrala

I=
2

ex dx.

Soluie:

Generm

106

puncte aleatoare n interiorul ptratului

[2, 5] [0, 1]

acestea se a sub gracul funciei grala dorit:

f (x) = ex , x [0, 1].

Urmtoarea funcie

Matlab calculeaz inte-

i vericm care dintre

function I = integrala(N) x = 7*rand(N,1)-2; y = rand(N,1); f = find(y < exp(-x.^2)); I = 7* length(f)/N;


O rulare a funciei,

% % % %

functia integrala.m genereaza N numere aleatoare in [2, 5] [0, 1] 2 numar punctele aflate sub graficul functiei ex formula (4.2)
I = 1.7675.

integrala(1e6),

ne furnizeaz rezultatul

Varianta 2

Putem rescrie integrala n forma

I = (b a)
a
unde

f (x)h(x) dx,

(4.3)

h(x) =
Funcia rescrie

1 ba 0

, ,

dac

x [a, b], X U[a, b],

altfel. iar relaia (4.1) se (4.4)

h(x)

denit mai sus este densitatea de repartiie a unei v.a.

I = (b a)E(f (X)).
Folosind legea slab a numerelor mari, putem aproxima

prin:

I
unde

ba N

f (Xk ),
k=1

(4.5)

Xk

sunt numere aleatoare ce urmeaz repartiia

U[a, b].

Putem generaliza aceast metod pentru calculul integralelor de tipul

f (x) dx,
V

unde

V Rn .

Laborator 2 [Dr. Iulian Stoleriu]

36

Exemplu 4.5
Soluie:

S se evalueze integrala din Exemplul (4.4) folosind formula (4.5).

Codul

Matlab este urmtorul:


% genereaza 106 numere aleatoare U(2, 5) 2 % g(x) = ex % 7*media lui g(x) % I 1.7671

x = 7*rand(1e6,1)-2; g = exp(-x.^2); I = 7*mean(g)

sau, restrns, putem apela urmtoarea comand:

estimate = 7*mean(exp(-((7*rand(10^6,1)-2).^2)))

Exemplu 4.6

Evalund integrala

I=
0

ex dx e. (e = I + 1).

printr-o metod Monte Carlo s se estimeze valoarea numrului transcendent

Soluie:

estimate = mean(exp(rand(10^6,1))) + 1

% e 2.7183

Exemplu 4.7 (aproximarea lui folosind jocul de

darts

n ce const jocul? S presupunem c suntem la nivelul nceptor. Avem de aruncat o sgeat ascuit, ce poate penetra cu uurin lemnul, spre o tabl ptrat din lemn, n interiorul cruia se a desenat un cerc circumscris ptratului. Dac sgeata se nnge n interiorul discului atunci ai ctigat un punct, dac nu - nu ctigai nimic. Repetm jocul de un numr puncte acumulate, s zicem c acest numr este

de ori i contabilizm la sfrit numrul de

N .

S presupunem c suntei un juctor slab de darts (asta implic faptul c orice punct de pe tabl are aceeai ans de a  intit), dar nu aa de slab nct s nu nimerii tabla. Cu alte cuvinte, presupunem c de ecare dat cnd aruncai sgeata, ea se nnge n tabl. Se cere s se aproximeze valoarea lui care s simuleze experimentul.

pe baza jocului de mai sus i s se scrie un program n

Matlab

Soluie:

S notm cu

numrul de aruncri de limit irului

A evenimentul ca sgeata s se nng chiar n interiorul discului. n cazul n care N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat N frecvenelor relative, adic lim . n N P (A) =
aria disc aria perete

Pe de alt parte,

= . 4

Aadar, putem aproxima

prin

Funcia lui

Matlab care aproximeaz pe este prezentat mai jos. Metoda care a stat la baza aproximrii
metoda Monte Carlo.

N N

(pentru N

1).

(4.6)

este o

Laborator 2 [Dr. Iulian Stoleriu]

37

function Pi = darts(N) % numar de aruncari theta = linspace(0,2*pi,N); % genereaza vectorul theta x = rand(N,1); y = rand(N,1); % (x,y) - intepaturi X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta); % cerc in polar plot(x,y,'b+',X,Y,'r-'); % deseneaza cercul si punctele S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); % numarul de succese Prob = S/N; % frecventa relativa approxpi = 4*Prob; % aproximarea lui pi axis([0 1 0 1]); % deseneaza axele title([int2str(N),' aruncari, \pi \approx ', num2str(approxpi)]);
O simpl rulare a funciei,

darts(2000),

ne genereaz Figura 4.5.

Figura 4.5: Simularea jocului de darts.

STATS 3 [Dr. Iulian Stoleriu]

38

5 Statistic Aplicat (C3) Elemente de Teoria probabilitilor (II)


Caracteristici numerice ale variabilelor aleatoare (continuare)

Momente
Pentru o v.a. cu

X
i

de tip discret,

X() =
iJ

xi Ai (), , J N,

E(X) = m

pi = P (Ai ), i J , xk pi i
iJ

denim momentele: (momente iniiale de ordin

k (X) = E(X k ) = k (X) = E(|X| ) =


k

k); k); k); k);

|xi |k pi
iJ

(momente absolute de ordin

k (X) = E((X m)k ) =


iJ

(xi m)k pi |xi m|k pi


iJ

(momente iniiale centrate de ordin

k (X) = E(|X m| ) =
Pentru o v.a.

(momente absolute centrate de ordin

de tip continuu ce admite medie

m = E(X) < ,

denim momentele:

k (X) = E(X k ) =
R

xk f (x) dx =

X k dP |X|k dP

(momente iniiale de ordin

k); k);

k (X) = E(|X|k ) =
R

|x|k f (x) dx =

(momente absolute de ordin

k (X) = E((X m)k ) =


R

(x m)k f (x) dx =

(X m)k dP |X m|k dP

(momente iniiale centrate);

k (X) = E(|X m|k ) =


R

|x m|k f (x) dx =

(momente absolute centrate);

Cuantile
Fie o v.a.

cu funcia de repartiie

F (x).

Deniia 5.1

Pentru

(0, 1),

denim

cuantila de ordin

valoarea

astfel nct: (5.1)

F (x ) = P (X x ) = .

Observaia 5.2

(1)

Cuantilele sunt msuri de poziie, ce msoar locaia unei anumite observaii fa

de restul datelor. Aa cum se poate observa din Figura 5.1, valoarea aria haurat este chiar

este acel numr real pentru care

STATS 3 [Dr. Iulian Stoleriu]

39

Figura 5.1: Cuantila de ordin .


X

(2)

n cazul n care

este o variabil aleatoare discret, atunci (5.1) nu poate  asigurat pentru orice

.
(3)

ns, dac exist o soluie a acestei ecuaiei

F (x) = ,

atunci exist o innitate de soluii: intervalul

ce separ dou valori posibile.

mediana ( = 1/2), cuartile ( = i/4, i = 1, 4), decile ( = j/10, i = 1, 10), percentile ( = k/100, k = 1, 100), promile ( = l/1000, l = 1, 1000).
Cazuri particulare de cuantile:

Modul (valoarea cea mai probabil)


Este acea valoare

pentru care

f (x ) (densitatea de repartiie sau funcia de probabilitate) este maxim.

O repartiie poate s nu aib niciun mod, sau poate avea mai multe module.

Inegaliti ntre momente


(a) (b) (c) (d)

r (X + Y ) cr (r (X) + r (Y )),

unde

cr = 1

pentru

r (0, 1]

cr = 2r1

pentru

r > 1.

(r (X))1/r (s (Y ))1/s , 0 r s;

(Lyapunov 9 ) (H lder10 );

E|XY | (E|X|r )1/r (E|Y |s )1/s , r, s > 1, r1 + s1 = 1; (E|X + Y |r )1/r (E|X|r )1/r + (E|Y |r )1/r ; g:RR
convex. Atunci avem atunci avem:

(M inkowski11 ) (Jensen12 )

(e) Fie

g(E(X)) E(g(X)).

(f ) Dac

a > 0, p N ,

P ({|X| a})
10 Otto 9 Aleksandr

p (X) ; ap

(M arkov 13 )

Mikhailovich Lyapunov (1857 1918), matematician rus, student al lui Cebev Ludwig Hlder (1859 1937), matematician german 11 Hermann Minkowski (1864 1909), matematician german 12 Johan Ludwig William Valdemar Jensen (1859 1925), matematician si inginer danez 13 Andrei Andreyevich Markov (1856 1922), matematician rus, student al lui Cebev

STATS 3 [Dr. Iulian Stoleriu]


n particular, pentru

40
i

p=2

e nlocuit cu variabila aleatoare

(X m), (m = E(X)),

obinem:

P ({|X m| a})
Dac n inegalitatea lui Cebev lum

2 . a2 k N,

(Cebev14 )
atunci obinem:

(5.2)

a = k ,

unde

P ({|X m| k})
sau, echivalent:

1 , k2

(5.3)

P ({|X m| < k}) 1


n cazul particular

1 . k2

(5.4)

k = 3,

obinem

regula celor 3 :
P ({|X m| 3}) 1 0.1. 9 8 , 9 [m 3, m + 3].
(5.5)

sau

P ({m 3 < X < m + 3})


semnicnd c o mare parte din valorile posibile pentru

se a n intervalul

Standardizarea unei variabile aleatoare


Fie variabila aleatoare

X,

de medie

i dispersie

2.

Deniia 5.3
mat).

Variabila aleatoare

X =

X m

se numete

variabila aleatoare standardizat

(sau nor-

Proprietile variabilei aleatoare standardizate:

E(X) = 0,

D2 (X) = 1.

Corelaia i coecientul de corelaie


Conceptul de corelaie (sau covarian) este legat de modul n care dou variabile aleatoare tind s se modice una fa de cealalt; ele se pot modica e n aceeai direcie (caz n care vom spune c sunt direct Fie

<sau

pozitiv> corelate) sau n direcii opuse (X i mediile, respectiv,

sunt invers respectiv,

<sau

negativ> corelate).

X, Y v.a. cu X + Y , obinem:

mX , m Y

i dispersiile

2 X ,

2 Y .

Calculnd dispersia sumei

D2 (X + Y ) = E[(X + Y (mX + mY )2 )] = E[(X mX )2 ] + E[(Y mY )2 ] + 2E[(X mX )(Y mY )] = D2 (X) + D2 (Y ) + 2E[(X mX )(Y mY )].

14 Pafnuty

Lvovich Chebyshev (1821 1894), matematician rus

STATS 3 [Dr. Iulian Stoleriu]

41
corelaia
(sau

Deniia 5.4
cov(X,

Denim

covariana) v.a. X

Y,

notat prin cov(X,

Y ),

cantitatea

Y ) = E[(X mX )(Y mY )].


(a) Continund irul anterior de egaliti, putem scrie:

Proprietatea 5.5

D2 (X + Y ) = D2 (X) + D2 (Y ) + 2

cov(X,

Y ).

(5.6)

lui

Y ),

atunci

(b) cov(X, Y ) = cov(Y, X) = E[(X mX )(Y mY )] = E(XY ) mX mY . (c) cov(X, X) = D2 (X), pentru orice v.a. X . (d) cov(X + Y, Z) = cov(X, Z) + cov(Y, Z), pentru orice v.a. X, Y, Z . (e) Dac X i Y sunt v.a. independente (i.e., realizrile lui X nu depind de realizrile cov(X, Y ) = 0. Reciproca nu este ntotdeauna adevrat. Y,
pentru care presupunem c variaiile i

Fie v.a.

standardizate,

X mX X= X
Se numete

Y mY Y = Y

2 X

2 Y

sunt nite i nenule. Considerm v.a.

Deniia 5.6
dizate

coecient de corelaie (teoretic) al v.a. X


(X, Y ) =
cov(X,

covariana variabilelor standar-

Y.

Notm astfel:

Y)=

cov(X,

Y)

X Y

(5.7)

Observaia 5.7
zrile celeilalte

(a)

Dac

sunt independente (i.e., realizrile uneia sunt independente de reali-

vezi seciunea urmtoare), atunci

(X, Y ) = 0. (b) (c) 1 (X, Y ) 1, pentru orice v.a. X Dac Y = aX + b (a, b R), atunci (X, Y ) = +1, 1,
dac dac i

Y.

a = 1; a = 1.

Independena
Conceptul de independen a v.a. sau a evenimentelor este foarte important din punctul de vedere al Independena este unul

calculului probabilitilor evenimentelor compuse din evenimente mai simple. n teoria din urm.

dintre conceptele principale care deosebesc Teoria probabilitilor de Teoria msurii, neavnd echivalent

Deniia 5.8
(1)

Fie

(, F, P )

un cmp de probabilitate,

A, B F

dou evenimente arbitrare.

Dac anumite informaii despre evenimentul B au inuenat n vreun fel realizarea evenimentului A, atunci vom spune c A i B sunt evenimente dependente. De exemplu, evenimentele A = mine plou i B = mine mergem la plaj sunt dependente. (2) S presupunem c evenimentul B satisface relaia P (B) > 0. Vom spune c evenimentele A i B sunt independente dac probabilitatea lui A este independent de realizarea evenimentului B , adic probabilitatea condiionat

P (A| B) = P (A),

(5.8)

STATS 3 [Dr. Iulian Stoleriu]


echivalent cu

42
P (A B) = P (A). P (B)

Putem rescrie ultima egalitate sub forma simetric:

P (A

B) = P (A) P (B). P (B),

(5.9) este preferabil s

Deoarece n relaia (5.9) nu mai este nevoie de condiie suplimentara pentru denim independen a dou evenimente arbitrare astfel: Dou evenimente,

A, B F

se numesc

independente (stochastic) dac relaia (5.9) are loc.

Deniia 5.9
submulime

(i) Evenimentele

{i1 , i2 , . . . , ik }

a mulimii

A1 , A2 , . . . , An se numesc independente n ansamblu dac pentru ecare {1, 2, . . . , n} avem Aik ) = P (Ai1 ) P (Ai2 ) . . . P (Aik ).
sunt (5.10)

P (Ai1
(ii) Spunem c evenimentele evenimente,

Ai1

A1 , A2 , . . . , An

independente dou cte dou dac pentru oricare dou


(5.11)

Ai

Aj ,

din aceast mulime, avem

P (Ai
(iii) n general, evenimentele

Aj ) = P (Ai ) P (Aj )).


se numesc

(Ai )iI F, (I N), P(


jJ

independente dac
(5.12)

Aj ) =
jJ

P (Aj ),

pentru orice

J I, Jnit.
Independen dou cte dou a evenimentelor nu implic independena n ansamblu.

Observaia 5.10
stema",

S exemplicm considernd urmtoarea experien. Considerm aruncarea a dou monede ideale. Fie

evenimentul ca "faa ce apare la prima moned este

evenimentul ca "faa ce apare la a doua moned este stema", iar

evenimentul ca "doar la o

moned din cele dou a aprut faa cu stema". Se observ cu uurin c evenimentele independente dou cte dou, deoarece:

A, B

sunt

P (A

1 C) = P (A) P (C) = ; 4

P (B

1 C) = P (B) P (C) = ; 4

P (A

1 B) = P (A) P (B) = . 4

Totodat, mai observm c oricare dou dintre ele determina n mod unic pe al treilea. Aadar, independena a dou cte dou nu implic independena celor trei evenimente n ansamblu, fapt observat i din relaia

0 = P (A

B
cu

1 C) = P (A) P (B) P (C) = . 8 Mi F ,


este o familie de

Deniia 5.11
acestea sunt de evenimente

independente (stochastic)
Aj Mj ,

Dac

{Mi , i I N},

dac pentru orice submulime nit

corpuri, atunci spunem c J I i pentru orice alegere

este ndeplinit condiia

P(
jJ

Aj ) =
jJ

P (Aj ).

(5.13)

STATS 3 [Dr. Iulian Stoleriu]

43
(Xi )iI : (, F) R, (I N), sunt independente (n ansamblu) Xi , {(Xi )}iI , formeaz o familie de corpuri independente. : (, F) R, (I N), sunt independente dou cte dou dac oricare ar 

Deniia 5.12
dac (2)

(1)

Spunem c v.a.

corpurile

generate de

Spunem c v.a.

(Xi )iI

dou variabile aleatoare din aceast familie, acestea sunt independente n sensul deniiei de la (1).

Observaia 5.13
P {X1 B1 }

Deniia variabilelor aleatoare independente (n ansamblu) este echivalent cu:

Pentru orice

k2

i orice alegere a mulimilor boreliene

B1 , B2 , . . . , Bk Bd ,

avem: (5.14)

{X2 B2 }

{Xk Bk } = P (X1 B1 ) P (X2 B2 ) . . . P (Xk Bk ),

sau, cu alte cuvinte, evenimentele

{X1 B1 }, {X2 B2 }, . . . , {Xk Bk } sunt independente n ansamblu. X1 , respectiv,

Exemplu 5.14
X2 ,
din mulimea

S considerm aruncarea unui zar. Aruncm zarul de dou ori i notm cu Aadar,

v.a. ce reprezint numrul de puncte aprute la ecare aruncare. Evident, valorile acestor v.a. sunt

{1, 2, 3, 4, 5, 6}.

Xi : {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:

P {X1 = i}

{X2 = j}

1 36 = P ({X1 = i}) P ({X2 = j}), = P ({X1 = i, X2 = j}) = X1


i

i, j {1, 2, 3, 4, 5, 6},

aceast nsemnnd c variabilele aleatoare efectuate independent una de cealalt).

X2

sunt independente stochastic (aruncrile au fost

Teorema 5.15
(i) (ii) (iii) (iv)

Considerm familia de v.a.

{X1 , X2 , . . . , Xn },

Xi : (, F) R, i = 1, n.

Urmtoarele armaii sunt echivalente:

X1 , X2 , . . . , Xn

sunt v.a. independente stochastic;

P (X1 B1 , X2 B2 , . . . , Xn Bn ) = P (X1 B1 ) P (X2 B2 ) . . . P (Xn Bn ), Bi Bd ; F(X1 , X2 ,..., Xn ) (x1 , x2 , . . . , xn ) = FX1 (x1 ) FX2 (x2 ) . . . FXn (xn ), x1 , x2 , . . . , xn R; (X1 , X2 ,..., Xn ) (t) = X1 (t1 ) X2 (t2 ) . . . Xn (tn ), t = (t1 , t2 , . . . , tn ) Rn .
(5.15)

Dou dintre dintre cele mai importante proprieti ale v.a. independente sunt urmtoarele:

Teorema 5.16
atunci

Dac

X1 , X2 , . . . , Xn

sunt v.a. reale, independente, astfel nct

E(|Xk |) < , k = 1, 2, . . . , n, E(|X1 X2 . . . Xn |) <


i: (5.16)

E(X1 X2 . . . Xn ) = E(X1 ) E(X2 ) . . . E(Xn ).

Teorema 5.17
atunci

Dac

X1 , X2 , . . . , Xn

sunt v.a. reale, independente, astfel nct

D2 (Xk ) < , k = 1, 2, . . . , n, D2 (X1 + X2 + . . . + Xn ) <


i: (5.17)

D2 (X1 + X2 + . . . + Xn ) = D2 (X1 ) + D2 (X2 ) + . . . + D2 (Xn ).

STATS 3 [Dr. Iulian Stoleriu]

44

Tipuri de convergen a irurilor de variabile aleatoare


Fixm

(, F, P )

un cmp de probabilitate i

Xn , X : R

variabile aleatoare cu media

i dispersia

2 nite.

Deniia 5.18
(1)

Spunem c: (notat

Xn converge aproape sigur la X

Xn X )
n

a.s.

dac

P ( lim Xn = X) = 1,
echivalent cu relaia

0 F, P (0 ) = 1,
(2)

astfel nct

lim Xn () = X(), 0 .
dac

Xn converge n probabilitate la X

(notat

Xn X ),

prob

> 0, lim P ({ : |Xn () X()| }) = 0.


n
(3)

Xn converge n medie de ordin r la X


n

(notat

Xn X ),

Lr

dac

lim

|Xn () X()|r dP () = 0,

echivalent cu

(4)

Xn converge n repartiie
n

la

(notat

n R rep

lim

|xn x|r f (x)dx = 0.


dac

X, sau Xn X )

lim E(g(Xn )) = E(g(X)), g : R R,


dac

continu i mrginit.

(5)

Xn converge la X n sensul funciei de repartiie


n

lim FXn (x) = FX (x), x

punct de continuitate pentru dac

FX .

(6)

Xn converge la X n sensul funciei caracteristice


n

lim Xn (t) = X (t), t R.

Teorema 5.19 (legturi ntre diverse tipuri de convergen)


(a) (b) Xn X
Lr

Xn X

a.s.

implic

Xn X.

prob

implic

Xn X
prob

prob

(din inegalitatea lui Markov).

(c) (d)

Xn X

implic

Xn X.

Urmtoarele tipuri de convergen sunt echivalente: convergena n repartiie, convergena n funcie

de repartiie i convergena n funcie caracteristic.

Laborator 4 [Dr. Iulian Stoleriu]

45

6 Statistic Aplicat (L3) Repartiii probabilistice n Matlab


Funcia de probabilitate (pentru v.a. discrete) i densitatea de repartiie (pentru v.a. continue) (ambele notate anterior prin

f (x))

se introduc n

Matlab cu ajutorul comenzii pdf, astfel:


sau

pdf('LEGE', x, <param>)
Funcia de repartiie

LEGEpdf(x, <param>).

F (x)

a unei variabile aleatoare se poate introduce n

cdf,

Matlab cu ajutorul comenzii

astfel:

cdf('LEGE', x, <param>)

sau

LEGEcdf(x, <param>).
F 1 (y),
se introduce cu comanda

Inversa funciei de repartiie pentru repartiii continue,

icdf,

astfel:

icdf('LEGE', y, <param>)
n comenzile de mai sus, iar

sau

LEGEinv(y, <param>).

vector pentru care se calculeaz

<param>

LEGE poate  oricare dintre legile de repartiie din Tabelul 6.1, x este un scalar sau f (x) sau F (x), y este un scalar sau vector pentru care se calculeaz F 1 (y),

este un scalar sau un vector ce reprezint parametrul (parametrii) repartiiei considerate.

Observaia 6.1
tiiei. Pentru un

Fie X x R,

o variabil aleatoare i relaia matematic

F (x, )

funcia sa de repartiie,

ind parametrul repar-

P (X x) = F (x)
o putem scrie astfel n

Matlab:
cdf('numele repartiiei lui X',x,).
(6.1)

Problema poate aparea la evaluarea n

este una continu, atunci corespondentul n

Matlab a probabilitii P (X < x). Dac repartiia considerat Matlab este tot (6.1), deoarece n acest caz

P (X x) = P (X < x) + P (X = x) = P (X < x).


De exemplu, dac

X N (5, 2),

atunci

P (X < 4) = cdf('norm', 4, 5, 2).


Dac

este de tip discret, atunci

P (X < x) =

P (X [x]) , x nu e ntreg P (X m 1) , x = m Z,

Laborator 4 [Dr. Iulian Stoleriu]


unde

46
x.
atunci

[x]

este partea ntreag a lui

De exemplu, dac

X B(10, 0.3),

P (X < 5) = P (X 4) = cdf('bino', 4, 10, 0.3) = 0.8497.

Tabelul 6.1 conine cteva repartiii uzuale i funciile corespunztoare n

Matlab.

repartiii probabilistice discrete

repartiii probabilistice continue

bino: nbin: poiss: unid: geo: hyge:

repartiia binomial repartiia Poisson

B(n, p) BN (n, p)

repartiia binomial negativ

P() U(n)

repartiia uniform discret repartiia geometric repartiia

Geo(p) hipergeometric H(n, a, b)

norm: unif: exp: gam: beta: logn: chi2: t: f: wbl:

repartiia normal

N (, )

repartiia uniform continu repartiia exponenial repartiia repartiia repartiia repartiia repartiia repartiia repartiia

U(a, b) exp() Gamma (a, ) Beta (m, n) lognormal logN (, ) 2 (n) student t(n) Fisher F(m, n) Weibull W bl(k, )

Tabela 6.1: Repartiii uzuale n

Matlab
X
este variabila aleatoare ce reprezint

Exerciiu 6.1
(a) (b)

O moned ideal este aruncat de

100

de ori, iar

numrul de fee cu stema aprute. Care este probabilitatea de a obine exact S se calculeze

52

de steme?

P (45 X 55).

Folosii aproximarea cu o variabil aleatoare normal.

Soluie:
B(100, 0.5),

(a)

Avem de calculat

P = P (X = 52).

ns

este o variabil aleatoare distribuit

aadar rezultatul exact este:

52 P = C100 (0.5)52 (0.5)48 = 0.0735.


(b) Notm cu

FX

funcia de repartiie pentru variabila aleatoare binomial

X.

Atunci,

P (45 X 55) = P (X 55) P (X < 45) = FX (55) FX (44)


55

=
k=45
Codul

k C100 (0.5)k (0.5)100k = 0.7287.

Matlab urmtor calculeaz probabilitile cerute, calculate analitic anterior.


% solutia exacta % solutia exacta

P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5)


.

Laborator 4 [Dr. Iulian Stoleriu]

47

Exerciiu 6.2
puin

Cineva a nregistrat zilnic timpul ntre dou sosiri succesive ale tramvaiului ntr-o anumit

staie i a gsit c, n medie, acesta este de

20 de minute.

Se tie c acest timp este distribuit exponenial.

Dac o persoan a ajuns n staie exact cnd tramvaiul pleca, aai care sunt ansele ca ea s atepte cel

15

minute pn vine urmtorul tramvai.

Soluie:
este:

Notm cu

timpul de ateptare n staie ntre dou sosiri succesive ale tramvaiului i cu

FT

funcia sa de repartiie. tim c

T exp(),

unde

= 20.

Aadar, avem de calculat

P (T 15),

care

P (T 15) = 1 P (T < 15) = 1 FT (15),


i aceasta este

1 - cdf('exp',15, 20) = 0.4724,


ceea ce implic

47.24%

anse.

Exerciiu 6.3
sunt femei.

Dintre spectatorii prezeni pe un anumit stadion la un meci de fotbal, un procent de

20%

La o tombola organizat pentru spectatori, un computer alege la ntmplare numerele a i se premiaz posesorii. (i) (ii) (iii) Care este probabilitatea ca mcar

7 bilete de intrare

dintre spectatorii premiai s e femei?

Care este probabilitatea ca nicio femeie s nu ctige la tombol? Dac selecia biletelor ctigtoare ar  fost realizat prin alegerea a

spectatori ce erau aezai

n ir, pe un acelai rnd ales la ntmplare, argumentai dac probabilitile gsite la (i) si (ii) rmn aceleai.

Soluie:
(i) n

Fie

variabila aleatoare ce reprezint numrul de femei ce apar la alegerea la ntmplare a

spectatori. Atunci

Matlab, Matlab,

X B(7, 0.2). Fie p = 0.2. P (X 3) = 1 P (X < 3) = 1 P (X 2) = 1 FX (2) = 0.1480.

P1 = 1-binocdf(2,7,0.2).
0 C7 p0 (1

(ii) n

P (X = 0) =

p)7

= 0.2097.

P2 = binopdf(0,7,0.2).
X
nu ar mai  o v.a. binomial, deoarece alegerea spectatorilor nu mai este aleatorie

(iii) n acest caz,

(spectatorii aezai alturi pot  cunotinte, prieteni etc.).

Exerciiu 6.2

(a) n magazinul de la colul strzii intr n medie 20 de clieni pe or.

tiind c numrul

clienilor pe or este o variabil aleatoare repartizat Poisson, s se determine care este probabilitatea ca ntr-o anumit or s intre n magazin cel puin

15 clieni? (b) Care este probabilitatea ca, ntr-o anumit zi de lucru (de 10 ore), n magazin s intre cel puin 200 de
clieni? Calculai aceast probabilitate n dou moduri: folosind funcia de repartiie Poisson i folosind aproximarea cu repartiia normal.

Soluie:
(b) n

(a) Probabilitatea este

P1 = P (X 15) = 1 P (X < 14) = 1 FX (14) = 0.8951.


10 10

10

P2 = P (
k=1

Xk 200) = 1 P (
k=1

Xk < 199) = 1 F

Xk (199) = 0.5094,

unde

Xk P(200).
k=1

Matlab, probabilitile cerute se calculeaz astfel:

Laborator 4 [Dr. Iulian Stoleriu]


P1 = 1 - poisscdf(14,20); P2 = 1 - poisscdf(199,200);

48

Exerciiu 6.4
(ii)

(i)

n faa unui oponent de acelai calibru la tenis de mas, care eveniment este mai

probabil: s ctigi

partide din

4,

sau s ctigi

partide din

8?

Justicai rspunsul.

Se menine rezultatul anterior dac, n loc de tenis de mas, cei doi s-ar ntrece la ah? Presupunem

c adversarii sunt de aceeai valoare. Justicai rspunsul.

STATS 4 [Dr. Iulian Stoleriu]

49

7 Statistic Aplicat (C4) Elemente de Teoria probabilitilor (III)


Teoreme limit
Fie

(, F, P )

un cmp de probabilitate i

X : (, F, P ) R

o v.a. ce nregistreaz rezultatele posibile

ale unui anumit experiment aleator. Putem modela repetiia acestui experiment prin introducerea unui ir de v.a., vedere probabilistic) ca i

(Xn )nN : (, F, P ) R. Ne-am dori ca acest ir s dein aceeai informaie (din punct de X . n acest scop, introducem noiunea de variabile aleatoare identic repartizate.

Deniia 7.1

Variabilele aleatoare

X1 , X2 , . . . , Xn , . . .

se numesc

identic repartizate
x R.

dac funciile co-

respunztoare de repartiie satisfac irul de egaliti:

FX1 (x) = FX2 (x) = . . . = FXn (x) = . . . ,

(7.1)

Dac, n plus, presupunem c v.a. din irul de mai sus sunt independente stochastic, atunci putem privi acest ir de v.a. ca un model pentru repetri independente ale experimentului n aceleasi condiii. Dei avem de-a face cu un ir de funcii ce iau valori ntmpltoare, suma unui numr sucient de mare de variabile aleatoare i pierde caracterul aleator. Teoremele limit clasice descriu comportarea asimptotic a sumei Spunem c irul

Sn =
k=1

Xk ,

potrivit normalizat.

(Xn )n

urmeaz

legea slab (respectiv, tare) a numerelor mari dac:


(n )

Sn E(Sn ) prob Sn E(Sn ) a.s. 0, (respectiv, 0), n n

n Teoria Probabilitilor exist mai multe rezultate care stabilesc condiiile n care una sau cealalt dintre legile anterioare au loc. Prezentm n continuare doar cele mai importante dintre ele, i anume: teoremele lui Cebev i Hincin, pentru legea slab, i teorema lui Kolmogorov pentru legea tare.

Teorema 7.2 (Cebev)


Dac v.a.

(Xn )nN
(i) (ii)

satisfac condiiile: absolute de ordin

toate

atunci

Xn admit momente 1 lim 2 D2 (Sn ) = 0, n n

(i.e.,

2 (Xn ) < );

Sn E(Sn ) prob 0, n
Pentru orice

cnd

n . Sn , n

Demonstraie.
avem:

a>0 Sn n

xat, conform inegalitii lui Cebev aplicate variabilei aleatoare

P(

Sn E n

1 2 D a2

Sn n

1 1 2 D (Sn ) 0, a2 n2

cnd

n .

STATS 4 [Dr. Iulian Stoleriu]

50
Xn
sunt independente stochastic i identic repartizate, cu

Observaia 7.3
m, n N,

n plus, dac

E(Xn ) =

atunci concluzia anterioar devine:

Sn prob m. n
Astfel, teorema ne spune c, dei variabilele aleatoare independente pot lua valori deprtate de mediile lor, media aritmetic a unui numr sucient de mare de astfel de variabile aleatoare ia valori n vecintatea lui

m,

cu o probabilitate foarte mare.

Teorema 7.4 (Teorema lui Bernoulli)


S considerm o experien n care probabilitatea de realizare a unui eveniment

este

P (A) = p.

Se fac

experiene independente. Dac

este numrul de realizri ale lui

din cele

experiene atunci,

pentru orice

> 0,

avem:

lim P N

N p < = 1. N p.
i se obin

(7.2) Asta nseamn c,

Cu alte cuvinte, irul frecvenelor relative converge n probabilitate la probabilitatea dac se efectueaz o selecie de volum mare apropiat de

cazuri favorabile, atunci, cu o probabilitate

1,

putem arma c probabilitatea evenimentului cercetat este egal cu frecvena relativ.

Demonstraie.

Vom asocia ecrei experiene

o variabil aleatoare

Xi ,

astfel nct

Xi =
Observm c

1, 0,

dac n experiena dac experiena

evenimentul

s-a realizat;

evenimentul

nu s-a realizat.

Xi B(1, p).
n

Atunci, deoarece experimentele sunt independente, avem:

Xi = N B(N, p), E(N ) = N p,


i=1
Aplicnd inegalitatea lui Cebev variabilei aleatoare

D2 (N ) = N p(1 p).

N , N

obinem:

P
echivalent cu

N N E N N P

< 1

D2

N N 2

N p(1 p) p < 1 , N N 2

de unde concluzia dorit.

Teorema 7.5
Dac

(Hincin

15 )

(legea slab a numerelor mari)


1,
sunt independente dou

Xn , n 1,

sunt variabile aleatoare ce admit momente absolute de ordin

cte dou i identic repartizate, atunci irul

(Xn )n
prob

urmeaz legea slab a numerelor mari, i.e.,

1 n
unde

n k=1

Xk m, (n ),

(7.3)

m = E(Xn ), n N .

15 Aleksandr

Yakovlevich Khinchin (1894 1959), matematician rus

STATS 4 [Dr. Iulian Stoleriu]

51
(legea tare a numerelor mari)
adic:

Teorema 7.6
Dac notm cu

(Kolmogorov)

Fie irul de v.a.

(Xn )nN , independente, sunt identic repartizate i E(|X1 |) < . m = E(X1 ), atunci irul (Xn )n satisface legea tare a numerelor mari, 1 n
n

Xk m, (n ).
k=1

a.s

(7.4)

Observaia 7.7

Concluzia legii slabe a numerelor mari se mai poate scrie i sub forma:

X1 + X2 + + Xn =m n n lim

= 1.

Teorema 7.8
Dac v.a.

(TLC)

(teorema limit central)


m = E(X1 )
pentru i

(Xn )nN

sunt independente i identic repartizate, cu

2 = D2 (X1 )

nite, atunci:

Xk nm
k=1

Y N (0, 1),

n .

Observaia 7.9

(a) Teorema TLC ne spune c, dac avem un ir de v.a.

independente stochastic i

identic repartizate, atunci, pentru

sucient de mare, suma standardizat,

Sn =
este o v.a. de repartiie

Sn nm n
n

(7.5)

N (0, 1). X= 1 n Xk
k=1 n
este aproximativ normal

Sau, mai putem spune c distribuia v.a. (b) Notm cu

N (m, ). n

Zn =

not

Xk nm .
k=1

Atunci, convergena din teorema limit central este echivalent cu

n
unde

lim P (Zn x) = (x), x R,

(7.6)

(x)

este denit n (12.3), sau

lim P

Sn nm b n

1 = 2

b a

ex

2 /2

dx = (b) (a).

(7.7)

(b) Dac

m = 0, 2 = 1,

atunci TLC devine

1 n

Xk Y N (0, 1),
k=1

pentru

n .

(c) TLC ne permite s aproximm sume de v.a.

identic repartizate, avnd orice tip de repartiii (att

timp ct variaia lor e nit), cu o v.a. normal. Un exemplu ar  aproximarea repartiiei normale cu repartiia binomial cnd numrul de ncercri e foarte mare (vezi teorema lui jos).

de Moivre-Laplace de mai

STATS 4 [Dr. Iulian Stoleriu]


Se pune problema:

52
{Xk }k

aplicabil?
Dac

Ct de mare ar trebui s e n, n practic, pentru c teorema limit central s e


sunt deja normal repartizate, atunci teorema aproximarea

Dac variabilele aleatoare

sumei standardizate cu o variabil normal este, de fapt, o egalitate, ind adevarat pentru orice

n N .

{Xk }k

nu sunt normal repartizate, atunci un numr

aproximarea cu repartiia normal dei, dac repartiia lui bun i pentru un numr

n astfel nct n 30 ar  sucicient pentru Xk este simetric, aproximarea ar putea 

mai mic de

30.

(d) Legea tare a numerelor mari e foarte util n metode de simulare tip Monte Carlo.

Teorema 7.10

(de Moivre

16 - Laplace)
repartizate

Fie X1 , X2 , . . . , Xn , . . . un ir de v.a. independente stochastic, identic X1 + X2 + + Xn . Atunci, pentru orice < a < b < , avem:

B(1, p)

i e

Sn =

lim P

Sn np a b npq

1 = 2

b a

ex

2 /2

dx.

(q = 1 p)

(7.8)

Demonstraie.

Demonstraia rezult imediat din (7.7), innd cont c

E(Sn ) = np

D2 (Sn ) = npq.

Observaia 7.11

(1)

Aadar, dac parametrul

este sucient de mare, atunci o repartiie binomial

poate  aproximat cu una normal, cu media

np

i dispersia

npq .

n practic,

aproximarea este una sucient de bun dac

np 5

n(1 p) 5;

aceast aproximare poate  mbuntit dac aplicm factori de corecie.

Pentru

ndeplinind condiiile de mai sus, i folosind (7.6), putem aproxima funcia de repartiie a

repartiiei binomiale prin:

P (X k)
unde

k np npq

(7.9)

este funcia de repartiie pentru repartiia normal standard, i.e.,

1 (x) = 2
partiiei normale standard:

y2 2

dy,

x R.

De asemenea, putem aproxima i funcia de probabilitate a repartiiei binomiale folosind densitatea re-

P (X = k)
unde

1 npq

k np npq

(7.10)

(x) =

d dx (x) este densitatea de repartiie a repartiiei normale standard.

O variant mbuntit a aproximrii (7.9) este:

P (X k)
16 Abraham

k + 1 np 2 npq

(7.11)

de Moivre (1667 1754), matematician francez

STATS 4 [Dr. Iulian Stoleriu]


Termenul

53

1 2 din (7.11) este folosit ca o valoare de ajustare cnd se face aproximarea unei variabile aleatoare

discrete cu una continu. O variant mbuntit a aproximrii (7.10) este:

P (X = k) = P (k = P
(2)

1 1 <X <k+ ) 2 2 1 k + 1 np k 2 np X np < < 2 npq npq npq k 1 np 2 npq .


i dispersia

k + 1 np 2 npq

n general, dac dorim s aproximm o repartiie discret (ce are media

2)

cu una

normal, atunci scriem:

P (X k)
i

k+

1 2

(7.12)

P (X = k)
sau

, k
1 2

(7.13)

P (X = k)

k+

1 2

(7.14)

Funcii de variabile aleatoare


Funcii de o singur variabil aleatoare
Presupunem c Notm cu Fie

X este o variabil aleatoare FX (x) funcia sa de repartiie.

continu, creia i se cunoate densitatea de repartiie,

fX (x).

g(x)

este o funcie msurabil (Borel). Atunci

s gsim densitatea de repartiie pentru

g(X).

Y = g(X) denete o alt variabil aleatoare. Dorim notm cu DY = {x R; g(x) y}. Putem scrie: ( = {X DY }).
not

{Y y} = {g(X) y} = { , X() DY }
Atunci,

FY (y) = P (X DY ), =
DY
Dac

fX (x) dx.

(7.15)

g(x)

este bijectiv i

densitatea de repartiie a

x = h(y) = g 1 (y), lui Y este dat de:

not

atunci, folosind schimbarea de variabil la integrare,

fY (y) = fX (h(y))

dh(y) . dy

(7.16)

STATS 4 [Dr. Iulian Stoleriu]

54

Exemplu 7.12
Dac

Considerm funcia

g(x) = ax + b, a = 0. fX (x)
este densitatea de repartiie a unei variabile aleatoare continue

X,

atunci densitatea de

repartiie a variabilei aleatoare

Y = g(X)

este

fY (y) =
Alternativ, putem calcula densitatea lui Notm cu

1 fX |a|

yb a

FY (y)

funcia de repartiie pentru

g(X) astfel: Y i cu fY (y) , , a > 0;

densitatea sa de repartiie. Atunci:

FY (y) = P (aX+b y) =

P P

yb X a yb X a

yb a = 1 FX y b a < 0; a

FX

, ,

a > 0; a < 0;

Dac

FX

este continu, atunci:

fY (y) =

dFY (y) 1 = fX dy |a|

yb a

Aplicaie. Metoda funciei de repartiie inverse (Hincin-Smirnov) Propoziia 7.13


F (x),

Fie

este o variabil aleatoare de o repartiie dat, pentru care funcia sa de repartiie, Atunci, variabila aleatoare

este continu i strict cresctoate, n orice punct n care aceasta nu este

aleatoare repartizat

U(0, 1). FY

0 sau 1. Fie U o variabil Y = F 1 (U ) urmeaz aceeai repartiie ca i X .


Aratm ca

Demonstraie.
a lui

Notez cu

funcia de repartiie pentru

Y.

FY

este tocmai funcia de repartiie

X.

Avem succesiv:

FY (x) = P (Y x) = P (F 1 (U ) x) = P (U F (x)) = F (x), x [0, 1].

Utiliznd acest rezultat, urmtoarea propoziie rezult imediat:

Propoziia 7.14

{U1 , U2 , . . . , Un } sunt 1 (U ), F 1 (U ), . . . , variabile aleatoare independentic stochastic i identic repartizate U(0, 1), atunci {F 1 2 1 (U )} formeaz o selecie ntmpltoare de numere ce urmeaz repartiia lui X . F n
Fie

o variabil aleatoare ca n propoziia precedent. Dac

STATS L4 [Dr. Iulian Stoleriu]

55

8 Statistic Aplicat (L4) Aplicaii la TLC


Exerciiu 8.1

O moned ideal este aruncat de

100

de ori, iar

este variabila aleatoare ce reprezint

numrul de fee cu stema aprute.

(a) Care este probabilitatea de a obine exact (b) S se calculeze

52

de steme?

P (45 X 55).

Folosii aproximarea cu o variabil aleatoare normal.

Soluie:
B(100, 0.5),

(a)

Avem de calculat

P = P (X = 52).

ns

este o variabil aleatoare distribuit

aadar rezultatul exact este:

52 P = C100 (0.5)52 (0.5)48 = 0.0735.


Dac aproximm rezultatul folosind formula (7.12), obinem:

1 P = 100 0.5 0.5


Cu varianta mbuntit, obinem:

52 50 100 0.5 0.5

0.0737.

P =
(b) Notm cu

52 + 1 50 2 25

52 1 50 2 25

0.0736. X.
Atunci,

FX

funcia de repartiie pentru variabila aleatoare binomial

P (45 X 55) = P (X 55) P (X < 45) = FX (55) FX (44)


55

=
k=45

k C100 (0.5)k (0.5)100k = 0.7287.

Dac folosim aproximarea cu repartiia normal, obinem:

P (45 X 55)
Codul

55 + 1 50 2 25

45 1 50 2 25

= 0.7287.

Matlab urmtor calculeaz probabilitile cerute.

P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 % solutia exacta P1 = 1/5*normpdf(2/5) % solutia aproximativa 1 P1 = normcdf(2.5/5) - normcdf(1.5/5) % solutia aproximativa 2 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) % solutia exacta P2 = normcdf(5.5/5) - normcdf(-5.5/5) % solutia aproximativa

STATS L4 [Dr. Iulian Stoleriu]

56

Exerciiu 8.1
este punctul

Un cetean turmentat pleac de la bar spre cas. S presupunem c punctul de plecare de pe axa orizontal i se mic doar pe aceast ax astfel: n ecare unitate de timp,

acesta ori face un pas la stnga, cu probabilitatea

0.5,

ori face un pas la dreapta, cu probabilitatea

independent de paii anteriori. Folosind Teorema limit central, estimai probabilitatea ca, dup pai, acesta nu a ajuns la mai mult de doi pai de punctul de plecare.

0.5, 100 de

Soluie:

S atribuim

Xi variabila aleatoare ce reprezint pasul pe care ceteanul l face la momentul i (i N). X = 1, dac face un pas la stnga, i X = 1, dac face un pas la dreapta. Aadar, X este o variabil aleatoare discret ce poate lua doar dou valori, 1 i 1, ambele cu probabilitatea 0.5. Se 2 calculeaz cu uurin, E(X) = 0 i D (X) = 1. Suntem interesai s am ce se ntmpl dup 100 de
Fie

pai. Considerm mai nti

Sn =
i=1 n

Xi .

Atunci,

E(Sn ) =
i=1
deoarece Pentru

E(Xi ) = 0

D2 (Sn ) =
i=1

D2 (Xi ) = n, n).

{Xi }i=1, n sunt independente. Pentru n 30, Teorema limit central spune c Sn N (0, n = 100, S100 N (0, 10). Probabilitatea cerut este (utilizm i relaia (7.12)): P (|S100 | 2) = P (2 S100 2) 2+
1 2

10

2 + 1 0 2 10

= 0.1583.

Folosind urmtorul cod, putem simula n

Matlab micarea aleatorie (vezi Figura 8.1):


% % % % % numar de pasi simuleaza pasii la fiecare moment simuleaza unde a ajuns dupa fiecare pas reprezinta miscarea numarul de reintoarceri la bar

N = input('N = '); X = 2*(rand(N,1)<0.5)-1; S = cumsum(X); plot(1:N, S, '-') Z=length(find(S == 0))

Figura 8.1: Micare aleatoare (brownian) 1D.

STATS L4 [Dr. Iulian Stoleriu]

57
n frecvena absolut de apariie

Exerciiu 8.2

Aruncm o moned ideal n condiii identice i notm cu

a feei cu stema din cele efectuate pentru ca

repetiii ale experimentului. Care este numrul minim de aruncri ce trebuie

P
Determinai

n 0.5 0.1 0.98. n

prin dou metode: (i) (ii) Folosind inegalitatea lui Cebev; Folosind Teorema limit central.

Soluie:
(i) Observm c variabila aleatoare

n B(n, 0.5), E( n ) = 0.5, n X=


n n ,

de unde

E(n ) =

n 2 i

D2 (n ) =

n 4 . Aadar,

D2 (

n 1 )= . n 4n
Gsim c:

Folosim inegalitatea lui Cebev pentru

a = 0.1.

P
Impunem condiia

n D2 n n 0.5 0.1 1 n 0.01

=1

25 . n

1
de unde obinem c (ii) Cutm

25 0.98, n

n 1250

astfel nct

P 0.1
Ne ateptm ca valoarea lui

n 0.5 0.1 = 0.98. n

(8.1)

s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,

scriem c variabila aleatoare standardizat

n E(n ) n 0.5n = N (0, 1). D(n ) 0.5 n


Folosind aceasta, rescriem egalitatea (8.1) astfel:

n 0.5 0.1 0.98 = P 0.1 n n n 0.5n n = P 0.1 0.1 0.5 0.5 0.5 n n n = 5 5 n n n = 1 = 2 5 5 5

de unde

1 0.99
pentru repartiia normal

n 5

= 0.99

n 5

= (0.99) = z0.99 2.33 n 135.2974.

(cuantila de ordin n

standard). Din ultima egalitate gsim c

Matlab, calculm astfel:


n 136
.

n = (5*norminv(0.99,0,1))^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca

Observm c aceast valoare este mult mai mic dect cea gsit anterior. Metoda a doua (TLC) ne d un rezultat mai bun dect cel obinut cu ajutorul inegalitii lui Cebev. Aici, mai bun se traduce prin faptul c, folosind numr mai mic de simulri ale experimentului, obinem acelai rezultat.

STATS L4 [Dr. Iulian Stoleriu]

58
25%

Exerciiu 8.3
puin

O companie independent de evaluri statistice a estimat ca un anumit candidat are

anse s ctige alegerile locale.

Dorim s efectum un alt sondaj de opinie care s verice rezultatul

companiei. Determinai care ar trebui s e volumul minim de selecie pentru ca, cu o probabilitate de cel valorile

0.97, procentul de alegtori ce intenioneaz s-l voteze pe respectivul candidat se ncadreaz ntre 20% i 30%. Determinai volumul minim folosind cele dou metode menionate n Exerciiul 8.2.
S notm cu

Soluie:

Se cere cel mai mic

n numrul de n N pentru care

votani (din

alei aleator) care voteaz cu respectivul candidat.

P 0.2
echivalent cu

n 0.3 0.97, n

P
(i) Observm c variabila aleatoare

n 0.25 0.05 0.97. n n B(n, 0.25), de unde E(n ) =

n 4 i

D2 (n ) =

3n 16 . Aadar,

Folosim inegalitatea lui Cebev

n n 3 ) = 0.25, D2 ( ) = . n n 16n pentru X = n , a = 0.05. Gsim c: n E(


n D2 n n 0.25 0.05 1 n 0.052

P
Impunem condiia

=1

75 . n

1
de unde obinem c (ii) Cutm

75 0.97, n

n 2500

astfel nct

P 0.05
Ne ateptm ca valoarea lui

n 0.25 0.05 = 0.97. n

(8.2)

s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,

scriem c variabila aleatoare standardizat

n E(n ) n 0.25n =4 N (0, 1). D(n ) 3n


Folosind aceasta, rescriem egalitatea (8.2) astfel:

Atenie, aici s-a strecurat o greeal n soluia de la seminar! 2 Acolo, s-a mprit la D (n ), n loc de

D(n )

0.97 = P 0.05

n 0.25 0.05 n n n 0.25n n 0.05 4 = P 0.05 4 4 3 3 3n n n = 0.2 0.2 3 3 n n n 1 0.2 = 2 0.2 = 0.2 3 3 3
i

de unde

0.2

n 3

= 0.985

0.2

n 3

standard). Din ultima egalitate gsim

= z0.985 2.17 (cuantila c n 353.1969. n

Matlab, calculm astfel:


n 354
.

de ordin

0.985

pentru repartiia normal

n = 3*(norminv(0.985,0,1)/0.2)^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca Observm, din nou, c aceast valoare este mult mai mic dect cea gsit anterior.

STATS 5 [Dr. Iulian Stoleriu]

59

9 Statistic Aplicat (C5) Elemente de Statistic descriptiv


S considerm o populaie statistic de volum

i o caracteristic a ei,

X,

ce are funcia de repartiie

F.

Asupra acestei caracteristici facem

observaii, n urma crora culegem un set de date statistice. Pentru analiza

Dup cum am vzut anterior, datele statistice pot  prezentate ntr-o form grupat (descrise prin tabele de frecvene) sau pot  negrupate, exact aa cum au fost culese n urma observrilor. acestora, pot  utilizate diverse tehnici de organizare i reprezentare grac a datelor statistice ns, de cele mai multe ori, aceste metode nu sunt suciente pentru o analiz detaliat. Suntem interesai n a atribui acestor date anumite valori numerice reprezentative. Pot  denite mai multe tipuri de astfel de valori numerice, e.g., msuri ale tendinei centrale (media, modul, mediana), msuri ale dispersiei (dispersia, deviaia standard), msuri de poziie (cuantile, distana intercuantilic) etc. n acest capitol, vom introduce diverse msuri descriptive numerice, att pentru datele grupate, ct i pentru cele negrupate.

Msuri descriptive ale datelor negrupate


Considerm un set de date statistice negrupate, corespund unor observaii fcute asupra

x1 , x2 , . . . , xn (xi R, i = 1, 2 . . . , n, n N ), variabilei X . Denim urmtoarele:

ce

(1) Valoarea medie empiric


Este o msur a tendinei centrale a datelor. Pentru o selecie

{x1 , x2 , . . . , xn },

denim:

x=
ca ind

1 n

xi ,
i=1

media empiric.

Dac

{x1 , x2 , . . . , xN }

sunt toate cele

observaii (

recensmnt) asupra carac-

teristicii populaiei, atunci mrimea

1 = N
se numete putea folosi

xi
i=1

media (empiric a) populaiei.


x
ca un estimator pentru

Vom vedea mai trziu c, pentru a estima media

a ntregii

populaii statistice, nu este necesar s avem toate valorile Pentru ecare

{x1 , x2 , . . . , xN },

ci doar o selecie a ei, i vom

i,

cantitatea

. di = xi x se

numete

deviaia fa de medie.

Aceasta nu poate  denit ca

o msur a gradului de mprtiere a datelor, deoarece

(xi x) = 0.
i=1

(2) Momentele empirice


Pentru

k N , momentele empirice de ordin k k = 1 n


n

se denesc astfel:

xk i
i=1

(pentru selecie).

STATS 5 [Dr. Iulian Stoleriu]


Pentru

60
1 p

p = 0,

denim

1 xp = n

xp i
i=1

(pentru selecie),

(9.1)

formula generalizat a mediilor. Pentru p = 1, obinem media empiric (aritmetic) (x), pentru p = 1, obinem media armonic (x(h) ), pentru p = 2 avem media ptratic (x(q) ). Dac inem cont i de media geometric,
formul ce este cunoscut i sub denumirea de

x(g) =
atunci relaia dintre aceste medii este:

x1 x2 . . . xn ,

x(h) x(g) x x(q) .


Pentru ntreaga colectivitate, momentele de ordin

sunt

mk =
Pentru ecare

1 N

xk , i
i=1

(k N ).
se denesc astfel:

k N , momentele empirice centrate de ordin k 1 k = n


n

(xi x)k ,
i=1

pentru selecie,

1 k = N

(xi )k ,
i=1

pentru populaie.

(3) Dispersia empiric


Aceasta este o msur a gradului de mprtiere a datelor n jurul valorii medii.

{x1 , x2 , . . . , xn },

denim

dispersia empiric:
1 n1
n

Pentru o selecie

s2 =

(xi x)2
i=1

1 [ n1

x2 n()2 ] . x i
i=1

Pentru ntreaga populaie de volum

N , dispersia populaiei 2 = 1 N
N

este denit prin msura

(xi )2 .
i=1

Observaia 9.1

Cantitatea

i=1 2 vedea mai trziu c alegerea lui s este mai potrivit ntr-un anume sens. De altfel, ambele valori pot  2 folosite ca estimatori ai dispersiei populaiei, .

1 n

(xi x)2

este tot o msur a dispersiei (empirice) de selecie.

Vom

STATS 5 [Dr. Iulian Stoleriu]

61

(4) Deviaia empiric standard


Este tot o msur a mprtierii datelor n jurul valorii medii. Pentru o selecie

deviaia empiric standard:

{x1 , x2 , . . . , xn },

denim

s=
Pentru ntreaga populaie de volum

1 n1

(xi x)2 .
i=1
este denit prin cantitatea

N , deviaia standard a populaiei = 1 N


N

(xi )2 .
i=1

(5) Amplitudinea (plaja de valori, range)


Pentru un set de date,

amplitudinea (en.,

range) este denit ca ind diferena dintre valoarea cea mai

mare i valoarea cea mai mic a datelor, i.e.,

xmax xmin .

(6) Scorul Z
Este numrul deviaiilor standard pe care o anumit observaie, o selecie

{x1 , x2 , . . . , xn }, scorul Z

x, le are sub sau deasupra mediei.

Pentru

este denit astfel:

z=
Pentru o populaie, scorul

xx . s x .

este:

z=

(7) Corelaia (covariana) empiric


Dac avem

(de selecie):

n perechi de observaii, (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ), denim corelaia (covariana) empiric covsel 1 = n1
n

(xi x)(yi y ).
i=1

(9.2)

Covariana empiric pentru ntreaga populaie este:

covpop =

1 N

(xi x )(yi y ).
i=1

(9.3)

(8) Coecientul de corelaie empiric


rsel = rpop = covsel , sx sy
coecient de corelaie de selecie,

covpop , x y

coecient de corelaie pentru populaie.

(9) Funcia de repartiie empiric


Se numete funcia

Fn : R [0, 1],

funcie de repartiie empiric


denit prin

asociat unei variabile aleatoare

X i unei selecii {x1 , x2 , . . . , xn },

Fn (x) =

card{i;

xi x} . n

(9.4)

STATS 5 [Dr. Iulian Stoleriu]

62

Propoziia de mai jos arat c funcia de repartiie empiric aproximeaz funcia de repartiie teoretic (vezi Figura 9.1).

Propoziia 9.2
cu

Fie

F (x)

funcia de repartiie a lui

funcia de repartiie

o colectivitate statistic i X o caracteristic a sa, ce se dorete a  studiat. Notez X . Pentru o selecie de valori ale lui X , {x1 , x2 , . . . , xn }, construim (x). Atunci: empiric, Fn
Fn (x) F (x), prob
cnd

n ,

x R.

Demonstraie.

Notez cu

evenimentul

i frecvena relativ a realizrii evenimentului

{X x} i cu p = P (A). A este
card{i;

Se fac

repetiii ale acestui eveniment

n = n

xi x} = Fn (x). n

Astfel, concluzia propoziiei este o consecin imediat a teoremei lui Bernoulli, Teorema 7.4.

Figura 9.1: Funcia de repartiie empiric i funcia de repartiie teoretic pentru distribuia normal.
(10) Coecientul de asimetrie (en., skewness) este al treilea moment standardizat, care se denete prin
1 =
O repartiie este simetric dac i negativ (sau la stnga) dac

3 2
3/2

1 = 0. Vom spune c asimetria este pozitiv (sau la dreapta) dac 1 > 0 1 < 0. Vom avea:
N

n1/2 1 = (
i=1 i=1 n

(xi x)3
(pentru selecie) i

(xi x) )

2 3/2

3 1 = 3 =

(xi )3
i=1

(pentru populaie).

STATS 5 [Dr. Iulian Stoleriu]

63

(11) Excesul (coecientul de aplatizare sau boltire) (en., kurtosis) se denete prin
K=
Avem astfel:

4 3. 2 2

n K= (
i=1
i

(xi x)4
i=1 n

3
2 2

(pentru selecie)

(xi x) )

K=

4 1 3= 4 n 4

(xi )4 3
i=1

(pentru populaie),

Este o msur a boltirii distribuiei (al patrulea moment standardizat). c indicele kurtosis al distribuiei normale s e egal cu

K = 0, leptocurtic
Gauss. Pentru

pentru

K>0

sau

platocurtic

pentru

0. Vom avea o repartiie mezocurtic pentru K < 0. Un indice K > 0 semnic faptul c,

Termenul

(3)

apare pentru

n vecintatea modului, curba densitii de repartiie are o boltire (ascuire) mai mare dect clopotul lui

K < 0, n acea vecintate curba densitii de repartiie este mai plat dect curba lui Gauss.

(12) Cuantile Cuantilele (de ordin n)


egale. Dac sunt valori ale unei variabile aleatoare care separ repartiia ordonat n

pri

n = 2,

atunci avem o singur cuantil de ordin

Presupunem c observaiile sunt ordonate, median:

2, numit mediana, notat x1 < x2 < < xn . Pentru aceast


, dac , dac

prin

x0.5

sau

Me.

ordine, denim valoarea

x0.5 =
Dac

x(n+1)/2 (xn/2 + xn/2+1 )/2

n= n= 3).

impar; par; Prima cuartil, notat

se numete numete

cuartila inferioar, a doua cuartil este mediana, iar ultima cuartil, notat x0.75 sau Q3 , se cuartila superioar. Diferena Q3 Q1 se numete distana intercuartilic. Dac n = 10 se numesc decile (sunt n numr de 9), dac n = 100 se numesc percentile (sunt n numr de 99), dac n = 1000 se numesc permile (sunt n numr de 999). Sunt msuri de poziie, ce msoar locaia
unei anumite observaii fa de restul datelor.

n = 4,

cuantilele se numesc

cuartile

(sunt n numr de

x0.25

sau

Q1 ,

(13) Modul Modul


(sau

valoarea modal)

este acea valoare

din setul de date care apare cel mai des. n anumite

cazuri, dac datele sunt deja grupate, putem doar estima modul sau, alternativ, s precizm clasa care l conine, numit

clasa modal.

De exemplu, pentru datele din Tabelul 1.1 este

6,

iar pentru datele din

Tabelul 1.4 clasa modal este de date

[35, 45).

Un set de date poate avea mai multe module. Dac apar dou

astfel de valori, atunci vom spune c setul de date este

trimodal etc.

bimodal,

pentru trei astfel de valori avem un set

n cazul n care toate valorile au aceeai frecven de apariie, atunci spunem c nu

exist mod. De exemplu, setul de date

1 3

5 6

3 2

1 4

4 6

2 5

nu admite valoare modal. Nu exist un simbol care s noteze distinctiv modul unui set de date.

STATS 5 [Dr. Iulian Stoleriu]

64

Msuri descriptive ale datelor grupate


Considerm un set de date statistice grupate (de volum

n), ce corespund celor n observaii asupra variabilei


i frecvenele absolute corespunztoare,

X.

Datele grupate sunt n genul celor prezentate n Figurile 1.1 i 1.4.

Pentru o selecie cu valorile de mijloc

{x1 , x2 , . . . , xn }

{f1 , f2 ,

. . . , fn },

cu

fi = n,
i=1

denim:

xf =

1 n

xi fi ,
i=1 n

media (empiric) de selecie, (sau, media ponderat)

1 s2 = n1

fi (xi xf )2 =
i=1

1 n1

x2 fi n x2 f i
i=1

dispersia empiric,

s=

s2 ,

deviaia empiric standard.

Formule similare se pot da i pentru msurile descriptive ale ntregii populaii. Mediana pentru un set de date grupate este acea valoare ce separ toate datele n dou pri egale. Se determin mai nti clasa ce conine mediana (numit mediana este:

clas median),

apoi presupunem c n interiorul

ecrei clase datele sunt uniform distribuite (vezi Exerciiu 10.3).

O formul dup care se calculeaz

Me = l +
unde:

n 2

FM e c, fM e FM e
este suma frecvenelor pn

este limita inferioar a clasei mediane,

este volumul seleciei,

la (exclusiv) clasa median,

fM e

este frecvena clasei mediane i

este limea clasei.

Pentru a aa modul unui set de date grupate, determinm mai nti clasa ce conine aceast valoare (clas modal), iar modul va  calculat dup formula:

M od = l +
unde

d1 c, d1 + d2 c
este limea clasei

d1

d2

sunt frecvena clasei modale minus frecvena clasei anterioare i, respectiv, frecvena clasei

modale minus frecvena clasei posterioare, modale.

este limita inferioar a clasei modale i

Observaia 9.3
n

S considerm urmtoarea problem. La brutria din col a fost adus o main nou de

fabricat pine. Aceast main de pine ar trebui s fabrice pini care s aiba n medie

m = 400 de grame.

Pentru a testa dac maina respectiv ndeplinete norma de gramaj, am pus deoparte (la ntmplare) pini produse ntr-o zi lucratoare, n scopul de a le cntri. Spunem astfel c am facut o selecie de volum

la parametrii potrivii. n urma cntririi celor

n din mulimea pinilor produse n acea zi. Dorim s decidem dac, ntr-adevr, maina este setat n pini, obinem datele (empirice): {x1 , x2 , . . . , xn } (n 1 n
n

grame). Calculm media masei acestora i obinem:

x=
Intuitiv, ar  de ateptat ca acest

xi .
i=1

x s aproximeze (ntr-un anumit sens) masa medie (teoretic) a pinilor

produse de aceast main. Pentru a putea obine aceast aproximare, am avea nevoie de un criteriu care

STATS 5 [Dr. Iulian Stoleriu]


s ne spun c

65
Mai mult, am dori s m convini c aceast aproximare nu depinde de eantionul

x m.

de pini ales, adic, dac am  ales alte pini i calculat media maselor lor, am  obinut din nou o valoarea foarte apropiat de

m.

Pentru a construi un astfel de criteriu, avem nevoie de un cadru teoretic

mai abstract pentru modelarea datelor statistice. Acest cadru l vom construi n capitolele ce urmeaz.

n Tabelul 9.1, am prezentat cteva funcii

Matlab specice pentru msurile descriptive.

mean(x) geomean(x) harmmean(x) quantile(x,alpha) iqr(x) median(x) std(x), var(x) range(x) mode(x) zscore(x) moment(x,k) sort(x) max(x), min(x) skewness(x) kurtosis(x) prctile(x,p) cdfplot(x) cov(x,y) corrcoef(x,y) LEGEstat(<param>)

% media valorilor elementelor lui x; % media geometric a elementelor lui x; % media armonic a elementelor lui x; % cuantila de ordin a vectorului x; % distana intercuantilic, x0.75 x0.25 ; % valoarea median a lui x; % deviaia standard i dispersia valorilor lui x; % amplitudinea (range) vectorului x; % modul lui x; % realizeaz scorul elementelor lui x; % momentul de ordin k al lui x; % sorteaza crescator elementele vectorului x; % maximum i minimum pentru elementele lui x; % skewness pentru elementele lui x; % kurtosis pentru elementele lui x; % percentilele de ordin p ale lui x; % reprezint grac funcia de repartiie empiric a lui x; % covariana dintre x i y ; % coecientul de corelaie dintre x i y ; % aeaz media i dispersia pentru LEGE(<param>);

Tabela 9.1: Funcii


.

Matlab specice pentru msuri descriptive.

Laborator 5 [Dr. Iulian Stoleriu]

66

10 Statistic Aplicat (L5)


Justicare grac a teoremei limit central Exemplu 10.1 n Figura 10.1 am reprezentat grac (cu bare) funciile de probabilitate pentru repartiiile
binomial i Poisson, atunci cnd numrul de extrageri n schema binomial este un numr mare. Observm c pentru un numr

n sucient de mare, cele dou grace se suprapun.


k lim Cn pk q nk =

Aceasta este o "demonstraie"

grac a urmtoarei convergene:

n p0

e k . k!

(10.1)

=np

0.12

0.1

0.08

0.06

0.04

0.02

10

15

20

25

30

Figura 10.1: B(n, p) i P(np) pentru n = 100, p = 0.15


n practic, proprietatea (10.1) este satisfcut pentru

n 30, p 0.1, = n p 0.1.


Din gura 10.1, observm c gracul are forma clopotului lui Gauss, justicnd grac faptul c funciile de probabilitate pentru binomial ( repartiia normal.

albastru)

i Poisson (

rou)

tind la densitatea de repartiie pentru

n = input('n='); p = input('p='); lambda = n*p; a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda)); % a si b sunt valorile din problema celor 3 x=a:b; fB=binopdf(x,n,p); fP=poisspdf(x,lambda); bar(x',[fB',fP'])

Laborator 5 [Dr. Iulian Stoleriu]

67

Generare de numere aleatoare folosind metoda funciei de repartiie inverse (Hincin-Smirnov) Exemplu 10.2
1 e x , x> X exp(). F : R [0, 1], F (x) =

Fie variabila aleatoare

Funcia sa de repartiie este

0, iar F 1 este:

F 1 (u) =
Atunci, dac

ln(1 u) , u (0, 1); 0 , altfel.


c

{u1 , u2 , . . . , un } sunt numere aleatoare uniform repartizate n [0, 1], avem 1 (u ), . . . , F 1 (u )} formeaz o selecie ntmpltoare de numere repartizate exp(). F 2 n
n Figura 10.2, am reprezentat grac o dou selecii de volum

{F 1 (u1 ),

150 de numere aleatoare repartizate exp(5);

una generat prin metoda funciei de repartiie inverse, cealalt generat de funcia

exprnd.

Seleciile generate au fost ordonate descresctor.

Funcia

Matlab predenit Matlab care genereaz gura este

prezentat mai jos. Apelarea funciei se face prin tastarea n fereastra de lucru n

Matlab a comezii expsel(5).

function expsel(lambda) % functia expsel.m % generez 150 de numere cu metoda Hincin-Smirnov si le ordonez descrescator Y = sort(-lambda*log(1-rand(150,1)), 'descend'); plot(Y, 'bo'); hold on % desenez selectia si retin figura % generez 150 de numere cu exprnd si le ordonez descrescator Z = sort(exprnd(lambda, 150,1), 'descend'); plot(Z, 'r*') % desenez Z cu rosu legend('metoda functiei inverse','generare cu exprnd')

Figura 10.2: Generare de numere aleatoare prin metoda funciei inverse.

Exerciiu 10.1
i simulai n

Matlab o selecie de observaii independente asupra lui Y .

Considerm v.a.

X U , 2

2 . Determinai densitatea de repartiie a v.a.

Y = tan X

Laborator 5 [Dr. Iulian Stoleriu]

68

Generarea de numere aleatoare ntregi


Funciile floor, ceil, round, fix
Sunt funcii folosite pentru generarea de numere aleatoare ntregi. partea ntreag a lui De exemplu, funcia

floor(x)

este

x.

Astfel, comenzile

floor(11*rand(20,1)); ceil(11*rand(20,1));
20 de numere ntregi ntre 0 i 10, distribuite uniform discret. Diferena dintre cele floor(x) face rotunjirea la numrul ntreg aat la stnga lui x, pe cnd ceil(x) face rotunjirea la numrul ntreg aat la dreapta lui x. Funciile round(x) i fix(x) rotunjesc numrul real x la cel mai apropiat numr ntreg, n direcia lui , respectiv, n direcia lui zero.
genereaz ecare cte dou funcii este ca Pentru generarea de numere ntregi n

Matlab, mai putem folosi urmtoarele comenzi:

randsample(populatie, k) randsample(n, k) randsample(populatie, k, replace)


Prima comand genereaz o selecie uniform (discret) nerepetat de vectorul

numere naturale alese aleator din

populatie.

Dac n locul vectorului

selecie uniform nerepetat de

numere din mulimea

tea s controlm dac selecia este sau selecia obinut este una repetat, iar este una nerepetat. De exemplu, comanda

populatie este n (comanda a doua), atunci se realizeaz o {1, 2, . . . , n}. A treia comand ne d posibilitanu este repetat. Dac variabila replace este true sau 1, atunci dac variabila replace este false sau 0, atunci selecia obinut

randsample([50:2:100], 10, 0)
genereaz o selecie nerepetat de

10

numere pare ntre

50

100:

66
Vectorul

72

50

68

88

74

82

80

94

76

dat de

X = randperm(n)
este o permutare aleatoare a elementelor mulimii

{1, 2, . . . , n}. 20
de case, vndute ntr-o

Exerciiu 10.2

Urmtorul set de date reprezint preurile (n mii de euro) a

Laborator 5 [Dr. Iulian Stoleriu]


anumit regiune a unui ora:

69

113 60.5 340.5 130 79 475.5 90 100 175.5 100 111.5 525 50 122.5 125.5 75 150 89 100 70
Determinai amplitudinea, media, mediana, modul, cuartilele i distana intercuartilic pentru aceste date. Care valoare este cea mai reprezentativ?

Soluie:

Rearanjm datele n ordine cresctoare:

50 60.5 70 75 79 89 90 100 100 100 111.5 113.5 122.5 125.5 130 150 175.5 340.5 475.5
525 50 = 475, media lor Q1 = 84, cuartila superioar d = Q3 Q1 = 56.
Amplitudinea este inferioar este este este

525

154.15, mediana este 105.75, modul este 100, cuartila Q3 = 140, Q2 = M e i distana intercuartilic este

Mediana este valoarea cea mai reprezentativ n acest caz, deoarece cele mai mari trei preuri, anume

340.5, 475.5, 525,

mresc media i o fac mai puin reprezentativ pentru celelalte date. n cazul n care

setul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. n

Matlab,

X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ... 111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70 a = range(X); m = mean(X); Me = median(X); Mo = mode(X); Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;

Exerciiu 10.3
Soluie:
x=

Considerm datele din Tabelul 2.2. Determinai amplitudinea, media, mediana, modul,

dispersia i prima cuartil pentru aceste date.

Amplitudinea este

a = 30.

Media este

(x f ) 1 = (2.5 5 + 7.5 13 + 12.5 23 + 17.5 17 + 22.5 10 + 27.5 2) = 13.9286. n 70

Dispersia este:

s2 =

1 ( (x2 f ) n x2 ) n1 1 = (2.52 5 + 7.52 13 + 12.52 23 + 17.52 17 + 22.52 10 + 27.52 2 70 13.92862 ) 69 = 37.06. [10, 15). 35
Deoarece n clasele anterioare ([0,

Clasa median este clasa

5)

[5, 10))

se a deja

5 + 13 = 18

date mai mici dect mediana, pentru a aa nlimea median a plantelor (i.e., acea valoare care este mai mare dect nlimea a de plante i mai mic dect nlimea a alte

35

de plante), va trebui

s determinm acea valoare din clasa median ce este mai mare dect alte

17

valori din aceast clas.

Laborator 5 [Dr. Iulian Stoleriu]


Aadar, avem nevoie de a determina o fracie median este

70
17 23 dintre valorile clasei mediane. n concluzie, valoarea

M e = 10 +
Clasa modal este cele

17 5 = 13.6957. 23 12.5.

[10, 15),

iar modul este valoarea central a clasei,

Calculm acum prima cuartil. mprim setul de date n patru. Prima cuartil este acea valoare dintre

70

care este mai mare dect alte

18

valori, adic

Q1 = 10.

Implementarea n

Matlab:

x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor f = [5; 13; 23; 17; 10; 2]; % frecventele n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1);

Exerciiu 10.4

O companie de asigurri a nregistrat numrul de accidente pe sptmn ce au avut loc

ntr-un anumit sat, n decurs de un an (52 de sptmni). Acestea sunt, n ordine:

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2, 4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2
(a) Construii un tabel de frecvene care s conin numrul de accidente, frecvenele absolute i relative. (b) Gsii media empiric, mediana i deviaia standard empiric. (c) Reprezentai prin bare rezultatele din tabelul de frecvene. (d) Gsii i reprezentai grac (cdfplot) funcia de repartiie empiric a numrului de accidente. (e) Aproximai probabilitatea ca ntr-o sptmn aleas la ntmplare s  avut cel puin dou accidente.

Soluie:

(a) Tabelul de frecvene este Tabelul 10.1. numrul frecv. abs. frecv. rel.

0 7 0.1346

1 9 0.1731

2 14 0.2692

3 12 0.2308

4 10 0.1923

Tabela 10.1: Tabel de frecvene pentru Exerciiu 10.4


(b) Avem:

52

x=
i=1
(c)

xi = 2.1731,

s=

1 51

52

(xi x)2 = 1.3094,


i=1 Fn (x)

M e = 2.
sunt reprezentate n Figura

Reprezentarea prin bare a numrului de accidente i gracul lui

10.3. (d) Funcia de repartiie empiric este:

Fn (x) = P (X x) =

0, 7 , 52 16 ,
52

30 , 52 42 , 52 1,

x < 0; dac x [0, dac x [1, dac x [2, dac x [3, dac x 4.
dac

1); 2); 3); 4);

Laborator 5 [Dr. Iulian Stoleriu]

71

Figura 10.3: Reprezentare pentru numrul de accidente.


Probabilitatea cerut la

(e)

este:

P (X 2) = 1 P (X < 2) = 1 P (X 1) = 1 Fn (1) = 1
Codul

16 = 0.6923. 52

Matlab pentru calcule i grace este:

Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)]; m = mean(Y); s = std(Y); Me = median(Y); subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice

Exerciiu 10.5
este

Testm media notelor obinute de studenii din ultimul an al unei universiti. S pre-

supunem c pentru aceste note avem media de selecie

x = 7.24

i deviaia standard

s = 0.7.

Media ta

8.45.

Care i este poziia mediei tale, raportat la mediile colegilor ti? (i.e., cte deviaii standard,

s,

dedesubtul sau deasupra mediei de selecie te situezi?)

Soluie:

Calculm scorul

Z.

Avem:

z=

xx 8.50 7.24 = = 1.8 0.7

deviaii standard deasupra mediei de selecie.

Anexa 1 [Dr. Iulian Stoleriu]

72

11

Anexa 1
Matlab

Scurt introducere n

Matlab este un pachet comercial de programe de nalt performan produs de The MathWorks, Inc.,
dedicat calculului numeric i reprezentrilor grace n domeniul tiinelor i ingineriei. Elementul de baz cu care opereaz

Matlab-ul este matricea (Matlab este acronim de la MATrix LABoratory). Matlab


este uurina cu care poate  extins. La programele deja existente n

este un software standard n mediile universitare, precum i n domeniul cercetrii i rezolvrii practice a problemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea datelor experimentale, matematici nanciare, matematici aplicate n diverse domenii etc. Cea mai important caracteristic a

Matlab, utilizatorul poate aduga propriile sale coduri, dezvoltnd aplicaii specice domeniului n care lucreaz. Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab (iere M) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate. Structural, Matlab-ul este realizat sub forma unui nucleu de baz, cu
interpretor propriu, n jurul cruia sunt construite toolbox-urile. Prezentm mai jos o scurt introducere n

Matlab-ului

Matlab a principalelor funcii i comenzi folosite n aceast Matlab ale unor noiuni de
Statistics

lucrare. Pentru o tratare mai detaliat, putei consulta un manual de utilizare sau [9]. Mai menionm aici i lucrarea [1], unde putei gsi diverse modaliti de implementare n Teoria Probabilitilor i Statistic matematic. Folosind comanda ct i a pachetelor de funcii (

demo din Matlab, putei urmri o demonstraie a principalelor faciliti din Matlab,

Toolbox,

toolbox)

de care ai putea  interesai. Dintre acestea, amintim

care este o colecie de funcii folosite pentru analiza, modelarea i simularea datelor. Conine:

analiza gracelor (GUI), diverse repartiii probabilistice (beta, binomial, Poisson, relor aleatoare, analiza regresional, descrieri statistice.

2 ),

generarea nume-

Comenzile

Matlab pot  scrise n iere cu extensia .m, ce urmeaz apoi a  compilate. Un ier-m Matlab poate  folosit ca pe un mediu computaional interactiv, caz n

const dintr-o succesiune de instruciuni, cu posibilitatea apelrii altor iere-M precum i a apelrii recursive. De asemenea, care ecare linie este prelucrat imediat. Odat introduse expresiile, acestea pot  vizualizate sau evaluate imediat. De exemplu, introducnd la linia de comand

>> a = sqrt((sqrt(5)+1)/2)

Matlab denete o variabil de memorie a, creia i atribuie valoarea


a = 1.2720

Variabilele sunt denite cu ajutorul operatorului de atribuire, calculul unei expresii sau al unei funcii.

=,

i pot  utilizate fr a declara

de ce tip sunt. Valoarea unei variabile poate : o constant, un ir de caractere, poate reiei din

Pentru a gsi informaii imediate despre vreo funcie predenit, comanda De exemplu,

help

va vine n ajutor.

Anexa 1 [Dr. Iulian Stoleriu]


>> help length
aeaz urmtoarele:

73

LENGTH Length of vector. LENGTH(X) returns the length of vector X. It is equivalent to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones. See also numel.

Comanda menzii

help poate  utilizat doar dac se cunoate exact lookfor este recomandat. De exemplu, comanda

numele funciei. Altfel, folosirea co-

>> lookfor length


produce:

NAMELENGTHMAX Maximum length of MATLAB function or variable name. VARARGIN Variable length input argument list. VARARGOUT Variable length output argument list. LENGTH Length of vector.

Matlab este un mediu computaional orientat pe lucru cu vectori i matrice.


forma

O linie de cod de

>> v = [1,3,5,7,9]

% sau

v = [1 3 5 7 9]
1, 3, 5, 7, 9. Aceasta poate  realizat i folosind de la 1 la 9, cu pasul 2. Pentru un vector coloan,

denete un vector linie ce are componentele comanda

v = 1:2:9

adic aeaz numerele

folosim punct-virgul ntre elemente, adic

>> v = [1;3;5;7;9]

% vector coloana

O alt variant de a deni un vector este

>> v = linspace(x1,x2,n)
adic

este un vector linie cu

componente, la intervale egale ntre

x1

x2.

Denirea matricelor se poate face prin introducerea explicit a elementelor sale sau prin instruciuni i funcii. La denirea explicit, trebuie inut cont de urmtoarele: elementele matricei sunt cuprinse ntre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spaii libere sau virgule, liniile se separ prin semnul punct-virgul. De exemplu, comanda

>> A = [1 2 3; 4, 5, 6]

Anexa 1 [Dr. Iulian Stoleriu]


denete matricea

74
A =

1 4

2 5

3 6 A(i,j)
sau

Apelul elementelor unei matrice se poate face prin comenzile coloan Funcia Funcia ordin

j)

sau

A(i,:)

A(:,j)

(elementele de

(elementele de linia

i); m n, avnd toate componentele egale cu 1. m n. Funcia eye(n) denete matricea unitate de

Matlab ones(m,n) zeros(m,n) denete

denete o matrice o matrice zero

n.

Dup cum vom vedea mai jos, comenzii

Matlab permite denirea unor funcii foarte complicate prin scrif (x, y) = e5x sin 3y :

erea unui cod. Dac funcia ce o avem de denit este una simpl, atunci avem varianta utilizrii

inline.

Spre exemplu, denim funcia

>> f = inline('exp(5*x).*sin(3*y)') f = Inline function: f(x,y) = exp(5*x).*sin(3*y)


Putem apoi calcula

f (7, )

prin

>> f(7,pi)

0.5827

Un program

Matlab poate  scris sub forma ierelor script sau a ierelor de tip funcie. Ambele Matlab. Prin apelarea numelui ierului, se execut secvena Matlab coninut
script este un ier extern care conine o sec-

tipuri de iere sunt scrise n format ASCII. Aceste tipuri de iere permit crearea unor noi funcii, care le pot completa pe cele deja existente. Un ier ven de comenzi

n acesta. Dup execuia complet a unui ier script, variabilele cu care acesta a operat rmn n zona de memorie a aplicaiei. Fiierele script sunt folosite pentru rezolvarea unor probleme care cer comenzi succesive att de lungi, nct ar putea deveni greoaie pentru lucrul n mod interactiv, adic n modul linie de comand.

Pentru a introduce date n matricea

Matlab, putem copia datele direct ntr-un ier Matlab, prin denirea unui
data

vector sau a unei matrice de date. De exemplu, urmtoarele date au fost introduse prin "copy-paste" n

data: [ 19.9 21.0 17.5 23.2 23.5 19.7 % atribuirea valorilor matricei % prima linie a datelor copiate

>> data = 21.3 24.1 18.4 20.5 22.1 16.6 ];


Datele din

% ultima linie a datelor copiate % inchidem paranteza ce defineste matricea de date

Matlab pot  salvate astfel:

Anexa 1 [Dr. Iulian Stoleriu]


>> cd('c:\fisierul_de_lucru'); >> save Timpi_de_reactie data;
Datele pot  rencrcate folosind comanda

75
% alegem fisierul unde salvam datele % salveaza in fisierul Timpi_de_reactie.mat

load Timpi_de_reactie Timpi_de_reactie

% incarca datele din fisier % afiseaza datele incarcate

Fiierele funcie

Matlab creaz cadrul propice extinderii funciilor sale, prin posibilitatea crerii de noi iere.
dac prima linie a ierului ier funcie. acesteia.

Astfel,

.m

conine cuvntul

function,

atunci ierul respectiv este declarat ca ind

Variabilele denite i manipulate n interiorul ierului funcie sunt localizate la nivelul

Prin urmare, la terminarea execuiei unei funcii, n memoria calculatorului nu rmn dect

variabilele de ieire ale acesteia. Forma general a primei linii a unui ier este:

function[param_iesire] = nume_functie(param_intrare)
unde:

function

este este cuvntul care declar ierul ca ier funcie; este numele funciei, care este totuna cu numele sub care se salveaz ierul; sunt parametrii de ieire; sunt parametrii de intrare.

nume_functie param_iesire

param_intrare

Comenzile i funciile care sunt utilizate de nou funcie sunt nregistrate ntr-un ier cu extensia

.m.

Exemplu 11.1
tor

Fisierul

(alternativ, aceast lucru poate  realizat prin comanda

medie.m calculeaz media aritmetic a sumei ptratelor componentelor unui vecmean(X.^2)):

function m2 = medie(X) n = length(X); m2 = sum(X.^2)/n;

Matlab-ul include aplicaii specice, numite Toolbox-uri. Acestea sunt colecii extinse de funcii Matlab
(iere-m) care dezvolt mediul de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate.

Statistics Toolbox

reprezint o colecie de funcii folosite pentru analiza, modelarea i

simularea datelor i conine: generarea de numere aleatoare; distribuii, analiza grac interactiv (GUI), analiza regresional, descrieri statistice, teste statistice. n Tabelul 11.1 am adunat cteva comenzi utile n

Matlab.

Anexa 1 [Dr. Iulian Stoleriu]


% help rand lookfor normal X=[2 4 6 5 2 7 10] X=[3; 1; 6.5 ;0 ;77] X = -10:2:10 length(X) t=0:0.01:3*pi X.^2 X.*Y cumsum(X) cumprod(X) min(X) max(X) sort(X) sort(X, 'descend') erf(X) exp(x) log(x) sqrt(x) num2str(x) factorial(n) A = ones(m,n) B = zeros(m,n) I = eye(n) A = [3/2 1 3 7; 6 5 8 8; 3 6 9 12] size(A) det(A) inv(A) A' A(:,7) A(1:20,1) nchoosek(n,k) 1e5 exp(1) bar(X) sau barh(X) hist(X) hist3(x,y,z) plot(X(1:5),'*m') plot(t,X,'-') plot3(X,Y,Z) stairs(X) subplot(m,n,z) semilogx i semilogy hold on clf clear all title('Graficul functiei') find legend % % % %

76
permite adaugarea de comentarii in cod help specic pentru funcia

cauta intrarile n

Matlab pentru
7 5 10
la

rand normal

vector linie cu

elemente elemente

vector coloan cu

2 n 2 % lungimea vectorului X % denete o diviziune a [0, 3] cu diviziunea 0.01 % ridic toate componentele vectorului X la puterea a doua % produsul a doi vectori % suma cumulat a elementelor vectorului X % produsul cumulativ al elementelor vectorului X % realizeaz minimum dintre componentele lui X % realizeaz maximum dintre componentele lu X % ordoneaz componentele lui X n ordine crescatoare % ordoneaz componentele lui X n ordine descrescatoare % funcia eroare % calculeaz exponenial ex % calculeaz logaritmul natural ln(x) % calculeaz radicalul ordinului doi dintr-un numr % furnizeaz valoarea numeric a lui x % n! % A e matrice m n, cu toate elementele 1 % matrice m n zero % matrice unitate, n n % matrice 3 3 % dimensiunea matricei A % determinantul matricei A % inversa matricei A % transpusa matricei A % coloana a 7-a a matricei A % scoate primele 20 de linii ale lui A % combinri de n luate cte k % numarul 105 % numarul e % reprezentarea prin bare % reprezentarea prin histograme % reprezentarea prin histograme 3-D % deseneaz primele 5 componente ale lui X , cu * magenta % deseneaz gracul lui X versus t, cu linie continua % deseneaz un grac n 3-D % deseneaz o funcie scara % mparte gracul n m n zone & deseneaz n zona z % logaritmeaz valorile de pe absci, resp., ordonata % reine gracul pentru a realiza o nou gura % terge gura % terge toate variabilele denite % adaug titlu gurii % gsete indicii elementelor nenule ale unui vector % ataeaz o legend la un grac
vector cu numerele intregi de la din

10,

Tabela 11.1: Funcii

Matlab utile

Anexa 2 [Dr. Iulian Stoleriu]

77

12

Anexa 2

Exemple de repartiii discrete


n dreptul ecrei repartiii, n parantez, apare numele cu care aceasta care poate  apelat n

Matlab.

(1)

Repartiia uniform discret, U(n)


X U(n),
dac valorile lui

(unid)

Scriem c

sunt

{1, 2, . . . , n}, 1 , n

cu probabilitile

P (X = k) =
Media i dispersia sunt:

k = 1, 2, . . . , n.

Exemplu:
(2)

E(X) =

n+1 2 ,

D2 (X) =

n2 1 12 .

numrul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizat

U(6).

Repartiia Bernoulli17 , B(1, p)


X B(1, p).
V.a.

(bino)

Scriem

de tip Bernoulli poate lua doar dou valori,

X = 1

(succes) sau

X = 0

(insucces), cu probabilitile

Exemplu:
(3)

Media i dispersia sunt:

P (X = 1) = p; P (X = 0) = 1 p. E(X) = p; D2 (X) = p(1 p). B(1, 0.5).

aruncarea o singur dat a unei monede ideale poate  modelat ca ind o v.a.

Repartiia binomial, B(n, p):

(bino)

Scriem

dac valorile lui

X B(n, p) (schema bilei revenite sau schema X sunt {0, 1, . . . , n}, cu probabilitile

extragerilor cu repetiie)

(n > 0, p (0, 1)),

k P (X = k) = Cn pk (1 p)nk , k = 0, 1, . . . , n.
Media i dispersia sunt: Dac

E(X) = np; D2 (X) = np(1 p).


i

(Xk )k=1,n B(1, p)


aruncarea de

(Xk )k

independente stochastic, atunci

X=
k=1

Xk B(n, p).
binomial

Exemplu:
(4)

15 ori a unei monede ideale poate  modelat ca ind o v.a.


(hyge)

B(15, 0.5).

Repartiia hipergeometric, H(n, a, b)

X H(n, a, b)

(schema bilei nerevenite sau schema extragerilor fr repetiie)

(n, a, b > 0)

dac

P (X = k) =
17 Jacob

k nk Ca Cb , n Ca+b

pentru orice

ce satisface

max(0, n b) k min(a, n).

Bernoulli (1654 1705), matematician elveian

Anexa 2 [Dr. Iulian Stoleriu]


n
Media i dispersia sunt:

78
EX =
i=0

E(Xi ) = np; D2 (X) = np(1 p)

a+bn . a+b1

Observaia 12.1

(i)

Dac

(Xk )k=0,n B(1, n),


n

cu

p=

a a+b (v.a. dependente stochastic), atunci

X=
i=1

Xi H(n, a, b).
n

n cazul schemei bilei nerevenite, nu mai putem scrie egalitate ntre nu sunt independente stochastic. (ii) Pentru

D2 (X)

D2 (Xi ),
i=0

deoarece

(Xi )i

N =a+b

n,

putem face aproximarea

a+bn a+b1

a+bn a+b

=1

n N , de unde
(12.1)

D2 (X) np(1 p) 1

n . N

Observm c repartiiile binomial i hipergeometric au aceeai medie, ns dispersiile difer prin termenul

N n N 1 . n cazul n care numrul de bile este mult mai mare dect numrul de extrageri (N n acest termen devine aproximativ 1 N . n plus, dac N este foarte mare, atunci trecnd

n), atunci N n

(12.1), gsim c i dispersiile celor dou repartiii coincid. Cu alte cuvinte, cnd numrul de bile din urn este foarte mare, nu mai conteaz dac extragerea bilelor se face cu repetiie sau nu. Acest fapt l vom utiliza n Teoria seleciei, cnd extragerile se fac dintr-o colectivitate de volum foarte mare.

(5)

Repartiia Poisson18 , P()

(poiss)

Valorile sale reprezint numrul evenimentelor spontane (cu intensitatea val de timp. Pentru un cu probabilitile

> 0,

spunem c

X P()

(legea

) realizate ntr-un anumit interevenimentelor rare) dac X ia valori naturale,

P (X = k) = e E(X) = ; D2 (x) = .
(6)

k , k N. k!

Repartiia geometric, Geo(p)

(geo)

Valorile sale reprezint numrul de insuccese avute pn la obinerea primului succes, stiind probabilitatea de obinere a unui succes, Spunem c

p.
ia valori n

X Geo(p),

(p (0, 1))

dac

N,

cu probabilitile

P (X = k) = p(1 p)k , E(X) = 1p 1p ; D2 (X) = . p p2


Dac

pentru orice

k N,

unde

p 0.

Observaia 12.2
primul succes.
18 Simon-Denis

X Geo(p),

atunci variabila aleatoare

Y =X +1

reprezint

ateptarea pn la

Poisson (1781 1840), matematician i zician francez, student al lui Laplace

Anexa 2 [Dr. Iulian Stoleriu]


(7)

79
(nbin)

Repartiia binomial cu exponent negativ, BN (m, p)

Valorile sale reprezint numrul de insuccese obinute nainte de a se realiza succesul de rang n cazul particular Pentru

m.
cu

m = 1,

obinem repartiia geometric. spunem c

m 1, p (0, 1),

X BN (m, p)

dac

ia valorile

{m, m + 1, m + 2, . . . },

probabilitile

m1 P (X = k) = Cm+k1 pm (1 p)k , k m, p 0.
Media i dispersia sunt:

E(X) =

m(1 p) m(1 p) ; D2 (X) = . p p2

Exemple de repartiii continue


(1)

Repartiia uniform, U(a, b)


X U(a, b) (a < b)

(unif)

V.a.

dac funcia sa de densitate este

f (x; a, b) = E(X) = (b a)2 a+b , D2 (X) = . 2 12

1 ba

, dac x (a, b) , altfel.

Exemplu:

Alegerea la ntmplare a unei valori din intervalul

(0, 1),

n cazul n care orice valoare are

aceeai ans de a  aleas, urmeaz o repartiie experiment (vezi capitolul urmtor).

U(0, 1).

Comanda

rand

din

Matlab realizeaz acest

(2)

Repartiia normal, N (, )
X N (, ),
dac

(norm)

Spunem c

are densitatea:
(x)2 1 f (x; , ) = e 22 , x R. 2

E(X) = i D2 (X) = 2 .
Se mai numete i repartiia gaussian. n cazul

= 0, 2 = 1

densitatea de repartiie devine: (12.2)

x2 1 f (x) = e 2 , x R. 2

n acest caz spunem c grac (pentru n intervalul Dac

urmeaz

Gracul densitii de repartiie pentru repartiia normal este

repartiia normal standard, N (0, 1). clopotul lui Gauss

(vezi Figura 12.1). Din se a (5.5).

= 1), se observ c majoritatea valorilor nenule ale repartiiei normale standard ( 3, + 3) = (3, 3). Aceast armaie se poate demonstra cu ajutorul relaiei

X
i

Z N (0, 1), atunci X = Z + N (, ). n mod similar, dac X N (, ), atunci Z = N (0, 1). Pentru o v.a. N (0, 1) funcia de repartiie este tabelat (valorile ei se gsesc n tabele) are o notaie special, (x). Ea e denit prin: 1 (x) = 2
x

y2 2

dy.

(12.3)

Anexa 2 [Dr. Iulian Stoleriu]

80

Figura 12.1: Clopotul lui Gauss pentru X N (0, ), ( = 1, 2, 3)

Funcia de repartiie a lui

X N (, )

este dat prin

F (x) = (
(3)

x ),

x R.

(12.4)

Repartiia log-normal, logN (, )

(logn)

Repartiia log-normal este foarte util n Matematicile Financiare, reprezentnd o repartiie de preuri viitoare pentru un activ nanciar. densitatea de repartiie Dac

X N (, ),
1

atunci

Y = eX

este o v.a.

nenegativ, avnd

f (x; , ) =
Aadar,

e 2

(ln x)2 2 2

0 Y logN (, )
dac Media i dispersia sunt date de

, dac x > 0 , dac x 0


2 2

ln Y N (, ). 2 E(X) = e+ /2 ,

D2 (X) = e2+ (e 1).


(exp)

(4)

Repartiia exponenial, exp()

Valorile sale sunt timpi realizai ntre dou valori spontane repartizate Spunem c

P().

X exp() ( > 0)

dac are densitatea de repartiie

f (x; ) =
Media i dispersia sunt:

ex , dac x > 0 0 , dac x 0 1 . 2

E(X) =

D2 (X) =

Observaia 12.3

Repartiia exponenial satisface proprietatea aa-numitei

lips de memorie, i.e.,

P ({X > x + y}|{X > y}) = P ({X > x}), x, y 0.

Anexa 2 [Dr. Iulian Stoleriu]

81
Vericai!]

Este unica distribuie continu cu aceast proprietate. Distribuia geometric satisface o variant discret a acestei proprieti. [

(5)

Repartiia Gamma, (a, )


X (a, ), a, > 0,

(gam)

O v.a.

dac densitatea sa de repartiie este:

f (x; a, ) =
unde

a a1 x e (a) x

, dac , dac

x > 0, x 0.

este funcia lui Euler,

: (0, ) (0, ),
Media i dispersia sunt:

(a) =
0

xa1 ex dx.

E(X) =

a a , D2 (X) = 2 .
n
sunt independente stochastic, atunci suma lor

Observaia 12.4
(ii) Dac v.a.

(i)

(1, ) exp(). Xk (n, ).


k=1

{Xk }k=1,n exp()

(6)

Repartiia Weibull19 , W bl(k, )

(wbl)

Aceast repartiie este asemntoare cu repartiia exponenial (aceast obinndu-se n cazul particular

k = 1)

i poate modela repartiia mrimii particulelor. Cnd

k = 3.4,

distribuia Weibull este asemn-

toare cu cea normal. Cnd Vom spune c

k , aceast repartiie X W bl(k, ) (k > 0, > 0) dac are f (x; k, ) = X W bl(k, )


k

se apropie de funcia lui Dirac. densitatea de repartiie

x k x k1 ( ) e

0 E(X) = 1 +

, dac x 0 , dac x < 0. 1 k


.

Media pentru repartiia

este

(7)

Repartiia 2 , 2 (n)
X 2 (n)
(se citete

(chi2)

O v.a. este:

repartiia hi-ptrat cu n grade de libertate)


f (x; n) =
n ( n )2 2 2

dac densitatea sa de repartiie

x 2 1 e 2

, dac , dac

x > 0, x 0. n)
este reprezentat

0
unde

este funcia lui Euler. Gracul acestei repartiii (pentru diverse valori ale lui

n Figura 12.2. Media i dispersia sunt:

E(2 ) = n, D2 (2 ) = 2n.

19 Ernst

Hjalmar Waloddi Weibull (1887 1979), matematician i inginer suedez

Anexa 2 [Dr. Iulian Stoleriu]

82
Repartiia

Observaia 12.5
(b)

(a)

Dac v.a. independente

1 2 (n) este, de fapt, repartiia ( n , 2 ). 2 Xk N (0, 1) pentru k = 1, 2, . . . , n, atunci 2 2 2 X1 + X2 + + Xn 2 (n).

n particular, dac

X N (0, 1),

atunci

X 2 2 (1).

Figura 12.2: Repartiia 2 (n) pentru patru valori ale lui n.

(8)

Repartiia Student (W. S. Gosset20 ), t(n)


X t(n)
(cu

(t)

Spunem c

grade de libertate) dac densitatea de repartiie este:

n+1 2 f (x; n) = n n 2 E(X) = 0, D2 (X) =


(9)

x2 1+ n

n+1 2

x R.

n . n2
(f)

Repartiia Fisher21 , F(m, n)


X F(m, n)
(cu

Spunem c

m, n grade de libertate) dac densitatea de repartiie m m m+n m+n ( n ) 2 ( 2 ) m 1 2 x2 1+ mx , x > 0; m n n ( 2 )( 2 ) f (x) = 0 , x 0.

este:

E(X) =

n 2n2 (n + m 2) , D2 (X) = . n2 m(n 2)2 (n 4)

20 William 21 Sir

Sealy Gosset (1876 1937), statistician britanic, care a publicat sub pseudonimul Student Ronald Aylmer Fisher (1890 1962), statistician, eugenist, biolog i genetician britanic

Anexa 2 [Dr. Iulian Stoleriu]


(10)

83
(fr corespondent n

Repartiia Cauchy22 , C(, )


X C(, )

Matlab)

Spunem c

dac densitatea de repartiie este:

f (x; , ) =
NU admite medie, dispersie sau momente!!!

, [(x )2 + 2 ]

x R.

22 Augustin

Louis Cauchy (1789 1857), matematician francez

Bibliografie [Dr. Iulian Stoleriu]

84

Bibliograe
[1] Petru Blaga, [2] David Brink, [3] David Brink,

Statistic. . . prin Matlab, Presa universitar clujean, Cluj-Napoca, 2002. Statistics compendium, David Brink & Ventus Publishing ApS, 2008. Statistics exercises, David Brink & Ventus Publishing ApS, 2008. Teoria estimaiei i vericarea ipotezelor statistice, Editura Didactic
1968.

[4] Gheorghe Ciucu, Virgil Craiu, i Pedagogic, Bucureti, [5] Steve Dobbs, Jane Miller,

Statistics 1, Cambridge University Press, Cambridge 2000. Modern Mathematical Statistics with Applications (with CD-ROM), Introduction to Mathematical Statistics, Prentice Mic enciclopedie de sta-

[6] Jay L. DeVore, Kenneth N. Berk, Duxbury Press,

2006. 2004.

[7] Robert V. Hogg, Allen Craig, Joseph W. McKean, Hall, 6th edition,

[8] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu,

tistic, Editura tiinic i enciclopedic, Bucureti, 1985.

[9]

http://www.mathworks.com

[10] Gheorghe Mihoc, N. Micu, [11] Elena Nenciu,

Teoria probabilitilor i statistica matematic, Bucuresti, 1980.

Lecii de statistic matematic, Universitatea A. I. Cuza, Iai, 1976. Probabiliti i Statistica matematic - Computer Applications, Iai, 2000. Applied Linear Regression,
Wiley series in Probability and Statistics,

[12] Octavian Petru,

[13] Sanford Weisberg,

3rd 2nd

ed.,

2005.
[14] Larry J. Stephens,

Theory and problems of Beginning Statistics,


1998.

Schaum's Outline Series,

ed.,

The McGraw-Hill Companies, Inc.,

[15] Dominick Salvatore, Derrick Reagle, Outline Series, [16] Iulian Stoleriu, [17] Gbor Szkely,

Theory and problems of Statistics and Econometrics, Schaum's


2002.

2nd

ed., The McGraw-Hill Companies, Inc.,

Statistic prin

Matlab. MatrixRom, Bucureti, 2010.


(Mathematics and its

Paradoxes in Probability Theory and Mathematical Statistics,


1987.

Applications), Springer Verlag, [18] David Williams, Press,

Weighing the Odds: A Course in Probability and Statistics,

Cambridge University

2001.