Statistica Prin Matlab

Universitatea "Al.
I. Cuza" Iai
Facultatea de Matematic
Statistic prin
Matlab
- Note de curs -
[Iulian Stoleriu]
ii
Contents
1 Introducere n Statistic
1.1 1.2 1.3 1.4 Scurt istoric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Modelare Statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Organizarea si descrierea datelor Reprezentari grace 1.4.1 1.4.2 1.4.3 1.4.4 1.4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
3 5 8 12 12 13 14 15 16
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Reprezentare prin puncte
Reprezentarea stem-and-leaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprezentarea cu bare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Histograme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprezentare prin sectoare de disc (pie chart) . . . . . . . . . . . . . . . . . . .
2 Elemente de Teoria probabilitilor

2.1 2.2 2.3 2.4 Experiene aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Deniia axiomatic a probabilitii . . . . . . . . . . . . . . . . . . . . . . . . . . . .
17
17 18 20 22
Cmp de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cmp de probabilitate geometric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
2.5 2.6 2.7 2.8 2.9
Probabiliti condiionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Caracteristici funcionale ale variabilelor aleatoare . . . . . . . . . . . . . . . . . . . .
23 23 25 28 31 31 32 33 36 38 42 44 45 49 52
Caracteristici numerice ale variabilelor aleatoare . . . . . . . . . . . . . . . . . . . . . . Inegaliti ntre momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.10 Standardizarea unei variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.11 Corelatia si coecientul de corelatie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.12 Independena variabilelor aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.13 Exemple de repartiii discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.14 Exemple de repartiii continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.15 Transformri funcionale de variabile aleatoare . . . . . . . . . . . . . . . . . . . . . .
2.16 Tipuri de convergen a sirurilor de variabile aleatoare . . . . . . . . . . . . . . . . . . 2.17 Teoreme limit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.18 Exercitii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.19 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 Experiene aleatoare n Matlab

3.1 3.2 Scurta introducere n
53
53 57 57 58 58 59 61 62
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Generarea de numere (pseudo-)aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 Generarea de numere uniform repartizate intr-un interval, U (0, 1) . . . . . . . . Generarea de numere repartizate normal, N (, ) . . . . . . . . . . . . . . . .
Generarea de numere aleatoare de o repartitie data . . . . . . . . . . . . . . . . Metoda functiei de repartitie inverse (Hincin-Smirnov) . . . . . . . . . . . . . . Generarea de numere aleatoare intregi . . . . . . . . . . . . . . . . . . . . . . .
3.3
Repartitii uzuale in
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
iv
3.4 3.5 3.6 3.7
Alte comenzi utile n
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63 64 65 67 67 69 70 71 77 80
Metoda Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Integrarea folosind metoda Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . Experimente aleatoare n 3.7.1 3.7.2
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Simularea aruncrii unei monede . . . . . . . . . . . . . . . . . . . . . . . . . . Simularea aruncrii unui zar . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8 3.9
Probabiliti geometrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Repartitii probabilistice in
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.10 Justicari grace ale teoremei limita centrala . . . . . . . . . . . . . . . . . . . . . . . 3.11 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 Elemente de Statistic descriptiv

4.1 4.2 4.3 4.4 Masuri descriptive ale datelor negrupate . . . . . . . . . . . . . . . . . . . . . . . . . . Masuri descriptive ale datelor grupate . . . . . . . . . . . . . . . . . . . . . . . . . . . Exercitii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
81
81 86 88 90
5 Noiuni de teoria seleciei

5.1 5.2 5.3 5.4 5.5 5.6 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple de statistici . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Selectii aleatoare dintr-o colectivitate normala . . . . . . . . . . . . . . . . . . . . . . . Selecii n
91
91 93 98
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
109 112
Exerciii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6 Noiuni de teoria estimaiei

v
113
6.1 6.2 6.3 6.4 6.5 6.6
Punerea problemei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metoda verosimilitii maxime (maximum likelihood estimator) . . . . . . . . . . . . . Metoda momentelor (K. Pearson) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metoda celor mai mici ptrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metoda minimului lui 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Metoda cu intervale de ncredere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.6.1 6.6.2 6.6.3 6.6.4 6.6.5 6.6.6 6.6.7 Interval de ncredere pentru medie, cand dispersia este cunoscuta . . . . . . . . Interval de ncredere pentru medie, cand dispersia este necunoscuta . . . . . . . Interval de ncredere pentru diferenta mediilor . . . . . . . . . . . . . . . . . . . Interval de ncredere dispersie, cand media este cunoscuta . . . . . . . . . . . . Interval de ncredere dispersie, cand media este necunoscuta . . . . . . . . . . . Interval de ncredere pentru raportul dispersiilor . . . . . . . . . . . . . . . . .
113 120 122 124 125 127 128 132 134 135 135 136 137 140
Interval de incredere pentru selectii mari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.7 6.8 6.9
Tabel cu intervale de incredere Functii de estimatie in
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
144 146 152
Paradox cu intervale de ncredere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.10 Exercitii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.11 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 Vericarea ipotezelor statistice

7.1 7.2 7.3 7.4 7.5 Punerea problemei . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tipuri de teste statistice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Etapele unei testari parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testul cel mai puternic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testarea tipului de date din observatii . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
155
155 160 161 162 163
7.6
Teste parametrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.1 7.6.2 7.6.3 7.6.4 7.6.5 7.6.6 7.6.7 7.6.8 7.6.9 Testul Z pentru o selecie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testul Z pentru dou selecii . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testul Z in
165 165 168
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 173
Testul t pentru o selecie
Testul t pentru dou selecii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testul t in
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174
179
Testul 2 pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testul 2 in
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
180 182
Testul F pentru raportului dispersiilor . . . . . . . . . . . . . . . . . . . . . . .
7.6.10 Testul raportului verosimilitatilor . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.11 Tabel cu teste parametrice in 7.7
Matlab . . . . . . . . . . . . . . . . . . . . . . . 183
184 184 189 194
Teste de concordanta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.1 7.7.2 Testul 2 de concordan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Testul de concordanta Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . .
7.8
Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
vii
viii
List of Figures
1.1 1.2 1.3 1.4
Reprezentarea cu puncte.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13 14 15 16
Reprezentarile cu bare sau histograme. . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprezentarile cu bare orizontale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprezentarea pe disc a frecventelor relative ale notelor din tabelul cu note . . . . . .
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
Reprezentarea cu histograme a datelor uniforme. . . . . . . . . . . . . . . . . . . . . . Reprezentarea cu histograme a datelor normale. . . . . . . . . . . . . . . . . . . . . . . Generare de numere aleatoare prin metoda functiei inverse. . . . . . . . . . . . . . . .
58 59 61 68 71 74 77 78 79
Simularea aruncrii unei monede corecte (a) i a unui zar corect (b) . . . . . . . . . . . Simularea jocului de
darts.
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Reprezentarea functiilor de probabilitate si de repartitie pentru B (10, 0.5) . . . . . . . Suma cumulata - miscare aleatoare (brownian). . . . . . . . . . . . . . . . . . . . . .
B (n, p) si P (np) pentru n = 100, p = 0.15 . . . . . . . . . . . . . . . . . . . . . . . . .

Vericare graca a teoremei limita centrala (varianta cu functiile de repartitie) . . . .
4.1 4.2
Cuantila de ordin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
85
Functia de repartitie empirica si functia de repartitie teoretica pentru distributia normala. 87 ix
4.3
Reprezentare pentru numarul de accidente.
. . . . . . . . . . . . . . . . . . . . . . . .
89
6.1 6.2
Intervalul de incredere pentru Exercitiu 6.27.
. . . . . . . . . . . . . . . . . . . . . . .
132 143
50 de realizari ale intervalului de incredere pentru . . . . . . . . . . . . . . . . . . .

Regiune critica pentru test unilateral stanga. . . . . . . . . . . . . . . . . . . . . . . .
7.1 7.2 7.3 7.4
160 161 161 164
Regiune critica pentru test bilateral. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regiune critica pentru test unilateral dreapta. . . . . . . . . . . . . . . . . . . . . . . . Reprezentarea normala a datelor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
List of Tables
1.1 1.2 1.3 1.4
Tabel cu frecvente pentru date discrete.
. . . . . . . . . . . . . . . . . . . . . . . . . .
10 11 12 13
Tabel cu frecvente pentru date continue. . . . . . . . . . . . . . . . . . . . . . . . . . . Tabel cu frecvente pentru rata somajului. Tabel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
stem-and-leaf reprezentand punctajele studentilor.
3.1 3.2
Repartitii uzuale in Funcii
Matlab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62 64
Matlab utile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Matlab specice pentru masuri descriptive. . . . . . . . . . . . . . . . . . . .
4.1
Functii
88
6.1 6.2
Tabel cu intervale de incredere. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimatori punctuali uzuali pentru parametri. . . . . . . . . . . . . . . . . . . . . . . .
140 144
7.1 7.2 7.3 7.4 7.5 7.6
Posibilitati decizionale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Decizii posibile. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Erori decizionale. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Teste pentru valoarea medie a unei colectivitati. . . . . . . . . . . . . . . . . . . . . . . Teste pentru egalitatea a doua medii. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabel cu note. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi
159 159 160 172 174 177
7.7 7.8 7.9
Teste pentru dispersie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Teste pentru raportul dispersiilor. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabel cu teste parametrice. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
180 182 183 185 188 188 191 192 193 194
7.10 Tabel cu numarul de puncte obtinute la aruncarea zarului. . . . . . . . . . . . . . . . . 7.11 Tabel cu numarul de goluri pe meci la FIFA WC 2006. . . . . . . . . . . . . . . . . . . 7.12 Tablou de distributie pentru P (2.25). . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.13 Timpi de asteptare in statia de tramvai. . . . . . . . . . . . . . . . . . . . . . . . . . . 7.14 Probabilitati de asteptare in statia de tramvai. . . . . . . . . . . . . . . . . . . . . . .
7.15 Frecventa inaltimii barbatilor dintr-o anumita regiune. . . . . . . . . . . . . . . . . . . 7.16 Distributia copiilor intr-o familie cu 4 copii. . . . . . . . . . . . . . . . . . . . . . . . .
Chapter
Introducere n Statistic
1.1 Scurt istoric
Statistica este o ramur a tiinelor ce se preocup de procesul de colectare de date i informaii, de organizarea i interpretarea lor, n vederea explicrii unor fenomene reale. De regula, oamenii au anumite intuitii despre realitatea ce ne inconjoara, pe care le doresc a conrmate intr-un mod cat mai exact. De exemplu, daca intr-o anumita zona a tarii rata somajului este ridicata, este de asteptat ca in acea zona calitatea vietii persoanelor de acolo sa nu e la standarde ridicate. Totusi, ne-am dori sa m cat mai precisi in evaluarea legaturii dintre rata somajului si calitatea vietii, de aceea ne-am dori sa construim un model matematic ce sa ne conrme intuitia. Un alt gen de problema: ardem de nerabdare sa aam cine va noul presedinte, imediat ce sectiile de votare au inchis portile (exit-pole). Chestionarea tuturor persoanelor ce au votat, colectarea si unicarea tuturor datelor intr-un timp record nu este o masura deloc practica. In ambele probleme mentionate, observatiile si culegerea de date au devenit prima treapta spre ntelegerea fenomenului studiat. De cele mai multe ori, realitatea nu poate complet descrisa de un astfel de model, dar scopul este de a oferi o aproximare cat mai dela si cu costuri limitate. In ambele situatii mentionate apar erori in aproximare, erori care tin de intamplare. De aceea, ne-am dori sa putem descrie aceste fenomene cu ajutorul variabilelor aleatoare. Plecnd de la coleciile de date obinute dintr-o colectivitate, Statistica introduce metode de predicie iprognoz pentru descrierea i analiza proprietilor ntregii colectiviti. Aria de aplicabilitate a Statisticii este foarte mare: tiine exacte sau sociale, umanistic sau afaceri. Statistica aprut n secolul al XVIII - lea, din nevoile guvernelor de a colecta date despre populaiile 3
4 pe care le reprezentau sau de a studia mersul economiei locale, n vederea unei mai bune administrri. Datorit originii sale, Statistica este considerat de unii ca ind o tiin de sine stttoare, ce utilizeaz aparatul matematic, i nu este privit ca o subramur a Matematicii. Din punct de vedere etimologic, cuvntului
statistic
ii are originile n expresia latin
statisticum
collegium (nsemnnd consiliul statului) i cuvntul italian statista, nsemnnd om de stat sau politician.
n 1749, germanul Gottfried Achenwall a introdus termenul de
Statistik,
desemnat pentru a analiza
datele referitoare la stat. Mai trziu, n secolul al XIX-lea, Sir John Sinclair a extrapolat termenul la colecii i clasicri de date. Metodele statistice sunt astzi aplicate ntr-o gam larg de discipline:
n Agricultur, de exemplu, pentru a studia care culturi sunt mai potrivite pentru a cultivate
pe un anumit teren arabil;
n Economie, pentru studiul rentabilitii unor noi produse introduse pe pia, pentru corelarea
cererii cu oferta, sau pentru a analiza cum se schimb standardele de via;
n Biologie, pentru clasicarea din punct de vedere tiinic a unor specii de plante sau pentru
selectarea unor noi specii;
n tiinele educaiei, pentru a gsi cel mai ecient mod de lucru pentru elevi sau pentru a studia
impactul unor teste naionale asupra diverselor caregorii de persoane ce lucreaz n nvmnt;
n Meteorologie, pentru a prognoza vremea ntr-un anumit inut pentru o perioada de timp, sau
pentru a studia efectele nclzirii globale;
n Medicin, pentru testarea unor noi medicamente sau vaccinuri; n psihologie, n vederea stabilirii gradului de corelaie ntre timiditate i singurtate; n Politologie, pentru a verica daca un anumit partid politic mai are sprijinul populaiei; n tiinele sociale, pentru a studia impactul crizei economice asupra unor anumite clase sociale; etc.
Pentru a analiza diverse probleme folosind metode statistice, este nevoie de a identica mai nti care este colectivitatea asupra creia se dorete studiul. Aceast colectivitate (sau
populaie)
poate
populaia unei ri, sau numai elevii dintr-o coal, sau totalitatea produselor agricole cultivate
ntr-un anumit inut, sau toate bunurile produse ntr-o uzin. Dac se dorete studiul unei trsturi comune a tuturor membrilor colectivitii, este de multe ori aproape imposibil de a observa aceast trstur la ecare membru n parte, de aceea este mult mai practic de a strnge date doar despre o submulime a ntregii populaii i de a cuta metode eciente de a extrapola aceste observaii la toat colectivitatea. Exist o ramur a statisticii ce se ocup cu descrierea acestei colecii de date, numit
Statistic descriptiv.
Aceast descriere a trasturilor unei colectivitcti poate fcut at
numeric (media, dispersia, mediana, quantile, tendine etc), ct i grac (prin puncte, bare, histograme etc). De asemenea, datele culese pot procesate ntr-un anumit fel, nct s putem trage concluzii foarte precise despre anumite trsturi ale ntregii colectiviti. Aceast ramur a Statisticii, care trage concluzii despre caracteristici ale ntregii colectiviti, studiind doar o parte din ea, se numete
Statistic inferenial.
n contul Statisticii intereniale putem trece luarea de decizii asupra unor
ipoteze statistice, descrierea gradului de corelare ntre diverse tipuri de date, estimarea caracteristicilor numerice ale unor trsturi comune ntregii colectiviti, descrierea legturii ntre diverse caracteristici etc. Statistica Matematic este o subramur a Matematicii ce se preocup de baza teoretic abstract a Statisticii, cautand sa extraga informatii si sa le interpreteze din datele culese pe cale experimentala. Aceasta utilizeaza Teoria probabilitatilor, dar si notiuni din alte ramuri ale Matematicii, cum ar : Algebra liniara, Analiza matematica.
1.2 Modelare Statistica

De obicei, punctul de plecare este o problema din viata reala, e.g., care partid are o sustinere mai buna din partea populatiei unei tari, daca un anumit medicament este relevant pentru boala pentru care a fost creat, daca este vreo corelatie intre numarul de ore de lumina pe zi si depresie). Apoi, trebuie sa decidem ce date avem nevoie sa colectam, pentru a putea da un raspuns la intrebarea ridicata si cum le putem colecta. Modurile de colectare a datele pot diverse: putem face un sondaj de opinie, sau prin experiment, sau prin simpla observare a caracteristicilor. Este nevoie de o metoda bine stabilita de colectare a datelor si sa construim un model statistic potrivit pentru analiza acestora. In general, date culese de noi pot potrivite intr-un model statistic prin care
Data observata = f (x, ) + eroare de aproximare,
(1.1)
6 unde f este o functie ce verica anumite proprietati, x este vectorul ce contine variabilele masurate si e un parametru, care poate determinat sau nedeterminat. Termenul de eroare apare deseori in pratica, deoarece unele date culese au caracter stochastic (nu sunt deterministe). Modelul astfel creat este testat, si eventual revizuit, astfel incat sa se potriveasca intr-o masura cat mai precisa datelor culese. Denim o
populatie (colectivitate) statistica
o multime de elemente ce poseda o trasatura comuna.
Aceasta poate nita sau innita, reala sau imaginara. Elementele ce constituie o colectivitate statistica se vor numi
unitati statistice sau indivizi.

unei populatii statistice este o anumita proprietate urmarita la indivizii ei
Volumul unei colectivitati statistice este dat de numarul indivizilor ce o constituie. Caracteristica (variabila) itative (nemasurabile
sau in procesul prelucrarii statistice. Caracteristicile pot :
cantitative (masurabile
sau
variabile)
si
cal-
atribute).
La randul lor, variabilele cantitative pot discrete (numarul de
sosiri ale unui tramvai in statie) sau continue (timpul de asteptare intre doua sosiri ale tramvaiului in statie). Caracteristicile pot depinde de unul sau mai multi parametri,
parametrii
ind astfel caracter-
istici numerice ale colectivitatii. Suntem interesati in a masura una sau mai multe variabile relative la o populatie, insa aceasta s-ar putea dovedi o munca extrem de costisitoare, atat din punctul de vedere al timpului necesar, cat si din punctul de vedere al depozitarii datelor culese, in cazul in care volumul colectivitatii este mare sau foarte mare (e.g., colectivitatea este populatia cu drept de vot a unei tari si caracteristica urmarita este candidatul votat la alegerile prezidentiale). De aceea, este foarte intemeiata alegerea unei selectii de date din intreaga populatie si sa urmarim ca pe baza datelor selectate sa putem trage o concluzie in ceea ce priveste variabila colectivitatii. O
selectie (sau esantion)
este o colectivitate partiala de elemente extrase (la intamplare sau nu) din
colectivitatea generala, in scopul cercetarii lor din punctul de vedere al unei caracteristici. Daca extragerea se face la intamplare, atunci spunem ca am facut o din selectia aleasa se va numi volumul
selectie intamplatoare.
Numarul indivizilor
selectiei.
Daca se face o enumerare sau o listare a ecarui element
component al unei a populatii statistice, atunci spunem ca am facut un sa e reprezentativa pentru populatia din care face parte. Numit o
recensmnt.
Selectia ar trebui
selectie repetata (sau cu repetitie) o selectie
selectie in urma careia individul ales a fost reintrodus din nou in colectivitate. Altfel, avem o
nerepetata.
Selectia nerepetata nu prezinta interes daca volumul colectivitatii este nit, deoarece in
acest caz probabilitatea ca un alt individ sa e ales intr-o extragere nu este aceeasi pentru toti indivizii colectivitatii. Pe de alta parte, daca volumul intregii populatii statistic este mult mai mare decat cel al esantionului extras, atunci putem presupune ca selectia efectuata este repetata, chiar daca in mod
practic ea este peretata. Spre exemplu, daca dorim sa facem o prognoza a cine va noul presedinte la alegerile din toamna, esantionul ales (de altfel, unul foarte mic comparativ cu volumul populatiei cu drept de vot) se face, in general, fara repetitie, dar il putem considera a o selectie repetata, in vederea aplicarii testelor statistice. Selectiile aleatoare se pot realiza prin diverse metode, in functie de urmatorii factori: disponibilitatea informatiilor necesare, costul operatiunii, nivelul de precizie al informatiilor etc. Mai jos prezentam cateva metode de selectie.
selectie simpla de un volum dat, prin care toti indivizii ce compun populatia au aceeasi sansa de a
alesi. Aceasta metoda mininimizeaza riscul de a partinitor sau favorabil unuia dintre indivizi. Aceasta metoda are neajunsul ca, in anumite cazuri, nu reecta componenta intregii populatii. Se aplica doar pentru colectivitati omogene din punctul de vedere al trasarurii studiate.
selectie sistematica, ce presupune aranjarea populatiei studiate dupa o anumita schema ordonata
si selectand apoi elementele la intervale regulate. (e.g., alegerea a ecarui al 10-lea numar dintr-o carte de telefon, primul numar ind ales la intamplare (simplu) dintre primele 10 din lista).
selectie straticata, in care populatia este separata in categorii, iar alegerea se face la intamplare
din ecare categorie. Acest tip de selectie face ca ecare grup ce compune populatia sa poata reprezentat in selectie. Alegerea ar poate facuta si in functie de marimea ecarui grup ce compune colectivitatea totala (e.g., aleg din ecare judt un anumit numar de persoane, proportional cu numarul de persoane din ecare judet).
selectie cota, (care este un caz particular de selectie straticata) care se construieste prin selectarea
unui numar de elemente din ecare strat dupa o anumita cota sau proportional cu marimea subgrupului din care face parte.
selectie ciorchine, care este un esantion straticat construit prin selectarea de selectii din anumite
straturi (nu din toate).
selectia de tip experienta, care tine cont de elementul temporal in selectie. (e.g., diversi timpi de
pe o encefalograma).
si altele.
Dintre selectiile nerepetate amintim:
selectie de convenienta: de exemplu, alegem dintre persoanele care trec prin fata universitatii. selectie de judecata: cine face selectia decide cine ramane sau nu in selectie. selectie de cota: selectia ar trebui sa e o copie a intregii populatii, dar la o scara mult mai mica.
Asadar putem selecta proportional cu numarul persoanelor din ecare rasa, de ecare gen, origine etnica etc) (e.g., persoanele din Parlament ar trebui sa e o copie reprezentativa a persoanelor intregii tari, intr-o scara mult mai mica).
si altele.
1.3 Organizarea si descrierea datelor

Presupunem ca avem o colectivitate statistica, careia i se urmareste o anumita caracteristica. (e.g., colectivitatea este multimea tuturor studentilor dintr-o universitate inrolati intr-un anumit timp, iar caracteristica este numarul de credite obtinute de studenti in decursul acelui an). Vom numi informatiile obtinute in urma observatiei valorilor acestei caracteristici. Datele pot
date
sau
calitative
cantitative, dupa cum caracteristica (sau variabila) observata este calitativa sau, respectiv, cantitativa.
Aceste date poti
date discrete,
daca sunt obtinute in urma observarii unei caracteristici discrete (o
variabila aleatoare discreta), sau
date continue,
daca aceasta caracteristica este continua (o variabila
aleatoare de tip continuu). In cazul din exemplu, datele vor cantitative si discrete. Primul pas in analiza datelor proaspat culese este de a le ordona si reprezenta grac, dar si de a calcula anumite caracteristici numerice pentru acestea. Datele inainte de prelucrare, adica exact asa cum au fost culese, se numesc zilnic, este:
date negrupate.
De exemplu, numarul de apeluri la 112 in luna Iulie, specicat
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948 598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731
De cele mai multe ori, enumerarea tuturor datelor culese este dicil de realizat, de aceea se urmareste a se grupa datele, pentru o mai usoara gestionare. Imaginati-va ca enumeram toate voturile unei selectii intamplatoare de 15000 de votanti, abia iesiti de la vot. Mai degraba, este util sa grupam datele dupa numele candidatilor, precizand numarul de voturi ce l-a primit ecare.
Gruparea datelor
Datele prezentate sub forma de distributie (tabel) de frecvente se numesc
date grupate.
Datele de se-
lectie obtinute pot date discrete sau date continue, dupa cum caracteristicile studiate sunt variabile aleatoare discrete sau, respectiv, continue.
(1)
Daca datele de selectie sunt discrete (e.g., {x1 , x2 , . . . , xn }) si au valorile distincte
x1 , x2 , . . . , xr , r n, atunci ele pot grupate intr-un asa-numit tabel de frecvente (vezi exemplul din
Figura 1.1) sau intr-un
tablou de frecvente, dupa cum urmeaza:

x1 data : f1 x2 f2 ... ... xr fr
unde fi este frecventa aparitiei valorii xi , (i = 1, 2, . . . , r ), si se va numi a lui X .
distributia empirica de selectie
Aceste frecvente pot absolute sau de relative. Un tabel de frecvente (sau o distributie de frecvente) contine toate categoriile ce sunt observate din datele colectate si numarul de elemente ce apartine ecarei categorii in parte, adica
frecventa absoluta.
frecventa relativa
se obtine prin impartirea frecventei
absolute a unei categorii la suma tuturor frecventelor din tabel. Astfel, suma tuturor frecventelor relative este egala cu 1. Elementele unui tabel sunt, de regula: valori pentru variabile, frecvente sau frecvente relative. In tabelul 1.1, sunt prezentate notele studentilor din anul al III-lea la examenul de Statistica. Acesta este exemplu de tabel ce reprezenta o caracteristica discreta.
Observaia 1.1
O gluma povestita de matematicianul ungur Gyrgy Plya, despre cum NU ar trebui
interpretata frecventa relativa. Un individ suferind merge la medic. Medicul il examineaza indelung si, balansand dezamagit capul, ii spune pacientului: "Of... draga domnule pacient, am o veste foarte proasta si una buna. Mai intai va aduc la cunostinta vestea proasta, daca nu e cu bnat. Suferiti de o boala groaznica. Statistic vorbind, din zece pacienti ce contracteaza aceasta boala, doar unul scapa." Pacientul, deja in culmea disperarii, este totusi consolat de doctor cu vestea cea buna: "Dar dumneavoastra ati venit la mine si asta va face tare norocos", continua optimist doctorul. "Am avut deja noua pacienti ce au avut aceeasi boala si toti au murit, asa ca veti supravietui."
10
nota 2 3 4 5 6 7 8 9 10 Total
frecventa 2 4 8 15 18 17 15 7 4 90
frecventa relativa 2.22% 4.44% 8.89% 16.67% 20.00% 18.89% 16.67% 7.78% 4.44% 100%
Table 1.1: Tabel cu frecvente pentru date discrete.
(2)
Daca X este de tip continuu, atunci se obisnuieste sa se faca o grupare a datelor de selectie in
clase. De exemplu, ni se dau urmatoarele date:
1.02 2.01 2.08 3.78 2.03 0.92 4.08 2.35 1.30 4.50 4.06 3.55 2.63 1.76 0.13 3.36 4.31 3.58 5.64 1.95 0.91 1.26 0.74 3.64 4.77 2.14 2.98 4.33 5.08 4.67 0.99 0.78 2.34 4.51 3.53 4.55 1.89 3.28 0.94 3.44 1.35 3.64 2.92 2.67 2.86 5.41 5.14 2.75 1.67 3.89 1.12 4.75 2.88 4.30 4.55 5.87 0.70 5.04 5.33 2.40 3.74 4.85 3.79 1.48 2.65 1.55 3.95 5.88 1.58 5.49 0.48 2.77 3.20 2.51 5.80 0.71 2.76 1.95 0.10 4.22 5.69 5.41 1.68 2.46 1.40 2.16 4.98 0.88 5.36 1.32 5.32 3.97 0.79 3.14 2.41 3.19 1.50 0.83 4.12 3.12
reprezentand timpi (in min.sec) de asteptare pentru primii 100 de clienti care au asteptat la un ghiseu pana au fost serviti. Putem grupa datele de tip continuu intr-un tablou de distributie de forma:
[a0 , a1 ) data : f1 [a1 , a2 ) f2 ... ...
[ar1 , ar ) , fr
sau sub forma unui tabel de distributie (vezi tabelul 1.2):
11
clasa
frecventa
valoare medie
[a0 , a1 ) [a1 , a2 )
. . .
f1 f2
. . .
x1 x2
. . .
[ar1 , ar )
fr
xr
Table 1.2: Tabel cu frecvente pentru date continue.
Asadar, putem grupa datele de tip continuu de mai sus in tablou de distributie:
[0, 1) 14 [1, 2) 17 [2, 3) 21 [3, 4) 18 [4, 5) 16
[5, 6) . 14
Uneori, tabelul de distributie pentru o caracteristica de tip continuu mai poate scris si sub forma:
x1 data : f1
unde
x2 f2 ... ... xr fr
xi =
ai1 + ai este elementul de mijloc al clasei [ai1 , ai ); 2

r
fi este frecventa aparitiei valorilor din [ai1 , ai ), (i = 1, 2, . . . , r)),

i=1
fi = n.
Asadar, daca ne sunt data o insiruire de date ale unei caracteristici discrete sau continue, atunci le putem grupa imdiat in tabele sau tablouri de frecvente. Invers (avem tabelul sau tabloul de repartitie si vrem sa enumeram datele) nu este posibil decat in cazul unei caracteristici de tip discret. De exemplu, daca ni se da tabelul 1.3, ce reprezinta rata somajului intr-o anumita regiune a tarii pe categorii de varste, nu am putea sti cu exactitate varsta exacta a persoanelor care au fost selectionate pentru studiu. Observam ca acest tabel are 5 clase: [18, 25), [25, 35), [35, 45), [45, 55), [55, 65). Vom numi
valoare
de mijloc
pentru o clasa, valoarea obtinuta prin media valorilor extreme ale clasei. In cazul tabelului
1.3, valorile de mijloc sunt scrise in coloana cu varsta medie. frecventelor tuturor claselor cu valori mai mici.
Frecventa cumulata a unei clase este suma
12
varsta
frecventa 34 76 124 87 64 385
frecventa relativa 8.83% 19.74% 32.21% 22.60% 16.62% 100%
frecventa cumulata 8.83% 28.57% 60.78% 83.38% 100.00% -
varsta medie 21.5 30 40 50 60 -
[18, 25) [25, 35) [35, 45) [45, 55) [55, 65)
Total
Table 1.3: Tabel cu frecvente pentru rata somajului.
Vom numi o
serie de timp (sau serie dinamica ori cronologica) un tablou de forma

x1 data : t1 x2 t2 ... ... xn , tn
unde valorile xi sunt variabile de raspuns, iar ti momente de timp (e.g., seria de raspunsuri pe care le citeste un electrocardiograf).
1.4 Reprezentari grace

Un tabel de frecvente sau o distributie de frecvente (absolute sau relative) sunt de cele mai multe ori baza unor reprezentari grace, pentru o mai buna vizualizare a datelor. Aceste reprezentari pot facute in diferite moduri, dintre care amintim pe cele mai uzuale.
1.4.1
Reprezentare prin puncte
Este folosita pentru selectii de dimensiuni mici. Sunt reprezentate puncte asezate unul peste celalalt, reprezentand numarul de aparitii ale unei valori pentru caracteristica data. Un astfel de grac este reprezentat in Figura 1.1.
13
0.6
0.4
0.2
10
Figure 1.1: Reprezentarea cu puncte.
1.4.2
Reprezentarea stem-and-leaf
Sa presupunem ca urmatoarele date sunt punctajele (din 100 de puncte) obtinute de cei 20 de elevi ai unei grupe la o testare semestriala.
50 55 59 61 62 64 68 68 73 75 77 77 77 79 81 85 96 86 92 96
Tabelul 1.4 reprezinta aceste date sub forma
stem-and-leaf (ramura-frunza).
Se observa ca acest tabel
arata atat cum sunt repartizate datele, cat si forma repartitiei lor (a se privi gracul ca avand pe OY drept axa absciselor si OX pe cea a ordonatelor). Asadar, 7|5 semnica un punctaj de 75. steam leaf
9 8 7 6 5
Table 1.4: Tabel
26 1566 357779 12488 059
stem-and-leaf reprezentand punctajele studentilor.
14
1.4.3
Reprezentarea cu bare
Este utila pentru reprezentarea variabilelor discrete cu un numar mic de valori diferite. Barele sunt dreptunghiuri ce reprezinta frecventele si nu sunt unite intre ele. Fiecare dreptunghi reprezinta o singura valoare. In Figura 1.21 sunt reprezentate datele din tabelul cu note. Comenzile MATLAB uzuale pentru reprezentarea cu bare sunt:
bar(X, Y ); barh(X, Y ); bar(X, w);
deseneaza vectorul Y vs. vectorul X deseneaza pe orizontale vectorul Y vs. vectorul X deseneaza vectorul X vs. 1:N (N este lungimea lui X ); w = latimea barelor.
De exemplu, comanda care produce primul grac din Figura 1.2 este:
bar([2:10], [2 4 8 15 18 17 15 7 4], 0.5)
Figure 1.2: Reprezentarile cu bare sau histograme.
Comanda
Matlab urmatoare produce gracul din Figura 1.3, corespunzator datelor din tabelul 1.4:
barh(5:9,[3 5 6 4 2],.5)
15
1.4.4
Histograme
histograma
este o forma pictoriala a unui tabel de frecvente, foarte utila pentru selectii mari de
date de tip continuu. E un set de dreptunghiuri, ale caror numar este numarul de clase, latime este intervalul clasei, iar inaltimea este asa incat aria ecarui dreptunghi reprezinta frecventa, asa incat aria totala a tuturor dreptunghiurilor este egala cu numarul total de observatii. De exemplu, histograma asociata tabelului cu varstele somerilor este cea reprezentata in Figura 1.22 . Comenzile MATLAB uzuale pentru crearea histogramelor sunt:
hist(X, n); hist(X, Y );
unde X este un vector, n este numarul de histograme deseneaza distributia vectorului X , cu numarul de histograme dat de lungimea vectorului Y .
Figure 1.3: Reprezentarile cu bare orizontale.
De exemplu, codul care produce gracul al doilea din Figura 1.2 este:
X = [7*rand(34,1)+18; 10*rand(76,1)+25; 10*rand(124,1) + 35; ... 10*rand(87,1)+45; 10*rand(64,1)+55]; % genereaza un vector X ca in tabelul 1.3 hist(X,5); axis([15 70 0 130]) % deseneaza 5 histograme % fixeaza axele
16
1.4.5
Reprezentare prin sectoare de disc (pie chart)
Se poate desena distributia unei caracteristici folosind sectoare de disc, ecare sector de disc reprezentand cate o frecventa relativa. Aceasta varianta este utila in special la reprezentarea datelor calitative. Comanda MATLAB pentru un produce Figura 1.4 este:
pie chart pentru un vector X
este pie(X ). De exemplu, comanda care
T = [10 11.11 15.56 25.55 22.22 15.56]; pie(T,{'Nota 5','Nota 6', 'Nota 7', 'Nota 8', 'Nota 9','Nota 10'})
10%
16%
11%
Nota 5 Nota 6 Nota 7 Nota 8 Nota 9 Nota 10
22% 16%
26%
Figure 1.4: Reprezentarea pe disc a frecventelor relative ale notelor din tabelul cu note
Chapter
Elemente de Teoria probabilitilor

2.1 Experiene aleatoare
Numim
experienta aleatoare (sau experiment aleator) orice act cu rezultat incert, care poate repetat experimentul determinist,
sem-
in anumite conditii date. Opusul notiunii de experiment aleator este
nicand un experiment ale carui rzultate sunt complet determinate de conditiile in care acesta se desfasoara. Rezultatul unui experiment aleator depinde de anumite circumstante intamplatoare ce pot aparea. Exemple de experiente aleatoare: jocurile de noroc, aruncarea zarului, observarea duratei de viata a unui individ, observarea vremii de a doua zi, observarea numarului de apeluri telefonice receptionate de o centrala telefonica intr-un timp dat. Aplicarea experientei asupra unei colectivitati date se numeste
proba.
Rezultatul potential al unei experiente aleatoare se numeste
eveniment aleator.
De
exemplu: aparitia unei duble (6, 6) la aruncarea a doua zaruri, extragerea unei bile albe dintr-o urna. Se numeste
caz favorabil pentru evenimentul aleator un caz in care respectivul eveniment se realizeaza. eveniment elementar. multimea tuturor evenimentelor elementare.
Un element
Un eveniment aleator poate avea mai multe cazuri favorabile. Un eveniment aleator cu un singur caz favorabil se numeste
Fie o mulime nevid, pe care o vom numi al lui il vom nota cu . Vom numi oricarei experiente aleatoare.
evenimentul sigur,
acel eveniment care se poate realiza in urma
Evenimentul imposibil
este acel eveniment ce nu se realizeaza in nicio
proba. Evenimentele aleatoare le vom nota cu A, B, C, . . . . Prin Ac vom nota evenimentul complementar lui A, care se realizeaza atunci cand A nu se realizeaza. Avem: Ac = \ A. Pentru a putea cuantica sansele de realizare a unui eveniment aleator, s-a introdus notiunea de 17
prob-
18
abilitate.
Probabilitatea poate denita in 3 moduri diferite: denitia clasica, denitia statistica sau
denitia axiomatica (Kolmogorov).
In ce priveste
probabilitatea clasica, aceasta este denita doar pentru cazul in care experienta aleatoare
are un numar nit de cazuri egal posibile. In acest caz, probabilitatea de realizare a unui eveniment este raportul dintre numarul cazurilor favorabile realizarii evenimentului si numarul cazurilor egal posibile ale experimentului aleator.
Probabilitatea statistica
exprima probabilitatea cu ajutorul frecventelor de realizare a unui eveniment
intr-un numar mare de experimente aleatoare realizate in aceleasi conditii. Sa consideram o experienta aleatoare (e.g., aruncarea unui zar) al carei rezultat posibil este evenimentul aleator A (e.g., aparitia fetei cu 6 puncte). Aceste experiment aleator il putem efectua de N ori in conditii identice (spunem ca efctuam N probe ale experimentului), astfel incat rezultatul unei probe sa nu inuenteze rezultatul alteia (probe Sa notam cu N frecventa absoluta de realizare N a lui A in cele N probe independente. Raportul se va numi frecventa relativa. Notam cu fN acest N raport, ce are urmatoarele proprietati:
independente).
(a) (b) (c) (d)
0 fN 1; fN () = 1; fN (Ac ) = 1 fN (A), A; fN (A B ) = fN (A) + fN (B ), daca A B = .
Mai mult, exista lim fN (A) si aceasta este denita ca ind probabilitatea de realizare a evenimenN
tului A, notata P (A). Asadar, in cazul denitiei statistice a probabilitatii, aceasta este limita sirului frecventelor relative de producere a respectivului eveniment cand numarul de probe tinde la innit (vezi teorema lui Bernoulli din cursul urmator). In cele ce urmeaza, vom deni notiunea de probabilitate din punct de vedere axiomatic. Aceasta axiomatica a fost introduse de matematicianul rus A. N. Kolmogorov (1929) si are la baza teoria masurii.
2.2 Deniia axiomatic a probabilitii

Reamintim, este o multime abstracta, nevida.
Elemente in Teoria probabilitilor
19 de submulimi ale lui astfel nct:
Deniia 2.1
(a) F ;
Numim
algebr sau cmp o colecie F

(Ac = \ A)
(b) dac A F , atunci Ac F ; (c) dac A, B F , atunci A
(inchidere la complementariere) (inchidere la reuniune nita).
BF
Propoziia 2.2
(c) implic
n
(c') dac (Ai )i=1, n F , atunci

i=1
Ai F .
(2.1)
Deniia 2.3
Numim algebr sau cmp (sau
corp borelian)
o colecie F de submulimi ale lui
astfel nct (a), (b) din deniia anterioar sunt satisfcute i, n plus, avem
(c') dac (An )nN F , atunci
n=1
An F ;
(inchidere la reuniune numarabila)
(2.2)
Observaia 2.4
(1) = R i F = {A; A R} este o algebr;
(2) F = {, } este o algebr; (3) Dac A , F = {A, Ac , , } este o algebr; (4) = R i F = {(a, b]; a < b < } este o algebr, dar nu i algebr; (5) Dac e o mulime nevid i F este o algebr pe , atunci perechea (, F ) se numete
spaiu
msurabil.
Deniia 2.5
Fie F o colecie de submulimi ale lui . Numim algebr
generat de F
cea mai
mic algebr ce conine F . O notm prin (F ) i este, de fapt,
(F ) =
AF
A.
(2.3)
Dac E e un spaiu topologic, vom numi -algebr
Borel,
notat B (E ), -algebra generat de familia
mulimilor deschise din E , i.e. cea mai mic -algebr ce conine deschiii lui E . Dac E = Rd , atunci B (Rd ) (sau B d ) este -algebra generat de cuburile deschise din Rd . O mulime
A Bd se numete mulime borelian.
Deniia 2.6
O funcie P : (, F ) R, care asociaza oricarui eveniment A F numarul real P (A),
cu proprietatile:
(a) (b) (c)
P (A) 0, A F ; P () = 1; P (A B ) = P (A) + P (B ), A, B F , A B = ,
20 se numeste probabilitate. Aceasta este denitia axiomatica data de A. N. Kolmogorov. Un camp de evenimente (, F ) inzestrat cu o probabilitate P se numeste
camp de probabilitate in sens Kolmogorov si il vom nota cu (, F , P ).
Observaia 2.7
Daca in locul conditiei (c) avem:
(c) dac (An )nN F disjuncte dou cte dou (Ai P(

nN
Aj = , i = j ) i P (
nN
An ) F , atunci
(2.4)
An ) =
nN
P (An ).
( aditivitate)
atunci P se va numi
probabilitate aditiva pe corpul borelian (, F ), iar (, F , P ) se va numi camp
borelian de probabilitate.
Observaia 2.8
(1) Fie o mulime cu n elemente, F = P () i A . Atunci
P (A) =
card A card
(2.5)
denete o msur de probabilitate pe F (probabilitatea in sens clasic). (2) In cazul in care conditia (b) din denitia probabilitatii lipseste, atunci spunem ca P deneste o
masura pe spatiul masurabil (, F ), iar tripletul (, F , P ) se va numi spatiu cu masura.

P () = 1.
Spunem c o proprietate are
O probabil-
itate este astfel un caz particular al notiunii de masura, in cazul in care masura intregului spatiu este
loc a.s.
(aproape sigur) dac are loc ntotdeauna, cu excepia unei mulimi
A pentru care P (A) = 0. O astfel de multime se va numi multime P -nula.
2.3 Cmp de probabilitate

Principalul concept al teoriei probabilitilor este
spaiu probabilistic
sau
cmp de probabilitate.
In
cele ce urmeaza, cand ne vom referi la camp de probabilitate, vom intelege un triplet (, F , P ), cu urmatoarele proprietati: (i) este o mulime abstract (mulimea tuturor evenimentelor elementare ale unui experiment stochastic); (ii) F P () este o -algebr, i.e. sunt ndeplinite urmtoarele condiii:

(1 ) F ; (2 ) A F = Ac F ; (3 ) (An )nN F =
nN
21
An F ;
(iii) P : F R e o funcie satisfcnd condiiile: (P1 ) P () = 1; (P2 ) A F , P (A) 0; (P3 ) (An )nN , An
Am = , n = m, avem P (
nN
An ) =
nN
P (An ).
Terminologie:
(i) Elementele lui F se numesc
evenimente iar sunt elemente de prob. probabilitatea lui A. mulime P -nul. evenimentul sigur, sau spunem ca A se realizeaz aproape sigur(a.s.). ltrare pe F .
(ii) O mulime A F , cu A -algebr, o vom numi sub- -algebr a lui F . (iii) A F , P (A) se va numi
(iv) Dac P (A) = 0, atunci A se va numi (v) Daca P (A) = 1, atunci A este
O familie (Ft )t0 cresctoare de sub- algebre ale lui F se numete Denim o
baz stochastic
ca ind un qvadruplu (, F , P, (Ft )t0 ), unde (, F , P ) este un cmp de
probabilitate complet n raport cu P (i.e. F conine mulimile P nule), iar (Ft )t0 este o ltrare pe
F.
Dat ind un ir (An )nN in , denim

lim inf An =
n n=1 mn
Am
lim sup An =
n n=1 mn
Am .
(2.6)
n general, lim inf An lim sup An . n caz de egalitate vom spune c irul (An )nN are limit i vom
n n
scrie
n
lim An = lim inf An = lim sup An .

n n
(2.7)
Observaia 2.9
Din punct de vedere euristic, lim inf An reprezinta evenimentul care se realizeaza cand
n n
toate An se realizeaza, mai putin un numar nit. Pe de alta parte, lim sup An inseamna realizarea unei innitati de evenimente din sirul A1 , A2 , . . . .
Teorema 2.10 (Borel-Cantelli)

Fie (An )nN , un sir de evenimente. Atunci:
22
(i) Daca
n=1
P (An ) < ,
atunci
lim sup An
n
= 0.
(ii) Daca
n=1
P ( An ) =
si evenimentele {An }n sunt independente, atunci
lim sup An
n
= 1.
2.4 Cmp de probabilitate geometric

S presupunem c am dispune de un procedeu prin care putem alege la ntmplare un punct dintr-un interval [a, b]. n plus, vom presupune c acest procedeu ne asigur c nu exist poriuni privilegiate ale intervalului [a, b], i.e. oricare ar dou subintervale de aceeai lungime, este la fel de probabil ca punctul sa cad ntr-unul dintre intervale ca i celalalt. Dac am folosi de mai multe ori procedeul pentru a alege un numr mare de puncte, acestea vor repartizate aproximativ uniform in [a, b], i.e. nu vor exista puncte n vecinatatea crora punctul ales sa cad mai des, ori de cte ori e ales. De aici reiese c probabilitatea ca un punct sa cad ntr-un subinterval al lui [a, b] este dependent de lungimea acelui subinterval i nu de poziia sa n interiorul lui [a, b]. Este chiar proporional cu lungimea subintervalului. Se poate observa analogia cu experiena alegerii dintr-un numr de cazuri egal posibile. Dac [a, b] e mulimea cazurilor egal posibile i [c, d] [a, b] este mulimea cazurilor favorabile, atunci probabilitatea ca punctul ales sa cad n [c, d] este
P (A) =
masura ([c, d]) dc = . masura ([a, b]) ba
n particular, daca x (c, d), atunci probabilitatea ca punctul ales aleator dintr-un interval sa coincid cu un punct dinainte stabilit este zero i, astfel, ntrezrim posibilitatea teoretic ca un eveniment sa aib probabilitatea nul, far ca el sa e evenimentul imposibil . n mod cu totul analog, dac se ia la ntmplare un punct dintr-un domeniu planar D , astfel ca s nu existe puncte sau poriuni privilegiate, atunci probabilitatea ca punctul sa cad n subdomeniul
D D D este aria . aria D
n trei dimensiuni, probabilitatea similar este raportul a dou volume.
23
2.5 Probabiliti condiionate

Fie spaiul probabilistic (, F , P ) i A, B F , cu P (B ) > 0. Denim
probabilitatea evenimentului A
condiionat de realizarea evenimentului B , notat P (A|B ) sau PB (A), prin:

PB (A) = P (A B ) . P (B )
(2.8)
Observaia 2.11 PB (A)

camp de probabilitate.
astfel denit va o probabilitate pe F , iar tripletul (, F , PB ) este un
Propoziia 2.12
(a)
(formula probabilitilor totale)
Fie (Bi )iI ,
(I N) o partiie a lui , astfel
nct P (Bi ) > 0, i I . Atunci
P ( A) =
iI
P (Bi ) PBi (A), A F .
(2.9)
(b)
(formula lui Bayes) n condiiile de la (a) i, n plus, P (A) > 0, avem:

PA (Bi ) = P (Bi ) PBi (A) P (Bj ) PBJ (A)
j I
, i I.
(2.10)
(c) Dac B1 , B2 , . . . , Bn F , astfel nct P (B1
B2
Bn ) > 0, atunci:
Bn1 (Bn ).
P (B1
B2
Bn ) = P (B1 ) PB1 (B2 ) . . . PB1
(2.11)
2.6 Variabile aleatoare

Euristic, o
variabila aleatoare
este o functie cu valori intamplatoare. In viata de zi cu zi intalnim
numeroase astfel de functii, e.g., numerele ce apar la extragerea loto, numarul clientilor deserviti la un anumit ghiseu intr-o anumita perioada, timpul de asteptare a unei persoane intr-o statie de autobuz pana la sosirea acestuia etc. Variabilele aleatoare le vom nota cu litere de la sfarsitul alfabetului (X, Y, Z ) sau , , si altele. Fie (, F , P ) un cmp de probabilitate i (E, E ) un spaiu msurabil. O funcie X : (, F , P ) (E, E ) se numete
variabil aleatoare (v.a.)
dac (2.12)
pentru orice B E , X 1 (B ) F
24 (i.e., spunem ca X este o funcie Fmasurabil). n particular, dac:
(E, E ) (R, B (R)), atunci X este o variabil aleatoare real; (E, E ) (Rd , B (Rd )), atunci X este vector aleator (sau v.a.) d-dimensional(); (E, E ) (Rnm , B (Rnm ), atunci X este o matrice aleatoare.
Deoarece multimile {(, x], x R} genereaza B (R), pentru ca X : (, F , P ) R sa e o v.a. reala este sucient ca
x R, { | X ( ) x} F .
Vom utiliza notatiile {X x} = { | X ( ) x} si, in general,
not
(2.13)
{X B } = { | X ( ) B }
Dac X : (, F , P ) Rd este o v.a., atunci
not
F (X ) = {X 1 (B ), B Bd }
este o algebr, denumit algebr generat de v.a. X . Astfel, (X ) este cea mai mic sub algebr a lui F aa nct X n raport cu care X este msurabil. Dac (Xn )nN este un ir de v.a. reale astfel nct Xk ( ) X ( ), , atunci X este tot o v.a. real. Fie Xi : (, F , P ) (E, E ), (i I ) o familie de v.a.. Denim algebra generat de familia
{Xi , i N}, notat (Xi , i I ), cea mai mic algebr pentru care Xi , i I , sunt msurabile.
Variabilele aleatoare pot lua o multime cel mult numarabila de valori (si le numim
v.a. discrete) sau o de tip continuu).
multime continua de valori (un interval nita sau innit din R), si le vom numi (v.a.
Exemple de v.a. discrete: numarul fetei aparut la aruncarea unui zar, numarul de sosiri ale unui tramvai intr-o statie intr-un anumit interval, numarul de erori aparute pana la primul succes etc. Din clasa v.a. de tip continuu amintim: timpul de asteptare la un ghiseu pana la servire, pretul unui activ nanciar intr-o perioada bine determinata. O v.a. discret X se poate scrie sub forma
X ( ) =
iJ
xi Ai ( ), , J N.
(2.14)

n
25
Aici A este funcia indicatoare a mulimii A, iar Ak = X 1 ({xk }). Observam cu usurinta ca
i=1
Ai =
, Ai
Aj = , i = j . Uneori, unei o v.a. discrete i se atribuie urmatorul tablou de repartitie: xi (2.15) X: , pi

n
unde pi = P (X = xi ), i J N,
i=1
pi = 1. Spre exemplu, tabloul de repartitie pentru v.a. ce
reprezinta numarul de puncte ce apare la aruncarea unui zar ideal este:
2 3 4 5 6 1 , 1/6 1/6 1/6 1/6 1/6 1/6

O v.a. X reala se numete de
tip continuu dac f : Rd R msurabil Borel ce ndeplinete condiiile:

(a) (b)
R
f (x) 0, a.s. f (x) dx = 1 PX (B ) =

B
(c)
Funcia f se numete
f (x) dx,
B F .
densitatea de repartiie a lui X .
In continuare, vom deni cele mai importante caracteristici functionale si numerice ale unei variabile aleatoare X : (, F , P ) (R, B (R)).
2.7 Caracteristici funcionale ale variabilelor aleatoare

Repartiia
Repartiia lui X
este o msur de probabilitate pe Bd , PX : Bd [0, 1], dat prin
PX (B ) = P (X B ), B B .
Repartiia unei v.a. discrete este astfel:
(2.16)
PX (B ) =
k J
P (Ak )xk (B ),
(2.17)
26 unde
a (B ) =
1, 0,
dac a B n rest
Funcia de repartiie (sau functia cumulata)
Numim
funcie de repartiie atasata v.a reale X
o funcie F : R [0, 1], dat prin
F (x) = P (X x).
Astfel, F (x) = PX ((, x]), adica este repartitia multimii (, x]. Termenul in engleza pentru functia de repartitie este
cumulative distribution function.
Daca X = (X1 , X2 , . . . , Xd ) : (, F , P ) Rd este un vector aleator, atunci functia de repartitie se deneste ca ind F : Rd [0, 1], dat prin
F ((x1 , x2 , . . . , xd )) = P (X1 x1 ; X2 x2 ; . . . , Xd xd ).
Proprieti ale funciei de repartiie: este cresctoare (F (x) F (y ), x, y R, x y ); este continu la dreapta ( lim F (y ) = F (x), x R);
y x
lim F (x) = 0 i lim F (x) = 1.

x
In cazul unei variabile aleatoare discrete, cu tabloul de repartitie dat de (2.15), functia sa de repartitia intr-un punct x este:
F (x) =
{i; xi x}
pi .
(2.18)
Daca X este o variabila aleatoare continua si f este densitatea sa de repartitie, atunci functia de repartitie este data de formula:
x
F (x) =
f (t) dt,
x R.
(2.19)
Observaia 2.13
F (x), x R.
Uneori, avem de calculat evenimentul P (X > x), pentru un x R dat. Numim functia Fc : R [0, 1], data prin F( x) = P (X > x) = 1
functie de repartitie complementara,
27
Funcia caracteristic
Numim
funcie caracteristic atasata v.a reale X

X (t) =
kJ
o funcie X : R C, dat prin:
ei t xk pk ,
daca X =
k J
xk Ak , (X = discreta)
X (t) =
R
ei t x f (x) dx,
daca X = variabila aleatoare continua.
Aici, i este numarul imaginar, (i2 = 1). Proprieti ale funciei caracteristice:
|X (t)| = 1, t R; a X (t) = X (a t), t R, a R; a X +b (t) = X (a t)eibt , t R, a R; X (t) = X (t), t R; X : R C este uniform continu;
n
ti , tj R, zi , zj C avem
i, j =1
X (ti tj )zi z j 0.
Funcia de probabilitate (sau de frecven)
Fie X o variabila aleatoare discreta, X ( ) =

i J
xi Ai ( ), , Ai F , J N. Numim funcie
o funcie f : R R, denit prin
de probabilitate (de frecventa) atasata variabilei aleatoare discrete X

f (xi ) = pi ,
unde pi = P (Ai ), i J.
Functia de probabilitate (en., probability distribution function) pentru o variabila aleatoare discreta este similara densitatii de repartitie pentru o variabila aleatoare continua. Intr-adevar, proprietatile pe care le satisface functia de probabilitate sunt:
f (xi ) 0, i J,
n
f (xi ) = 1.
i=1
28
2.8 Caracteristici numerice ale variabilelor aleatoare

1.
Media
Daca X este o v.a. de tip discret, X ( ) = se deneste ca ind:
iJ
Deniia 2.14
xi Ai ( ), , J N, atunci
media aceste v.a.
E(X ) =
iJ
xi P (Ai ).
(2.20)
Deniia 2.15
Daca X este o v.a. de tip continuu, cu densitatea de repartitie f : R R, atunci (nu toate v.a. de tip continuu admit medie - vezi repartitia Cauchy),
media acestei v.a., daca exista (!)

se deneste astfel:
E(X ) =
R
xf (x)dx,
(daca aceasta integrala exista).
(2.21)
Observaia 2.16
Lebesque.
Denitia mediei poate data intr-un cadru mult mai general, folosind
integrala
Aceasta integrala este generalizarea integralei Riemann. Sumarizam mai jos, gradual si fara
demonstratiile aferente, constructia mediei unei v.a. reale.
Pas 1:
O v.a. X cu X ( ) =
i=1
xi Ai ( ) se numete v.a. simpl. Pentru v.a. simpl X denim
media (notat cu E(X )) astfel:
E(X ) =
not
X ( ) dP ( ) =
i=1
xi P (Ai ).
Pas 2:
nct
Dac X : R i X 0, atunci exista un sir Xn : R, (n N) de v.a. simple astfel
0 X1 ( ) Xn ( ) X ( ),
i
n
lim Xn ( ) = X ( ).
Denim
E(X ) = lim E(Xn ).

n
Pas 3:
Fie X : R o v.a.. Atunci X = X + X , unde
X + ( ) = max{X ( ), 0},
X ( ) = max{X ( ), 0} = (X )+ ( ).

n acest caz denim
29
media lui X ,
E(X ) = E(X + ) E(X ),
ori de cte ori mcar una dintre E(X + ) i E(X ) este nit. Cnd ambele sunt nite, atunci spunem c X este o
v.a. integrabil.
Dac X = X1 + iX2 : C, denim media v.a. complexe X prin
E(X ) = E(X1 ) + iE(X2 ),

ori de cte ori ambele medii exist i sunt nite.
Dac X este un vector aleator, X = (X1 , X2 , . . . , Xd )T : Rd , atunci denim media lui X prin
E(X ) = (E(X1 ), E(X2 ), . . . , E(Xd ))T .
Propoziia 2.17
R. Atunci
Fie X : Rd o v.a. cu densitatea de repartitie f si o funcie msurabil g : Rd
E(g (X )) =
g (x)f (x) dx.

Rd
In particular, daca g : R R este functia identica, atunci:
E(X ) =
X ( ) dP ( ) =
R
xf (x) dx,
si astfel redescoperim denitia mediei unei v.a. de tip continuu din Denitia 2.15. Relatia anterioara se mai numeste si formula
de transport pentru integrala, deoarece integrala abstracta
pe multimea este "transportata" intr-o integrala Riemann pe R. 2) Dispersia (sau variana) si abaterea standard: Daca X este o variabila aleatoare si X = X E(X ) (numita
abaterea
lui X de la media sa), atunci
E(X ) = 0. Asadar, nu putem masura gradul de impreastiere a valorilor lui X in jurul mediei sale doar
calculand X E(X ). Avem nevoie de o alta masura. Aceasta este dispersia variabilei aleatoare.
Deniia 2.18
Daca X este o v.a. discreta, X ( ) =

iJ
xi Ai ( ),
, J N, cu media
E(X ) = m, denim dispersia lui X ca ind: D 2 (X ) =

iJ
(xi m)2 pi ,
unde pi = P (Ai ), i J.
(2.22)
30
Deniia 2.19
Fie X : R o v.a. de tip continuu pentru care media poate denita ( E(X ) =
m R). Denim dispersia lui X (sau variana lui X ) cantitatea D2 (X ) = E[(X m)2 ] =
R
(x m)2 f (x) dx.
(2.23)
Notaiile consacrate pentru dispersie sunt D 2 (X ) sau 2 .
Observaia 2.20
Dispersia scrisa ca integrala abstracta (vezi propozitia anterioara) este:
2 =
(X ( ) m)2 dP ( ).
Abaterea standard este cantitatea = 2 .
3)
Momente
xi Ai ( ), , J N,
iJ
Pentru o v.a. X de tip discret, X ( ) =
cu E(X ) = m si pi = P (Ai ), i J , denim momentele:
k (X ) = E(X k ) =
iJ
xk i pi |xi |k pi
i J
(momente iniiale de ordin k ); (momente absolute de ordin k ); (momente iniiale centrate de ordin k ); (momente absolute centrate de ordin k );
k (X ) = E(|X |k ) =
k (X ) = E((X m)k ) =
i J
(xi m)k pi |xi m|k pi

i J
k (X ) = E(|X m| ) =
Pentru o v.a. X de tip continuu ce admite medie m = E(X ) < , denim momentele:
k (X ) = E(X k ) =
R
xk f (x) dx =
X k dP |X |k dP
(momente iniiale de ordin k ); (momente absolute de ordin k );
k (X ) = E(|X |k ) =
R
|x|k f (x) dx =
k (X ) = E((X m)k ) =
R
(x m)k f (x) dx =
(X m)k dP |X m|k dP
(momente iniiale centrate); (momente absolute centrate);
k (X ) = E(|X m|k ) =
R
|x m|k f (x) dx =
31
2.9 Inegaliti ntre momente

(a) r (X + Y ) cr (r (X ) + r (Y )), unde cr = 1 pentru r (0, 1] i cr = 2r1 pentru r > 1.
(b) (r (X ))1/r (s (Y ))1/s , 0 r s;
(Lyapunov )
(c) E|XY | (E|X |r )1/r (E|Y |s )1/s , r, s > 1, r 1 + s1 = 1;
(H lder);
(d) (E|X + Y |r )1/r (E|X |r )1/r + (E|Y |r )1/r ;
(M inkowski)
(e) Fie g : R R convex. Atunci avem g (E(X )) E(g (X )).
(Jensen)
(f) Dac a > 0, p N , atunci avem:
P ({|X | a})
p (X ) ; ap
(M arkov )
n particular, pentru p = 2 si X e inlocuit cu variabila aleatoare (X m), (m = E(X )), obinem:
P ({|X m| a})
Daca in inegalitatea lui Cebsev luam
2 . a2
(Cebsev )
(2.24)
= k , unde k N, atunci obtinem: 1 , k2 1 . k2

(2.25)
P ({|X m| k })
sau, echivalent:
P ({|X m| < k }) 1
In cazul particular k = 3, obtinem
inegalitatea celor 3 :
P ({|X m| 3 }) 1 0.1. 9 8 , 9
sau
P ({m 3 < X < m + 3 })
(2.26)
semnicand ca o mare parte din valorile posibile pentru X se aa in intervalul [m 3, m + 3 ].
2.10 Standardizarea unei variabile aleatoare

Fie variabila aleatoare X , de medie m si dispersie 2 .
32
Deniia 2.21
normata).
Variabila aleatoare X =
X m se numeste variabila aleatoare standardizata (sau
Proprietatile variabilei aleatoare standardizate:
E(X ) = 0,
D2 (X ) = 1.
2.11 Corelatia si coecientul de corelatie

2 , respectiv, 2 . Calculand dispersia Fie X, Y v.a. cu mediile, respectiv, mX , mY si dispersiile X Y
sumei X + Y , obtinem:
D2 (X + Y ) = E[(X + Y (mX + mY )2 )] = E[(X mX )2 ] + E[(Y mY )2 ] + 2E[(X mX )(Y mY )] = D2 (X ) + D2 (Y ) + 2E[(X mX )(Y mY )].
Deniia 2.22
Media E[(X mX )(Y mY )] se numeste
corelatia
(sau
covarianta)
v.a. X si Y si o
notam cu cov(X, Y ).
Observaia 2.23
(a)
Continuand sirul anterior de egalitati, avem:
D2 (X + Y ) = D2 (X ) + D2 (Y ) + 2 cov(X, Y ). (b) (c)

cov(X, Y ) = E[(X mX )(Y mY )] = E(XY ) mX mY .
(2.27)
Daca X si Y sunt v.a. independente (realizarile lui X nu depind de realizarile
lui Y ), atunci cov(X, Y ) = 0. Reciproca nu este intotdeauna adevarata.

2 si 2 sunt nite si nenule. Fie X = Presupunem acum ca X Y
X mX Y mY si Y = . X Y
covarianta variabilelor standardizate
Deniia 2.24
Se numeste coecientul
de corelatie al v.a. X si Y
X si Y . Notam astfel: (X, Y ) = cov(X, Y ) =

cov(x, Y )
X Y
(2.28)
Observaia 2.25
(a)
Daca X si Y sunt independente (vezi sectiunea urmatoare), atunci
(X, Y ) = 0.
33
(b) (c)
1 (X, Y ) 1,
pentru orice X si Y .
Daca Y = aX + b (a, b R), atunci
(x, Y ) =
+1, 1,
daca a > 0; daca a < 0.
2.12 Independena variabilelor aleatoare

Conceptul de independen a v.a. sau a evenimentelor este foarte important din punctul de vedere al calculului probabilitilor evenimentelor compuse din evenimente mai simple.
Deniia 2.26
Fie (, F , P ) un cmp de probabilitate, A F un eveniment arbitrar si B un eveni-
ment pentru care P (B ) > 0. Evenimentele A si B sunt independente daca probabilitatea lui A este independenta de realizarea evenimentului B , adica probabilitatea conditionata
P (A| B ) = P (A),
echivalent cu
(2.29)
P (A B ) = P (A). P (B )
Putem rescrie ultima egalitate sub forma simetrica:
P (A
B ) = P (A) P (B ).
(2.30)
Deoarece in relatia (2.30) nu mai este nevoie de conditie suplimentara pentru P (B ), este preferabil sa denim independenta a doua evenimente arbitrare astfel: Doua evenimente, A, B F se numesc
independente (stochastic) daca relatia (2.30) are loc.
Deniia 2.27
(i) Evenimentele A1 , A2 , . . . , An se numesc independente in ansamblu dac pentru
ecare submulime {i1 , i2 , . . . , ik } a mulimii {1, 2, . . . , n} avem
P (Ai1
Ai1
Aik ) = P (Ai1 ) P (Ai2 ) . . . P (Aik ).
(2.31)
(ii) Spunem ca evenimentele A1 , A2 , . . . , An sunt independente doua cate doua dac pentru oricare doua evenimente, Ai si Aj , din aceasta multime, avem
P (Ai
Aj ) = P (Ai ) P (Aj )).
(2.32)
34 iii n general, evenimentele (Ai )iI F , (I N), se numesc
independente dac
(2.33)
P(
j J
Aj ) =
j J
P (Aj ),
pentru orice J I, J nit.
Observaia 2.28
Independenta doua cate doua a evenimentelor nu implica independenta in ansamblu.
Sa exemplicam considerand urmatoarea experienta. Consideram aruncarea a doua monede ideale. Fie A evenimentul ca "fata ce apare la prima moneda este stema", B evenimentul ca "fata ce apare la a doua moneda este stema", iar C evenimentul ca "doar la o moneda din cele doua a aparut fata cu stema". Se observa cu usurinta ca evenimentele A,
B si C sunt independente doua cate doua, deoarece: P (A 1 C ) = P (A) P (C ) = ; 4 P (B 1 C ) = P (B ) P (C ) = ; 4 P (A 1 B ) = P (A) P (B ) = . 4
Totodata, mai observam ca oricare doua dintre ele determina in mod unic pe al treilea. Asadar, independenta doua cate doua nu implica independenta celor trei evenimente in ansamblu, fapt observat si din relatia
0 = P (A
1 C ) = P (A) P (B ) P (C ) = . 8
Deniia 2.29
ca acestea sunt
Dac {Mi , i I N}, cu Mi F , este o familie de corpuri, atunci spunem
independente (stochastic)
dac pentru orice submultime nita J I i pentru orice
alegere de evenimente Aj Mj , este indeplinita conditia
P(
j J
Aj ) =
j J
P (Aj ).
(2.34)
Deniia 2.30
(2)
(1)
Spunem ca v.a. (Xi )iI : (, F ) R, (I N), sunt independente
(in ansamblu)
dac oricare
dac corpurile generate de Xi , { (Xi )}iI , formeaz o familie de corpuri independente. Spunem ca v.a. (Xi )iI : (, F ) R, (I N), sunt
independente doua cate doua
ar doua variabile aleatoare din aceasta familie, acestea sunt independente in sensul denitiei de la (1).
Observaia 2.31
Denitia variabilelor aleatoare independente (in ansamblu) este echivalenta cu:
Pentru orice k 2 si orice alegere a multimilor boreliene B1 , B2 , . . . , Bk F , avem:
35 (2.35)
P (X1 B1 , X2 B2 , . . . , Xk Bk ) = P (X1 B1 ) P (X2 B2 ) . . . P (Xk Bk ),
sau, cu alte cuvinte, evenimentele {X1 B1 }, {X2 B2 }, . . . , {Xk Bk } sunt independente in ansamblu.
Exemplu 2.32
Sa consideram aruncarea unui zar.
Aruncam zarul de doua ori si notam cu X1 ,
respectiv, X2 , v.a. ce reprezinta numarul de puncte aparute la ecare aruncare. Evident, valorile acestor v.a. sunt din multimea {1, 2, 3, 4, 5, 6}. Asadar,
Xi : {1, 2, 3, 4, 5, 6}, i = 1, 2.
Avem:
P {X1 = i}
{X2 = j }
= P ({X1 = i, X2 = j }) =
1 36 = P ({X1 = i}) P ({X2 = j }),
i, j {1, 2, 3, 4, 5, 6},
aceasta insemnand ca variabilele aleatoare X1 si X2 sunt independente stochastic (aruncarile au fost efectuate independent una de cealalta).
Teorema 2.33
Considerm familia de v.a. {X1 , X2 , . . . , Xn },
Xi : (, F ) R, i = 1, n.
Urmtoarele armaii sunt echivalente:
(i) (ii) (iii) (iv )
X1 , X2 , . . . , Xn sunt v.a. independente stochastic; P (X1 B1 , X2 B2 , . . . , Xn Bn ) = P (X1 B1 ) P (X2 B2 ) . . . P (Xn Bn ), Bi ; F(X1 , X2 ,..., Xn ) (x1 , x2 , . . . , xn ) = FX1 (x1 ) FX2 (x2 ) . . . FXn (xn ), x1 , x2 , . . . , xn R; (X1 , X2 ,..., Xn ) (t) = X1 (t1 ) X2 (t2 ) . . . Xn (tn ), t = (t1 , t2 , . . . , tn ) Rn .
(2.36)
Doua dintre dintre cele mai importante proprietati ale v.a. independente sunt urmatoarele:
Teorema 2.34
Daca X1 , X2 , . . . , Xn sunt v.a. reale, independente, astfel incat
E(|Xk |) < , k = 1, 2, . . . , n,
atunci E(|X1 X2 . . . Xn |) < si:
E(X1 X2 . . . Xn ) = E(X1 ) E(X2 ) . . . E(Xn ).
(2.37)
36
Teorema 2.35
Daca X1 , X2 , . . . , Xn sunt v.a. reale, independente, astfel incat
D2 (Xk ) < , k = 1, 2, . . . , n,
atunci D 2 (X1 + X2 + . . . + Xn ) < si:
D2 (X1 + X2 + . . . + Xn ) = D2 (X1 ) + D2 (X2 ) + . . . + D2 (Xn ).
(2.38)
2.13 Exemple de repartiii discrete

In dreptul ecarei repartitii, in paranteza, apare numele este apelata.
Matlab, cu ajutorul caruia aceasta repartitie
(1) Repartiia uniforma discreta, U (n)
(unid)
Scriem ca X U (n), daca valorile lui X sunt {1, 2, . . . , n}, cu probabilitatile
P (X = k ) = E(X ) = U (6).
n+1 2 ,
1 , n
k = 1, 2, . . . , n.
D 2 (X ) =
n2 1 12 .
Exemplu: numarul de puncte care apar la aruncarea unui zar ideal este o valoare aleatoare repartizata
(1) Repartiia Bernoulli, B (1, p)
(bino)
Scriem X B (1, p). V.a. de tip Bernoulli poate lua doar dou valori, X = 1 (succes) sau X = 0 (insucces), cu probabilitile P (1) = p; P (0) = 1 p.
E(X ) = p; D2 (X ) = p(1 p).

Exemplu: aruncarea unei monede ideale poate modelata ca ind o v.a. Bernoulli.
(2) Repartiia binomial, B (n, p): Scriem X B (n, p) (schema bilei revenite) cu probabilitatile
(bino)
(n > 0, p (0, 1)), dac valorile lui X sunt {0, 1, . . . , n},
k k P ( X = k ) = Cn p (1 p)nk , k = 0, 1, . . . , n.
37
E(X ) = np; D2 (X ) = np(1 p).

Dac (Xk )k=1,n B (1, p) i (Xk )k independente stochastic, atunci X =
Xk B (n, p).
k=1
(3) Repartiia hipergeometric, H(n, a, b)
(hyge)
X H(n, a, b) (schema bilei nerevenite) (n, a, b > 0) dac P (X = k ) =

k C nk Ca b , k ce satisface max(0, n b) k min(a, n). n Ca +b
Observaie:
n
a Dac (Xk )k=0,n B (1, n), cu p = a+ b (dependente stochastic), atunci
X= EX =
Xi H(n, a, b).
i=1 n
E(Xi ) = np; D2 (X ) = np(1 p)

i=0
a+bn . a+b1
n
(Nu mai putem scrie egalitate intre tic).
D2 (X )
si
i=0
D2 (Xi ), deoarece (Xi )i nu sunt independente stochas-
(4) Repartiia Poisson, P ():
(poiss)
Valorile sale reprezinta numarul evenimentelor spontane (cu intensitatea ) realizate intr-un anumit interval de timp. Pentru un > 0, spunem c X P () (legea evenimentelor rare) dac X ia valori naturale, cu probabilitatile
P (X = k ) = ek E(X ) = ; D2 (x) = .
k , k N. k!
(5) Repartiia geometric, G eo(p):
(geo)
Valorile sale reprezinta numarul de insuccese avute pn la obinerea primului succes, stiind probabilitatea de obtinere a unui succes, p.
X G eo(p),
(p (0, 1)) dac X ia valori in N, cu probabilitatile P (X = k ) = p(1 p)k , k N,

unde p 0.
38
E(X ) =
1p 1p ; D2 (X ) = . p p2
Observaia 2.36
la primul succes.
Daca X G eo(p), atunci variabila aleatoare Y = X + 1 reprezinta
asteptarea pana
(6) Repartiia binomial cu exponent negativ, B N (m, p)
(nbin)
Valorile sale reprezinta numarul de insuccese obtinute inainte de a se realiza succesul de rang m. In cazul particular m = 1, obtinem repartitia geometrica. Pentru m 1, p (0, 1), spunem ca X B N (m, p) dac X ia valorile {m, m + 1, m + 2, . . . }, cu probabilitatile
m1 m k P (X = k ) = Cm +k1 p (1 p) , k m, p 0.
E(X ) =
m(1 p) m(1 p) ; D 2 (X ) = . p p2
2.14 Exemple de repartiii continue

(1) Repartiia uniform, U (a, b) (unif)
V.a. X U (a, b) (a < b) dac funcia sa de densitate este
f (x; a, b) =
1 ba
, dac x (a, b) , altfel.
0 E(X ) = a+b (b a)2 , D2 (X ) = . 2 12
(2) Repartiia normal,
N (, )
(norm)
Spunem c X N (, ), dac X are densitatea:

(x)2 1 f (x; , ) = e 22 , x R. 2
39
E(X ) = i D2 (X ) = 2 .
Se mai numete i repartiia gaussian. n cazul = 0, 2 = 1 densitatea de repartiie devine:
x2 1 f (x) = e 2 , x R. 2
(2.39)
n acest caz spunem c X este
repartiia normal standard.
Dac Z N (0, 1), atunci X = Z + N (, ). n mod similar, dac X N (, ), atunci
Z=
N (0, 1). Pentru o v.a. N (0, 1) funcia de repartiie este tabelat i are o notaie special, 1 (x) = 2
x
(x). Ea e denit prin: e

y2 2
dy.
(2.40)
n consecin, funcia de repartiie a lui X N (, 2 ) este dat prin
F (x) = (
(3) Repartiia log-normal log N (, )
x ).
(logn)
(2.41)
Este utila in Matematicile Financiare, reprezentand o distributie de preturi viitoare pentru un activ nanciare. Dac X N (, ), atunci Y = eX este o v.a. nenegativ, avnd densitatea de repartiie
f (x; , ) =
e 2
(ln x)2 2 2
, dac x > 0 , dac xleq 0
0
2 Media i dispersia sunt date de E(X ) = e+ /2 ,
D2 (X ) = e2+ (e 1)..
Aadar, Y log N (, ) daca ln Y N (, ).
(4) Repartiia exponenial, exp()
(exp)
Valorile sale sunt timpi realizati intre doua valori spontane repartizate P ().
X exp() ( > 0) dac are densitatea de repartiie ex , dac x 0 0 , dac x < 0
f (x; ) =
40
E(X ) =
1 1 i D 2 (X ) = 2 .
Repartiia exponenial are proprietatea aa-numitei
lipsa de memorie, i.e.:
P ({X > x + y }|{X > y }) = P ({X > x}), x, y 0.
Este unica distribuie continu cu aceast proprietate. Distribuia geometric satisface o variant discret a acestei proprieti.(Vericati!)
(5) Repartiia Gamma, (a, )
(gam)
O v.a. X (a, ), a, > 0, daca densitatea sa de repartitie este:
f (x; a, ) =
a a1 x e , (a) x
daca x > 0, daca x 0.
0,
unde este functia lui Euler,
: (0, ) (0, ), E(X ) = a a , D 2 (X ) = 2 .

(i) (1, ) exp().
(a) =
0
xa1 ex dx.
Observaia 2.37
(ii) Daca v.a. {Xk }k=1,n exp() sunt independente stochastic, atunci suma lor
k=1
Xk (n, ).
(6) Repartiia Weibull, W bl(k, )
(wbl)
Aceasta repartitie este asemanatoare cu repartitia exponentiala (aceasta obtinandu-se in cazul particular k = 1) si poate modela repartitia marimii particulelor. Cand k = 3.4, distributia Weibull este asemanatoare cu cea normala. Cand k , aceasta repartitie se apropie de functia lui Dirac.
X W bl(k, ) (k > 0, > 0) dac are densitatea de repartiie

k
x k x k1 ( ) e
f (x; k, ) =
, dac x 0 , dac x < 0
41
E(X ) = 1 +
1 . k
(chi2)
(7) Repartiia 2 , 2 (n)
O v.a. X 2 (n) (se citeste repartitia hi-patrat cu n grade de libertate) daca densitatea sa de repartitie este:
f (x; n) =
1 n )2 2 ( n 2
x 2 1 e 2 ,
daca x > 0, daca x 0.
0,
unde este functia lui Euler.
E(2 ) = n, D2 (2 ) = 2n.
Observaia 2.38
(b)
(a)
1 Repartitia 2 (n) este, de fapt, repartitia ( n 2 , 2 ).
Daca v.a. independente Xk N (0, 1) pentru k = 1, 2, . . . , n, atunci (vezi Propozitia 5.30):

2 2 2 X1 + X2 + + Xn 2 (n).
(8) Repartiia Student (W. S. Gosset), t(n)
(t)
Spunem ca X t(n) (cu n grade de libertate) daca densitatea de repartitie este:
n+1 2 f (x; n) = n n 2 E(X ) = 0, D2 (X ) = n . n2

(f)
x2 1+ n
n+1 2
x R.
(9) Repartiia Fisher, F (m, n)
Spunem ca X F (m, n) (cu m, n grade de libertate) daca densitatea de repartitie este:
m +n m 2 ( m2 ( ) ) m n x 2 1 1 + m n ( 2 )( 2 ) f (x) = 0 E(X ) = n 2n2 (n + m 2) , D2 (X ) = . n2 m(n 2)2 (n 4)
m n
n m+ 2
x > 0;
, x 0.
42 (10) Repartiia Cauchy, C (, ) (fara corespondent in MATLAB)
Spunem ca X C (, ) daca densitatea de repartitie este:
f (x; , ) =
NU admite medie si dispersie!!!
, [(x )2 + 2 ]
x R.
2.15 Transformri funcionale de variabile aleatoare

Functii de o variabila aleatoare
Presupunem ca X este o variabila aleatoare continua, careia i se cunoaste densitatea de repartitie,
fX (x). Notam cu FX (x) functia sa de repartitie.

Fie g (x) este o functie masurabila (Borel). Atunci Y = g (X ) deneste o alta variabila aleatoare. Dorim sa gasim densitatea de repartitie pentru g (X ). Sa notam cu DY = {x R; g (x) y }. Putem scrie:
{Y y } = {g (X ) y } = { , X ( ) DY }
Atunci,
( = {X DY }).
not
FY (y ) = P (X DY ), =
DY not
fX (x) dx.
(2.42)
Daca g (x) este bijectiva si x = h(y ) = g 1 (y ), atunci densitatea de repartitie a lui Y este data de:
fY (y ) = fX (h(y ))
dh(y ) . dy
(2.43)
Exemplu 2.39
Consideram functia
g (x) = ax + b, a = 0.
Daca fX (x) este densitatea de rapartitie a unei variabile aleatoare X , atunci densitatea de repartitie a variabilei aleatoare Y = g (X ) este
fY (y ) =
1 fX |a|
yb a
43
Functii de doua variabile aleatoare:
Fie X, Y variabile aleatoare reale denite pe campul de probabilitate (, F , P ). Daca f (x) este densitatea de repartitie a lui X si g (y ) este densitatea de repartitie a lui Y , iar X, Y sunt independente stochastic, atunci vectorul bidimensional V = (X, Y ) are densitatea de repartitie h(x, y ) = f (x)g (y ). Invers, daca h(x, y ) este densitatea de repartitie a vectorului bidimensional V = (X, Y ), atunci densitatile de repartitie a lui X , respectiv Y , sunt:
f (x) =
R
h(x, y ) dy si, respectiv, g (y ) =

R
h(x, y ) dx.
(2.44)
Urmatoarea propozitie determima care este densitatea de repartitie a unei functii de un vector aleator ce are densitatea de repartitie cunoscuta.
Propoziia 2.40
Fie vectorul aleator V = (X1 , X2 ) : R2 , de tip continuu, cu densitatea de
repartitie cunoscuta, f (x), f : D2 V () R si e vectorul aleator W = (Y1 , Y2 ) : R2 , de tip continuu, cu densitatea de repartitie necunoscuta g (x), g : D1 W () R, (D1 , D2 -deschisi). Fie functia : D1 D2 , bijctiva, de clasa C 1 . Atunci are loc:
g (y1 , y2 ) = f (1 (y1 , y2 ), 2 (y1 , y2 ))|J |,

unde
(2.45)
x1 = 1 (y1 , y2 ), x2 = 2 (y1 , y2 ), |J | =
D(x1 , x2 ) . D(y1 , y2 )
Observaia 2.41
Putem apoi determina si densitatile de repartitie marginale pentru Y1 si Y2 . Astfel,
aceste formule au ca aplicatii determinarea formulei densitatii de repartitie pentru suma, produsul, diferenta sau catul a doua variabile aleatoare.
Exemplu 2.42
(repartitia raportului a doua variabile aleatoare)
Fie vectorul aleator (X1 , X2 ), ce are densitatea de repartitie f (x1 , x2 ) si e transformarea:
y1 = x1 /x2 ; y2 = x2 .
44 Transformarea inversa este:
x1 = y1 y2 = 1 (y1 , y2 ); x2 = y2 = 2 (y1 , y2 ).
X1 Avem |J | = |y1 |, si aam densitatea de repartitie a catului X , 2
f X1 (u) =
X2
f (u v, v ) |u| dv.
2.16 Tipuri de convergen a sirurilor de variabile aleatoare

Fixm (, F , P ) un cmp de probabilitate i Xn , X : R o variabila aleatoare cu media m si dispersia 2 nite.
Deniia 2.43
(1)
Spunem ca:
a.s.
Xn converge aproape sigur la X (notat Xn X ) dac P ( lim Xn = X ) = 1,

n
echivalent cu relatia
0 F , P (0 ) = 1, astfel nct lim Xn ( ) = X ( ), 0 .

n
(2)
Xn converge in probabilitate la X (notat Xn X ), dac > 0, lim P ({ : |Xn ( ) X ( )| }) = 0.

n
prob
(3)
Xn converge in medie de ordin r la X (notat Xn X ), dac lim |Xn ( ) X ( )|r dP ( ) = 0,
Lr
echivalent cu
n R
lim
|xn x|r f (x)dx = 0.
(4)
Xn converge in repartitie la X (notat X, sau Xn X ) dac lim E(g (Xn )) = E(g (X )), g : Rd R, continu i mrginit.
rep

(5)
45
Xn converge la X n sensul funciei de repartiie dac lim FXn (x) = FX (x), x punct de continuitate pentru FX .
(6)
Xn converge la X n sensul funciei caracteristice dac lim Xn (t) = X (t), t Rd .
Teorema 2.44 (legaturi intre diverse tipuri de convergenta)

(a) (b)
Lr
Xn X implic Xn X.
prob
a.s.
prob
Xn X implic Xn X (din inegalitatea lui Markov). (c) Xn X implic Xn X.

prob
(d)
Urmtoarele tipuri de convergen sunt echivalente: n repartiie, n funcie de repartiie i n
funcie caracteristic.
2.17 Teoreme limit

Fie (, F , P ) un camp de probabilitate si X : (, F , P ) R o v.a. ce inregistreaza rezultatele posibile a unui anumit experiment aleator. Putem modela repetitia acestui experiment prin introducerea unui ir de v.a., (Xn )nN : (, F , P ) R. Ne-am dori ca acest sir sa detina aceeasi informatie (din punct de vedere probabilistic) ca si X . In acest scop, introducem notiunea de
variabile aleatoare identic
repartizate.
Deniia 2.45
Variabilele aleatoare X1 , X2 , . . . , Xn , . . . se numesc identic repartizate daca functiile
corespunzatoare de repartitie satisfac sirul de egalitati:
FX1 (x) = FX2 (x) = . . . = FXn (x) = . . . , x R.
(2.46)
Daca, in plus, presupunem ca v.a. din sirul de mai sus sunt independente stochastic, atunci putem privi acest sir de v.a. ca un model pentru repetari independente ale experimentului in aceleasi conditii. Desi avem de-a face cu un sir de functii cu ce iau valori intamplatoare, suma unui numar sucient de mare de variabile aleatoare isi pierde caracterul aleator.
46
n
Teoremele limit clasice descriu comportarea asimptotic a sumei Sn = Spunem ca sirul (Xn )n urmeaza
k=1
Xk , potrivit normalizat.
legea slaba (respectiv, tare) a numerelor mari daca:

(n )
Sn E(Sn ) prob Sn E(Sn ) a.s. 0), 0, (respectiv, n n
Teorema 2.46 (Cebsev)

Dac v.a. (Xn )nN satisfac condiiile: (i) toate Xn admit momente absolute de ordin 2 (i.e., 2 (Xn ) < ); (ii)
1 2 D (Sn ) = 0, n n2 lim
atunci
Sn E(Sn ) prob 0, n
(n ) Sn , avem: n
cand n .
Demonstraie.
P(
Conform inegalitatii lui Cebsev aplicate variabilei aleatoare
Sn E n
Sn n
1
2
D2
Sn n
1 1 2 D (Sn ) 0, 2 n2
Observaia 2.47
anterioara devine:
In plus, daca Xn sunt identic repartizate, cu E(Xn ) = m, n N, atunci concluzia
Sn prob m. n
Astfel, teorema ne spune ca, desi variabilele aleatoare independente pot lua valori departate de mediile lor, media aritmetica a unui numar sucient de mare de astfel de variabile alatoare ia valori in vecinatatea lui m, cu o probabilitate foarte mare.
Teorema 2.48 Teorema lui Bernoulli)

Sa consideram o experienta in care probabilitatea de realizare a unui eveniment A este P (A) = p. Se fac N experiente independente. Daca N este numarul de realizari ale lui A din cele N experiente atunci, pentru orice
> 0, avem:
n
lim P
N p < N
= 1.
(2.47)
Cu alte cuvinte, sirul frecventelor relative converge
a.s.
la probabilitatea p. Asta inseamna ca, daca se
efectueaza o selectie de volum mare N si se obtin N cazuri favorabile, atunci putem arma ca, probabilitatea evenimentului cercetat este egala cu frecventa relativa.
a.s.,
47
Demonstraie.
Vom asocia ecarei experiente i o variabila aleatoare Xi , astfel incat
Xi =
1, 0,
daca in experienta i evenimentul A s-a realizat; daca experienta i evenimentul A nu s-a realizat.
Observam ca Xi B (1, p). Atunci, deoarece experimentele sunt independente, avem:

n
Xi = N B (n, p), E(N ) = N p,

i=1
D2 (N ) = N p(1 p).
Aplicand inegalitatea lui Cebsev variabilei aleatoare
N , obtinem: N 1 D2
N N 2
P
echivalent cu
N N E N N N p < N
<
P
de unde concluzia dorita.
p(1 p) , N 2
Teorema 2.49
(Hincin)
(legea slab a numerelor mari)
Dac Xn , n 1, sunt variabile aleatoare ce admit momente absolute de ordin 1, sunt independente doua cate doua si identic repartizate, atunci sirul (Xn )n urmeaza legea slaba a numerelor mari.
Teorema 2.50
(Kolmogorov)
(legea tare a numerelor mari)
Fie sirul de v.a. (Xn )nN , independente, sunt identic repartizate si E(|X1 |) < . Fie E(Xn ) = m, n N . Atunci sirul (Xn )n satisface legea tare a numerelor mari, adica:
1 n
Xk m,
k=1
a.s
(n ).
(2.48)
Observaia 2.51
Concluzia legii slabe a numerelor mari se mai poate scrie si sub forma:
lim
X1 + X2 + + Xn =m n
= 1.
Teorema 2.52
(TLC)
(teorema limit central)
Dac v.a. (Xn )nN sunt independente i identic repartizate, cu m i 2 nite, atunci:
Xk nm
k=1
Y N (0, 1), pentru n .
48
Observaia 2.53
(a) Teorema TLC ne spune ca, daca avem un sir de v.a. independente stochastic si
identic repartizate, atunci, pentru n sucient de mare, suma standardizata,
Sn =
este o v.a. de repartitie N (0, 1). Sau, mai putem spune ca distributia v.a. X = (b) Notam cu
Sn nm n
n k=1 n
(2.49)
1 n
Xk este aproximativ normal N (m, ). n
Zn =
not
Xk nm .
k=1
Atunci, convergena din teorema limit central este echivalent cu
lim P (Zn x) = (x), x R,
(2.50)
unde (x) este denita in (2.40), sau
lim P
Sn nm b n
1 = 2
b a
ex dx = (b) (a).
(2.51)
(b) Daca m = 0, 2 = 1, atunci TLC devine
1 n
Xk Y N (0, 1), pentru n .

k=1
(c) TLC ne permite s aproximm sume de v.a. identic repartizate, avnd orice tip de repartitii (att timp ct variaia lor e nit), cu o v.a. normal. Un exemplu ar aproximarea repartiiei normale cu repartiia binomial cnd numarul de ncercari e foarte mare (vezi teorema lui mai jos). Se pune problema:
de Moivre-Laplace
de
Cat de mare ar trebui sa e n, in practica, pentru ca teorema limita centrala sa e
aplicabila?
Daca variabilele aleatoare {Xk }k sunt deja normal repartizate, atunci teorema aproximarea
sumei standardizate cu o variabila normala este, de fapt, o egalitate, ind adevarata pentru orice
n N . Daca {Xk }k nu sunt normal repartizate, atunci un numar n astfel incat n > 30 ar sucicient
pentru aproximarea cu repartitia normala desi, daca repartitia lui Xk este simetrica, aproximarea ar putea buna si pentru un numar n mai mic de 30. (d) Legea tare a numerelor mari e foarte util n metode de simulare tip Monte Carlo.
Teorema 2.54
(de Moivre - Laplace)
Fie X1 , X2 , . . . , Xn , . . . un sir de v.a. independente stochastic, identic repartizate B (1, p) si e Sn =
49
X1 + X2 + + Xn . Atunci, pentru orice < a < b < , avem: lim P Sn np a b npq 1 = 2

b a
ex dx.
(q = 1 p )
(2.52)
Demonstraie.
Demonstratia rezulta imediat din (2.51), tinand cont ca
E(Sn ) = np si D2 (Sn ) = npq.
Observaia 2.55
Asadar, daca parametrul n este sucient de mare, atunci o variabila aleatoare bi-
nomiala poate aproximata cu una normala, cu media np si dispersia npq . In practica,
aproximarea este una sucient de buna daca np > 5 si n(1 p) > 5; aceasta aproximare poate imbunatatita daca aplicam factori de corectie.
Astfel putem scrie:
P (X = k ) =
sau, o varianta imbunatatita:
1 npq
k np npq
(2.53)
P (X = k ) = P (k = P =
1 1 <X <k+ ) 2 2 1 k 1 np np k+ 2 X np < < 2 npq npq npq k 1 np 2 npq .
np k+ 1 2 npq
unde si sunt denite in (2.39) si (2.40), respectiv. Termenul 1 2 din (2.54) este folosit ca o valoare de ajustare cand se face aproximarea unei variabile aleatoare discrete cu una continua. Mai putem scrie si:
P (X k ) =
k+ 1 np 2 npq
(2.54)
2.18 Exercitii rezolvate

Exerciiu 2.56
O moneda ideala este aruncata de 100 de ori, iar X este variabila aleatoare ce reprezinta numarul de fete cu stema aparute.
50
(a) Care este probabilitatea de a obtine exact 52 de steme? (b) Sa se calculeze P (45 X 55). Folositi aproximarea cu o variabila aleatoare normala.
(a) Avem de calculat P = P (X = 52). Insa X este o variabila aleatoare distribuita B (100, 0.5),
asadar rezultatul exact este:

52 P = C100 (0.5)52 (0.5)48 = 0.0735.
Daca aproximam rezultatul folosind formula (2.54), obtinem:
P =
1 100 0.5 0.5
52 50 100 0.5 0.5
0.0737.
Cu varianta imbunatatita, obtinem:
P =
52 + 1 50 2 25
1 50 52 2 25
0.0736.
(b) Notam cu FX functia de repartitie pentru variabila aleatoare binomiala X . Atunci,
P (45 X 55) = P (X 55) P (X < 45) = FX (55) FX (44)

55
=
k=45
k C100 (0.5)k (0.5)100k = 0.7287.
Daca folosim aproximarea cu repartitia normala, obtinem:
P (45 X 55)
55 + 1 50 2 25
45 1 50 2 25
= 0.7287.
In Matlab, aceste probabilitati pot calculate folosind codul din Exercitiul 3.11 din capitolul urmator.
Exerciiu 2.57 (a)
In magazinul de la coltul strazii intra in medie 20 de clienti pe ora. Stiind ca
numarul clientilor pe ora este o variabila aleatoare repartizata Poisson, sa se determine care este probabilitatea ca intr-o anumita ora sa intre in magazin cel putin 15 clienti?
(b) Care este probabilitatea ca, intr-o anumita zi de lucru (de 10 ore), in magazin sa intre cel putin 200 de clienti? Calculati aceasta probabilitate in doua moduri: folosind functia de repartitie Poisson
si folosind aproximarea cu repartitia normala.
(a) P1 = P (X 15) = 1 P (X < 14) = 1 FX (14) = 0.8951.

10 10
(b) P2 = P (
k=1
Xk 200) = 1 P (
k=1
Xk < 199) = 1 F
Xk (199)
= 0.5094,

10
51
unde
k=1
Xk P (200). Aproximand cu repartitia normala, gasim ca 199 + 0.5 200 200 0.5 200
P2 = 1
=1
= 0.5141.
In Matlab, aceste probabilitati pot calculate folosind codul din Exercitiul 3.16 din capitolul urmator.
52
2.19 Exercitii propuse

Exerciiu 2.1 Exerciiu 2.2 Exerciiu 2.3 Exerciiu 2.4 Exerciiu 2.5 Exerciiu 2.6 Exerciiu 2.7 Exerciiu 2.8 Exerciiu 2.9 Exerciiu 2.10
Chapter
3
Matlab
Matlab
Matlab-ul este
Experiene aleatoare n
3.1 Scurta introducere n
MATLAB este un pachet de programe de nalta performanta, dedicat calculului numeric si reprezentarilor grace n domeniul stiintei si ingineriei. Elementul de baza cu care opereaza matricea (MATrix LABoratory).
Matlab este un software standard n mediile universitare, precum si
n domeniul cercetarii si rezolvarii practice a problemelor legate de procesarea semnalelor, identicarea sistemelor, calculul statistic, prelucrarea datelor experimentale, matematici nanciare, matematici aplicate in diverse domenii etc. Cea mai importanta caracteristica a poate extins. La programele deja existente in
Matlab-ului este usurinta cu care
Matlab, utilizatorul poate adauga propriile sale coMatlab-ul include aplicatii specice, Matlab (siere M) care dezvolta mediul
duri, dezvoltnd aplicatii specice domeniului n care lucreaza. numite Toolbox-uri. Acestea sunt colectii extinse de functii
de programare de la o versiune la alta, pentru a rezolva probleme din domenii variate. Structural,
Matlab-ul este realizat sub forma unui nucleu de baza, cu interpretor propriu, n jurul caruia sunt
construite toolbox-urile. Prezentam mai jos o scurta introducere in
Matlab a principalelor functii si comenzi folosite in aceasta
lucrare. Pentru o tratare mai detaliata, puteti consulta un manual de utilizare. De asemenea, tastand
demo, puteti urmari o demonstratie a principalelor facilitati din Matlab, cat si a pachetelor de functii
(toolbox) de care ati putea interesati. Dintre acestea, amintim
Statistics Toolbox, care este o colectie
de functii folosite pentru analiza, modelarea si simularea datelor. Contine: analiza gracelor (GUI), diverse repartitii probabilistice (beta, binomiala, Poisson, hi-patrat), generarea numerelor aleatoare, 53
54 analiza regresionala, descrieri statistice.
Comenzile Matlab pot scrise in siere cu extensia .m, ce urmeaza apoi a compilate. Un
sier-M consta dintr-o succesiune de instructiuni, cu posibilitatea apelarii altor siere-M precum si a apelarii recursive. De asemenea,
Matlab poate folosit ca pe un mediu computational
interactiv, caz in care ecare linie este prelucrata imediat. Odata introduse expresiile, acestea pot vizualizate sau evaluate imediat. De exemplu, introducand la linia de comanda
>> a = sqrt((sqrt(5)+1)/2)
Matlab deneste o variabila de memorie a, careia ii atribuie valoarea

a = 1.2720
Variabilele sunt denite cu ajutorul operatorului de atribuire, =, si pot utilizate fara a declara
de ce tip sunt. Valoarea unei variabile poate : o constanta, un sir de caractere, poate reiesi din calculul unei expresii sau al unei functii.
Pentru a gasi informatii imediate despre vreo functie predenita, comanda help va vine in ajutor.
De exemplu,
>> help length

aseaza urmatoarele:
LENGTH
Length of vector. It is equivalent
LENGTH(X) returns the length of vector X.
to MAX(SIZE(X)) for non-empty arrays and 0 for empty ones. See also numel.
Comanda help poate utilizata doar daca se cunoaste exact numele functiei. Altfel, folosirea
comenzii lookfor este recomandata. De exemplu,
lookfor length
si gasim:
NAMELENGTHMAX Maximum length of MATLAB function or variable name. VARARGIN Variable length input argument list. VARARGOUT Variable length output argument list. LENGTH Length of vector.
O linie de
Matlab este un mediu computational orientat pe lucru cu vectori si matrice.
Experiene aleatoare n Matlab
55
cod v = [1,3,5,7,9] (sau v = [1 3 5 7 9]) deneste un vector linie ce are componentele
1, 3, 5, 7, 9. Aceasta poate realizata si folosind comanda v = 1:2:9 adica aseaza numerele

de la 1 la 9, cu pasul 2. Pentru un vector coloana, folosim punct-virgula intre elemente, adica
v = [1;3;5;7;9]. O alta varianta de a deni un vector este v = linspace(x1,x2,n), adica v

este un vector linie cu n componente, la intervale egale intre x1 si x2.
Denirea matricelor se poate face prin introducerea explicita a elementelor sale sau prin instructiuni si functii. La denirea explicita, trebuie tinut cont de urmatoarele: elementele matricei sunt cuprinse intre paranteze drepte ([ ]), elementele unei linii trebuie separate prin spatii libere sau virgule, liniile se separa prin semnul punct-virgula. De exemplu, comanda
>> A = [1 2 3; 4, 5, 6]
deneste matricea
A = 1 4 2 5 3 6
Apelul elementelor unei matrice se poate face prin comenzile A(i,j) sau A(:,j) (elementele de
coloana j ) sau A(i,:) (elementele de linia i);
Functia Matlab ones(m,n) deneste o matrice m n, avand toate componentele egale cu 1.

Functia zeros(m,n) deneste o matrice zero m n. Functia eye(n) deneste matricea unitate de ordin n.
Dupa cum vom vedea mai jos, Matlab permite denirea unor functii foarte complicate prin
scrierea unui cod. Daca functia ce o avem de denit este una simpla, atunci avem varianta utilizarii comenzii inline. Spre exemplu, denim functia f (x, y ) = e5x sin 3y :
>> f = inline('exp(5*x).*sin(3*y)') f = Inline function: f(x,y) = exp(5*x).*sin(3*y)

Putem apoi calcula f (7, ) prin
>> f(7,pi) 0.5827

Un program Matlab poate scris sub forma sierelor script sau a sierelor de tip functie.
Ambele tipuri de siere sunt scrise in format ASCII. Aceste tipuri de siere permit crearea unor
56 noi functii, care le pot completa pe cele deja existente. Un sier
script
este un sier extern care
contine o secvena de comenzi MATLAB. Prin apelarea numelui sierului, se executa secventa
Matlab continuta in acesta. Dupa executia completa a unui sier script, variabilele cu care
acesta a operat raman in zona de memorie a aplicatiei. Fisierele script sunt folosite pentru rezolvarea unor probleme care cer comenzi succesive atat de lungi, incat ar putea deveni greoaie pentru lucrul in mod interactiv, adica in modul linie de comanda.
Fisierele functie
Matlab creaza cadrul propice extinderii functiilor sale, prin posibilitatea crearii de noi siere. Astfel,
daca prima linie a sierului .m contine cuvantul function, atunci sierul respectiv este declarat ca ind sier functie. Variabilele denite si manipulate in interiorul sierului functie sunt localizate la nivelul acesteia. Prin urmare, la terminarea executiei unei functii, in memoria calculatorului nu raman decat variabilele de iesire ale acesteia. Forma generala a primei linii a unui sier este:
function[param_iesire] = nume_functie(param_intrare)
unde:
function este este cuvantul care declara sierul ca sier functie; nume_functie este numele functiei, care este totuna cu numele sub care se salveaza sierul; param_iesire sunt parametrii de iesire; param_intrare sunt parametrii de intrare.
Comenzile si functiile care sunt utilizate de noua functie sunt nregistrate intr-un sier cu extensia .m.
Exerciiu 3.1
Fisierul medie.m calculeaza media aritmetica a sumei patratelor componentelor unui
vector X (alternativ, aceast lucru poate realizat prin comanda mean(X.^2)):
function m2 = medie(X) n = length(X); m2 = sum(X.^2)/n;
57
3.2 Generarea de numere (pseudo-)aleatoare

Numerele generate de asadar el vor
Matlab sunt rezultatul compilarii unui program deja existent in Matlab,

Putem face abstractie de modul programat de generare ale acestor
pseudo-aleatoare.
numere, si sa consideram ca acestea sunt numere aleatoare.
3.2.1
Generarea de numere uniform repartizate intr-un interval, U (0, 1)
Functia rand
Functia rand genereaza un numar aleator repartizat uniform in [0, 1].
De exemplu, comanda X = (rand < 0.5); simuleaza aruncarea unei monede ideale. Mai putem spune ca numarul X astfel generat este un numar aleator repartizat B (1, 0.5).
De asemenea, numarul
Y = sum(rand(10,1) < 0.5) urmeaza repartitia B (10, 0.5) (simularea a 10 aruncari ale unei monede ideale).
rand(m, n) genereaza o matrice aleatoare cu m n componente repartizate U (0, 1). Comanda a + (b a) rand genereaza un numar pseudo-aleator repartizat uniform in [a, b].
Printr-o generare de numere aleatoare uniform distribuite n intervalul (a, b) nelegem numere
aleatoare care au aceeai ans de a oriunde n (a, b), i nu numere la intervale egale.
Figura 3.1 reprezinta cu histograme date uniform distribuite in intervalul [2, 3], produse de comanda
Matlab:
hist(5*rand(1e4,1)-2,100)
58
Figure 3.1: Reprezentarea cu histograme a datelor uniforme.
3.2.2
Generarea de numere repartizate normal, N (, )
Functia randn
Functia randn genereaza un numar aleator repartizat normal N (0, 1). randn(m, n) genereaza o matrice aleatoare cu m n componente repartizate N (0, 1). Comanda m + randn genereaza un numar aleator repartizat normal N (m, ). De exemplu,
codul urmator produce Figura 3.2:
x = 0:0.05:10; y = 5 + 1.1*randn(1e5,1); hist(y,x) %% date distribuite N(5,1.1)
3.2.3
Generarea de numere aleatoare de o repartitie data
Comenzile
Matlab
legernd(<param>, m, n)
59
250
200
150
100
50
10
Figure 3.2: Reprezentarea cu histograme a datelor normale.
si
random('lege', <param>, m, n).

Oricare dintre cele doua comenzi genereaza o matrice aleatoare, cu m linii si n coloane, avand componente numere aleatoare ce urmeaza repartitia lege. In loc de lege putem scrie oricare dintre expresiile din tabelul din Figura 3.1. De exemplu,
normrnd (5, 0.2, 100, 10);

genereaza o matrice aleatoare cu 100 10 componente repartizate N (5, 0.2).
random ('poiss',0.01, 200, 50);

genereaza o matrice aleatoare cu 200 50 componente repartizate P oiss(0.01).
3.2.4
Metoda functiei de repartitie inverse (Hincin-Smirnov)

Fie X este o variabila aleatoare de o repartitie data, pentru care functia sa de repar-
Propoziia 3.2
titie, F (x), este continua si strict crescatoate, in orice punct in care aceasta nu este 0 sau 1. Fie U
60 o variabila aleatoare repartizata U (0, 1). Atunci, variabila aleatoare Y = F 1 (U ) urmeaza aceeasi repartitie ca si X .
Demonstraie.
Notez cu FY functia de repartitie pentru Y . Aratam ca FY este tocmai functia de
repartitie a lui X . Avem succesiv:
FY (x) = P (Y x) = P (F 1 (U ) x) = P (U F (x)) = F (x), x [0, 1].
Putem astfel conclude ca:
Propoziia 3.3
Fie X o variabila aleatoare ca in propozitia precedenta. Daca {U1 , U2 , . . . , Un } sunt
variabile aleatoare independentic stochastic si identic repartizate U (0, 1), atunci {F 1 (U1 ), F 1 (U2 ),
. . . , F 1 (Un )} formeaza o selectie intamplatoare de numere ce urmeaza repartitia lui X .
Exerciiu 3.4
Fie variabila aleatoare X exp(), pentru care stim ca functia sa de repartitie este
F : R [0, 1] si F 1 este: ln(1 u) , u (0, 1); 0 , altfel.
F 1 (u) =
Atunci, daca {u1 , u2 , . . . , un } sunt numere aleatoare uniform repartizate in [0, 1], avem ca {F 1 (u1 ),
F 1 (u2 ), . . . , F 1 (un )} formeaza o selectie intamplatoare de numere repartizat exp().

In Figura 3.3 am reprezentat grac o doua selectii de volum 100 de numere aleatoare repartizate
exp(5); una generata prin metoda functiei de repartitie inverse, cealalta generata de functia Matlab
predenita exprnd. Functia
Matlab care genereaza gura este prezentata mai jos. Matlab a comezii expsel(5).
Apelarea functiei se face prin tastarea in fereastra de lucru in
function expsel(lambda) Y = sort(-lambda*log(1-rand(100,1))); plot(Y); hold on Z = sort(exprnd(lambda, 100,1));
% functia expsel.m % generez 100 de numere si le ordonez % desenez selectia si retin figura % generez 100 de numere cu exprnd
61
plot(Z,'r*')
% desenez Z cu rosu
legend('metoda functiei inverse','generare cu exprnd')
Figure 3.3: Generare de numere aleatoare prin metoda functiei inverse.
3.2.5
Generarea de numere aleatoare intregi
Functiile floor, ceil, round, fix
Sunt functii folosite pentru generarea de numere aleatoare intregi. De exemplu, functia floor(x) este partea intreaga a lui x. Astfel, comenzile
floor(11*rand(20,1)); ceil(11*rand(20,1));
genereaza ecare cate 20 de numere intregi intre 0 si 10, distribuite uniform discret. Diferenta dintre cele doua functii este ca floor(x) face rotunjirea la numarul intreg aat la stanga lui x, pe cand
ceil(x) face rotunjirea la numarul intreg aat la dreapta lui x.

Functiile round(x) si fix(x) rotunjesc numarul real x la cel mai apropiat numar intreg, in directia lui
62
, respectiv, in directia lui zero.
3.3 Repartitii uzuale in

repartitii probabilistice discrete
Matlab
repartitii probabilistice continue
norm: repartitia normala N (, ) bino: repartitia binomiala B(n, p) nbin: repartitia binomiala negativa BN (n, p) poiss: repartitia Poisson P () unid: repartitia uniforma discreta U (n) geo: repartitia geometrica G eo(p) hyge: repartitia hipergeometrica H(n, a, b) unif: repartitia uniforma continua U (a, b) exp: repartitia exponentiala exp() gam: repartitia gamma (a, ) beta: repartitia (m, n) logn: repartitia lognormala log N (, ) chi2: repartitia 2 (n) t: repartitia student t(n) f: repartitia F (m, n)
Table 3.1: Repartitii uzuale in
Matlab
63
3.4 Alte comenzi utile n Matlab

help rand lookfor normal X=[2 4 6 5 2 7 10] X=[3; 1; 6.5 ;0 ;77] X = -10:2:10 length(X) t=0:0.01:3*pi X.^2 X.*Y cumsum(X) cumprod(X) min(X) max(X) sort(X) erf(X) exp(x) log(x) sqrt(x) factorial(n) A = ones(m,n) B = zeros(m,n) I = eye(n) A = [3/2 1 3 10; 6 5 8 11; 3 6 9 12] size(A) det(A) inv(A) A' A(:,7) A(1:20,1) nchoosek(n,k) 1e5 exp(1)
help specic pentru functia rand; cauta intrarile in
Matlab pentru normal;
vector linie cu 7 elemente; vector coloana cu 5 elemente; vector ce contine numerele intregi de la 10 la 10, din 2 in 2; lungimea vectorului X ; deneste o diviziune a [0, 3 ] cu diviziunea 0.01; ridica toate componentele vectorului X la puterea a doua; produsul a doi vectori; suma cumulat a elementelor vectorului X ; produsul cumulativ al elementelor vectorului X ; realizeaza minimum dintre componentele lui X ; realizeaza maximum dintre componentele lu X ; ordoneaza componentele lui X in ordine crescatoare; functia eroare; calculeaza exponentiala ex ; calculeaza logaritmul natural ln(x); calculeaza radicalul ordinului doi dintr-un numar;
n! A e matrice m n, cu toate elementele 1;
matrice m n zero; matrice unitate, n n; matrice 3 3; dimensiunea matricei A; determinantul matricei A; inversa matricei A; transpusa matricei A; coloana a 7-a a matricei A; scoate primele 20 de linii ale lui A; combinri de n luate cate k;
105 ; e;
64
plot(X(1:5),'*m') plot(t,X,'-') plot3(X,Y,Z) stairs(X) bar(X) sau barh(X) hist(X) hist3(x,y,z) semilogx si semilogy hold on clf clear all title('Graficul functiei') find
deseneaza primele 5 componente ale lui X , cu * magenta; deseneaza gracul lui X versus t, cu linie continua; deseneaza un grac in 3-D; deseneaza o functie scara; reprezentarea prin bare; reprezentarea prin histograme; reprezentarea prin histograme 3-D; logaritmeaza valorile de pe abscisa, resp., ordonata; retine gracul pentru a realiza o noua gura; sterge gura; sterge toate variabilele denite; adauga titlu gurii; gaseste indicii elementelor nenule ale unui vector;
Table 3.2: Funcii
Matlab utile
Matlab-ul include aplicatii specice, numite Toolbox-uri. Acestea sunt colectii extinse de functii Matlab (siere-m) care dezvolta mediul de programare de la o versiune la alta pentru a rezolva
probleme din domenii variate.
Statistics Toolbox reprezinta o colectie de functii folosite pentru analiza,
modelarea si simularea datelor si contine: generarea de numere aleatoare; distributii, analiza graca interactiva (GUI), analiza regresionala, descrieri statistice, teste statistice.
3.5 Metoda Monte Carlo

Metoda Monte Carlo este o metod de simulare statistic, ce produce soluii aproximative pentru o mare varietate de probleme matematice prin efectuarea de experimene statistice pe un computer. Se poate aplica att problemelor cu deterministe, ct i celor probabilistice i este folositoare n obinerea de soluii numerice pentru probleme care sunt prea dicile n a rezolvate analitic. Este o metod folosit de secole, dar a cptat statutul de metod numeric din anii 1940. n 1946, Stanislaw Ulam (polonez nscut n Lvov) a devenit primul matematician care a dat un nume acestui procedeu, iar numele vine de la cazinoul Monte Carlo din principatul Monaco, unde se practic foarte mult jocurile de noroc, n special datorit jocului de rulet (ruleta = un generator simplu de numere aleatoare). De asemenea, Nicolas Metropolis a adus contribuii importante metodei.
65
Are la baz generarea de numere aleatoare convenabile i observarea faptului c o parte dintre acestea veric o proprietate sau anumite proprieti. n general, orice metod care are la baza generarea de numere aleatoare n vederea determinrii rezultatului unui calcul este numit o metod Monte Carlo. Orice eveniment zic care poate vzut ca un proces stochastic este un candidat n a modelat prin methoda MC.
3.6 Integrarea folosind metoda Monte Carlo

S spunem c dorim s folosim metode Monte Carlo pentru evaluarea integralei
b
I=
a
f (x) dx.
(3.1)
n general, pentru a evalua numeric integrala, metoda Monte Carlo nu este prima alegere, nsa este foarte util n cazul n care integrala este dicil (sau imposibil) de evaluat. Aceast metoda devine mai ecient dect alte metode de aproximare cnd dimensiunea spaiului e mare. Dac dorim aplicarea metodei MC, atunci avem de ales una din urmtoarele variante: (1) ncadrm gracul funciei f ntr-un dreptunghi
D = [a, b] [c, d],

unde c < inf f i d > sup f . Evalum integrala folosindu-ne de calculul probabilitii evenimentului A,
[a, b] [a, b]
c un punct ales la ntamplare n interiorul dreptunghiului D s se ae sub gracul funciei f (x). Facem urmtoarea experien aleatoare: alegem n mod uniform (comanda n
rand
ne ofer aceasta posibilitate
Matlab) un punct din interiorul dreptunghiului i testm dac acest punct se a sub gracul lui
f (x). Repetm experiena de un numr N (mare) de ori i contabilizm numrul de apariii f (N ) ale
punctului sub grac. Pentru un numr mare de experiene, probabilitatea cutat va aproximat de frecvena relativ a realizrii evenimentului, adic
P ( A)
f (N ) N
Aceast metod nu e foarte ecient, deoarece N trebuie sa e, ntr-adevr, foarte mare pentru a avea o precizie bun. (2) Din teorema de medie avem ca exista un numar E(f ) (a, b) a.i.
I = (b a)E(f ).
66 Putem evalua E(f ) prin
E(f )
1 N
f (xk ),
k=1
(3.2)
unde xk sunt numere aleatoare uniform distribuite n intervalul (a, b). Deci aproximarea integralei este:
I
(3) Putem rescrie integrala n forma
ba N
f (xk ),
k=1
(3.3)
I = (b a)
a
f (x)h(x) dx,
(3.4)
unde
f (x) =
1 ba
, daca x [a, b], , altfel.
Funcia h(x) denit mai sus este densitatea de repartiie a unei v.a. X U [a, b], iar relaia (3.4) se rescrie
I = (b a)E(f (X )).
Folosind legea slab a numerelor mari, putem aproxima I prin:
(3.5)
I
unde Xk sunt v.a. distribuite U [a, b].
ba N
f (Xk ),
k=1
(3.6)
Putem generaliza metoda pentru a calcula integrale de tipul
f (x) dx, unde V Rn .

V
Exerciiu 3.5
Utiliznd metoda Monte Carlo, s se evalueze integrala

5
I=
2
ex dx

x = 7*rand(1e6,1)-2; g = exp(-x.^2); I = mean(g) % genereaza 106 numere aleatoare U (2, 5)
2
% g (x) = ex
106
media
i=1
g (xi )

sau, restrns,
67
estimate = mean(exp(-((7*rand(10^6,1)-2).^2)))
% I 0.2525
Exerciiu 3.6
Evalund integrala
1
I=
0
ex dx
prin metoda Monte Carlo s se estimeze valoarea numrului transcendent e. (e = I + 1).
estimate = mean(exp(rand(10^6,1))+1)
% e 2.7183
3.7 Experimente aleatoare n
Matlab
Matlab. De exemplu, simularea
Putem simula diverse experiente aleatoare folosind comenzile din
aruncarii unei monede ideale sau a unui zar ideal. Pentru aceasta vom utiliza functia
rand
ce genereaza un numar (pseudo-)aleator uniform in intervalul [0, 1] (i.e., orice punct din acest interval are aceeasi sansa de a apare la rularea comenzii.
3.7.1
Simularea aruncrii unei monede
Comanda
X = (rand < 0.5); simuleaza aruncarea unei monede ideale. Vom mai spunem ca numarul X astfel generat este un numar aleator repartizat B (1, 0.5) (similar cu schema bilei revenite, in cazul in care o urna are bile albe si negre in numar egal si extragem o bila la intamplare)
De asemenea, numarul
Y = sum (rand(10,1)<0.5) urmeaza repartitia B (10, 0.5) (simularea a 10 aruncari ale unei monede ideale).
68
Exerciiu 3.7
S se scrie o functie
MATLAB care sa simuleze aruncarea repetata a unei monede
corecte. Sa se determine probabilitatea ca la aruncarea monedei s obinem fata cu stema si sa deseneze o gura care sa justice grac convergenta sirului frecventelor relative la aceasta probabilitate.
function moneda(N,p); x = rand(1, N); V = (x < p); Sn = cumsum(V); x = 1:N; Fn = Sn./Ar; semilogx(1:N, Fn, 'b-', [1,N],[p, p], 'm:'); axis([0 N 0 1]); title('moneda') xlabel('aruncari');ylabel('probabilitatea')
% functia moneda.m % aruncam moneda % valoarea de adevar a lui (x<p) % suma cumulata % vectorul nr de aruncari % frecventa relativa a stemei % reprezinta grafic Fn % axele % numele figurii % numele axelor
moneda 1 1 5/6 3/4 probabilitatea probabilitatea
zar
0.5
0.5
1/4 1/6 0 0
10
10 10 aruncari
10
10
10
10 10 aruncari
10
10
Figure 3.4: Simularea aruncrii unei monede corecte (a) i a unui zar corect (b)
Fisierul moneda.m simuleaza aruncarea unei monede de un numar N de ori, atunci cand probabilitatea de a obtine fata cu stema este p. O rulare a functiei, e.g. moneda(1e5,0.5), produce gracul din Figura 3.4(a). De asemenea, se poate simula si aruncarea unei monede masluite, daca alegem ca parametrul
p al functiei sa e diferit de 0.5.
69
3.7.2
Simularea aruncrii unui zar
La aruncarea unui zar ideal, avem 6 cazuri posibile, si anume, aparitia unei fete cu 1, 2, 3, 4, 5 sau 6 puncte. Pentru a simula acest experiment, modicam in mod convenabil problema. Vom considera ca punctele din intervalul [0, 1] formeaza multimea tuturor cazurilor posibile si impartim intervalul [0, 1] in 6 subintervale de lungimi egale:
(0,
1 1 2 2 3 3 4 4 5 5 ), ( , ), ( , ), ( , ), ( , ), ( , 1) . 6 6 6 6 6 6 6 6 6 6
corespunzatoare, respectiv, celor sase fete, sa zicem in ordinea crescatoare a punctelor de pe ele. Vom vedea mai tarziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete inchise, deschise sau mixte nu are efect practic asupra calculului probabilitatii dorite. Acum, daca dorim sa simulam in
Matlab aparitia fetei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numar "la
3 intamplare" din intervalul [0, 1] si vericam daca acesta se aa in intervalul ( 2 6 , 6 ). Asadar, comanda
Matlab
(rand < 3/6 & rand > 2/6)
simuleaza aruncarea unui zar ideal. Ca o observatie, deoarece cele 6 fete sunt identice, putem simplica aceasta comanda si scrie
(rand < 1/6).
Exerciiu 3.8
S se simuleze n MATLAB aruncarea repetata a unui zar corect. Sa se determine
probabilitatea ca la aruncarea zarului s obinem faa cu trei puncte si sa deseneze o gura care sa justice grac convergenta sirului frecventelor relative la aceasta probabilitate (vezi Figura 3.4(b)).
function dice(N); u = rand(1, n); Z1 = (u < 3/6 & u > 2/6); freq = cumsum(Z1)./(1:n); subplot(1,2,2);
% functia dice.m % probabilitatea aparitiei fetei % aparitia fetei % frecventa relativa % activeaza fereastra din stanga
semilogx(1:n, freq, 'b-', [1, n], [1/6,1/6], 'm:'); axis([0 n 0 1]); title('zar') xlabel('aruncari');ylabel('probabilitatea')
Fisierul dice.m simuleaza aruncarea unui zar corect de un numar N de ori. O rulare a functiei, e.g.
% axele % numele figurii
dice(1e5) produce gracul din Figura 3.4(b).
70
3.8 Probabiliti geometrice

Exerciiu 3.9
(aproximarea lui folosind jocul de
darts )
n ce const jocul? S presupunem c suntem la nivelul nceptor. Avem de aruncat o sgeat ascuit, ce poate penetra cu uurin lemnul, spre o tabl ptrat din lemn, n interiorul cruia se a desenat un cerc circumscris ptratului. Dac sgeata se nnge n interiorul discului atunci ai ctigat un punct, dac nu - nu ctigai nimic. Repetm jocul de un numr N de ori i contabilizm la sfrit numrul de puncte acumulate, s zicem c acest numr este N . S presupunem c suntei un juctor slab de darts (asta implic faptul c orice punct de pe tabl are aceeai ans de a intit), dar nu aa de slab nct s nu nimerii tabla. Cu alte cuvinte, presupunem c de ecare data cnd aruncai sgeata, ea se nnge n tabl. Se cere s se aproximeze valoarea lui pe baza jocului de mai sus i s se scrie un program n Matlab care s simuleze experimentul. S notm cu A evenimentul ca sgeata s se nng chiar n interiorul discului. n cazul n care numrul de aruncri N e foarte mare, atunci probabilitatea evenimentului A, P (A), este bine aproximat de limita irului frecvenelor relative, adic lim
n
N . N
aria disc Pe de alt parte, P (A) = aria perete = 4 . Aadar, putem aproxima prin
N N
(pentru N
1).
(3.7)
Functia Matlab care aproximeaza pe este prezentata mai jos. Metoda care a stat la baza aproximrii lui este o
metoda Monte Carlo, a carei suport teoretic este prezentat in paragraful .

% numar de aruncari % genereaza vectorul theta % (x,y) - intepaturi % cerc in polar
function Pi = Buffon(N) theta = linspace(0,2*pi,N); x = rand(N,1); y = rand(N,1);
X = 1/2+1/2*cos(theta); Y = 1/2+1/2*sin(theta); plot(x,y,'b+',X,Y,'r-'); S = sum((x-.5).^2 + (y-.5).^2 <= 1/4); Prob = S/N; approxpi =4*Prob; axis([0 1 0 1]); title([int2str(N),' aruncari,
% deseneaza cercul si punctele % numarul de succese % frecventa relativa % aproximarea lui pi % deseneaza axele \pi \approx ', num2str(approxpi)]);
71
Figure 3.5: Simularea jocului de
darts.
Astfel, o simpla rulare a functiei, Buffon(2000), ne genereaza Figura 3.5.
3.9 Repartitii probabilistice in
Matlab
sau
LEGEpdf(x, <param>).
Functiile de probabilitate, f (x) (pentru variabile aleatoare discrete), si densitatea de repartitie, f (x) (pentru variabile aleatoare continue), se introduc in MATLAB cu ajutorul comenzii pdf, astfel:
pdf('LEGE', x, <param>)
Functia de repartitie, F (x), a unei variabile aleatoare se poate introduce in MATLAB cu ajutorul comenzii cdf, astfel:
cdf('LEGE', x, <param>);
sau
LEGEcdf(x, <param>).
Inversa functiei de repartitie pentru repartitii continue, F 1 (y ), se introduce cu comanda icdf, astfel:
icdf('LEGE', y, <param>)
sau
LEGEinv(y, <param>).
In comenzile de mai sus, LEGE poate oricare dintre legile de repartitie din tabelul 3.1, x este un scalar sau vector pentru care se calculeaza f (x) sau F (x), y este un scalar sau vector pentru care
72 se calculeaza F 1 (y ) iar <param> este un scalar sau un vector ce reprezinta parametrul (parametrii) repartitiei considerate.
Observaia 3.10
Fie X o variabila aleatoare si F (x, ) functia sa de repartitie, ind parametrul
repartitiei. Pentru un x R, relatia matematica
P (X x) = F (x)
o putem scrie astfel in
Matlab:
cdf('numele repartitiei lui X',x,).
(3.8)
Problema poate aparea la evaluarea in Matlab a probabilitatii P (X < x). Daca repartitia considerata este una continua, atunci corespondentul in
Matlab este tot (3.8), deoarece in acest caz
P (X x) = P (X < x) + P (X = x) = P (X < x).

De exemplu, daca X N (5, 2), atunci
P (X < 4) = cdf('norm', 4, 5, 2).

Daca X este de tip discret, atunci
P (X < x) =
P (X [x])
, x nu e intreg
P (X m 1) , x = m Z,
unde [x] este partea intreaga a lui x. De exemplu, daca X B (10, 0.3), atunci
P (X < 5) = P (X 4) = cdf('bino', 4, 10, 0.3) = 0.8497.
Exerciiu 3.11
O moneda ideala este aruncata de 100 de ori, iar X este variabila aleatoare ce reprez-
inta numarul de fete cu stema aparute.
(a) Care este probabilitatea de a obtine exact 52 de steme? (b) Sa se calculeze P (45 X 55). Folositi aproximarea cu o variabila aleatoare normala.

Codul
73
Matlab urmator calculeaza probabilitatile cerute, calculate analitic in Exercitiul 2.56 din capi-
tolul precedent.
P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 P1 = 1/5*normpdf(2/5) P1 = normcdf(2.5/5) - normcdf(1.5/5)
% solutia exacta % solutia aproximativa 1 % solutia aproximativa 2
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) P2 = normcdf(5.5/5) - normcdf(-5.5/5) % solutia exacta % solutia aproximativa
Exerciiu 3.12
Cineva a inregistrat zilnic timpul intre doua sosiri succesive ale tramvaiului intr-o
anumita statie, si a gasit ca, in medie, aceste este de 20 de minute. Se stie ca acest timp este distribuit exponential. Daca o persoana a ajuns in statie exact cand tramvaiul pleca, aati care sunt sansele ca ea sa astepte cel putin 15 minute pana vine urmatorul tramvai.

este:
Notam cu T timpul de asteptare in statie intre doua sosiri succesive ale tramvaiului si cu FT
functia sa de repartitie. Stim ca T exp(), unde = 20. Asadar, avem de calculat P (T 15), care
P (T 15) = 1 P (T < 15) = 1 FT (15),

si aceasta este
1 - cdf('exp',15, 20) = 0.4724,

ceea ce implica 47.24% sanse.
Exerciiu 3.13
nomiale.
Urmatoarea functie Matlab (prin comanda fF(10,0.5)) reprezinta grac (vezi Figura
3.6) functia de probabilitate (prin puncte si bare) si functia de repartitie ale legii de probabilitate bi-
function fF(n,p); x=0:n; FP=pdf('bino', x, n ,p); subplot(1,3,1); plot(x, FP, '*') axis([-0.5 n+0.5 0 0.32]) title('Functia de probabilitate') subplot(1,3,2), bar (x, FP); axis ([-0.5 n+0.5 0 0.32]) title('Functia de probabilitate')
74
FR=cdf('bino', x, n ,p); subplot(1,3,3); stairs(x, FR) title('Functia de repartitie');axis ([0 n 0 1])
Functia de probabilitate 0.3 0.3
Functia de probabilitate 1
Functia de repartitie
0.75 0.2 0.2 0.5
0.1
0.1 0.25
10
10
10
Figure 3.6: Reprezentarea functiilor de probabilitate si de repartitie pentru B (10, 0.5)
Exerciiu 3.14
Sa presupunem ca X este o v.a. continua ce reprezinta inaltimea (in cm) barbatilor
dintr-o tara. Se stie ca P (X 170) = 0.1. Stiind ca X este normal distribuita, cu media m = 175, sa se determine dispersia lui X .
Fie v.a.
Y =
X 175 .
Deoarece X N (175, ), gasim ca Y N (0, 1). Din conditia P (X 170) = 0.1, obtinem:
5 P (Y ) = 0.1,
de unde
5 = icdf('norm',0.1,0,1) = 1.28,
de unde 3.91, asadar 2 15.3.
Exerciiu 3.15
Presupunem ca inaltimea unei persoane este o v.a. X repartizata normal. Media de
inaltime a jucatorilor unei echipe de baschet masculin este 195 cm, cu deviatia standard 5 cm. Inaltimea usii de la vestiarul echipei este de 2 metri.
75
(a) Determinati procentul dintre jucatorii echipei care sunt prea inalti pentru a trece de aceasta usa
fara sa se aplece. (Presupunem ca se apleaca doar daca inaltimea lor este mai mare de 2m).
(b) Sa se determine probabilitatea ca inaltimile jucatorilor sa e intre 190 cm si 210 cm.

(a) Probabilitatea ca jucatorii sa e "prea inalti" este:
P1 = P (X > 200) = 1 P (x 200) = 1 FX (200) 0.1587.

Procentul cautat este r = P1 100 15.87%. (b) Calculam
P2 = P (190 < X < 210) = FX (210) FX (190) 0.84.
P1 = 1 - normcdf(200, 195,5))*100 P2 = normcdf(210, 195,5) - normcdf(190, 195,5)
Exerciiu 3.16 (a)
In magazinul de la coltul strazii intra in medie 20 de clienti pe ora. Stiind ca
numarul clientilor pe ora este o variabila aleatoare repartizata Poisson, sa se determine care este probabilitatea ca intr-o anumita ora sa intre in magazin cel putin 15 clienti?
(b) Care este probabilitatea ca, intr-o anumita zi de lucru (de 10 ore), in magazin sa intre cel putin 200 de clienti? Calculati aceasta probabilitate in doua moduri: folosind functia de repartitie Poisson
si folosind aproximarea cu repartitia normala.

codul
Solutiile analitice au fost prezentate in capitolul anterior, in Exercitiul 2.57. Prezentam aici
Matlab pentru calculul probabilitatilor cerute.

P1 = 1 - poisscdf(14,20); P2 = 1 - poisscdf(199,200);
sau,
P2 = 1 - normcdf(-0.5/sqrt(200))
Exerciiu 3.17 (a)
Simulati in MATLAB o variabila aleatoare discreta X ce poate lua doar doua
valori, X = 1, cu P (X = 1) = p si X = 1, cu P (X = 1) = 1 p, (p (0, 1)).
76
(b)
Consideram urmtorul joc: se arunc o moned corect de N ori i dac apare stema ctigm
1 RON , iar dac apare banul, pierdem 1 RON . S se reprezinte v.a. care reprezint ctigul S (n)
cumulat la ecare aruncare. De asemenea, s se contabilizeze de cte ori s-a ntors balana la 0.
(a) Stabilim un p [0, 1]. Cu comanda rand, generam un numar aleator dupa repartitia
U (0, 1). Atunci, comanda MATLAB
(rand < p)
ne aseaza valoarea de adevar a propozitiei rand < p. Asadar, MATLAB aseaza 1 daca rand < p (probabilitatea ca aceasta sa se intample este p) si aseaza 0 daca rand > p (probabilitatea evenimentului este 1 p). Prin urmare, pentru a simula variabila aleatoare Bernoulli ceruta folosim codul:
p = input('p = '); X = 2*(rand < p)-1;
% introduc probabilitatea p % variabila aleatoare X
(b) Procedam astfel: mai intai initializez un vector ce are toate componentele egale cu 1. Arunc o moneda de N ori. Daca apare evenimentul favorabil, atunci pentru aruncarea (componenta) respectiva schimbam valoarea 1 (pierdere) in +1 (castig). La nal, fac suma cumulata la ecare pas si o reprezint grac (vezi gura 3.7). Pentru a contabiliza numarul de zerouri ale vectorului Castig, calculam lungimea vectorului ce are drept componente rangurile pentru care vctorul Castig este 0. Codul MATLAB este urmatorul:
N = input('N = '); S = -1*ones(N,1); u = rand(N,1); S(u < 0.5) = 1; Castig = cumsum(S); plot(1:N, Castig, '*') Z=length(find(Castig == 0))
% numar de repetitii ale jocului % un vector cu toate componentele egale cu -1 % un vector cu N numere U (0, 1) % aruncare favorabila => schimb componenta -1 cu 1 % suma cumulata la fiecare moment % deseneaza graficul % numarul de componente nule
Exerciiu 3.18
Sa se simuleze in MATLAB o variabila aleatoare ale carei valori reprezinta numarul
de esecuri avute pana la aparitia pentru prima oara a fetei cu 3 puncte la aruncarea unui zar ideal. Care este probabilitatea de a obtine aceasta fata din cel mult 3 aruncari?

200
77
150
100
S(n)
50
50
100
5 aruncari
10 x 10
4
Figure 3.7: Suma cumulata - miscare aleatoare (brownian).
Fie X v.a. cautata. Aceasta urmeaza repartitia G eo(1/6). Probabilitatea de a obtine fata
asteptata din cel mult 3 aruncari este totuna cu probabilitatea de a obtine cel mult 2 esecuri pana la aparitia acestei fete.
X = geornd(1/6) P = geocdf(2,1/6)
3.10 Justicari grace ale teoremei limita centrala

Exerciiu 3.19
In Figura 3.8 am reprezentat grac (cu bare) functiile de probabilitate pentru repartitiile binomiala si Poisson, atunci cand numarul de extrageri in schema binomiala este un numar mare. Observam ca pentru un numar n sucient de mare, cele doua grace se suprapun. Aceasta este o demonstratie graca a urmatoarei convergente:
k k nk lim Cn p q =
n p0
e k . k!
(3.9)
=np
Vericati aceasta limita folosing metode analitice! Mai mult, forma gracului din Figura 3.8 aminteste de clopotul lui Gauss, justicand grac cum ca functiile de probabilitate pentru binomiala (albastru) si Poisson (rosu) tind la densitatea de repartitie
78
0.12
0.1
0.08
0.06
0.04
0.02
10
15
20
25
30
Figure 3.8: B (n, p) si P (np) pentru n = 100, p = 0.15
pentru repartitia normala.
n = input('n='); p = input('p='); lambda = n*p; a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda)); %% a si b sunt valorile din problema celor 3 sigma x=a:b; fB=binopdf(x,n,p); fP=poisspdf(x,lambda); bar(x',[fB',fP'])
Exerciiu 3.20
In Figura 3.9, am reprezintat cu
albastru
functia de repartitie pentru Sn (Sn
B (n, p)), pentru n = 0.3 si patru valori ale lui n, n {20, 50, 200, 10000}, iar cu linie rosie, functia
de repartitie pentru o variabila aleatoare repartizata N (0, 1). Din cele cele 4 grace, observam cum gracul functiei de repartitie pentru Sn se apropie de gracul functiei de repartitie pentru N (0, 1), cand n este sucient de mare (pentru n = 10000 se suprapun gracele). Codul MATLAB ce genereaza gracul din Figura 3.9 este:
clear all; clf; n = [20,50,200,10000]; p = 0.3; for i=1:4
% reseteaza var. de memorie si figura
79
x = -4:0.01:4; y = n(i)*p + x*sqrt(n(i)*p*(1-p)); f = cdf('bino', y, n(i), p); subplot(2,2,i); plot(x,f,'b'); hold on; stairs(x,normcdf(x, 0, 1),'r'); title(['n = ',num2str(n(i))]) axis([-4.05 4.05 -0.05 1.05]) end % functia de repartitie pentru N (0, 1) % functia de repartitie pentru B(n, p)
n = 20 1 0.8 0.6 0.4 0.2 0 4 2 0 2 4 1 0.8 0.6 0.4 0.2 0 4 2
n = 50
n = 200 1 0.8 0.6 0.4 0.2 0 4 2 0 2 4 1 0.8 0.6 0.4 0.2 0 4 2
n = 10000
Figure 3.9: Vericare graca a teoremei limita centrala (varianta cu functiile de repartitie)
80

Exerciiu 3.1
{1, 2, . . . , 49}.
Generati in Matlab un set de 6 numere aleatoare alese (uniform discret) din multimea
Exerciiu 3.2 Exerciiu 3.3 Exerciiu 3.4 Exerciiu 3.5 Exerciiu 3.6 Exerciiu 3.7 Exerciiu 3.8 Exerciiu 3.9 Exerciiu 3.10
Chapter
Elemente de Statistic descriptiv

Sa consideram o populatie statistica de volum N si o caracteristica a ei, X , ce are functia de repartitie
F . Asupra acestei caracteristici, facem n observatii, in urma carora culegem un set de date statistice.
Dupa cum am vazut mai inainte, datele statistice pot negrupate (asa cum au fost culese in urma observarilor) si grupate (descrise prin tabele de frecvente). In continuare, vom deni cele mai importante masuri descriptive pentru aceste date.
4.1 Masuri descriptive ale datelor negrupate

Consideram un set de date statistice negrupate (de volum n), x1 , x2 , . . . , xn (xi R, i = 1, 2 . . . , n), ce corespund celor n observatii asupra variabilei X .
(1) Valoarea medie empirica
Aceasta este o masura a tendintei centrale a datelor. Pentru o selectie {x1 , x2 , . . . , xn }, denim:
n
x =
1 n
xi ,
i=1
ca ind media
(empirica) de selectie.
Daca {x1 , x2 , . . . , xN } sunt toate cele N observatii (recensmnt) 81
82 asupra caracteristicii populatiei, atunci marimea
=
se numeste
1 N
xi
i=1
media (empirica a) populatiei.
Vom vedea mai tarziu ca, pentru a estima media a intregii
populatii statistice, nu este necesar sa avem toate valorile {x1 , x2 , . . . , xN }, ci doar o selectie a ei, si vom putea folosi x ca un estimator pentru . Pentru ecare i, cantitatea di = xi x se numeste
deviatia fata de medie.
Aceasta nu poate denita
ca o masura a gradului de imprastiere a datelor, deoarece

n
(xi x) = 0.
i=1
(2) Dispersia empirica

Aceasta este o masura a imprastierii datelor in jurul valorii medii. Pentru o selectie {x1 , x2 , . . . , xn }, denim
dispersia (empirica) de selectie:

s2 1 = n1
n
(xi x )
i=1
1 = [ n1
x2 x)2 ] . i n(
i=1
Pentru intreaga populatie de volum N ,
dispersia populatiei este denita prin masura

1 = N
2 N
( x i ) 2 .
i=1
1 Observaia 4.1 Cantitatea s = n

2
(xi x )2 este tot o masura a dispersiei (empirice) de selectie.

i=1
2 Vom vedea mai tarziu ca alegerea lui s2 in dauna lui s este mai potrivita intr-un anume sens. Ambele 2 valori, s2 si s2 , pot folosite ca estimatori ai dispersiei populatiei, .
(3) Deviatia standard empirica
Este tot o masura a imprastierii datelor in jurul valorii medii. Pentru o selectie {x1 , x2 , . . . , xn }, denim
deviatia standard (empirica) de selectie:

s = 1 n1
n
(xi x )2 .
i=1

Pentru intreaga populatie de volum N ,
83
deviatia standard a populatiei este denita prin masura

= 1 N
N
(xi )2 .
i=1
(4) Scorul Z
Este numarul deviatiilor standard pe care o anumita observatie, x, le are sub sau deasupra mediei. Pentru o selectie {x1 , x2 , . . . , xn },
scorul Z
este denit astfel:
z=
Pentru o populatie, scorul Z este:
xx . s
z=
x .
Exerciiu 4.2
Testam media notelor obtinute de studentii din ultimul an al unei universitati. Sa
presupunem ca pentru aceste note avem media de selectie x = 7.24 si deviatia standard s = 0.7. Media ta este 8.45. Care iti este pozitia mediei tale, raportat la mediile colegilor tai? (i.e., cate deviatii standard, s, dedesubtul sau deasupra mediei de selectie te situezi?)
Calculam scorul Z . Avem:
z=
xx 8.50 7.24 = = 1.8 deviatii standard deasupra mediei de selectie. 0.7
(5) Covarianta empirica
Daca avem n perechi de observatii, (x1 , y1 ), (x2 , y2 ), . . . (xn , yn ), denim
covarianta empirica de se-
lectie:
1 covsel = n1
(xi x )(yi y ).
i=1
Covarianta empirica pentru intreaga populatie este:
covpop =
1 N
(xi x )(yi y ).
i=1
84
(6) Coecientul de corelatie empiric

r= r= covsel , sx sy
coecient de corelatie de selectie, coecient de corelatie pentru populatie.
covpop , x y
(7) Coecientul de asimetrie, (en., skewness), este al treilea moment standardizat,

1 =
Daca avem o repartitie simetrica, atunci 1 = 0. Daca 1 > 0, atunci asimetrie la dreapta, 1 < 0, avem asimetrie la stanga.
3 . 3
(8) Excesul (coecientul de aplatizare sau boltire) (en., kurtosis),

K= 4 3. 4
Este o masura a boltirii distributiei (al patrulea moment standardizat). Termenul (3) apare pentru ca indicele kurtosis al distributiei normale sa e egal cu 0. Un indice K > 0 semnica faptul ca, in vecinatatea modului, curba densitatii de repartitie are o boltire (ascutire) mai mare decat clopotul lui Gauss. Pentru K < 0, in acea vecinatate curba densitatii de repartitie este mai plata decat curba lui Gauss.
(9) Cuantila de ordin
Deniia 4.3
Se numeste
cuantila de ordin
valoarea x astfel incat: (4.1)
F (x ) = P (X x ) = .
Observaia 4.4
Cuantilele sunt masuri de pozitie, ce masoara locatia unei anumite observatii fata de
restul datelor. Asa cum se poate observa din Figura 4.1, valoarea x este acel numar real pentru care aria hasurata este chiar . In cazul in care X este o variabila aleatoare discreta, atunci (4.1) nu poate asigurata pentru orice . Insa, daca exista o solutie a acestei ecuatiei F (x) = , atunci exisita o innitate de solutii: intervalul

ce separa doua valori posibile.
85
Figure 4.1: Cuantila de ordin .
Cazuri particulare de cuantile:
mediana ( = 1/2), cuartile ( = i/4, i = 1, 4), decile ( = j/10, i =
1, 10), percentile ( = k/100, k = 1, 100), promile ( = l/1000, l = 1, 1000). mediana: Presupunem ca observatiile sunt ordonate, x1 < x2 < < xn . Pentru aceasta ordine,
denim valoarea mediana:
x0.5 =
x(n+1)/2 , (xn/2 + xn/2+1 )/2,
daca n = impar; daca n = par;
cuartila inferioara este x0.25 , astfel incat P (X x0.5 ) = 1/4; cuartila superioara este x0.75 , astfel incat P (X x0.75 ) = 3/4; distanta intercuartilica, x0.75 x0.25 ;
(10) Modul
(valoarea cea mai probabila a caracteristicii)
Este acea valoare x pentru care f (x ) este maxim. O repartitie poate avea mai multe module (e.g., la aruncarea unui zar toate cele sase fete au aceeasi probabilitate de aparitie, deci toate sunt module.)
86
(11) Functia de repartitie empirica
Se numeste functie de repartitie empirica asociata unei variabile aleatoare X si unei selectii {x1 , x2 , . . . , xn },
: R R, denita prin functia Fn Fn (x) =
card{i; xi x}
(4.2)
Propozitia de mai jos arata ca functia de repartitie empirica aproximeaza functia de repartitie teoretica (vezi Figura 4.2).
Propoziia 4.5
Fie o colectivitate statistica si X o caracteristica studiata. Notez cu F (x) functia
de repartitie a lui X . Pentru o selectie de valori ale lui X , {x1 , x2 , . . . , xn }, construim functia de
(x). Atunci: repartitie empirica, Fn Fn (x) F (x), cand n , prob
x R.
Demonstraie.
Notez cu A evenimentul {X x} si cu p = P (A). Se fac n repetitii ale acestui
eveniment si frecventa relativa a realizarii evenimentului A este
n card{i; xi x} = = Fn (x). n n
Astfel, concluzia propozitiei este o consecinta imediata a Teoremei lui Bernoulli 2.48.
4.2 Masuri descriptive ale datelor grupate

Consideram un set de date statistice grupate (de volum n), ce corespund celor n observatii asupra variabilei X . Datele grupate sunt in genul celor prezentate in Figurile 1.1 si 1.3.
Pentru o selectie cu valorile de mijloc {x1 , x2 , . . . , xn } si frecventele absolute corespunzatoare, {f1 ,

n
f2 , . . . , fn },cu
i=1
fi = n, denim:
n
x f =
1 n
xi fi ,
i=1
media de selectie, (media ponderata)
87
Figure 4.2: Functia de repartitie empirica si functia de repartitie teoretica pentru distributia normala.
s2
1 = n1
n i=1
1 fi (xi x f ) = n1
2
x2 2 i fi n x f
i=1
dispersia empirica,
s =
s2 ,
deviatia standard empirica.
In MATLAB, functiile specice pentru aceste masuri sunt:
Observaia 4.6
Sa consideram urmatoarea problema. La brutaria din colt a fost adusa o masina noua
de fabricat paine. Aceasta masina de paine ar trebui sa fabrice paini care sa aiba in medie m = 400 de grame. Pentru a testa daca masina respectiva indeplineste norma de gramaj, am pus deoparte (la intamplare) n paini produse intr-o zi lucratoare, in scopul de a le cantari. Spunem astfel ca am facut o selectie de volum n din multimea painilor produse in acea zi. Dorim sa decidem daca, intr-adevar, masina este setata la parametrii potriviti. In urma cantaririi celor n paini, obtinem datele (empirice):
{x1 , x2 , . . . , xn } (in grame). Calculam media masei acestora si obtinem: 1 x= n

n
xi .
i=1
Intuitiv, ar de asteptat ca acest x sa aproximeze (intr-un anumit sens) masa medie (teoretica) a painilor produse de aceasta masina. Pentru a putea obtine aceasta aproximare, am avea nevoie de
88
mean(x) harmmean(x) quantile(x,alpha) iqr(x) median(x) std(x), var(x) range(x) mode(x) max(x), min(x) skewness(x) kurtosis(x) prctile(x,p) cdfplot(x) cov(x,y) corrcoef(x,y) LEGEstat(<param>)
media valorilor elementelor lui x; media armonica a elementelor lui x; cuantila de ordin ; distanta intercuantilica, x0.75 x0.25 ; valoarea mediana a lui x; deviatia standard si dispersia valorilor lui x; range-ul lui x; modul lui x; maximum si minimum pentru elementele lui x; skewness pentru elementele lui x; kurtosis pentru elementele lui x; pth percentilele lui x; reprezinta grac functia de repartitie empirica a lui x; covarianta dintre x si y ; coecientul de corelatie pentru valorile lui x si y ; aseaza media si dispersia pentru LEGE(<param>);
Table 4.1: Functii
Matlab specice pentru masuri descriptive.
un criteriu care sa ne spuna ca x m. Mai mult, am dori sa m convinsi ca aceasta aproximare nu depinde de esantionul de paini ales, adica, daca am ales alte paini si facut media maselor lor, am obtinut din nou o valoarea foarte apropiata de m. Pentru a construi un astfel de criteriu, avem nevoie de un cadru teoretic mai abstract pentru modelarea datelor statistice. Acest cadru il vom construi mai jos.

Exerciiu 4.7
O companie de asigurari a inregistrat numarul de accidente pe luna ce au avut loc
intr-un anumit sat, in decurs de un an (52 de saptamani). Acestea sunt, in ordine:
89
1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2, 4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2.
(a) Sa se scrie un tabel de frecvente care sa contina numarul de accidente, frecventele absolute si cele
relative.
(b) Gasiti media empirica, mediana si deviatia standard empirica. (c) Reprezentati prin bare rezultatele din tabelul de frecvente. (d) Gasiti si reprezentati grac (cdfplot) functia de repartitie empirica a numarului de accidente.
Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)]; m = mean(Y); s = std(Y); Me = median(Y); subplot(1,2,1); bar(0:4,[7,9,14,12,10]) subplot(1,2,2); cdfplot(Y)
Figure 4.3: Reprezentare pentru numarul de accidente.
90

Exerciiu 4.1 Exerciiu 4.2 Exerciiu 4.3 Exerciiu 4.4 Exerciiu 4.5 Exerciiu 4.6 Exerciiu 4.7 Exerciiu 4.8 Exerciiu 4.9 Exerciiu 4.10
Chapter
Noiuni de teoria seleciei

5.1 Introducere
Deniia 5.1
indivizi
Numim
colectivitate statistica (sau populatie) o multime nevida de elemente care este
cercetata din punct de vedere a uneia sau mai multor caracteristici. Elementele colectivitatii le vom numi (sau
unitati statistice).
Vom nota cu o unitate statistica. Daca populatia este nita,
atunci numarul n al unitatilor statistice ce o compun (i.e., card()) il vom numi (sau
volumul colectivitatii
volumul populatiei).
Consideram o populatie (colectivitate statistica) . Studiem populatia din punctul de vedere al unei caracteristici a sale, X . Aceasta caracteristica este o anumita proprietate urmarita la indivizii ei in procesul prelucrarii statistice si o vom asimila cu o variabila aleatoare denita pe . Problema esentiala a statisticii matematice este de a stabilii legea de probabilitate pe care o urmeaza caracteristica X . Pentru a gasi aceasta lege (repartitie), este necesar de un numar reprezentativ de selectii repetate din colectivitatea , pe care le vom studia si vom gasi apoi, prin inferenta, o lege care sa reprezinte variabila X .
Deniia 5.2
Vom numi
selectie (sau sondaj) o subcolectivitate a colectivitatii cercetate . volumul selectiei (sondajului).
Numarul
elementelor selectiei poarta numele de nerepetate. O selectie se numeste
Selectiile pot repetate sau
repetata (sau bernoulliana) daca dupa examinarea individului acesta selectie nerepetata.
In practica, volumul colec-
se reintroduce in colectivitate, in caz contrar avem o 91
92 tivitatii este mult mai mare decat volumul selectiei. In aceste cazuri, selectia nerepetata poate considerata ca ind selectie repetata. Selectiile pe care le vom considera in continuare sunt numai selectii repetate din colectivitatea statistica. Dorim acum sa introducem un cadru matematic abstract pentru aceste selectii repetate. Consideram spatiul masurabil (, F ), unde F este un corp borelian de parti ale lui . Caracteristica X urmarita poate reprezentata de o variabila aleatoare denita pe (, F ). Dorim sa denim matematic o selectie repetata de volum n. Euristic, ideea este urmatoarea: a efectua n sondaje repetate dintr-o multime , este echivalent cu a considera o singura selectie dintr-o populatie de genul "
multiplicat
de n ori".
Construim astfel:
(n) = ,
F (n) = F F F ,
produs cartezian de n ori. Un element al lui (n) va
(n) = (1 , 2 , . . . , n ),
numita
selectie repetata de volum n.

Fie variabilele aleatoare
Astfel, cuplul ((n) , F (n) ) se va numi
spatiul selectiilor repetate
de volum n.
Xi : (n) R,
Xi ( (n) ) = X (i ),
i = 1, n.
Acestea sunt variabile aleatoare denite pe ((n) , F (n) ), sunt independente stochastic (deoarece {X (i )}i=1, n sunt independente) si sunt identic repartizate, cu functia de repartitie comuna FX (se verica usor ca
FXi = FX , i = 1, n). Vom numi Xi , i = 1, n, variabile aleatoare de selectie repetata de volum n.

Vom numi
vector de selectie repetata de volum n, vectorul Y , astfel incat:

Y : (n) R, Y ( (n) ) = (X1 ( (n) ), X2 ( (n) ), . . . , Xn ( (n) )).
Pentru un (n) xat, componentele vectorului Y ( (n) ) se numesc
valori de selectie repetata de volum
n. Vom nota cu Ln = Y ((n) ) Rn ,

si-l vom numi
spatiul valorilor de selectie repetata de volum n.

x = (x1 , x2 , . . . , xn ),
Elementele lui Ln le vom nota prin
(xi = Xi ( (n) ), pentru (n) xat, i = 1, 2, . . . , n).
Teoria seleciei
93 Vom numi
Deniia 5.3
statistica (sau functie de selectie) variabila aleatoare

Sn (X ) = g (X1 , X2 , . . . , Xn ),
unde g este o functie g : Rn R masurabila (i.e., B B (R),
g 1 (B ) B (Rn )).
Notatii:
In literatura, statistica se noteaza cu una dintre urmatoarele:
Sn (X ),
Valoarea numerica
S (X, (n) ),
S (X, n),
S (X1 , X2 , . . . , Xn ).
Sn (x) = g (x1 , x2 , . . . , xn )
se numeste
valoarea functiei de selectie pentru un (n)
xat.
Observaia 5.4
Asadar, o statistica este o functie de variabilele aleatoare de selectie. Prin intermeniul
statisticilor putem trage concluzii despre populatia , din care a provenit esantionul (n) . Teoria probabilitatilor ne ofera procedee de determinare atat a repartitiei exacte a lui Sn (X ), cat si a repartitiei asimptotice a lui Sn (X ).
Repartitia exacta
este cea ce poate determinata pentru orice volum al
selectiei, n. Este indispensabila in conditiile in care volumul selectiei este redus, n 30.
Repartitia
asimptotica
este repartitia limita a Sn (X ) cand n , iar utilizarea acesteia conduce la rezultate
bune doar pentru n > 30. De cele mai multe ori, o functie de selectie (statistica) este utilizata in urmatoarele cazuri:
in probleme de estimare punctuala a parametrilor; in obtinerea intervalelor de incredere pentru un parametru necunoscut; ca o statistica test pentru vericarea ipotezelor statistice.
5.2 Exemple de statistici

Fie (, F ) o colectivitate statistica si X o caracteristica cercetata a sa. Sa notam cu f (x) si F (x) densitatea de repartitie, respectiv, functia de repartitie pentru X . Acestea pot cunoscute sau necunosctute
a priori si le vom numi functii teoretice (respectiv, densitate de repartitie teoretica si functie
94
de repartitie teoretica).
Daca se cunoaste f (x), atunci putem determina = E(X ) si 2 = D 2 (X ),
daca acestea exista, si le vom numi
medie teoretica si dispersie teoretica. a priori
In cazul in care una sau mai multe caracteristici teoretice corespunzatoare lui X nu ne sunt
cunoscute, vom cauta sa le determina prin inferenta, adica prin extragerea unor selectii de date din colectivitate, calculand caracteristicile respective pentru selectiile considerate si apoi extrapoland (in anumite conditii si dupa anumite criterii) la intreaga colectivitate. Sa consideram (n) o selectie repetata de volum n din colectivitatea data si Xi , i = 1, n, variabilele aleatoare de selectie. Cu ajutorul acestora, putem construi diverse functii de selectie.
Media de selectie
(mean)
Deniia 5.5
Numim
medie de selectie (repetata de volum n), statistica

X (
(n)
1 )= n
Xi ( (n) ),
i=1
(n) (n) .
(5.1)
Pentru un (n) xat, sa notam cu {x1 , x2 , . . . , xn } valorile de selectie corespunzatoare variabilelor aleatoare de selectie {X1 , X2 , . . . , Xn }. Atunci valoarea mediei de selectie pentru un (n) xat este:
x=
1 n
xi
i=1
(media de selectie empirica).
Proprieti 5.6
E(X ) = E(X ), 1 n
n a.s.
D 2 (X ) =
D 2 (X ) ; n
(5.2) (5.3)
Xi E(X ), cand n .
i=1
Observaia 5.7
(1)
In capitolele urmatoare vom scrie relatia (5.4) sub forma restransa:
1 X= n
Xi .
i=1
(5.4)
Pentru simplitatea formulelor, de acum inainte vom face abstractie de dependenta de (n) in formule, care se va subintelege. (2) Propozitia 5.22 precizeaza care este repartitia mediei de selectie pentru variabile aleatoare de
selectie dintr-o colectivitate normala, iar Propozitia 5.24 precizeaza care este repartitia asimptotica a mediei de selectie pentru variabile de selectie intr-o colectivitate oarecare.
Teoria seleciei
95
Momente de selectie
Deniia 5.8
Numim
moment de selectie (repetata de volum n) de ordin k, (k N ), statistica

1 k (X1 , X2 , . . . , Xn ) = n
n
Xik .
i=1
Valoarea momentului de selectie de ordin k pentru un (n) xat este:
k (x1 , x2 , . . . , xn ) =
1 n
xk i
i=1
(moment de selectie empiric de ordin k ).
In cazul particular k = 1, avem:
1 (X1 , X2 , . . . , Xn ) = X.
Proprieti 5.9 Pentru oricare k xat, k N , avem:

E(k (X1 , X2 , . . . , Xn )) D2 (k (X1 , X2 , . . . , Xn )) 1 n
n
= =
a.s.
E(X k ) = k (X ), D2 (X k ) , n
(momente initiale teoretice pentru X )
Xik k (X ), cand n .
i=1
Momente de selectie centrate
Deniia 5.10
Numim
moment de selectie centrat de ordin k, statistica

k (X1 , X2 , . . . , Xn ) = 1 n
n
[Xi X ]k .
i=1
Valoarea momentului de selectie de ordin k pentru un
(n)
xat este:
1 k (x1 , x2 , . . . , xn ) = n
[xi x]k
i=1
(moment de selectie centrat empiric de ordin k ).
Proprieti 5.11 Pentru oricare k xat, k N , avem:

E(k (X1 , X2 , . . . , Xn )) 1 n
n
=
a.s.
E([X ]k ) = k (X ),
(momente centrate teoretice pentru X )
(Xi X )k
i=1
k (X ), cand n .
96
Dispersie de selectie
(var)
Deniia 5.12
Numim
dispersie de selectie (repetata de volum n), statistica

d2 (X1 , X2 , . . . , Xn ) = 2 (X1 , X2 , . . . , Xn ).
Pentru simplitate, o vom nota cu d2 (X ), iar valoarea acesteia pentru un (n) xat este:
1 d (x) = n
2
[xi x]2
i=1
(dispersie de selectie empirica).
De cele mai multe ori, in locul lui d2 (X ) se utilizeaza statistica d2 (X ), denita prin:
d2 (X )
Aceasta se mai numeste si
1 = n1
[Xi X ]2 .
i=1
dispersie de selectie modicata, iar valoarea ei pentru un (n)

n
xat este:
d2 (x)
1 = n1
[xi x]2
i=1
(dispersie de selectie empirica).
Motivatia pentru considerarea statisticii d2 (X ) este data de proprietatile din Propozitia urmatoare:
Proprieti 5.13
Dispersiile de selectie verica urmatoarele relatii:
E(d2 (X )) =
n1 2 D (X ), n
prob
2 E(d2 (X )) = D (X )
(5.5) (5.6)
2 d2 (X ) D (X ), cand n .
Observaia 5.14
(i) Dupa cum vom vedea in capitolul urmator, primele doua relatii arata ca sta-
2 tistica d2 (X ) este un estimator nedeplasat pentru dispersia teoretica, pe cand d (X ) este estimator
deplasat. (ii) Daca media teoretica a colectivitatii este cunoscuta selectie d2 (X ) devine:
n
a priori, E(X ) = R,
atunci dispersia de
1 d (X ) = n
2
[Xi ]2 .
i=1
Propozitia 5.28 precizeaza care este repartitia acestei statistici.
Teoria seleciei
97 (cdfplot)
Functia de repartitie de selectie
Deniia 5.15
Fie X1 , X2 , . . . , Xn variabile aleatoare de selectie repetata de volum n. Numim
func-
tie de repartitie de selectie (repetata de volum n), functia

Fn : R (n) R, Fn (x, (n) ) =
n(x) , n
(x, (n) ) R (n) ,
unde n(x) = card {i, Xi ( (n) ) x} reprezinta numarul de elemente din selectie mai mici sau
egale cu x.
Relatia din denitie poate scrisa si sub forma:
Fn (x)
1 = n
(, x] (Xi ),
i=1
x R,
unde A este functia indicatoare a multimii A.

( (n) ) este o variabila aleatoare distribuita binomial B (n, F (x)). Pentru un x R xat, Fn (x) ia valorile: Pentru ecare (n) (n) xat, Fn Fn (x) =
card {i, xi x}
(i.e., este functia de repartitie empirica denita in 4.2).
Proprieti 5.16
Functia de repartitie de selectie satisface urmatoarele relatii:

E(Fn (x)) = F (x), D2 (Fn (x)) =
x R; x R;
1 [F (x)(1 F (x))], n
(x) de F (x). Mai In Statistica, exista o serie de criterii care permit sa se aprecieze apropierea lui Fn
jos, amintim doar cateva dintre ele.
Proprieti 5.17
Functia de repartitie de selectie satisface convergenta

Fn (x) F (x), x xat in R. n a.s.
Rezultatul este o consecinta directa a legii tari a numerelor mari.
98
Proprieti 5.18
Functia de repartitie de selectie satisface convergenta
n(Fn (x) F (x)) N ( 0, F (x)(1 F (x)) ), x xat in R.
Rezultatul este o consecinta directa a Propozitiei 5.16 si a Teoremei limita centrala.
Teorema 5.19 (Glivenko-Cantelli) Fie X
(x) funco caracteristica, F (x) functia sa de repartitie si Fn
(x) tia de repartitie empirica corespunzatoare unei selectii de volum n. Atunci Fn
converge uniform la
F (x), adica:
sup |Fn (x) F (x)| 0, cu probabilitatea 1. x R n
Teorema 5.20 (Kolmogorov)
Fie caracteristica X de tip continuu, care are functia de repartitie teo-
. Daca notam cu retica F si e functia de repartitie de selectie Fn dn = sup |Fn (x) F (x)|, x R
atunci avem:
n
lim P ( n dn < x) = K (x) =
(1)k e2 k
k=
x2
x > 0.
(5.7)
Observaia 5.21
Functia K denita prin (5.7) se numeste
functia lui Kolmogorov
si are valorile
tabelate. O vom utiliza mai tarziu in Teoria deciziei (testul Kolmogorov).
5.3 Selectii aleatoare dintr-o colectivitate normala

Sa consideram o colectivitate statistica si X o caracteristica a sa, ce urmeaza a studiata din punct de vedere statistic. Fie {X1 , X2 , . . . , Xn } variabile aleatoare de selectie repetata de volum
n. In cele mai multe cazuri practice, X urmeaza o repartitie normala (gaussiana). De regula, daca
volumul populatiei este mic (n 30), atunci lucram doar populatii normale, iar pentru n > 30 putem considera orice tip de repartitie pntru colectivitate. Mai jos prezentam cateva rezultate mai importante referitoare la selectia dintr-o colectivitate gaussiana.
Propoziia 5.22 (repartitia mediei de selectie pentru o selectie gaussiana)

Daca Xi N (, ), i = {1, 2, . . . , n}, atunci statistica X satisface:
XN
, n
(n N )
Teoria seleciei
99 Vom folosi metoda functiei caracteristice. Pentru o variabila aleatoare N (, ) functia
Demonstraie.
caracteristica este:
(t) = ei t 2
Din relatia (2.36) si tinand cont de relatia
2 t2
(5.8)
aX (t) = X (at),
obtinem ca functia caracteristica a lui X este:
n
X (t) =
k=1
ei n
2 t2 2 n2
= e
it
1 2
t2
). adica X urmeaza legea de repartitie N (, n
O consecinta directa a acestei propozitii este urmatoarea:
Propoziia 5.23
Daca Xi N (, ), i = {1, 2, . . . , n} sunt variabile aleatoare de selectie, atunci
Z=
X N (0, 1). n
Propoziia 5.24 (repartitia mediei de selectie pentru o selectie oarecare)

Daca {X1 , X2 , . . . , Xn } variabile aleatoare de selectie repetata de volum n, ce urmeaza o repartitie data, atunci pentru un volum n sucient de mare, statistica X satisface:
XN
, n
(n > 30)
Demonstraie. ercitiu!]
Acest rezultat este o consecinta imediata a concluziei teoremei limita centrala.
[Ex-
Observaia 5.25
Daca n este sucient de mare, atunci concluzia Propozitiei 5.23 ramane valabila si in
cazul in care avem o selectie repetata de volum n dintr-o colectivitate statistica nu neaparat gaussiana.
Propoziia 5.26
Daca i N (i , i ) sunt variabile aleatoare independente stochastic si ai R,

n
i = {1, 2, . . . , n}, atunci variabila aleatoare =

i=1
ai i satisface proprietatea:
n
2 . a2 i i
ai i ,
i=1 i=1
100
Demonstraie.
Demonstratia este bazata pe metoda functiei caracteristice.
[Exercitiu!]
i =
Propoziia 5.27
Fie i N (i , i ) variabile aleatoare independente stochastic si ai R,
{1, 2, . . . , n}. Pentru ecare caracteristica i consideram cate o selectie repetata de volum ni , pe
care o vom nota cu i . Atunci statistica Y = a1 1 + a2 2 + . . . + an n satisface proprietatea:
Y N
a i i ,
i=1 i=1
2 i . a2 i ni
Demonstraie.
Deoarece i N (i , i ), din Propozitia 5.22 obtinem ca media de selectie corespunza-
toare, i , satisface:
i N
i i , ni
Aplicand acum Propozitia 5.26 variabilelor aleatoare independente {1 , 2 , . . . , n }, obtinem concluzia dorita.
Urmatoarea propozitie este un caz particular al Propozitiei 5.27.
Propoziia 5.28 (repartitia diferentei mediilor de selectie pentru colectivitati gaussiene)

Consideram o selectie de volum n1 dintr-o populatie normala N (1 , 1 ) si o selectie de volum n2 dintro colectivitate N (2 , 2 ), cele doua selectii ind alese independent una de cealalta. Notam cu 1 si, respectiv, 2 mediile de selectie corespunzatoare selectiilor alese. Atunci statistica
1 2 N 1 2 ,
2 2 1 2 . + n1 n2
Demonstraie.
Aplicam rezultatul Propozitiei 5.27 pentru cazul particular in care avem doar doua
variabile aleatoare, 1 si 2 , iar a1 = 1, a2 = 1.
Observaia 5.29
(1)
Concluzia propozitiei anterioare se mai poate scrie astfel:
Z=
(2)
(1 2 ) (1 2 )
2 1 n1
2 2 n2
N (0, 1).
Sa presupunem ca avem doua populatii statistice normale, 1 si 2 , iar este o caracteristica
comuna a celor doua populatii, ce urmeaza a studiata. (De exemplu, populatiile statistice sa e
Teoria seleciei
101
multimea pieselor produse de doua strunguri intr-o zi de lucru, iar caracteristica comuna sa e masa lor). Sa mai presupunem ca deviatiile standard ale caracteristicilor considerata sunt cunoscute. (i.,e., deviatiile sunt date deja in cartea tehnica a celor doua strunguri) Pentru ecare dintre cele doua colectivitati, consideram cate o selectie repetata, de volume n1 , respectiv, n2 . (Adica, vom selecta
n1 dintre piesele produse de strungul intai si n2 piese produse de cel de-al doilea strung). Sa notam
cu 1 , respectiv, 2 mediile de selectie corespunzatoare. Propozitia anterioara precizeaza care este repartitia diferentei standardizate ale celor doua medii de selectie. Aceasta ne va deosebit de utila, spre exemplu, in vericarea ipotezei ca masele medii ale pieselor produse de cele doua strunguri coincid (vezi capitolul Teoria deciziei).
Propoziia 5.30
Fie {X1 , X2 , . . . , Xn } variabile aleatoare independente stochastic, astfel incat Xi
N (0, 1), i = {1, 2, . . . , n}. Atunci variabila aleatoare

n
H =
i=1
2 2 (n). Xk
Demonstraie.
Pentru a demonstra propozitia, folosim metoda functiei caracteristice. Pentru aceasta,
avem nevoie de functia caracteristica pentru X 2 , unde X N (0, 1). Sa notam cu f (x) functia densitate de repartitie pentru X , data de relatia (2.39) cu = 0. Notam cu
G(y ) functia de repartitie pentru X 2 si cu g (y ) densitatea sa de repartitie. Avem: 0 , y 0; 2 G( y ) = P ( X y ) = P (y X y ) , y > 0,

de unde
g (y ) = G (y ) =
, y 0;
=
Functia caracteristica pentru X 2 va :
1 2 y [f ( y ) + f ( y )] , y > 0, 0 , y 0; 1 y f ( y ) , y > 0.
0
X 2 (t) = E ei t X
1 = 2 .
y 2 e 2 dy
= (1 2it)
1 2
102 Deoarece variabilele aleatoare {Xi }i sunt independente stochastic, putem aplica relatia (2.36) si obtinem:
H 2 (t) = E(e
n
it
n i=1
n
2 Xi
)=
i=1
E eitXi
n
=
i=1
X 2 (t) = (1 2it) 2 ,
i
si aceasta este functia caracteristica pentru o v.a. 2 (n).
Observaia 5.31
2 (1).
O consecinta imediata a acestei propozitii este ca, daca X N (0, 1), atunci X 2
Urmatoarea propozitie este tot o consecinta directa a Propozitiei 5.30.
Propoziia 5.32 (repartitia dispersiei de selectie cand media colectivitatii este cunoscuta)
Fie {X1 , X2 , . . . , Xn } variabile aleatoare independente stochastic, astfel incat Xi N (, ),
i =
{1, 2, . . . , n}. Atunci variabila aleatoare H2 = 1 2

n
(Xi )2 2 (n).
i=1
Demonstraie.
Pentru ecare i = {1, 2, . . . , n}, consider variabilele aleatoare
Yi =
Xi .
Conform Propozitiei 5.23, avem Yi N (0, 1), i = 1, n. Aplicam rezultatul propozitiei 5.30 pentru variabilele aleatoare {Y1 , Y2 , . . . , Yn } si obtinem concluzia dorita.
Lema 5.33
Daca X si Y sunt variabile aleatoare independente stochastic, cu X 2 (n) si X + Y
2 (n + m), atunci Y 2 (m).
Demonstraie.
Demonstratia se bazeaza pe metoda functiei caracteristice, folosind faptul ca
X (t) Y (t) = X +Y (t), t R.
Teoria seleciei
103 Fie X caracteristica unei colectivitati statistice, X media de selectie repetata de volum n
Lema 5.34
n1 2 si d2 (X ) dispersia de selectie repetata. Atunci, statisticile X si 2 d (X ) sunt independente stochastic.
Propoziia 5.35
Fie X N (, ) caracteristica unei populatii statistice si e {X1 , X2 , . . . , Xn }
variabile aleatoare de selectie repetata de volum n. Atunci statistica
1 = 2
2
(Xi X )2 2 (n 1).
i=1
Demonstraie.
Putem scrie:
1 2
(Xi )2
i=1
=
sau,
1 2
(Xi X )2 +
i=1
n (X )2 2
(5.9)
Zi2
i=1
n1 2 2 d (X ) + Z , 2
(5.10)
unde:
Zi =
Xi N (0, 1)
si
Z=
X
n
N (0, 1).
Utilizand Propozitia 5.32, observam ca membrul stang al egalitatii (5.9) este o variabila aleatoare repartizata 2 (n). Folosind Observatia 5.31, concluzionam ca al doilea termen din membrul drept este
1 2 repartizat 2 (1). Utilizand faptul ca X si n 2 d (X ) sunt independente stochastic, gasim ca variabilele 2 1 2 aleatoare Z si n 2 d (X ) sunt independente stochastic. Facem apel acum la Lema 5.33, si ajungem
la concluzia propozitiei.
Observaia 5.36
Concluzia propozitiei 5.35 se poate rescrie astfel:
n1 2 d (X ) 2 (n 1), 2
unde d2 (X ) este dispersia de selectie.
(5.11)
Lema 5.37
Daca X si Y sunt variabile aleatoare independente stochastic, cu X N (0, 1) si Y
2 (n), atunci statistica T = X

Y n
t (n).
104
Demonstraie.
Fie f (x) si g (y ) densitatile de repartitie pentru X , respectiv, Y . Avem:

x2 1 f (x) = e 2 , x R, 2
y n y 2n1 e 2 2 2 ( n 2) g (y ) = 0
, y > 0; , y 0.
Din independenta, gasim ca densitatea de repartitie a vectorului (X, Y ) este:
y 2 1 e 2 h(x, y ) = f (x)g (y ) = n+1 , 2 2 n 2

Consideram o transformare a acestui vector,
x2 +y
(x, y ) R (0, ).
x t = y v = y,
in vectorul (T, Y ). Densitatea de repartitie a acestui vector este (vezi Propozitia 2.40):
v 2 1 e 2 (1+ n ) k (t, v ) = n+1 2 2 n 2

Densitatea de repartitie marginala pentru T este:
t2
v , n
(t, v ) R (0, ).
k1 (t) =
0
k (t, v ) dv n+1 2 n n 2 t2 1+ n
n+1 2
t R,
adica tocmai densitatea de repartitie a unei variabile aleatoare t(n).
Propoziia 5.38
Daca {X1 , X2 , . . . , Xn } sunt variabile aleatoare de selectie repetata de volum n, ce
urmeaza repartitia unei caracteristici X N (, ) a unei colectivitati statistice, atunci statistica
t=
X t(n 1). d (X ) n1 d2 (X ) ).
(t(n 1) este repartitia Student cu (n 1) grade de libertate, iar d (X ) =
Teoria seleciei
105 Aplicam lema anterioara pentru variabilele aleatoare
Demonstraie.
X=
X
n
N (0, 1)
si
Y =
n1 2 d (X ) 2 (n 1). 2
Observaia 5.39
Aceasta propozitie va folosita in teoria deciziei, in problema testarii mediei teo-
retice cand dispersia teoretica este necunoscuta
a priori.
Urmatoarea propozitie este un caz particular al Propozitiei 5.38:
Propoziia 5.40
Daca variabilele aleatoare {X0 , X1 , . . . , Xn } sunt independente stochastic, identic
repartizate N (0, 1), atunci variabila aleatoare
T =
X0
2 +X 2 + ... +X 2 X1 n 2 n
t (n).
Demonstraie.
Concluzia rezulta prin aplicarea Propozitiei 5.30 si Lemei 5.37.
Propoziia 5.41 (repartitia diferentei mediilor de selectie cand dispersiile sunt necunoscute, egale)
Consideram o selectie de volum n1 dintr-o populatie normala N (1 , 1 ) si o selectie de volum n2 dintro colectivitate N (2 , 2 ), cele doua selectii ind alese independent una de cealalta. Notam cu 1 , 2 si
2 d2 1 , d2 mediile de selectie si dispersiile de selectie corespunzatoare selectiilor alese. Atunci statistica
T =
(1 2 ) (1 2 ) (n1 1)d2 1 + ( n2 1)d2 2
n1 + n2 2 1 1 n1 + n2
t (n1 + n2 2).
Demonstraie.
Propoziia 5.42
abila aleatoare
Daca X 2 (m) si Y 2 (n) sunt variabile aleatoare independente, atunci vari-
F =
n X F (m, n). m Y
106
Demonstraie.
Fie f (x) si g (y ) densitatile de repartitie pentru X si, respectiv, Y . Avem:
m 1 x e 2 x 2 m 2 2 ( m 2 ) f (x) = 0 n 1 y y 2n en 2 2 2 ( 2 ) g (y ) = 0
, x > 0; , x 0.
, y > 0; , y 0.
Din independenta celor doua variabile aleatoare, gasim ca densitatea de repartitie a vectorului (X, Y ) este:
m n x+y 2
h(x, y ) = f (x)g (y ) =
x 2 1 y 2 1 e 2
m+n 2
m 2
n 2
(x, y ) (0, ) (0, ).
Consideram o transformare a acestui vector,
t =
n x m y
v = y,
in vectorul (F, Y ). Densitatea de repartitie a acestui vector este (vezi Propozitia 2.40):
m n
m 2
k (u, v ) =
u 2 1 v 2
m+n 2
m+n 1 2
e 2 (1+ n
n 2
u)
m 2
(t, v ) (0, ) (0, ).
Densitatea de repartitie marginala pentru F este:
k1 (u) = =
0 m n
k (u, v ) dv
+n m2 m m u 2 1 1 + u m n n 2 2
m 2 n m+ 2
u > 0,
adica tocmai densitatea de repartitie a unei variabile aleatoare F (m, n).
Propoziia 5.43
Daca {X1 , X2 , . . . , Xm+n } sunt variabile aleatoare independente, identic reparti-
zate N (0, 1), atunci variabila aleatoare
F =
2 + X2 + . . . + X2 X1 n m 2 2 2 2 m Xm +1 + Xm+2 + . . . + Xm+n
F (m, n).
Demonstraie.
Demonstratia rezulta imediat prin aplicarea rezultatelor propozitiilor 5.30 si 5.42.
Teoria seleciei
107
Propoziia 5.44 (repartitia raportului dispersiilor pentru colectivitati gaussiene)

Fie X1 N (1 , 1 ) si X2 N (2 , 2 ) caracteristicile a doua populatii statistice, 1 si 2 . Din ecare populatie extragem cate o selectie repetata, de volume n1 , respectiv, n2 , si consideram d2 1 (X1 ) si d2 2 (X2 ) dispersiile de selectie corespunzatoare celor doua selectii repetate. Atunci statistica
F =
2 d2 2 1 F (n1 1, n2 1). 2 1 d2 2
Demonstraie.
Rescriem F in forma echivalenta:
F =
unde
n 2 1 2 1 , n 1 1 2 2
n2
2 1 =
1 2 1
n1
(X1 i X1 )2 ,
i=1
2 2 =
1 2 2
(X2 j X2 )2 ,
j =1
{X1 i }i=1, n1 si {X2 i }i=1, n2 sunt variabile de selectie repetata de volume n1 , respectiv, n2 , ce urmeaza
repartitia variabilelor aleatoare X1 , respectiv, X2 . X1 si X2 sunt mediile de selectie corespunzatoare. Folosind concluzia Propozitiei 5.35, avem ca
2 1 (n1 1),
2 2 (n2 1).
Concluzia acestei propozitii urmeaza in urma aplicarii rezultatului Propozitiei 5.43.
Propoziia 5.45 (repartitia raportului dispersiilor pentru colectivitati gaussiene)

Suntem in conditiile Propozitiei 5.44, cu mentiunea ca mediile teoretice 1 si 2 sunt cunoscute
priori.
Atunci
F1 =
2 unde d2 1 si d2 sunt date de:
2 d2 2 1 2 d2 F (n1 , n2 ), 1 2
2 1 =
1 n1
n1
(X1 i 1 )2 (n1 ),
i=1
2 2 =
1 n2
n2
(X2 j 2 )2 (n2 ).
j =1
Demonstraie.
5.32 si 5.43.
Demonstratia este similara cu cea de mai inainte. Se folosesc rezultatele Propozitiilor
[Exercitiu!]
108
5.4 Selecii n
Utilizand functiile
Matlab
legernd(< param >, m, n)
(5.12)
si
random( lege , < param >, m, n),
(5.13)
introduse n Capitolul 1, putem genera variabile aleatoare de selectie de un volum dat, n. Pentru aceasta, va trebui ca m = n in (5.12) si (5.13). Astfel, comanda
random('norm',100,6, 50,50)
genereaza o matrice patratica, de dimensiune 50. Putem privi aceasta matrice aleatoare astfel: ecare coloana a sa corespunde unei variabile aleatoare de selectie de volum 50, careia ii precizam cele 50 de valori ale sale obtinute la o observatie. In total, avem 50 de coloane, corespunzand celor 50 de variabile aleatoare de selectie. Asadar, am generat astfel 50 de variabile aleatoare de selectie de volum 50, ce urmeaza repartitia N (100, 6).
Teoria seleciei
109
5.5 Exerciii rezolvate

Exerciiu 5.46
Sa consideram ca masa medie a unor batoane de ciocolata produse de o masina este
o caracteristica X N (100, 0.65). In vederea vericarii parametrilor masinii, dintre sutele de mii de batoane produse in acea zi s-au ales la intamplare 1000 dintre acestea.
Calculati masa medie si deviatia standard ale mediei de selectie, X . Calculati P (98 < X < 102). Un baton este declarata rebut daca masa sa medie este sub 98 de grame sau peste 102 de grame.
Calculati procentul de rebuturi avute.
Din teorie, stim ca media de selectie X urmeaza repartitia N (100, 0.65/ 1000) (vezi Propozitia
5.22). Asadar,
X = 100, X 0.02.
Probabilitatea P1 = P (98 < X < 102) este
P1 = P (X < 102) P (X 98) = FX (102) FX (98) 1.

Probabilitatea de a avea un rebut este:
P2 = P {X < 98}
{X > 102}
= P (X < 98) + P (X > 102) = FX (98) + 1 FX (102),

de unde, procentul de rebuturi este
r = P2 100% 0.2091%,
adica aproximativ 2 rebuturi la 1000 de batoane.
In
Matlab, acestea pot calculate astfel:

% n = volumul selectiei % am generat selectia de volum n
mu = 100; sigma = 0.65; n=1000; X = normrnd(mu, sigma, n,n);
110
Xbar = mean(X); S = sigma/sqrt(n); m = mean(Xbar); s = std(Xbar);
% Xbar = media de selectie % media si deviatia standard
P1 = normcdf(102, mu, S) - normdf(98, mu, S); P2 = normcdf(98,mu,sigma) + 1 - normcdf(102,mu,sigma); rebut = P2*100;
Exerciiu 5.47
Numarul tranzactiilor la bursa din New York este, in medie, de 90000 pe saptamana,
cu deviatia standard 7000. Sa presupunem ca urmarim numarul tranzactiilor bursiere intr-un an intreg (52 de saptamani). Notam cu X media de selectie pentru numarul tranzactiilor bursiere pe intregul an urmarit. Calculati care este probabilitatea evenimentului {X < 95000}. Cate tranzactii s-au facut (in medie) in acel an?
P = P (X < 95000) = F (95000),
unde FX este functia de repartitie pentru X , iar
XN
In
7000 95000, 52
Matlab scriem astfel:

P = normcdf(9.5e4,9e4,7e3/sqrt(52)) N = 52*90000 = 4 680 000 % probabilitatea % nr. de tranzactii
Exerciiu 5.48
Masa (in grame) a unui anumit tip de franzele produse de o masina intr-o brutarie
este o variabila aleatoare N (400, 10). Pentru a controla daca masina respecta standardele cantitative, s-au cantarit la intamplare 50 dintre franzelele produse de respectiva masina intr-o zi.
(a) Folosind Matlab, sa se genereze o astfel de selectie aleatoare si sa se determine media de selectie
empirica si deviatia standard empirica pentru aceasta selectie. (x si s)
(b) Painile care au masa sub 380g sau peste 420g nu sunt conforme cu standardul CTC. Sa se gaseasca
proportia de paini care nu respecta standardul masei.
(b) Numarul de rebuturi este r = P 100, unde P este probabilitatea ca painile sa nu e in
conformitate cu standardul CTC este:
P = P ({X < 380}
{X > 420}) = P (X 380) + 1 P (X 420) = FX (380) + 1 FX (420).
Teoria seleciei
111
X = normrnd(400,10, 50,1); m = mean(X); s = std(X);
% selectia intamplatoare
r = (normcdf(380,400,10)+1-normcdf(420,400,10))*100
%%% = 4.5%
Exerciiu 5.49
In vederea studierii unei caracteristici X ce are densitatea de repartitie
f (x) =
2 x, x (0, 1); 0 (0, 1).
s-a efectuat o selectie repetata de volum n = 100. Se cere sa sa determine probabilitatea P (X ) < 0.65, unde X este media de selectie.
Se observa cu usurinta ca f (x) indeplineste conditiile unei functii de repartitie, adica este
masurabila, nenegativa si
1
f (x) dx =
R 0
2 x dx = 1.
Pentru a calcula probabilitatea ceruta, avem nevoie de E(X ) si D 2 (X ). Avem:

1
E(X ) =
R
x f (x) dx =
0
2 2 x2 dx = , 3 1 4 = . 9 18
D2 (X ) = E(X 2 ) (E(X ))2 =

R
x2 f (x) dx
Asadar, repartitia mediei de selectie X este
XN
2 1 , 3 18 100
Putem acum calcula probabilitatea ceruta. Ea este:
P (X < 0.65) = FX (0.65) = normcdf(0.65, 2/3, 1/(30*sqrt(2))) = 0.2398.
112

Exerciiu 5.1 Exerciiu 5.2 Exerciiu 5.3 Exerciiu 5.4 Exerciiu 5.5 Exerciiu 5.6 Exerciiu 5.7 Exerciiu 5.8 Exerciiu 5.9
Chapter
Noiuni de teoria estimaiei

6.1 Punerea problemei
Sa presupunem ca ni se da un set de observatii aleatoare {x1 , x2 , . . . , xn } asupra unei caracteristici X a unei populatii statistice. Functia de probabilitate (respectiv densitatea de repartitie) a caracteristicii poate
complet specicata, de exemplu, X U (0, 1); specicata, dar cu parametru(i) necunoscut(i). De exemplu, X P () sau X N (, ); necunoscuta, caz in care se poate pune problema de a estimata.
In mod evident, in primul caz de mai sus nu avem nimic de estimat. Daca functia de probabilitate (densitatea de repartitie) este deja cunoscuta, dar cel putin unul dintre parametrii sai este necunoscut
a priori, se pune problema sa estimam valoarea parametrilor de care aceasta depinde.

ca avem o problema de unei repartitii date.
Vom spune astfel
estimare parametrica.
In acest capitol, ne vom ocupa de estimarea parametrilor
Sa presupunem ca avem caracteristica X care urmeaza repartitia obtinuta din functia de probabilitate (sau densitate de repartitie) f (x, ), unde este un parametru necunoscut. In general, acest paramtru poate un vector ( Rp ), ai carui componente sunt parametrii repartitiei lui X . Mai sus, f este functia de probabilitate daca variabila aleatoare X este de tip discret, iar f este densitatea de repartitie a lui X , daca este o variabila aleatoare de tip continuu. 113
114 Scopul teoria estimatiei este de a evalua parametrii de care depinde f , folosind datele de selectie si bazandu-ne pe rezultatele teoretice prezentate in capitolele anterioare. Fie {X1 , X2 , . . . , Xn } variabile aleatoare de selectie repetata de volum n, ce urmeaza repartitia lui X . Presupunem totodata ca X admite medie si notam cu = E(X ) si 2 = D 2 (X ).
Deniia 6.1
(1) Se numeste
functie de estimatie
(punctuala) sau
estimator
al lui , o functie de
selectie (statistica)
= (X1 , X2 , . . . , Xn ),
cu ajutorul careia dorim sa il aproximam pe . In acest caz, ne-am dori sa stim in ce sens si cat de bine este aceasta aproximatie.
este un (2) O statistica
estimator nedeplasat (en., biased estimator) pentru

) = . E(
daca
este un Altfel, spunem ca
estimator deplasat pentru , iar deplasarea (distorsiunea) se deneste astfel:

) = E( ) . b(,
) este o masura a erorii pe care o facem in estimarea lui prin . Astfel, b(,
Exerciiu 6.2
(1) Dispersia de selectie modicata
d2 (X ) =
1 n1
[Xi X ]2
i=1
este un estimator nedeplasat pentru dispersia teoretica D 2 (X ), iar dispersia de selectie
d2 (X ) =
1 n
[Xi X ]2
i=1
este un estimator deplasat pentru D 2 (X ), deplasarea ind
b(s2 , 2 ) =
2 . n
[Exercitiu!]
(x1 , x2 , . . . , xn ) se numeste (3) Daca {x1 , x2 , . . . , xn } sunt date observate, atunci
estimatie
a lui
. Asadar, o estimatie pentru un parametru necunoscut este valoarea estimatorului pentru selectia
Teoria estimaiei
115
si vom face diferenta observata. Prin abuz de notatie, vom nota atat estimatorul cat si estimatia cu
intre ele prin precizarea variabilelor de care depind. (4) Numim
pentru (en., mean squared error) cantitatea eroare in medie patratica a unui estimator ) = E MSE(,
2
Observaia 6.3
E
Putem scrie:
= E
E( ) + E( ) 0
) + 2E = D2 (
] [E( )
+E
) E(
) + (b(, ))2 . = D2 ( ). Asadar, MSE pentru un estimator nedeplasat este D 2 ( 1 si 2 doi estimatori pentru . Atunci, valoarea (5) Fie 1 , ) MSE( 2 , ) MSE(
se numeste ecienta
1 in raport cu 2 . relativa (en., relative eciency) a lui
Vom spune ca un estimator
1 este mai ecient decat hte2 daca MSE( 1 , ) MSE( 2 , ) pentru toate valorile posibile ale lui 1 , ) < MSE( 2 , ) pentru macar un . si MSE( pentru , , se numeste (6) Un estimator
estimator nedeplasat uniform de dispersie minima
(en., Uniformly Minimum Variance Unbiased Estimate - UMVUE) daca pentru orice si orice alt
, avem estimator nedeplasat pentru , ) D2 ( ). D2 (
pentru este un (7) Estimatorul
estimator consistent daca

cand n .
prob (X1 , X2 , . . . , Xn ) ,
(x1 , x2 , . . . , xn ), se numeste In acest caz, valoarea numerica a estimatorului,

pentru .
estimatie consistenta
116
estimator absolut corect daca

(i) (ii) ) = ; E(
n
) = 0. lim D2 (
(x1 , x2 , . . . , xn ), se numeste In acest caz, valoarea numerica a estimatorului,

pentru .
estimatie absolut corecta
estimator corect daca

(i) (ii) ) = ; lim E( ) = 0. lim D2 (
n n
(x1 , x2 , . . . , xn ), se numeste In acest caz, valoarea numerica a estimatorului, .
estimatie corecta pentru
Exerciiu 6.4
2 2 Statistica d2 (X ) este un estimator absolut corect pentru = D (X ), iar statistica
d2 (X ) este un estimator corect, dar nu absolut corect, pentru D2 (X ).
[Exercitiu!]
Propoziia 6.5
Demonstraie.
este un estimator absolut corect pentru , atunci estimatorul este consistent. Daca
Utilizam inegalitatea lui Cebsev in forma:

2 | < }) 1 D () , > 0. P ({| 2
(6.1)
) = 0 obtinem concluzia dorita. Tinand cont ca lim D 2 (

n
Demonstraie.
Avem:
E(d2 (X )) = E
si
1 n1
[Xi X ]2
i=1
= D 2 (X )
D2 (d2 (X )) =
4 n3 2 0, n n(n 1) 2
cand n .
Teoria estimaiei
117
Observaia 6.6
un estimator pentru . Patratul acestui estimator, 2 nu este, in general, Fie
estimatorul pentru 2 . De exemplu, sa presupunem ca X N (0, 1) si avem urmatoarele 20 de observatii asupra lui X :
0.3617; -2.0587; -2.3320; -0.3709; 0.0831; -0.3277; -0.3558;
1.2857;
0.5570; -0.1802; -0.0357; 1.9344;
1.3056
0.4334; -1.2230; -1.0381; -2.7359; -0.0312; 2.0718; -0.5944 1.4352; 1.1948; 0.7431; -0.1214; 0.8678; -1.0030
0.6286; -0.5350; 2.2090; -0.6057;
Un estimator absolut corect pentru media teoretica a lui X , X = 0, este X . (pentru selectia data, X = 0.0521). Variabila aleatoare X 2 urmeaza repartitia 2 (1) si are media
X 2 = 1 (vezi repartitia 2 ). Un estimator absolut corect pentru X 2 este X 2 . Pe de alta parte,

pentru selectia data avem ca X 2 1.4 iar X Asadar, in general X 2 = X
2 2
= 0.027.
Observaia 6.7
Pentru un anumit parametru pot exista mai multi estimatori absolut corecti. De
exemplu, pentru parametrul din repartitia P oisson P () exista urmatorii estimatori:
X si d2 (X ).
Se pune problema:
Cum alegem pe cel mai bun estimator si pe ce criteriu?
Daca utilizam inegalitatea
lui Cebsev in forma (6.1), atunci ar resc ca "cel mai bun estimator" sa e cel de dispersie minima.
(10) Numim cantitate de informatie relativa la parametrul continuta in selectia corespunzatoare de volum n (informatie
Fisher) expresia:
In () = n E ln f (X, )
2
(6.2)
Teorema 6.8 (Rao-Cramer)

Consider caracteristica X cu functia de probabilitate f (x, ), cu (a, b) si pentru care exista .
f
= (X1 , X2 , . . . , Xn ), un estimator absolut corect pentru . Atunci, Fie ) D2 ( 1 . In ()

(6.3)
118 (11) Numim
pentru , valoarea: ecienta unui estimator absolut corect

1 ) = In () . e( ) D 2 (
(6.4)
pentru se numeste (12) Un estimator absolut corect
) = 1, adica estimator ecient daca e(
) = In (). D2 (
Exerciiu 6.9
Media de selectie X pentru o selectie dintr-o colectivitate normala este un estimator
ecient pentru media teoretica E(X ).
[Exercitiu!] estimator sucient (exhaustiv) daca functia de prob-
pentru se numeste (13) Un estimator corect
abilitate (densitate de repartitie) se poate scrie in forma:
(x), ), f (x, ) = g (x)h(
(6.5)
unde h : R R+ si g : Rn R+ este masurabila si nu depinde de . Functiile g si h nu sunt unice.
Observaia 6.10
[Exercitiu!]
(14) Se numeste
Orice estimator ecient pentru un parametru este si estimator sucient pentru .
functie de verosimilitate, statistica

n
L(X1 , X2 , . . . , Xn ; ) =
k=1
f (Xk , ).
Pentru Xk = xk , k = 1, n, functia L(x1 , x2 , . . . , xn ; ) este densitatea de repartitie pentru vectorul aleator V = (X1 , X2 , . . . , Xn ). Putem scrie informatia Fisher in functie de verosimilitate astfel:
In () = E
ln L(X1 , X2 , . . . , Xn ; )
(6.6)
Exemplu 6.11
Fie Xi B (1, p), i = 1, n si

n
= nX =
i=1
Xi numarul de succese in n incercari.
Teoria estimaiei
119
este un estimator sucient pentru p. Sa se arate ca

Avem succesiv:
n
f (x, p) =
pxi (1 p)1xi
i=1 n n
xi = p i=1
n (1 p)
xi
i=1
(x), p), = g (x) h(

(x) (x), p) = p (1 p)n(x) . unde g (x) 1 si h(
Exerciiu 6.12
La un control de calitate se verica masa tabletelor de ciocolata produse de o anumita
masina. Pentru a se realiza acest control s-a efectuat o selectie de 50 tablete si s-a obtinut ca masa X al ciocolatelor are urmatoarele dimensiuni (in grame):
Masa Frecventa Sa se determine:
99.98 9
99.99 10
100.00 13
100.01 11
100.02 7
(i) o estimatie absolut corecta pentru masa medie a tabletelor produse; (ii) o estimatie corecta si una absolut corecta pentru dispersia valorilor masei fata de medie.
Metode de estimare punctuala a parametrilor:
metoda verosimilitatii maxime; metoda momentelor; metoda minimului lui 2 ; metoda celor mai mici patrate; metoda intervalelor de incredere.
120
6.2 Metoda verosimilitii maxime (maximum likelihood estimator)

Fie caracteristica X studiata, care are functia de probabilitate f (x; ) (unde = (1 , 2 , . . . , p ) sunt parametri necunoscuti). Dorim sa gasim estimatori (estimatii) punctuale ale parametrilor necunoscuti prin alta metoda decat metoda de mai sus. Efectuam n observatii asupra caracteristicii, adica alegem o selectie de date,
x1 , x2 , . . . , xn .
Fie {X1 , X2 , . . . , Xn } variabilele aleatoare de selectie repetata de volum n.
Deniia 6.13
(1) Numim
estimator de verosimilitate maxima pentru
statistica
= (X1 , X2 , . . . , Xn ), pentru care se obtine maximumul functiei de verosimilitate,

n
L(X1 , X2 , . . . , Xn ; ) =
k=1
f (Xk , ).
(2) Valoarea unei astfel de statistici pentru un (n) xat se numeste estimatie pentru .
de verosimilitate maxima
Observaia 6.14
Nu este necesar ca
Aceasta metoda estimeaza "valoarea cea mai verosimila" pentru parametrul .
L sa existe pentru ca estimatorul de verosimilitate maxima sa e calculat. Daca
aceasta exista, atunci acest estimator se obtine ca asolutie a sistemului de ecuatii:
L(X1 , X2 , . . . , Xn ; ) = 0, k
care este echivalent cu urmatorul sistem:
k = 1, 2, . . . , p,
(6.7)
ln L(X1 , X2 , . . . , Xn ; ) = k
n i=1
ln f (Xi ; ) = 0, k
k = 1, 2, . . . , p.
(6.8)
Exerciiu 6.15

Estimati prin metoda verosimilitatii maxime parametrii unei caracteristici X N (, ).
Legea de probabilitate pentru X N (, ) este

(x)2 1 f (x, , ) = e 22 , x R. 2
Teoria estimaiei
Alegem o selectie repetata de volum n, pe care o vom nota (XK )k=1, n . Parametrii caracteristicii X sunt = (, ) si functia de verosimilitate asociata selectiei este
121
L(X1 , X2 , . . . , Xn ; , ) =
k=1
f (Xk , , )
n
=
Astfel,
1 n e n (2 ) 2 1 n n (2 ) 2
k=1
(Xk )2 2 2
ln L(X1 , X2 , . . . , Xn ; , ) = ln
1 2 2
(Xk )2 .
k=1
Asadar, pentru a gasi estimatorii de verosimilitate maxima pentru si , avem de rezolvat sistemul:
L = 1 2
(Xk ) = 0;
k=1 n
L n 1 = + 3
(Xk )2 = 0.
k=1
Se observa cu usurinta ca solutia sistemului ce convine (tinem cont ca > 0) este
1 n
Xk = X,
k=1
1 n
(Xk X )2 = d(X ).
k=1
(6.9)
Vericam acum daca valorile gasite sunt valori de maxim. Pentru aceasta, matricea hessiana calculata pentru valorile obtinute trebuie sa e negativ denita. Mai intai, calculam matricea hessiana. Aceasta este:
2L H (, ) = = 2 3
n 2
n
2 3 n 2
(Xk )
n
k=1
(Xk )
k=1
3 1 n 2
(Xk )2
k=1
Acum calculam H ( , ).
n 2L 2 = H ( , ) = 0
0 , 2n 2
care este o matrice negativ denita, deoarece valorile sale proprii, adica radacinile polinomului caracteristic
det(H ( , ) I2 ) = 0,
sunt
1 =
n <0 2
si
2 =
2n < 0. 2
122 Deci, estimatorii si obtinuti prin metoda verosimilitatii maxime sunt
=X
si
= d(X ).
Observaia 6.16
De remarcat faptul ca estimatorul pntru obtinut prin metoda verosimilitatii
maxime nu este unul absolut corect, ci doar corect.
6.3 Metoda momentelor (K. Pearson)

In anumite cazuri, este dicil de calculat valorile critice pentru functia de verosimilitate. De exemplu, repartitia (a, ) Fie caracteristica X care are functia de probabilitate f (x; ) (unde =
(1 , 2 , . . . , p ) sunt parametri necunoscuti) ce admite momente pana la ordinul p (adica, p = E(X p ) < ). Dorim sa gasim estimatori (estimatii) punctuale ale parametrilor necunoscuti. Pentru aceasta,
efectuam observatii asupra caracteristicii, adica alegem o selectie de date,
x1 , x2 , . . . , xn .
Fie {X1 , X2 , . . . , Xn } variabilele aleatoare de selectie repetata de volum n. Metoda momentelor consta in estimarea parametrilor necunoscuti din conditiile ca momentele initiale de selectie sa e egale cu momentele initiale teoretice respective, ale lui X . Aceasta inseamna ca avem de rezolvat un sistem de ecuatii in care necunoscutele sunt parametrii ce urmeaza a estimati.
Deniia 6.17
Numim
estimator (punctual) pentru obtinut prin metoda momentelor solutia
1 , 2 , . . . , p ), (aici k = k (X1 , X2 , . . . , Xn ), k = 1, p), a sistemului: = ( 1 (X1 , X2 , . . . , Xn ) = 1 (X ), 2 (X1 , X2 , . . . , Xn ) = 2 (X ),

. . . (6.10)
p (X1 , X2 , . . . , Xn ) = p (X ),
unde k (X1 , X2 , . . . , Xn ) sunt momentele de selectie de ordin k pentru X ,
1 (X1 , X2 , . . . , Xn ) =
1 n
Xik ,
i=1
Teoria estimaiei
si k (X ) sunt momentele teoretice pentru X (care depind de ), adica:
123
k = E(X k ),
O
k = 1, 2, . . . , p.
estimatie
1 , 2 , . . . , p ), cu k = = ( (punctuala) pentru va o realizare a estimatorului
k (x1 , x2 , . . . , xn ), k = 1, p).
Observaia 6.18
Aceasta metoda este fundamentata teoretic pe faptul ca momentele de selectie sunt
estimatori absolut corecti pentru momentele teoretice corespunzatoare. Metoda nu poate aplicata repartitiilor care nu admit medie (e.g., repartitia Cauchy).
Exerciiu 6.19
Fie X U (a, b) caracteristica unei populatii, unde a < b sunt numere reale. Sa se
determine prin metoda momentelor estimatori pentru capetele intervalului.
Daca X U (a, b), atunci
E(X ) =
de unde
a+b , 2
D 2 (X ) =
(b a)2 , 12 a2 + ab + b2 . 3
E(X 2 ) = D2 (X ) + [E(X )]2 =

Sistemul (6.10) se scrie astfel in acest caz:
1 (X1 , X2 , . . . , Xn ) = E(X ) 2 (X1 , X2 , . . . , Xn ) = E(X 2 ),

unde
n n
(6.11)
1 =
1 n
Xi ,
i=1
2 =
1 n
Xi2 .
i=1
Inlocuind in relatiile (6.11), avem de gasit solutia ( a, b) a urmatorului sistem:
a + b = 2 1 a b = 4 2 1 3 2 .
Aceasta este:
a = 1
2 2 1;
b = 1 +
2 2 1.
124 Facand calculele si tinand cont ca 1 X , obtinem estimatorii pentru a si, respectiv, b:
a =X
unde
3 s;
b=X+
3 s,
1 X= n
Xi
i=1
si
s=
1 n
(Xi X )2 .
i=1
Estimatiile punctuale pentru a si b sunt:
a =
1 n 1 n
xi
i=1 n
3 n 3 n
(xi x)2
i=1 n
b =
xi +
i=1
(xi x)2
i=1
6.4 Metoda celor mai mici ptrate

Este o metoda de estimare a parametrilor in cazul modelelor liniare, cand variabilele aleatoare Yi , i =
1, n, depind liniar de parametrii necunoscuti. Fie = (1 , 2 , . . . , p ) vectorul ce contine parametrii

necunoscuti si Yi depind de acestia dupa urmatorul sistem:
p
Yi =
j =1
xij j + i ,
i = 1, 2, . . . , n,
(6.12)
sau, scris sub forma matriceala:
Y =X+ ,
X = (xij ) Rmp .
Variabilele aleatoare i sunt erori, despre care presupunem ca:
E( i ) = 0 D2 ( i ) = 2 , i = 1, 2, . . . , n; i = j.
(6.13)
cov ( i , j ) = 0,
Metoda celor mai mici patrate consta in determinarea parametrilor i astfel incat suma patratelor erorilor sa e minima, adica
n n 2 i i=1
Yi
2 xij j .
min
= min
i=1
j =1
Teoria estimaiei
125
= ( Astfel, un estimator 1 , 2 , . . . , p ) prin metoda celor mai mici patrate este solutia sistemului: j
echivalent,
n i=1
Yi
2 xij j = 0, j = 1, 2, . . . , p,
j =1
xik xij j =
i=1 j =1 i=1
xik Yi ,
k = 1, 2, . . . , p.
Ultimul sistem poate scris sub forma matriceala:
X X = X Y, este de unde gasim ca estimatorul = (X X)1 X Y.
Exerciiu 6.20
Fie X o caracteristica ce admite medie, = E(X ) si consideram variabilele aleatoare
de selectie repetata de volum n, X1 , X2 , . . . , Xn . Notam cu 2 = D 2 (X ). Estimatorul prin metoda celor mai mici patrate pentru media teoretica este solutia problemei de minimizare
n
min
i=1
(Xi )2 ,
(6.14)
si este = X.
Putem scrie
Xi = + i ,
i = 1, 2, . . . , n,
(6.15)
cu i satisfacand conditiile (6.13). Solutia problemei (6.14) este solutia ecuatiei

adica
(Xi )2 = 0,
i=1
= 1 n
Xi .
i=1
6.5 Metoda minimului lui 2

Consideram caracteristica X ce urmeaza a studiata, ce are legea de probabilitate data de f (x, ), unde = (1 , 2 , . . . , p ) Rp sunt parametri necunoscuti. Fie X1 , X2 , . . . , Xn variabilele
126
pentru procedam dupa aleatoare de selectie repetata de volum n. Pentru a obtine un estimator
cum urmeaza. Descompunem multimea valorilor lui X , X (), in clase, astfel:
k
X () =
i=1
Oi ,
Oi
Oj = , i = j.
Construiesc evenimentele
Ai = { (n) (n) ; X (i ) Oi },
Se observa cu usurinta ca
i = 1, 2, . . . , k.
(n) =
i=1
Ai ,
Ai
Aj = , i = j.
Notam cu
pi ( ) = P (n) (Ai ),
i = 1, 2, . . . , k,
i.e., probabilitatea ca un individ luat la intamplare sa apartina clasei Oi . Atunci,

k
pi ( ) = 1.
i=1
Mai facem urmatoarele notatii:
ni este frecventa absoluta a evenimentului Ai in orice selectie repetata de volum n; Ni sunt variabilele aleatoare de selectie corespunzatoare lui ni (i = 1, k ).
Observaia 6.21
pi ( ), i = 1, k .
Vectorul aleator N = (N1 , N2 , . . . , Nk ) urmeaza o repartitie multinomiala de parametri
Deniia 6.22
se numeste Statistica
estimator obtinut prin metoda minimului lui 2
pentru daca
este solutie a problemei de minim

k
min
i=1
[Ni n pi ( )]2 n p i ( )
Propoziia 6.23 Statistica

k i=1
[Ni n pi ( )]2 2 (k p 1). n pi ( )
Teoria estimaiei
127
6.6 Metoda cu intervale de ncredere

Sa consideram o caracteristica X a carei lege de probabilitate este data de f (x, ), cu parametru necunoscut. Pentru a estima valoarea reala a lui , efectuam n observatii, obtinand selectia:
x1 , x2 , . . . , xn . (x1 , x2 , . . . , xn ). Dupa cum am vazut anterior, putem gasi o estimatie punctuala a parametrului, (x1 , x2 , . . . , xn ) fata de Estimatia punctuala nu ne precizeaza cat de aproape se gaseste estimatia
valoarea reala a parametrului . De exemplu, daca dorim sa estimam masa medie a unor produse alimentare fabricate de o anumita masina, atunci putem gasi un estimator punctual (e.g., media de selectie) care sa ne indice ca aceasta este de 500 de grame. Ideal ar daca aceasta informatie ar prezentata sub forma: masa medie este 500g10g. Putem obtine astfel de informatii daca vom construi un interval in care, cu o probabilitate destul de mare, sa gasim valoarea reala a lui . Sa consideram o selectie repetate de volum n, X1 , X2 , . . . , Xn , ce urmeaza repartitia lui X . Dorim sa gasim un interval aleator care sa acopere cu o probabilitate mare (e.g., 0.95, 0.98 sau 0.99) valoarea posibila a parametrului necunoscut.
Deniia 6.24
Fie (0, 1), foarte apropiat de 0 (de exemplu, = 0.01, 0.02 sau 0.05). Numim condence interval) pentru parametrul cu probabilitatea de incredere
interval de incredere (e.n.,
1 , un interval aleator (, ), astfel incat P ( < < ) = 1 ,

unde (X1 , X2 , . . . , Xn ) si (X1 , X2 , . . . , Xn ) sunt statistici. Pentru o observatie (n) xata, capetele intervalului (aleator) de incredere vor functii de valorile de selectie. De exemplu, pentru datele observate, x1 , x2 , . . . , xn , intervalul (6.16)
(x1 , x2 , . . . , xn ), (x1 , x2 , . . . , xn )
se numeste
valoare a intervalului de incredere pentru . nivel de semnicatie sau probabilitate de risc.
Valoarea se numeste
Observaia 6.25
urmeaza:
Pentru a determina un interval de incredere, metoda de lucru este dupa cum
128 se va considera functie de selectie S (X1 , X2 , . . . , Xn ; ), convenabil aleasa, care sa urmeze o lege cunoscuta si independenta de . Sa notam cu g (s) aceasta repartitie. Se determina apoi valorile s1 si
s2 (care depind de ), astfel incat

s2
P (s1 < S < s2 ) =

s1
g (s) ds = 1 .
(6.17)
Cum statistica S depinde de , din (6.17) obtinem un interval aleator (, ) ce satisface (6.16). Intervalul de incredere variaza de la o selectie la alta.
Cu cat este mai mic (de regula, = 0.01 sau 0.02 sau 0.05), cu atat sansa (care este (1 ) 100%) ca valoarea reala a parametrului sa se gaseasca in intervalul gasit este mai mare. Desi sansele 99% sau 99.99% par a foarte apropiate si a da rezultate asemanatoare, sunt cazuri in care ecare sutime conteaza. De exemplu, sa presupunem ca intr-un an calendaristic un eveniment are sansa de 99% de a se realiza, in orice zi a anului, independent de celelalte zile. Atunci, sansa ca acest eveniment sa se realizeze in ecare zi a anului in tot decursului acestui an este de 0.99365 2.55%. Daca sansa de realizare in ecare zi ar fost de 99.99%, atunci rezultatul ar fost 96.42%, ceea ce inseamna o diferenta foarte mare generata de o diferenta initiala foarte mica. Intervalul de incredere pentru valoarea reala a unui parametru nu este unic. Daca ni se dau conditii suplimentare (e.g., xarea unui capat), atunci putem obtine intervale innite la un capat si nite la celalalt capat. Vom cauta in continuare intervale de incredere pentru parametrii unor caracteristici normale.
6.6.1
Interval de ncredere pentru medie, cand dispersia este cunoscuta
Fie X N (, ) caracteristica uneo populatii statistice, unde este necunoscut si este cunoscut. Pentru a construi un interval de incredere pentru media teoretica , efectuam o selectie repetata de volum n si xam nivelul de incredere 1 1, (0, 1). Alegem urmatoarea statistica:
Z=
X N (0, 1) n
(conform Propozitiei 5.23).
(6.18)
Putem determina un interval numeric (z1 , z2 ) astfel incat
P (z1 < Z < z2 ) = (z2 ) (z1 ) = 1 ,
(6.19)
Teoria estimaiei
unde : R+ R+ este
129
functia lui Laplace,

1 (x) = 2
x
y2 2
dy.
(6.20)
De indata ce intervalul (z1 , z2 ) este determinat, putem scrie:
P (z1 <
X < z2 ) = 1 , n
echivalent cu
X z 2 < < X z1 n n
= 1 ,
de unde intervalul de incredere pentru cu nivelul de semnicatie (1 ) este
(, ) =
X z2 , X z1 n n
Mai ramane de stabilit cum determinam valorile z1 si z2 . Distingem trei cazuri:
(1)
Daca nu se cunoaste o alta informatie suplimentara despre , atunci alegem (z1 , z2 ) ca ind interval de lungime minima pentru xat. Aceasta se obtine cand z1 = z2 (vezi Observatia 6.26), de unde:
(z2 ) (z2 ) = 1 .
Tinand cont ca (z ) = 1 (z ), ultima relatie se reduce la
(z2 ) = 1
, 2
de unde gasim pe z2 ca ind cuantila de ordin 1 2 , si anume z1 2 .
Asadar,
, z1 = z1 2
z2 = z1 , 2
si intervalul de incredere pentru media teoretica cand este cunoscut este:
(, ) =
, X z1 2 n
X + z1 2 n
(6.21)
(2)
Daca pentru media teoretica nu se precizeaza o limita superioara, atunci in (6.19) aleg intervalul aleator (z1 , z2 ) de forma (, z2 ). Inlocuind in (6.19) obtinem:
P ( < Z < z2 ) = (z2 ) () = 1 ,

=0
130 de unde z2 = z1 . In acest caz, intervalul de incredere este:
(, ) =
X z1 , n
(3)
Daca pentru media teoretica nu se precizeaza o limita inferioara, atunci in (6.19) aleg intervalul aleator (z1 , z2 ) de forma (z1 , ). Inlocuind in (6.19) obtinem:
P (z1 < Z < ) = () (z1 ) = 1 ,

=1
de unde z1 = z = z1 . In acest caz, intervalul de incredere este:
(, ) =
X + z1 n
Observaia 6.26
lungime este
In cazul (1) de mai sus, am ales intervalul aleator de lungime minima, unde aceasta
l = (z2 z1 ). n
Pentru a gasi acest interval, avem de rezolvat problema:
min
z1
(z n 2
z1 )
z2 g (z ) dz = 1 .
Pentru a o rezolva, folosim metoda multiplicatorilor lui Lagrange. Fie functia
L(z1 , z2 ; ) = (z2 z1 ) + n
z2
g (z ) dz = 1 .
z1
(6.22)
Dorim sa aam z1 si z2 ce realizeaza min L(z1 , z2 ; ). Acestea sunt solutiile sistemului:
L = 0 z1 L = 0, z2
adica
g (z1 ) = 0 n g (z1 ) = 0, n
cu solutiile z1 = z2 (ce nu convine) si z1 = z2 .
Teoria estimaiei
131 O masina de inghetata umple cupe cu inghetata. Se doreste ca inghetata din cupe
Exerciiu 6.27
sa aiba masa de = 250g. Desigur, este practic imposibil sa umplem ecare cupa cu exact 250g de inghetata. Presupunem ca masa continutului din cupa este o variabila aleatoare repartizata normal, cu masa necunoscuta si dispersia cunoscuta, = 3g. Pentru a verica daca masina este ajustata bine, se aleg la intamplare 30 de inghetate si se cantareste continutul ecareia. Obtinem astfel o selectie repetata, x1 , x2 , . . . , x30 dupa cum urmeaza:
257 248
249 256
251 247
251 250
252 247
251 251 249 251 247 252
248 248
248 253
251 251
253 247
248 253
245 244
251 253
Se stie ca un estimator absolut corect pentru masa medie este media de selectie, X = 250.0667. Se cere sa se gaseasca un interval de incredere pentru , cu nivelul de condenta 0.99.
Dupa cum am vazut mai sus, un interval de incredere pentru este:
(, ) =
Urmatorul cod
, x z1 2 n
x + z1 2 n
Matlab furnizeaza un interval de incredere bazat pe datele de selectie observate.
n=30; sigma=3; alpha = 0.01; x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ... 248 256 247 250 247 251 247 252 248 253 251 247 253 244 253]; z = icdf('norm',1-alpha/2,0,1); %% cuantila de ordin 1-alpha/2 pentru normala %% capetele intervalului
m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n); fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
%% afiseaza intervalul dupa modul dorit
Ruland codul, obtinem intervalul de incredere pentru cand este cunoscut:
(, ) = (248.659, 251.478).
Observaia 6.28
Exista functii predenite in
Matlab ce furnizeaza estimatori punctuali si interMatlab
vale de incredere. A se compara rezultatul din acest exercitiu cu cel din Exercitiile 6.29 (estimare a intervalului de incredere cand nu este cunoscut) sau 6.33 (intervale furnizate de functii predenite).
132
Figure 6.1: Intervalul de incredere pentru Exercitiu 6.27.
6.6.2
Interval de ncredere pentru medie, cand dispersia este necunoscuta
Ne aam in conditiile din sectiunea precedenta, mai putin faptul ca este cunoscut. Daca acesta este necunoscut, atunci el va trebui estimat. Stim deja ca o estimatie absolut corecta pentru este statistica d (X ), data prin
d (X ) =
1 n1
(Xi X )2 .
i=1
Pentru a estima media teoretica necunoscuta printr-un interval de incredere, alegem statistica
T =
X t(n 1), d (X ) n
(6.23)
In mod analog cu cazul precedent, gasim intervalul de incredere in functie de cele trei cazuri amintite mai sus:
(1)
Daca nu se cunoaste o alta informatie suplimentara despre , atunci intervalul de incredere pentru media teoretica cand este necunoscut este:
(, ) =
d (X ) X t1 , ; n1 2 n
d (X ) X + t1 ; n1 2 n
(6.24)
Teoria estimaiei
133
(2)
Daca pentru media teoretica nu se precizeaza o limita superioara, atunci intervalul de incredere este:
(, ) =
d (X ) X t1; n1 , n
(3)
Daca pentru media teoretica nu se precizeaza o limita inferioara, atunci intervalul de incredere este:
(, ) =
d (X ) X t; n1 n
Aici, prin t; n1 am notat cuantila de ordin pentru repartitia t cu (n 1) grade de libertate.
Exerciiu 6.29
Sa se gaseasca un interval de incredere pentru masa medie din Exercitiul 6.27, in
cazul in care abaterea standard nu mai este cunoscut.
Dupa cum am vazut mai sus, un interval de incredere pentru este:
(, ) =
Urmatorul cod
d (X ) x t1 , ; n1 2 n
d (X ) x + t1 ; n1 2 n
Matlab furnizeaza un interval de incredere bazat pe datele de selectie observate.
n=30; alpha = 0.01; x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ... 248 256 247 250 247 251 247 252 248 253 251 247 253 244 253]; dev = std(X); t = icdf('t',1-alpha/2,n-1); %% deviatia standard de selectie %% cuantila de ordin 1-alpha/2 pentru t(n-1) %% capetele intervalului
m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n); fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
%% afiseaza intervalul dupa modul dorit
Ruland codul, obtinem intervalul de incredere pentru cand este cunoscut:
(, ) = (248.572, 251.561).
Observaia 6.30
(1) A se compara rezultatul din acest exercitiu cu cel din Exercitiile 6.27 (estimare
a intervalului de incredere cand este cunoscut) sau Exercitiul 6.33 (intervale furnizate de functii
Matlab predenite).
(ii) Cand n este mare, atunci va o diferenta mica intre valorile z1 si t1 ; n1 . 2 2
134
6.6.3
Interval de ncredere pentru diferenta mediilor
Fie X1 si X2 caracteristicile a doua populatii normale, N (1 , 1 ), respectiv, N (1 , 1 ), pentru care nu se cunosc mediile teoretice. Alegem din prima populatie o selectie repetata de volum n1 , notata prin
(X1k )k=1, n1 , ce urmeaza repartitia lui X1 , si din a doua populatie alegem o selectie repetata de volum n2 , notata prin (X2k )k=1, n2 , ce urmeaza repartitia lui X2 . Fixam pragul de semnicatie . Pentru a
gasi un interval de incredere pentru diferenta mediilor, vom specica doar statisticile care stau la baza gasirii intervalului, in urmatoarele trei cazuri:
2 si 2 sunt cunoscute a priori. In acest scop, aleg statistica dispersiile 1 2
Z=
(X1 X2 ) (1 2 )
2 1
N (0, 1).
(6.25)
n1
2 2
n2
Intervalul de incredere pentru diferenta mediilor este:
X1 X2 z1
2
2 1 2 + 2, n1 n2
X1 X2 + z1 2
2 2 1 2 + . n1 n2
2 = 2 = 2 si necunoscute. Pentru a gasi un interval de incredere pentru diferenta dispersiile 1 2
mediilor, alegem statistica (vezi Propozitia 5.41):
T =
unde
(X1 X2 ) (1 2 ) (n1 1)d2 (X1 ) 1 n1 1 + ( n2

n1
1)d2 (X2 )
n1 + n2 2 1 1 n1 + n2
t (n1 + n2 2),
(6.26)
d2 (X1 ) =
(X1k X1 )2 , si d2 (X2 ) =
i=1
1 n2 1
n2
(X2k X2 )2 .
i=1
2 = 2 , necunoscute. Pentru a gasi un interval de incredere pentru diferenta mediilor, dispersiile 1 2
alegem statistica
T =
(X1 X2 ) (1 2 ) d2 (X1 ) n1 + d2 (X2 ) n2
t(N ),
(utilizand Propozitia 5.40),
(6.27)
unde
N=
d2 d2 (X2 ) (X1 ) + n1 n2 d2 (X1 ) n1

2
1 + n1 1
d2 (X2 ) n2
2. 1 n2 1
(6.28)
Teoria estimaiei
135
6.6.4
Interval de ncredere dispersie, cand media este cunoscuta
Fie X N (, ) o caracteristica a unei populatii studiate, pentru care cunoastem media teoretica dar nu si dispersia 2 . Dorim sa estimam dispersia prin construirea unui interval de incredere. Alegem o selectie repetata X1 , X2 , . . . , Xn ce urmeaza repartitia lui X . Fixam pragul de semnicatie . Intervalul de incredere pentru dispersie se construieste cu ajutorul statisticii
n 2 1 d (X ) = 2 2
(Xi )2 2 (n),
i=1
Determin intervalul aleator din conditia:
P 2 1 <
n 2 2 2 d (X ) < 2 2 = Gn (2 ) Gn (1 ) = 1 , 2
unde aici Gn (x) reprezinta functia de repartitie teoretica pentru repartitia 2 cu n grad de libertate. In functie de faptul daca avem sau nu informatii suplimentare despre dispersie (analog ca in sectiunea 6.6.1), gasim ca intervalul de incredere pentru 2 este:
(1)
nu avem informatii suplimentare despre dispersie:
( 2 , 2 ) =
n d2 (X ) , 2 1 ; n
2
n d2 (X ) 2 ;n
2
(6.29)
(2)
ni se spune ca dispersia este nemarginita superior:
( 2 , 2 ) =
n d2 (X ) , 2 ; n
+ ;
(6.30)
(3)
ni se spune ca dispersia este nemarginita inferior:
( 2 , 2 ) =
n d2 (X ) 2 1; n
(6.31)
2 unde prin 2 ; n am notat cuantila de ordin pentru repartitia cu n grade de libertate.
6.6.5
Interval de ncredere dispersie, cand media este necunoscuta
Fie X N (, ) o caracteristica a unei populatii studiate, pentru care nu cunoastem media sau dispersia. De exemplu, X reprezinta timpul de producere a unei reactii chimice. Dorim sa estimam dispersia prin construirea unui interval de incredere. Alegem o selectie repetata X1 , X2 , . . . , Xn ce
136 urmeaza repartitia lui X . Fixam pragul de semnicatie . Intervalul de incredere pentru dispersie se construieste cu ajutorul statisticii
n1 2 1 d (X ) = 2 2
(Xi X )2 2 (n 1),
i=1
Determin intervalul aleator din conditia:
2 1 <
n1 2 d (X ) < 2 2 2
2 = Gn1 (2 2 ) Gn1 (1 ) = 1 ,
unde Gn1 (x) reprezinta functia de repartitie teoretica pentru repartitia 2 cu (n 1) grad de libertate. In functie de faptul daca avem sau nu informatii suplimentare despre dispersie (analog ca in sectiunea 6.6.1), gasim ca intervalul de incredere pentru 2 este:
(1)
nu avem informatii suplimentare despre dispersie:
( 2 , 2 ) =
(n 1)d2 (X ) , 2 1 ; n1
2
(n 1)d2 (X ) 2 ; n1
2
(6.32)
2 unde prin 2 ; n1 am notat cuantila de ordin pentru repartitia cu (n 1) grade de libertate.
(2)
ni se spune ca dispersia este nemarginita superior:
( 2 , 2 ) =
(n 1)d2 (X ) , 2 ; n1
+ ;
(6.33)
(3)
ni se spune ca dispersia este nemarginita inferior:
( 2 , 2 ) =
(n 1)d2 (X ) 2 1; n1
(6.34)
6.6.6
Interval de ncredere pentru raportul dispersiilor
Fie X1 si X2 caracteristicile a doua populatii normale, N (1 , 1 ), respectiv, N (2 , 2 ), pentru care nu se cunosc mediile si dispersiile teoretice. Alegem din prima populatie o selectie repetata de volum
n1 ce urmeaza repartitia lui X1 , si din a doua populatie alegem o selectie repetata de volum n2 ce
urmeaza repartitia lui X2 . Fixam pragul de semnicatie . Pentru a gasi un interval de incredere pentru raportul dispersiilor,
2 1 / 2 2
consideram statistica
F =
2 d2 2 1 F (n1 1, n2 1), 2 d2 1 2
(6.35)
Teoria estimaiei
Determinam apoi un interval aleator (f1 , f2 ) astfel incat
137
P (f1 < F < f2 ) = Fn1 1, n2 1 (f2 ) Fn1 1, n2 1 (f1 ) = 1 ,

unde Fn, m este functia de repartitie pentru repartitia F isher cu (n, m) grade de libertate. Aleg:
f1 = fn1 1, n2 1; 2
si
f2 = fn1 1, n2 1; 1 , 2
unde fn, m; reprezinta cuantila de ordin pentru repartitia F isher cu (n, m) grade de libertate.
2 / 2 este: Intervalul de incredere pentru raportul dispersiilor, 1 2
d2 1 fn1 1, n2 1; , 2 d2 2
d2 1 fn1 1, n2 1; 1 2 d2 2
(6.36)
6.6.7
Interval de incredere pentru selectii mari
Sa presupunem acum ca trasatura X studiata la o populatie statistica nu este de tip normal. Sa notam cu f (x, ) legea sa de repartitie, unde este un parametru real necunoscut. Pentru a-l estima printr-un interval de incredere, vom considera o selectie repetata, (Xk )k=1, n , de volum n (n > 30) relativa la caracteristica X .
Propoziia 6.31 Presupunem ca variabilele aleatoare

Yk =
not
ln f (Xk , ) , k = 1, 2, . . . , n,
admit dispersie (adica, exista d2 = D2 (Yk ), k = 1, n). Atunci, statistica

1 d n
n
Yk N (0, 1),
k=1
cand n .
(6.37)
Demonstraie.
Deoarece (Xk )k sunt independente stochastic si identic repartizate, urmeaza ca si vari-
abilele aleatoare (Yk )k sunt independente stochastic si identic repartizate. Utilizand Teorema limita centrala, pentru un n sucient de mare, putem scrie:
1 d n
Yk E(Yk )
k=1
N (0, 1).
138 Dar
E(Yk ) = E =
R
ln f (Xk , ) ln f (x, ) f (x, ) dx
= =
de unde rezulta concluzia propozitiei.
f (x, ) dx R (1) = 0,
Daca xam un nivel de incredere , putem gasi un interval de incredere pentru parametrul . Mai intai cautam un interval aleator (z, z ) = (z1 , z1 ), astfel incat:
2 2
1 z < d n
Yk < z
k=1
= 1 ,
de unde gasim intervalul de incredere pentru valoarea lui ,
1 (X1 , X2 , . . . , Xn ), 2 (X1 , X2 , . . . , Xn )). (
Exerciiu 6.32
Fie X P () o caracteristica a unei populatii. Dorim sa determinam un interval de
incredere pentru parametrul , cu nivelul de semnicatie .
x , x N. Stim ca E(X ) = x! D2 (X ) = . Consideram (Xk )k=1, n , n 30, v.a. de selectie de volum n. Atunci, variabilele aleatoare
Legea de probabilitate pentru X este data de f (x, ) = e
Yk sunt date de: Yk =

Evident,
ln f (Xk , ) 1 = Xk 1, k = 1, 2, . . . , n. 1 E(Xk ) 1 = 0.
E(Yk ) =
Calculam dispersia lui Yk .
D2 (Yk ) =
1 2 1 D (Xk ) = , k = 1, 2, . . . , n, 2
1 de unde d = . Gasim astfel ca statistica
1 d n
Yk =
k=1
1 n
Xk
k=1
n X
N (0, 1).
Teoria estimaiei
139
Putem astfel construi un interval de incredere pentru . Utilizand aceasta statistica, vom cauta un z astfel incat sa avem:
P
sau,
z <
n X <s
= (z ) (z ) = 1 ,
P (1 < < 2 ) = 1 .
Deci, intervalul de incredere este (1 , 2 ), unde 1 si 2 sunt solutiile ecuatiei:
2 (2 x +
s2 ) + x2 = 0. n
140
6.7 Tabel cu intervale de incredere

Intervale de incredere pentru parametrii repartitiei normale, la un nivel de semnicatie .
Parametru
Alti parametri
Interval de incredere cu nivelul de semnicatie

, n n
X z1 2 2
cunoscut
X + z1 2
X z1
, n
X + z1
X t1 ; n1 2 2
necunoscut
d (X ) , n
X + t1 ; n1 2
d (X ) n
X t1; n1
d (X ) , n
, 1 2
cunoscuti
2, 2 1 2 2 1
X t; n1
2 2
d (X ) n
X1 X2 z1 2
n1
n2
X1 X2 + z1 2
2 1
n1
2 2
n2
1 2
necunoscuti
2 = 2 1 2
X1 X2 t1 ; N
2
d2 d2 1 + 2 , n1 n2 n d2 (X ) , 2 1 ; n
2
X1 X2 + t1 ;N 2 n d2 (X ) 2 ;n
2
2 d2 d 1 + 2 n1 n2
cunoscut
necunoscut
(n 1)d2 (X ) , 2 1 ; n1
2
(n 1)d2 (X ) 2 ; n1
2
2 1
2 /2
necunoscuti
1 , 2
d2 1 fn1 1, n2 1; , 2 d2 2
d2 1 fn1 1, n2 1; 1 2 d2 2
Table 6.1: Tabel cu intervale de incredere.
Teoria estimaiei
6.8 Functii de estimatie in
Matlab
141
Estimarea parametrilor prin metoda verosimilitatii maxime poate realizata in functia mle. Formatul general al functiei este:
Matlab folosind
[p, pCI] = mle(X,'distribution','lege','nume_1','val_1','nume_2','val_2',...)

unde:
p este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaza a estimat punctual; pCI este variabila de memorie pentru intervalul (intervalele) de incredere ce va estimat; X este un vector ce contine datele ce urmeaza a analizate; distribution este parte din formatul comenzii iar lege poate oricare dintre legile din tabelul
3.1;
nume_i/val_i sunt perechi optionale de argumente/valori, dintre care amintim:
alpha
reprezinta nivelul de condenta pentru intervalul de incredere. Valoarea implicita
in Matlab este = 0.005;
ntrials
(utilizata doar pentru repartitia binomiala, reprezinta numarul de repetitii ale
experimentului. Daca urmarim sa estimam parametrii unei caracteristici gaussiene, atunci putem folosi comanda simplicata:
[p, pCI] = mle(X)

fara a mai preciza legea de distributie. De exemplu, sa luam drept obiect de lucru datele din tabelul 1.3. Aceastea sunt reprezentate prin bare in Figura 1.22 . O estimare a parametrilor si prin metoda verosimilitatii maxime este
X=[7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35;10*rand(87,1)+45;10*rand(64,1)+55] [p, pCI] = mle(X)

si obtinem estimarile:
p = 41.9716 12.0228 % estimari punctuale pentru si
142
pCI = 40.7653 43.1779 11.2439 12.9547
% intervale de incredere
unde, prima coloana reprezinta estimarea punctuala si un interval de incredere pentru , iar a doua coloana estimarea punctuala si un interval de incredere pentru . Estimari punctuale si cu intervale de incredere mai putem obtine si utilizand functia
LEGEfit(X,alpha)
unde, in locul cuvantului LEGE punem o lege de probabilitate ca in tabelul 3.1, X reprezinta observatiile si alpha este nivelul de condenta. (Exemple: normfit, binofit, poissfit, expfit etc).
Exerciiu 6.33
cuta a
Suntem, din nou, in cadrul Exercitiului 6.27, cu mentiunea ca dispersia nu este cunosDorim sa obtinem o extimatie printr-un interval de incredere pentru
priori (vezi Exercitiul 6.29).
cand nu este cunoscuta. Folosind functia de mai sus, obtinem chiar mai mult decat ne propunem,
si anume: estimatii punctiale pentru si si interval de incredere pentru ambele. Ruland functia, adica
[m,s,mCI,sCI]=normfit(X,0.01)
Observam ca valorile furnizate pentru intervalul de incredere pentru , (mCI), sunt exact aceleasi ca cele obtinute in Exercitiul 6.29.
m = 250.0667
mCI = 248.572 251.561
s = 2.9704
sCI = 2.2111 4.4159
Observaia 6.34
Sa presupunem acum ca facem 50 de selectii repetate de volum 30 (adica alegem in
50 de zile o selectie de 30 de inghetate) si aam intervalele de incredere (toate cu nivelul de condenta
Teoria estimaiei
143
= 0.01) pentru masa medie a continutului. Figura 6.2 reprezinta grac cele 50 de intervale.
Figure 6.2: 50 de realizari ale intervalului de incredere pentru
Dupa cum se observa din gura, se poate intampla ca un interval de incredere generat sa nu contina valoarea pe care acesta ar trebui sa o estimeaze. Aceasta nu contrazice teoria, deoarece probabilitatea cu care valoarea estimata este acoperita de intervalul de incredere este
P < < = 1 = 0.99,

deci exista sanse de a gresi in estimare, in cazul de fata de 1%.
144
Repartitia
binomiala B (n, p) Poisson B () exponentiala exp() Gamma (a, )
Estimator uzual
p = X n
Functia
Matlab
csbinpar cspoipar csexpar csgampar

2
=X = 1 X a = X 1 n
n 2 Xk X k=1 2
X 1 n
n 2 Xk X k=1 2
normala N (, )
=X = d (X )
mean var
Table 6.2: Estimatori punctuali uzuali pentru parametri.
6.9 Paradox cu intervale de ncredere

Sa presupunem ca X N (, ) este o caracteristica a unei populatii statistice, {Xk }k=1, n o selectie repetata efectuata asupra lui X si X media de selectie. In Sectiunea 6.6.1, am gasit ca un interval de incredere pentru media , cand dispersia 2 este cunoscuta, este dat de:
(, ) =
, X z1 2 n
X + z1 2 n
(6.38)
Sa xam = 1 si sa consideram nivelul de semnicatie este = 0.01. Pentru acest , cuantila corespunzatoare este z1 2.58. 2 Asadar, pentru orice n xat din N , probabilitatea evenimentului
An =
este 1 = 0.99 1.
2.58 2.58 X < < X+ n n
Sa consideram evenimentele An , pentru ecare n N .
Deoarece P (An ) = 0.99, deducem ca

n=1
P (An ) = . Atunci, utilizand Teorema Borel-Cantelli
Teoria estimaiei
(Teorema 2.10), obtinem ca
145
P lim sup An
n
Am = 1,
=P
n=1 mn
Pe de alta parte, probabilitatea ca inegalitatea
2.58 2.58 X < < X+ n n

sa aiba loc pentru orice n N este 0, adica:
P
n=1
An
= 0.
(6.39)
146

Exerciiu 6.35
Se considera caracteristica X ce are densitatea de repartitie
f (x, ) =
x 1 e , x > 0; 0, x 0.
(i) Gasiti un estimator pentru parametrul necunoscut > 0 (folosind, la alegere, metoda momentelor sau metoda verosimilitatii maxime); (ii) Calculati media si dispersia estimatorului. Este estimatorul deplasat?
(i)
(a)
Metoda momentelor:
Deoarece avem doar un parametru, anume , metoda momentelor
revine la:
X = E(X ).
Dar, media v.a. X este:
E(X ) =
R
x f (x) dx =
x e dx =
0
x e
dx =
0
e dx = .
Asadar, estimatorul pentru este

n
= X =
k=1
Xk ,
(unde, (Xk )k variabilele aleatoare de selectie).

Functia de verosimilitate este:
n
Metoda verosimilitatii maxime:
L(x, ) =
k=1
1 xk e
1 xk 1 1 k =1 = ne = n en x/ . n ln 1 x = n n + 2 x.
ln L(x, ) =
Ecuatia
ln L(x, )
= 0 implica = 1 n
n
xk = x.
k=1
Se verica apoi ca
2 ln L(x, ) n | = = 2 < 0, 2 x
Teoria estimaiei
147
este punct de maxim si X este estimator de verosimilitate maxima pentru . si astfel,

(ii) Avem:
) = E(X ) = E(X ) = , E( ) = D2 (X ) = D 2 (
= estimator nedeplasat. 1 2 2 D (X ) = 2 . 2 n n
Observatie: Exerciiu 6.36
2 2 X exp( 1 ), de unde E(X ) = , D (X ) = .
Fie X o caracteristica ce reprezinta timpul de producere a unei reactii chimice, ma-
surat in secunde. Presupunem ca X N (m, 2 ). Consideram o selectie repetata de volum n = 11, cu valorile de selectie
4.21, 4.03, 3.99, 4.05, 3.89, 3.98, 4.01, 3.92, 4.23, 3.85, 4.20.
(i) Sa se determine un interval de incredere pentru 2 si unul pentru , cu nivelul de semnicatie
= 0.05.
(ii) Se cunoaste timpul mediu de reactie, = 4. Sa se determine un interval de incredere pentru 2 si unul pentru , cu nivelul de semnicatie = 0.05.
(i) Deoarece media nu este cunoscuta si nu avem alta informatie despre dispersie, folosim
formula (6.32). Codul
Matlab este urmatorul:
x = [4.21; 4.03; 3.99; 4.05; 3.89; 3.98; 4.01; 3.92; 4.23; 3.85; 4.20]; n = 11; alpha = 0.05; s2 = var(x); h1 = icdf('chi2',1-alpha/2,n-1); h2 = icdf('chi2',alpha/2,n-1); S1 = (n-1)*s2/h1; S2 = (n-1)*s2/h2; s1 = sqrt(S1); s2 = sqrt(S2); fprintf(' int. de incredere pt dispersie: (S1,S2) = (%6.3f,%6.3f)',S1,S2);
fprintf('int. de incredere pt deviatia standard: (s1,s2) = (%6.3f,%6.3f)\n',s1,s2);

Obtinem valorile:
interval de incredere pt dispersie: (S1,S2) = ( 0.008, 0.052) interval de incredere pt deviatia standard: (s1,s2) = ( 0.091, 0.229)
Putem verica rezultatele folosind functia
Matlab normfit. Comanda
148
[m,sigma,muCI,sigmaCI]=normfit(x,0.05)
returneaza estimatiile punctuale pentru si si intervale de incredere pentru acestea:
m = 4.0327
mCI = 3.9451 4.1204
sigma = 0.1305
sigmaCI = 0.0912 0.2290
Se observa ca valorile furnizate de aceasta functie pentru sigmaCI sunt cele gasite anterior.
(ii) Deoarece media este cunoscuta, intervalul de incredere este dat de (6.29). Codul Matlab pentru calculul acestui interval este:
x = [4.21; 4.03; 3.99; 4.05; 3.89; 3.98; 4.01; 3.92; 4.23; 3.85; 4.20]; n = 11; alpha = 0.05; s2 = sum((x-4).^2)/11; h1 = icdf('chi2',1-alpha/2,n); h2 = icdf('chi2',alpha/2,n); S1 = n*s2/h1; S2 = n*s2/h2; s1 = sqrt(S1); s2 = sqrt(S2); fprintf(' int. de incredere pt dispersie: (S1,S2) = (%6.3f,%6.3f)\n',S1,S2);
fprintf('int. de incredere pt deviatia standard: (s1,s2) = (%6.3f,%6.3f)\n',s1,s2);

Ruland codul, obtinem rezultatele cerute:
interval de incredere pt dispersie: (S1,S2)=( 0.008, 0.048) interval de incredere pt deviatia standard: (s1,s2)=( 0.091, 0.218)
Exerciiu 6.37
Ana dactilograaza un articol de 60 de pagini. La recitirea articolului, Ana a de-
scoperit pe ecare pagina de articol urmatoarele numere de greseli:
7 8 8
6 7 4
5 7 7
9 4 10
10 11 10
4 6 6
4 6 7
8 5 9
5 4 12
8 6 8
6 13 5
4 8 7
5 6 6
6 9 7
6 7 14
5 8 8
12 5 8
16 4 4
9 3 3
5 6 10
Sa presupunem ca numarul de greseli aparute pe ecare pagina dactilograata de Ana este o variabila aleatoare repartizata P oisson. (1) Sa se estimeze numarul mediu de greseli facute de Ana pe ecare pagina dactilograata;
Teoria estimaiei
149
(2) Sa se estimeze numarul mediu de greseli facute de Ana la dactilograerea unei carti de 280 de pagini, presupunand ca ar lucra in exact aceleasi conditii si cu aceeasi indemanare. (3) Cu ce probabilitate, Ana va avea mai putin de 2000 de greseli pentru toata cartea?

Sa presupunem ca Y este vectorul ce are drept componente numerele din enunt. Daca X este variabila aleatoare ale carei valori reprezinta numarul de greseli aparute la o pagina dactilograata si X P (n), atunci E(X ) = D 2 (X ) = n. Daca notam cu Xk , k = 1, 280, variabilele aleatoare ale caror valori reprezinta numarul de greseli de dactilograe facute pe ecare pagina a cartii (respectiv), atunci
280
Xk P (280 n),
k=1
deoarece Xk sunt v.a. independente stochastic si identic repartizate. Probabilitatea este

280
P = P(
k=1
Xk 2000) = F (2000),
280
unde F (x) este functia de repartitie pentru

k=1
Xk , adica a unei v.a. repartizata P (280 n).
Estimam parametrul repartitiei P oisson folosind comanda mle din lema este urmatorul
Matlab. Codul ce rezolva prob-
[n,nCI] = mle(Y,'distribution','exp','alpha',0.1) N = 280*n;

Ruland codul, obtinem rezultatele:
% pentru (1)
n = 7.1000 nCI = 5.8130 8.9024

Asadar, sa convenim ca Ana face in medie n = 7 greseli pentru ecare pagina dactilograata. Atunci, pentru toata cartea va face in medie N = 7 280 = 1960 greseli.
% estimarea punctuala a lui n % intervalul de incredere
150 Probabilitatea este:
P = poisscdf(2000,N)
adica P 0.82.
Observaia 6.38
Deoarece E(X ) = D 2 (X ) = n, inseamna ca numarul n putea estimat in acest caz
si cu media valorilor lui Y , adica Y (mean(Y) in
Matlab) sau cu dispersia empirica pentru Y , adica
var(Y) in Matlab.
Exerciiu 6.39
Sa presupunem ca aruncam o moneda despre care nu stim daca este sau nu corecta
(adica, probabilitatea de aparitie a fetei cu stema nu este neaparat 0.5). Fie X variabila aleatoare ce reprezinta numarul de aparitii ale fetei cu stema la aruncarea repetata a unei monede. Notam cu p probabilitatea evenimentului ca la o singura aruncare a monedei apare stema. Realizam 80 de aruncari ale acelei monede si obtinem valorile (1 inseamna ca fata cu stema a aparut, 0 daca nu a aparut):
0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0 1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0
(1) Sa se gaseasca un estimator absolut corect pentru p si a se studieze ecienta acestuia. (2) Sa se gaseasca estimatii punctuale si intervale incredere pentru p, folosind functiile mle si binofit din
Matlab.
(1) Repartitia lui X este Bernoulli, B (1, p). Astfel,
E(X ) = p,
D2 (X ) = p(1 p).
Consideram variabilele de selectie repetata de volum, (Xk )k=1 n . Un estimator absolut corect pentru medie este X , deoarece
E(X ) = E(X )
Asadar, pentru selectia data, valoarea x = (2) Utilizand functiile
si D 2 (X ) =
n
p(1 p) 0. n n2
xk = 0.5125.
k=1
Matlab astfel:
[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)
Teoria estimaiei
cu rezultatul:
151
p = 0.5125
pCI = 0.3981 0.6259
sau, folosind comanda binofit,
[p,pCI]=binofit(sum(Y),length(Y),0.05)
cu rezultatul:
p = 0.5125
pCI = 0.3981 0.6259
152

Exerciiu 6.1
Consideram statistica
n
=
k=1
wk Xk .
(6.40)
Daca dorim ca sa e estimator nedeplasat pentru , atunci imediat obtinem

n
wk = 1.
k=1
Avem ca
D2 ( ) = E
k=1
wk (Xk )
= 2
k=1
2 wk .
Aratati ca X este UMVUE in clasa tuturor estimatorilor liniari de forma 6.40.
Exerciiu 6.2 Exerciiu 6.3
Aratati ca momentul de selectie de ordin k este estimator absolut corect pentru k (X ).
Aratati ca momentul de selectie centrat de ordin k este estimator absolut corect pentru
k (X ). In particular, momentul de selectie centrat de ordin 2 este estimator absolut corect pentru
dispersia teoretica D 2 (X ).
Exerciiu 6.4
Sa se arate ca media de selectie X constituie un estimator absolut corect si ecient al
parametrului din repartitia Poisson P ().
Exerciiu 6.5
P ().
Aratati ca n X este un estimator sucient pentru parametrul din repartitia P oisson,
Exerciiu 6.6
Aratati ca n (1 X ) este un estimator sucient pentru parametrul b din repartitia
Bernoulli, B (n, p).
Exerciiu 6.7
Aratati ca informatia Fisher I1 () pentru o caracteristica N (, ) este
I1 () =
1 . 2
(deci, cantitatea de informatie creste cu descresterea lui .)
Teoria estimaiei
153 Estimati prin metoda verosimilitatii maxime parametrul p al unei caracteristici X
Exerciiu 6.8
B (n, p).
Exerciiu 6.9
Fie selectia
871 822 729 794 523 972 768 758 583 893 598 743 761 858 948 598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731
Sa se estimeze absolut corect dispersia populatiei din care provine aceasta selectie.
Exerciiu 6.10 Exerciiu 6.11
Estimati prin metoda momentelor parametrii unei caracteristici X N (, ).
154
Chapter
Vericarea ipotezelor statistice

7.1 Punerea problemei
In acest capitol sunt incluse cateva notiuni introductive si procedee generale ce tin de decizii statistice. Testarea ipotezelor statistice este o metoda prin care se iau decizii statistice, utilizand datele experimentale culese. Testele prezentate mai jos au la baza notiuni din teoria probabilitatilor. Aceste teste permit ca, plecand de la un anumit sau anumite seturi de date culese experimental sa se poate valida anumite estimari de parametri ai unei repartitii sau chiar prezicerea formei legilor de repartitie ale caracteristicilor considerate. Presupunem ca X este caracteristica studiata a unei populatii statistice, si ca legea sa de probabilitate este data de f (x, ), unde Rp . Dupa cum precizam in capitolul anterior, aceasta functie poate specicata (adica ii cunoastem forma, dar nu si parametrul ), caz in care putem face anumite ipoteze asupra acestui parametru, sau f (x, ) este necunoscuta, caz in care putem face ipoteze asupra formei sale. Sa presupunem ca (xk )k=1, n sunt datele observate relativ la caracteristica X .
Deniia 7.1
(2) O ipoteza
(1) Numim
ipoteza statistica
o presupunere relativa la valorile parametrilor ce apar in
legea de probabilitate a caracteristicii studiate sau chiar referitoare la tipul legii caracteristicii.
neparametrica este o presupunere relativa la forma functionala a lui f (x, ).
De exemplu,
o ipoteza de genul X Normala. (3) Numim
ipoteza parametrica o presupunere facuta asupra valorii parametrilor unei repartitii.

155
Daca
156 multimea la care se presupune ca apartine parametrul necunoscut este formata dintr-un singur element, avem de-a face cu o (4) O
ipoteza parametrica simpla.
Altfel, avem o
ipoteza parametrica compusa.
ipoteza nula a priori
este acea ipoteza pe care o intuim a cea mai apropiata de realitate si o pre-
supunem
a adevarata. Cu alte cuvinte, ipoteza nula este ceea ce doresti sa crezi, in cazul
in care nu exista suciente evidente care sa sugereze contrariul. Cel mai bun exemplu de ipoteza nula este urmatoarea: "presupus nevinovat, pana se gasesc dovezi care sa dovedeasca altfel". O
ipoteza
alternativa este orice alta ipoteza admisibila cu care poate confruntata ipoteza nula.
De exemplu, in Exemplul 6.27, putem presupune ca ipoteza (parametrica) nula este
(H0 )
iar o ipoteza alternativa (bilaterala) poate
= 250 grame,
(H1 )
= 250 grame.
In general, pentru teste parametrice consideram
A = A0
si spunem ca
A1 , A 0
A1 =
(H0 )
iar
A0
este ipoteza nula,
(H1 )
(5) A
A1
este ipoteza alternativa.
testa o ipoteza statistica inseamna a lua una dintre deciziile:

ipoteza nula se respinge ipoteza nula se admite (sau, nu sunt motive de respingere a ei)
(i) (ii)
(6) In Statistica, un rezultat se numeste
semnicant din punct de vedere statistic daca este improbabil diferenta semnicativa daca exista su-
ca el sa se realizat datorita sansei. Intre doua valori exista o
ciente dovezi statistice pentru a dovedi diferenta, si nu datorita faptului ca diferenta este mare. Numim
nivel de semnicatie
probabilitatea de a respinge ipoteza nula cand, de fapt, aceasta este adevarata.
In general, = 0.01, 0.02, 0.05 etc.
Teoria deciziei
Vom numi
157
regiune critica
multimea tuturor valorilor care cauzeaza respingerea ipotezei nule. Matem-
atic, o submultime U R se numeste
regiune critica cu un nivel de semnicatie (0, 1) daca
P ((x1 , x2 , . . . , xn ) U | H0 admis) = .
Daca putem scrie regiunea critica sub forma
U = {(x1 , x2 , . . . , xn ) Rn | S (x1 , x2 , . . . , xn ) c},

atunci valoarea c se numeste
valoare critica iat S (x1 , x2 , . . . , xn ) se numeste statistica test sau criteriu.
Construirea unui test statistic revine la construirea unei astfel de multimi critice. Folosind datele observate si U determinat ca mai sus, putem avea doua cazuri:
(i) (ii)
(x1 , x2 , . . . , xn ) U , ceea ce implica faptul ca (H0 ) este acceptata (pana la o alta testare); (x1 , x2 , . . . , xn ) U , ceea ce implica faptul ca (H0 ) este respinsa (adica (H1 ) este acceptata);
In urma unor astfel de decizii pot aparea doua tipuri de erori:
eroarea de speta (I) (riscul furnizorului sau false positive) este eroarea care se poate comite
respingand o ipoteza (in realitate) adevarata. Se mai numeste si aceaste erori este nivelul de semnicatie, adica:
risc de genul (I). Probabilitatea
= P ((x1 , x2 , . . . , xn ) U | H0 admis). eroarea de speta a (II)-a (riscul beneciarului sau false negative) este eroarea care se poate
comite acceptand o ipoteza (in realitate) falsa. Probabilitatea aceaste erori este Se mai numeste si
risc de genul al (II)-lea.
= P ((x1 , x2 , . . . , xn ) U | H1 admis).
In general, riscul de genul (I) este mai grav decat riscul de genul al (II)-lea daca vericam calitatea unui articol de imbracaminte, iar riscul de genul al (II)-lea este mai grav decat riscul de genul (I) daca vericam concentratia unui medicament.
Fie X o caracteristica ce are legea de probabilitate f (x; ), R si (x1 , x2 , . . . , xn ) valori de selectie de volum n.
158
Deniia 7.2
Vom numi
puterea unui test probabilitatea respingerii unei ipoteze false (sau, probabili-
tiatea de a nu comite eroarea de speta a II-a). Notam prin
= 1 = P ((x1 , x2 , . . . , xn ) U | H0 fals) .
(7.1)
Deniia 7.3
Denumim
valoare P (e.n.,
P-value) probabilitatea de a obtine un rezultat cel putin la
fel de extrem ca cel observat, presupunand ca ipoteza nula este adevarata. Valoarea P este cea mai mica valoare a nivelului de semnicatie pentru care ipoteza (H0 ) va trebui sa e respinsa, bazandu-ne pe observatiile culese. De exemplu, daca valoarea P este Pv = 0.04 atunci, bazandu-ne pe observatiile culese, vom respinge ipoteza (H0 ) la un nivel de semnicatie = 0.05 sau = 0.1, dar nu o putem respinge la un nivel de semnicatie = 0.02. Mai multe valori P pot obtinute pentru un test statistic. Asadar, decizia poate facuta prin observarea valorii P : daca aceasta este mai mica decat nivelul de semnicatie , atunci ipoteza nula este respinsa, iar daca P value este mai mare decat , atunci ipoteza nula nu poate respinsa. Cu cat valoarea P este mai mica, cu atat mai semnicativ este rezultatul testului.
Exerciiu 7.4
Un exemplu simplu de test este testul de sarcina. Acest test este, de fapt, o procedura
statistica ce ne da dreptul sa decidem daca exista sau nu suciente evidente sa concluzionam ca o sarcina este prezenta. Ipoteza nula ar lipsa sarcinii. Majoritatea oamenilor in acest caz vor cadea de acord cum ca un
false negative este mai grav decat un false positive.
Exerciiu 7.5
Sa presupunem ca suntem intr-o sala de judecata si ca judecatorul trebuie sa decida
daca un inculpat este sau nu vinovat. Are astfel de testat urmatoarele ipoteze:
(H0 ) (H1 )
inculpatul este nevinovat; inculpatul este vinovat.
Posibilele stari (asupra carora nu avem control) sunt: [1] [2]

inculpatul este nevinovat (H0 este adevarata si H1 este falsa); inculpatul este vinovat (H0 este falsa si H1 este adevarata)
Teoria deciziei
159
Deciziile posibile (asupra carora avem control putem lua o decizie corecta sau una falsa) sunt: [i] H0 [ii] H0
se respinge (dovezi suciente pentru a incrimina inculpatul); nu se respinge (dovezi insuciente pentru a incrimina inculpatul);
In realitate, avem urmatoarele posibilitati, sumarizate in tabelul 7.1:
Situatie reala Decizii Respinge H0 Accepta H0
H0 - adevarata
[1]&[i] [1]&[ii]
H0 - falsa
[2]&[i] [2]&[ii]
Table 7.1: Posibilitati decizionale.
Traducerile in romaneste ale acestora se gasesc in tabelul 7.2.
H0 - adevarata
inchide o persoana nevinovata elibereaza o persoana nevinovata
H0 - falsa
inchide o persoana vinovata elibereaza o persoana vinovata
Table 7.2: Decizii posibile.
Erorile posibile ce pot aparea sunt cele din tabelul 7.3.
160
H0 - adevarata
judecata corecta
H0 - falsa
judecata corecta
Table 7.3: Erori decizionale.
7.2 Tipuri de teste statistice

Tipul unui test statistic este determinat de ipoteza alternativa (H1 ). Avem astfel:
test unilateral stanga, atunci cand ipoteza alternativa este de tipul (H1 ) : < 0 ;
Figure 7.1: Regiune critica pentru test unilateral stanga.
test bilateral, atunci cand ipoteza alternativa este de tipul (H1 ) : = 0 ; test unilateral dreapta, atunci cand ipoteza alternativa este de tipul (H1 ) : > 0 ;
Asadar, pentru a construi un test statistic vom avea nevoi de o regiune critica. Pentru a construi aceasta regiune critica vom utiliza metoda intervalelor de incredere. Daca valoarea observata se aa in regiunea critica (adica in afara intervalului de incredere), atunci respingem ipoteza nula.
Teoria deciziei
161
Figure 7.2: Regiune critica pentru test bilateral.
Figure 7.3: Regiune critica pentru test unilateral dreapta.
7.3 Etapele unei testari parametrice

Colectam o selectie intamplatoare x1 , x2 , . . . , xn . Fie (X1 , X2 , . . . , Xn ) variabile aleatoare de
selectie;
Alegem o statistica (criteriu) S (X1 , X2 , . . . , Xn ) care, dupa acceptarea ipotezei (H0 ), aceasta
are o repartitie cunoscuta, independenta de parametrul testat;
Alegem un prag de semnicatie 1 1; Gasim regiunea critica U , care este complementara intervalului de incredere;
162
Calculam valoarea statisticii S (X1 , X2 , . . . , Xn ) pentru selectia considerata. Notam aceasta

valoare cu S0 ;
Luam decizia:

Daca S0 U , atunci ipoteza nula, (H0 ), se respinge; Daca S0 U , atunci ipoteza nula, (H0 ), se admite (mai bine zis, nu avem motive sa o respingem si o admitem pana la efectuarea eventuala a unui test mai puternic).
7.4 Testul cel mai puternic

Sa presupunem ca X este caracteristica unei colectivitati statistice ce urmeaza o lege de probabilitate
f (x; ), si avem de testat ipoteza nula (H0 ) vs. ipoteza alternativa (H1 ), cu probabilitatea de risc .
Deniia 7.6
Se spune ca testul bazat pe regiunea critica U este
cel mai puternic test
in raport cu
toate testele bazate pe regiunea critica U , la nivelul de semnicatie , daca sunt indeplinite urmatoarele conditii:
(a) (b)
P ((x1 , x2 , . . . , xn ) U | (H0 ) se admite) = ; U U .
(adica, dintre toate testele de nivel de semnicatie xat, cel mai puternit test este cel pentru care puterea testului este maxima). Regiunea U se numeste
regiunea critica cea mai buna.
Observaia 7.7
Nu intotdeauna exista un cel mai puternic test.
In cazul ipotezelor simple, Lema Neyman-Pearson ne confera un cel mai bun test. In cazul general, nu se poate construi un astfel de criteriu.
Lema 7.8 (Neyman-Pearson) Presupunem ca avem de testat ipoteza nula (H0 ) de mai sus, vs. ipoteza
alternativa
(H1 ) : = 1 ,
Teoria deciziei
163
la nivelul de semnicatie . Notam cu L(x; ) = L(x1 , x2 , . . . , xn ; ) functia de verosimilitate si e

S (x) = L(x; 1 ) . L(x; 0 )
Atunci regiunea U denita prin

U = {x Rn | S (x) c},
cu c astfel incat P (x U | (H0 ) adevarata) = , este cea mai buna regiune critica la nivelul de semnicatie .
Exerciiu 7.9
Fie x1 , x2 , . . . , xn valori de selectie pentru o caracteristica X N (, ), unde este
cunoscut. Dorim sa testam ipoteza nula:
(H0 ) :
versus ipoteza alternativa simpla
= 0
(H1 ) :
Functia de verosimilitate asociata selectiei este:
= 1 .
1 L(x1 , x2 , . . . , xn ; ) = n e n (2 ) 2
Calculand S (x), obtinem:
1 2 2
(xk )2
k=1
L(x; 1 ) S (x) = = L(x; 0 )
0 1
1 2
1 1 2 2 1 0
(xk )2
k=1
.
n
Utilizand Lema Neyman-Pearson, cel mai puternit test este bazat pe o regiune ce depinde de
n i=1
(xi )2 .
De asemenea, observam ca daca 1 > 0 , then S (x) este o functie crescatoare de

n i=1
(xi )2 . Asadar,
vom respinge ipoteza (H0 ) daca

i=1
(xi )2 este sucient de mare.
7.5 Testarea tipului de date din observatii

Pentru a putea efectua un test statistic in mod corect, este necesar sa stim care este tipul (tipurile) de date pe care le avem la dispoziti. Pentru anumite teste statistice (e.g., testul Z sau testul t, datele
164 testate trebuie sa e normal distribuite si independente. De multe ori, chiar si ipoteza ca datele sa e normal repartizate trebuie vericata. De aceea, se pune problema realizarii unei legaturi intre functia de repartitia empirica si cea teoretica (teste de concordanta). Vom discuta mai pe larg aceste teste de concordanta in sectiunea 7.7. In
Matlab sunt deja implementate unele functii ce testeaza daca datele sunt normal repartizate.
Functia normplot(X) reprezinta grac datele din vectorul X versus o repartitie normala. Scopul acestei functii este de a determina grac daca datele din observate sunt normal distribuite. Daca aceste date sunt selectate dintr-o repartitie normala, atunci acest grac va liniar, daca nu, atunci va un grac curbat. De exemplu, sa reprezentem cu normplot vectorii X si Y de mai jos. Gracele sunt cele din Figura 7.4.
X = normrnd(100,2,200,1); subplot(1,2,1); normplot(X) Y = exprnd(5,200,1); subplot(1,2,2); normplot(Y)
Figure 7.4: Reprezentarea normala a datelor.
Observam ca primul grac este aproape liniar, pe cand al doilea nu este. Putem astfel sa concluzionam ca datele date de X sunt normal repartizate (fapt conrmat si de modul cum le-am generat), iar datele din Y nu sunt normal repartizate. Functia chi2gof determina in urma unui test 2 daca datele observate sunt normal repartizate, la un
Teoria deciziei
nivel de semnicatie = 0.05. Astfel, comanda
165
h = chi2gof(x)
ne va furniza rezultatul h = 1, daca datele nu sunt normal repartizate, sau h = 0, daca nu putem respinge ipoteza ca datele observate sunt normal distribuite. Aplicand testul pentru X si Y de mai sus, obtinem h = 0, respectiv, h = 1.
7.6 Teste parametrice

7.6.1 Testul Z pentru o selecie
Testul Z bilateral
Fie caracteristica X ce urmeaza legea normala N (, ) cu necunoscut si > 0 cunoscut. Presupunem ca avem deja culese datele de selectie (observatiile) asupra lui X :
x1 , x2 , . . . , xn .
Dorim sa vericam ipoteza nula
(H0 ) :
vs. ipoteza alternativa
= 0
(H1 ) :
= 0 ,
cu probabilitatea de risc . Pentru a efectua acest test, consideram statistica (vezi 6.6.1)
Z=
X . n
(7.2)
Daca ipoteza (H0 ) se admite, atunci Z N (0, 1), (conform Propozitiei 5.23). Cautam un interval
(z1 , z2 ) astfel incat P (z1 < Z < z2 ) = 1 .

Gasim ca acest interval este intervalul de incredere obtinut in Sectiunea 6.6.1, adica: (7.3)
z1 , 2
z1 , 2
unde z este cuantila de ordin pentru repartitia N (0, 1). Denim regiunea critica pentru ipoteza nula (relativ la valorile statisticii Z ) ca ind acea regiune care
166 respinge ipoteza (H0 ) daca media apartine acelui interval. Stim ca un interval de incredere pentru
va contine valoarea reala 0 cu o probabilitate destul de mare, 1 . Este de asteptat ca regiunea

critica sa e complementara acestui interval, adica
U = z R; 1 unde u = n
n
z z1 , z1 2 2
}, = {z ; |z | > z1 2
(7.4)
uk . Astfel, U este acea regiune in care:

k=1
X > 0 + z1 2 n
si
. X < 0 z1 2 n
Notam cu z0 valoarea statisticii Z pentru observatia considerata. Decizia nala se face astfel:
daca z0
z1 , 2
, (echivalent, z0 U ), atunci admitem (H0 ) (pentru ca nu sunt z1 2
suciente dovezi sa o respingem).
daca z0 z1 , 2
dovezi sa o respingem).
, (echivalent, z0 U ), atunci respingem (H0 ) (exista suciente z1 2
Etapele testul Z bilateral

(1) (2) Se dau:
{x1 , x2 , . . . , xn },
0 ,
Determinam valoarea z1 astfel incat 2
z1 2
(3) Calculez valoarea
= z1 . 2
z0 =
(4) Daca:
x 0
n
(i) |z0 | < z1 , atunci (H0 ) este admisa (nu poate respinsa); 2 (ii) |z0 | z1 , atunci (H0 ) este respinsa (adica (H1 ) este admisa);
2
Testul Z unilateral
Teoria deciziei
In conditiile din sectiunea anterioara, dorim sa vericam ipoteza nula
167
(H0 ) :
= 0
(H1 )s :
sau ipoteza alternativa
< 0 ,
(unilateral stanga)
(H1 )d :
cu probabilitatea de risc .
> 0 ,
(unilateral dreapta)
Pentru a realiza testele, avem nevoie de denirea unor regiuni critice corespunzatoare. Acestea vor chiar intervalele de incredere pentru conditiile din ipotezele alternative (obtinute in Sectiunea 6.6.1). Cu alte cuvinte, o regiune critica pentru ipoteza nula (ceea ce semnica o regiune in care, daca ne aam, atunci respingem ipoteza nula la pragul de semnicatie ) este o regiune in care realizarea ipotezei alternative este favorizata. Daca ipoteza nula este vericata vs. ipoteza alternativa (H1 )s , atunci regiunea critica va regiunea acelor posibile valori ale statisticii Z pentru care (H1 )s se realizeaza cu probabilitatea 1 1, adica:
U = (, z1 ).
Intr-adevar, se observa cu usurinta ca:
(7.5)
P (z U ) = P ( < Z < z1 ) = (z1 ) = 1 .

In mod similar, daca avem ipoteza alternativa (H1 )d , atunci alegem regiunea critica:
U = (z1 , +).
La fel ca mai sus, testarea este (in ambele cazuri):
(7.6)
daca z0 = daca z0 =
x 0
n
U , atunci admitem (H0 ). U , atunci respingem (H0 ).
x 0
n
Observaia 7.10
Testul Z , bilateral sau unilateral, poate aplicat cu succes si pentru populatii
non-normale, daca volumul selectiei observate este n 30.
168
7.6.2
Testul Z pentru dou selecii
Fie X1 si X2 caracteristicile (independente) a doua populatii normale, N (1 , 1 ), respectiv, N (2 , 2 ), pentru care nu se cunosc mediile teoretice. Alegem din prima populatie o selectie repetata de volum
n1 , x1 = {x1 1 , x1 2 , . . . , x1 n1 }, ce urmeaza repartitia lui X1 , iar din a doua populatie alegem o selectie repetata de volum n2 , x2 = {x2 1 , x2 2 , . . . , x2 n2 }, ce urmeaza repartitia lui X2 . Fie (X1i )i=1, n1 ,
(X2j )j =1, n2 variabilele aleatoare de selectie corespunzatoare ecarei selectii. Fixam pragul de semnicatie . Dorim sa testam ipoteza nula ca mediile sunt egale
(H0 ) :
1 = 2
(H1 ) :
Pentru a testa aceasta ipoteza, alegem statistica
1 = 2 ,
Z=
(X1 X2 ) (1 2 )
2 1 2 + 2 n1 n2
(7.7)
Daca (H0 ) este admisa (adica admitem ca 1 = 2 ), atunci (vezi (6.27)):
Z N (0, 1).
Fie z =
(7.8)
(u1 u2 )
2 1 n1
2 2 n2
. Regiunea critica pentru ipoteza nula, exprimata in valori ale statisticii Z este:
U =
z;
z z1 , z1 2 2
Daca valoarea statisticii Z pentru selectiile date nu se aa in U , atunci admitem (H0 ). Daca valoarea statisticii Z pentru selectiile date se aa in U , atunci respingem (H0 ).
Etapele testul Z pentru doua selecii

(1) (2) Se dau:
{x1 1 , x1 2 , . . . , x1 n1 },
{x2 1 , x2 2 , . . . , x2 n2 },
0 ,
Determinam valoarea z1 astfel incat, functia lui Laplace, 2
z1 2
= z1 . 2
Teoria deciziei
169
z0 =
x1 x2
2 1 n1
2 2 n2
(4)
Daca: (i) |z0 | < z1 , atunci 1 = 2 ;

2
(ii) |z0 | z1 , atunci 1 = 2 .

2
Observaia 7.11
(1) In cazul in care 1 , 2 sunt necunoscute, atunci utilizam testul t pentru doua
selectii, prezentat mai jos. (2) Regiunile critice pentru testele unilaterale sunt prezentate in tabelul 7.5.
7.6.3
Testul Z in
Matlab
Matlab utilizand comanda
Testul Z pentru o selectie poate simulat in
[h, p, ci, zval] = ztest(X,m0,sigma,alpha,tail)

unde:
h este rezultatul testului. Daca h = 1, atunci ipoteza nula se respinge, daca h = 0, atunci ipoteza
nula nu poate respinsa pe baza observatiilor facute (adica, se admite, pana la un test mai puternic);
p este valoarea P (P value); ci este un interval de incredere pentru , la nivelul de semnicatie ; zval este valoarea statisticii Z pentru observatia considerata; X este un vector sau o matrice, continand observatiile culese. Daca X este matrice, atunci mai
multe teste Z sunt efectuate, de-alungul ecarei coloane a lui X;
m0 = 0 , valoarea testata; sigma este deviatia standard teoretica a lui X , a priori cunoscuta; alpha este nivelul de semnicatie;
170
tail poate unul dintre urmatoarele siruri de caractere:
'both', pentru un test bilateral (poate sa nu e specicata, se subantelege implicit); 'left', pentru un test unilateral stanga ( < 0 ); 'right', pentru un test unilateral dreapta ( > 0 ); Observaia 7.12
(1) Pentru efectuarea testului, nu este neaparat necesar sa asam toate cele 4
variabile din membrul stang. Putem asa doar 3, 2, sau o variabila, dupa preferinte, dar doar in ordinea precizata. De exemplu, comanda
h = ztest(X,m0,sigma,alpha,tail)
ne va furniza doar rezultatul testului, fara a asa alte variabile. (2) Nu exista o functie in
Matlab care sa efectueze testul Z pentru doua selectii.
7.6.4
Testul t pentru o selecie
Fie caracteristica X ce urmeaza legea normala N (, ) cu necunoscut si > 0 necunoscut. Consideram datele de selectie (observatiile) asupra lui X :
x1 , x2 , . . . , xn .
Vrem sa vericam ipoteza nula
(H0 ) :
= 0
(H1 ) :
= 0 ,
cu probabilitatea de risc . Pentru a efectua acest test, consideram statistica (vezi 6.6.1)
T =
X . d (X ) n
(7.9)
Daca ipoteza (H0 ) se admite (adica ia valoarea 0 ), atunci T t(n 1), (conform Propozitiei 5.38). Cautam un interval (t1 , t2 ) astfel incat
P (t1 < T < t2 ) = 1 .
(7.10)
Teoria deciziei
si gasim ca acest interval este intervalul de incredere obtinut in Sectiunea 6.6.2, adica:
171
t1 ; n1 , t1 ; n1 , 2 2
unde t; n reprezinta cuantila de ordin pentru repartitia t(n). Regiunea critica este complementara intervalului de incredere. Decizia:
daca t0 =
x 0
d (X ) n
t1 ; n1 , t1 ; n1 (echivalent, t0 U ), atunci admitem (H0 ). 2 2 t1 ; n1 , t1 ; n1 (echivalent, t0 U ), atunci respingem (H0 ). 2 2
daca t0 =
x 0
d (X ) n
Etapele testul t bilateral

(1) (2) Se dau:
{x1 , x2 , . . . , xn },
2
0 ,
Determinam valoarea t1 ; n1 astfel incat functia de repartitie pentru t(n 1),
Fn1 t1 ; n1 = t1 ; n1 . 2 2
t0 =
x 0
d (X ) n
aici, d (X ) =
1 n1
(xi x)2 .
k=1
(4)
Daca: (i) |t0 | < t1 ; n1 , atunci (H0 ) este admisa (nu poate respinsa); 2 (ii) |t0 | t1 ; n1 , atunci (H0 ) este respinsa (adica (H1 ) este admisa); 2
Testul t unilateral
In conditiile de mai sus, dorim sa vericam ipoteza nula
(H0 ) :
= 0
(H1 )s :
< 0 ,
(unilateral stanga)
172 sau ipoteza alternativa
(H1 )d :
cu probabilitatea de risc .
> 0 ,
(unilateral dreapta)
Pentru a realiza testele, avem nevoie de regiuni critice corespunzatoare. Regiunea critica pentru ipoteza nula va trebui sa e multimea valorilor favorabile realizarii ipotezei alternative, adica este acel interval ce contine doar valori ale statisticii T ce vor duce la respingerea ipotezei nule si acceptarea ipotezei altrnative. Asadar, daca alegem ipoteza alternativa (H1 )s , atunci regiunea critica pentru ipoteza nula va multimea valorilor favorabile realizarii ipotezei alternative
(H1 )s , adica intervalul: U = (, t1; n1 ).

Daca alegem ipoteza alternativa (H1 )d , atunci regiunea critica pentru ipoteza nula va : (7.11)
U = (t; n1 , +).
La fel ca mai sus, testarea este (in ambele cazuri):
(7.12)
daca t0 =
x 0
d (X ) n
U , atunci admitem (H0 ).
daca t0 =
x 0
d (X ) n
U , atunci respingem (H0 ).
Alti parametri
(H0 ) : (H1 )
= 0
Regiunea critica
Tipul testului Testul Z bilateral Testul Z unilateral stanga Testul Z unilateral dreapta Testul t bilateral Testul t unilateral stanga Testul t unilateral dreapta
cunoscut
= 0 < 0 > 0
, z1 2
z1 , + 2
(, z1 ) (z1 , +) , t1 ; n1 2 t1 ; n1 , + 2
necunoscut
= 0 < 0 > 0
(, t1; n1 ) (t1; n1 , +)
Table 7.4: Teste pentru valoarea medie a unei colectivitati.
Teoria deciziei
173
7.6.5
Testul t pentru dou selecii
(X2j )j =1, n2 variabilele aleatoare de selectie corespunzatoare ecarei selectii. Fixam pragul de semnicatie . Dorim sa testam ipoteza nula ca mediile sunt egale
(H0 ) :
1 = 2
(H1 ) :
1 = 2 ,
Sa presupunem ca 1 = 2 sunt necunoscute. Pentru a testa aceasta ipoteza, alegem statistica
T =
(X1 X2 ) (1 2 ) d2 d2 1 + 2 n1 n2
(7.13)
Daca (H0 ) este admisa (adica admitem ca 1 = 2 ), atunci (vezi relatia (6.27)):
T t(N ),
(7.14)
cu N ca in relatia (6.28). Regiunea critica este complementara intervalului de incredere pentru diferenta mediilor, adica:
U = R \ t1 ; N , t1 ;N . 2 2
Etapele testul t pentru dou selecii

(1) (2) Se dau:
{x1 1 , x1 2 , . . . , x1 n1 },
{x2 1 , x2 2 , . . . , x2 n2 },
0 ,
Determinam valoarea t1 ; N astfel incat functia de repartitie pentru t(N ), 2
FN t1 ; N = t1 ; N. 2 2
t0 =
x1 x2
d2 1 n1
d2 2 n2
174 (4) Daca: (i) |t0 | < t1 ; N , atunci 1 = 2 ; 2 (ii) |t0 | t1 ; N , atunci 1 = 2 . 2
Observaia 7.13
(1) In cazul in care 1 = 2 si necunoscute, atunci utilizam statistica data de (6.26),
cu ajutorul careia construim regiunea critica si apoi decidem care ipoteza se respinge. (2) In cazul in care dispersiile sunt cunoscute, atunci se utilizeaza testul Z pentru diferenta mediilor, care urmeaza pasii testului t pentru diferenta mediilor, cu diferenta ca statistica ce se considera este data de (6.25) care, dupa acceptarea ipotezei nule, urmeaza repartitia N (, ).
Alti parametri
(H0 ) : (H1 )
1 = 2
Regiunea critica
Tipul testului
1 , 2
cunoscute
1 = 2 1 < 2 1 > 2
|X1 X2 | > z1 2 X1 X2 < z1 X1 X2 > z1 |X1 X2 | > t1 ;N 2 X1 X2 < t1; N X1 X2 > t1; N
2 1 n1 2 1 n1
+ +
2 2 n2
Testul Z bilateral Testul Z unilateral stanga Testul Z unilateral dreapta Testul t bilateral Testul t unilateral stanga Testul t unilateral dreapta
2 2 n2 2 2 n2
2 1 n1
1 = 2
necunoscute
1 = 2 1 < 2 1 > 2
d2 (X1 ) n1 d2 (X1 ) n1
d2 (X2 ) n2
d2 (X2 ) n2 d2 (X2 ) n2
d2 (X1 ) n1
Table 7.5: Teste pentru egalitatea a doua medii.
7.6.6
Testul t in
Matlab
Matlab utilizand comanda generala
Pentru o selecie
Testul t poate simulat in
[h, p, ci, stats] = ttest(X,m0,alpha,tail)

unde:
h, p, ci, m0, alpha, tail sunt la fel ca in functia ztest (Sectiunea 7.6.3); variabila stats inmagazineaza urmatoarele date:
Teoria deciziei
175 pentru observatia considerata;
tstat - este valoarea statisticii T
df - numarul gradelor de libertate ale testului; sd - deviatia standard de selectie; Exerciiu 7.14
Dorim sa testam daca o anumita moneda este corecta, adica sansele ecarei fete de
a apare la orice aruncare sunt 50% 50%. Aruncam moneda in caza de 100 de ori si obtinem fata cu stema de exact 59 de ori. Pe baza acestei experiente, cautam sa testam ipoteza nula zarul este corect
(H0 ) :
(H1 ) :
la un prag de semnicatie = 0.05.
zarul este msluit,
Fie X variabila aleatoare ce reprezinta fata ce apare la o singura aruncare a monedei. Sa
spunem ca X = 1, daca apare fata cu stema si X = 0, daca apare fata cu banul. Teoretic, X B (1, 0.5), de unde E(X ) = D 2 (X ) = 0.5. Prin ipoteza, ni se da o selectie de volum n = 100 si scriem observatiile facute intr-un vector x ce contine 59 de valori 1 si 41 de valori 0. Deoarece n = 100 > 30, putem utiliza testul t pentru o selectie. Rescriem ipotezele (H0 ) si (H1 ) astfel:
(H0 ) : (H1 ) :
= 0.5
= 0.5.
Daca {X1 , X2 , . . . , Xn } sunt variabilele aleatoare de selectie, atunci alegem statistica
T =
X
d (X ) n
Daca ipoteza (H0 ) se admite, atunci este xat, = 0.5, si statistica T t(n 1). Valoarea acestei statistici pentru selectia data este:
t0 =
x
d (X ) n
= 1.8207.
176 Din t1 ; n1 = t0.975; 99 = 1.9842, rezulta ca |t0 | < t1 ; n1 , si decidem ca ipoteza (H0 ) este admisa 2 2 (nu poate respinsa la nivelul de semnicatie ). Codul
Matlab pentru calculul analitic de mai sus este urmatorul:

n=100; mu = 0.5; alpha = 0.05; x = [ones(59,1); zeros(41,1)]; t0 = (mean(x) - mu)/(std(x)/sqrt(n)); tc = tinv(1-alpha/2, n-1); if (abs(t0) < tc) disp('moneda este corecta') else disp('moneda este masluita') end % cuantila
Ruland codul, obtinem rezultatul:
moneda este corecta

In loc sa folosim codul de mai sus, am putea folosi functia ttest din
Matlab, dupa cum urmeaza:
[h, p, ci, stats] = ttest(X,0.5,0.05,'both')

si obtinem
h = 0
p = 0.0717
ci = 0.4919 0.6881
stats = tstat: 1.8207 df: 99 sd: 0.4943
Observaia 7.15
(1) Deoarece P valoarea este p = 0.0717, deducem ca la un prag de semnicatie
= 0.08, ipoteza nula ar fost respinsa.

(2) Daca dintre cele 100 de observari aveam o aparitie in plus a stemei, atunci ipoteza nula ar respinsa, adica moneda ar catalogata masluita.
Pentru dou selecii
Teoria deciziei
Testul t pentru egalitatea a doua medii poate simulat in
177
[h, p, ci] = ttest2(X,Y,alpha,tail)

unde
h, p, ci, alpha si tail sunt la fel ca in Sectiunea 7.6.3; X si Y sunt vectori sau o matrice, continand observatiile culese. Daca ele sunt matrice, atunci
mai multe teste Z sunt efectuate, de-alungul ecarei coloane;
Exerciiu 7.16
Caracteristicile X1 si X2 reprezinta notele obtinute de studentii de la Master M F 08,
respectiv, M F 09 la examenul de Statistica Aplicata. Conducerea universitatii recomanda ca aceste note sa urmeze repartitia normala si examinatorul se conformeaza dorintei de sus. Presupunem ca
X1 N (1 , 1 ) si X2 N (2 , 2 ), cu 1 = 2 , necunoscute a priori. Pentru a verica modul cum

s-au prezentat studentii la acest examen in doi ani consecutivi, selectam aleator notele a 25 de studenti din prima grupa si 30 de note din a doua grupa. Am gasit urmatoarele distributii de frecvente ale notelor: Frecventa absoluta Grupa M F 08 Grupa M F 09
Nota obtinuta
5 6 7 8 9 10
3 4 9 7 2 0
Table 7.6: Tabel cu note.
5 6 8 6 3 2
(i) Vericati daca ambele seturi de date provin dintr-o repartitie normala; (ii) Gasiti un interval de incredere pentru diferenta mediilor, la nivelul de semnicatie = 0.05; (ii) Sa se testeze (cu = 0.01) ipoteza nula
(H0 ) : 1 = 2 , (in medie, studentii sunt la fel de buni)
178 versus ipoteza alternativa
(H1 ) :
1 < 2 ,
(in medie, studentii au note din ce in ce mai mari)

(ii)
(i)
h = chi2gof(u);
k = chi2gof(v);
Un interval de incredere la acest nivel de semnicatie se obtine apeland functia
Matlab
[h,p,ci,stats]=ttest2(u,v,0.05,'both')
si este:
(-0.7455, 0.6922)
Altfel, se calculeaza intervalul de incredere (vezi Tabelul 6.1)
x1 x2 t1 ; N 2
d2 1 n1
d2 2 n2
x1 x2 + t1 ;N 2
d2 1 n1
d2 2 n2
Codul
Matlab:
n1=25; n2=30; alpha = 0.05; u = [5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)] v = [5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)]; d1 = var(u); d2 = var(v); N = (d1/n1+d2/n2)^2/((d1/n1)^2/(n1-1)+(d2/n2)^2/(n2-1))-2; t = tinv(1-alpha/2,N); m1 = mean(u)-mean(v)-t*sqrt(d1/n1+d2/n2); m2 = mean(u)-mean(v)+t*sqrt(d1/n1+d2/n2); fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);
(iii)
[h,p,ci,stats] = ttest2(u,v,0.01,'right')
In urma rularii codului, obtinem:
h = 0
p = 0.5295
ci = -0.8864 Inf
stats = tstat: -0.0744 df: 53 sd: 1.3234
Teoria deciziei
179
7.6.7
Testul 2 pentru dispersie
Fie caracteristica X ce urmeaza legea normala N (, ) cu si > 0 necunoscute. Consideram datele de selectie (observatiile) asupra lui X :
x1 , x2 , . . . , xn .
Vrem sa vericam ipoteza nula
(H0 ) :
2 2 = 0
(H1 ) :
2 2 = 0 ,
cu probabilitatea de risc . Pentru a efectua acest test, consideram statistica (vezi Sectiunea 6.6.5)
2 =
n1 2 d (X ), 2
(7.15)
2 ), atunci 2 2 (n 1), (conform care, dupa acceptarea ipotezei (H0 ) (adica 2 ia valoarea 0
Propozitiei (5.35). Intervalului de incredere pentru 2 (obtinut in Sectiunea 6.6.5) este

2 2 ; n1 , 1 ; n1 ,
2 2
2 unde 2 ; n1 este cuantila de ordin pentru repartitia (n).
Regiunea critica U va complementara acestui intervalul de incredere.

2 Sa notam prin 2 0 valoarea statisticii pentru selectia data. Atunci, regula de decizie este urmatoarea: 2 2 2 2 daca 2 0 ; n1 , 1 ; n1 , atunci admitem (H0 ) (i.e., = 0 );
2 2
2 2 2 2 daca 2 0 ; n1 , 1 ; n1 , atunci respingem (H0 ) (i.e., = 0 ).

2 2
Observaia 7.17
Se pot considera, dupa caz, si ipotezele alternative unilaterale
(H1 )s :
2 2 < 0
si
(H1 )d :
2 2 > 0 .
Regiunile critice (pe baza carora se pot face decizii) pentru acestea se gasesc in Tabelul 7.7.
2 2 = 0
(H0 ) : (H1 )
necunoscut
2 2 = 0 2 2 < 0 2 2 > 0
2
Regiunea critica
Tipul testului Testul 2 bilateral Testul 2 unilateral stanga Testul 2 unilateral dreapta
, 2 ; n1
2 1 ; n1 , +
2
, 2 1; n1 2 ; n1 , +
180
Table 7.7: Teste pentru dispersie.
Exerciiu 7.1
Se cerceteaza caracteristica X, ce reprezinta diametrul pieselor (in mm) produse de un
strung. Stim ca X urmeaza legea normala N (, ). Alegem o selectie de volum n = 11, si obtinem distributia empirica:
2 3 5 1
10.50 10.55 10.60 10.65 .

Sa se testeze (cu = 0.01) ipoteza nula
(H0 ) :
versus ipoteza alternativa
2 = 0.003,
(H1 ) :
2 = 0.003.
7.6.8
Testul 2 in
Matlab
Testul 2 poate simulat in
[h, p, ci, stats] = vartest(X,var,alpha,tail)

unde:
h, p, ci, m0, alpha, stats, tail sunt la fel ca in functia ttest (Sectiunea 7.6.6); var este valoarea testata a dispersiei;
7.6.9
Testul F pentru raportului dispersiilor
Teoria deciziei
181
(X2j )j =1, n2 variabilele aleatoare de selectie corespunzatoare ecarei selectii. Fixam pragul de semnicatie . Dorim sa testam ipoteza nula ca dispersiile sunt egale
(H0 ) :
2 2 1 = 2
(H1 ) :
Pentru a testa aceasta ipoteza, alegem statistica
2 2 1 = 2 .
F =
2 = 2 ), atunci: Daca (H0 ) este admisa (adica 1 2
2 d2 (X ) 2 1 2 d2 (X ) . 1 2
(7.16)
F F (n1 1, n2 1)
Intervalul de incredere pentru raportul dispersiilor este
(repartitia Fisher).
(7.17)
f ; n1 1, n2 1 , 2
si se determina a.i.
f1 ; n1 1, n2 1 2
P f ; n1 1, n2 1 F f1 ; n1 1, n2 1 = 1 2 2
Extremitatile intervalului se determina din relatiile
Fn1 1; n2 1 f ; n1 1, n2 1 = 2
si
Fn1 1; n2 1 f1 ; n1 1, n2 1 = 1 2
. 2
(f; n1 1, n2 1 este cuantila de ordin pentru repartitia Fisher F (n1 1, n2 1)). Regiunea critica U este complementara intervalului de incredere pentru raportul dispersiilor. Notam prin F0 valoarea lui F pentru observatiile date, x1 si x2 . Avem:
F0 =
Regula de decizie este:
2 d2 (x ) 2 1 2 d2 (x ) . 1 2
daca F0 f ; n1 1, n2 1 , f1 ; n1 1, n2 1 , atunci admitem (H0 ) (i.e., 1 = 2 ); 2 2 daca F0 f ; n1 1, n2 1 , f1 ; n1 1, n2 1 , atunci respingem (H0 ) (i.e., 1 = 2 ). 2 2
Observaia 7.18
Se pot considera, dupa caz, si ipotezele alternative unilaterale
(H1 )s :
2 2 1 < 2 ,
si
(H1 )d :
2 2 1 > 2 .
Regiunile critice (pe baza carora se pot face decizii) pentru acestea se gasesc in Tabelul 7.8.
182
(H0 ) : (H1 ) 1 , 2
necunoscute
2 = 2 1 2 2 < 2 1 2 2 > 2 1 2
2 = 2 1 2
Regiunea critica
Tipul testului Testul F bilateral Testul F unilateral stanga Testul F unilateral dreapta
, f ; n1 1, n2 1 2
f1 ; n1 1, n2 1 , + 2
(, f1; n1 1, n2 1 ) (f1; n1 1, n2 1 , +)
Table 7.8: Teste pentru raportul dispersiilor.
Testul F n
Matlab
[h, p, ci, stats] = vartest2(X,Y,alpha,tail)
Testul raportului dispersiilor poate simulat in
unde variabilele sunt la fel ca in functia ttest2 (Sectiunea 7.6.6).
7.6.10
Testul raportului verosimilitatilor
Testul raportului verosimilitatilor (en., likelihood-ratio test) este un test statistic ce va decide intre doua ipoteze, bazandu-se pe raportul verosimilitatilor. Sa presupunem ca X este caracteristica unei colectivitati statistice ce urmeaza o lege de probabilitate
f (x; ), cu parametru necunoscut si e A0 A multimi masurabile. Dorim sa testam ipoteza nula (H0 ) : A0 ,
(H1 ) : A \ A0 ,
la un nivel de semnicatie . ipoteze. Consideram o selectie repetata de volum n asupra caracteristicii X si e X1 , X2 , . . . , Xn v.a. de selectie. Construim statistica: De notat ca distributia f (x, ) este complet specicata in ambele
sup L(X1 , X2 , . . . , Xn ; ) = (X1 , X2 , . . . , Xn ; ) =

A0
sup L(X1 , X2 , . . . , Xn ; )
A
Teoria deciziei
183
Evident, (0, 1). Uneori, forma de mai sus pentru este fractia inversata. Sub forma de aici, raportul verosimilitatilor este mare daca ipoteza nula este mai buna decat ipoteza alternativa iar testul raportului verosimilitatilor respinge ipoteza nula daca depaseste o anumita valoare. Denim regiunea critica U astfel incat
P ( ; H0 admis) = .
(Valoarea reprezinta cuantila de ordin pentru statistica .) Regula de decizie este urmatoarea:
Daca < , atunci ipoteza (H0 ) se respinge; Daca > , atunci ipoteza (H0 ) se admite (sau, nu poate respinsa la acest nuvel de semnicatie);
7.6.11
Tabel cu teste parametrice in
Matlab
Descriere Test pentru , cand cunoscut Funcia
Nume test testul Z (o selecie) testul Z (2 selecii) testul t (o selecie) testul t (2 selecii) testul 2 (o selecie) testul F (2 selecii)
Statistica
Matlab
ztest
Z=
X
n
N (0, 1)
X N (, ), sau X oarecare (n 30) N (0, 1)

Test pt 1 2 , cand 1 , 2 cunoscute
(X1 X2 ) (1 2 )
2 1 n1
2 2 n2
X1 , X2 N (, ), independente
Test pentru , cand necunoscut
X
d (X ) n
t(n 1)
X N (, ), sau X oarecare (n 30)

d2 (X2 ) n2
ttest
(X1 X2 ) (1 2 )
d2 (X1 ) n1
t(N )
Test pt 1 2 , cand 1 = 2 necunoscute
Test pentru 2 , cand necunoscut
ttest2
n1 2 d (X ) 2 (n 1) 2
2 d2 2 1 Fn1 1, n2 1 2 d2 1 2
X N (, ), sau X oarecare (n 30)

Test pt 1 /2 , 1 , 2 necunoscute
vartest
vartest2
Table 7.9: Tabel cu teste parametrice.
184
7.7 Teste de concordanta

7.7.1 Testul 2 de concordan
Acest test de concordanta poate utilizat ca un criteriu de vericare a ipotezei potrivit careia un ansamblu de observatii urmeaza o repartitie data. Se aplica la vericarea normalitatii, a exponentialitatii, a caracterului Poisson, a caracterului Weibull etc. Testul mai este numit si
testul 2 al lui
Pearson sau testul 2 al celei mai bune potriviri (en., goodness of t test).
Cazul neparametric
Consideram caracteristica X ce urmeaza a studiata, ce are legea de probabilitate data de f (x, ), unde R este un parametru. Se testeaza concordanta legii empirice cu legea teoretica f (x, ). Etapele testului 2 de concordanta sunt:
Descompunem multimea observatiilor asupra lui X (adica, X ()) in clase, astfel:

k
X () =
i=1
Oi ,
Oi
Oj = , i = j.
k
Se inregistreaza numerele ni de observatii ce apartin ecarei clase Oi . Evident,

i=1
ni = n.
Se doreste ca ni 5, pentru ca testul sa e concludent. In cazul in care numarul de aparitii intr-o anumita clasa nu depaseste 5, atunci se vor cumula doua sau mai multe clase, astfel incat in noua clasa sa e respectata conditia. In acest caz, trebuie tinut cont de modicarea numarului de clase, iar numarul k trebuie modicat corespunzator (il inlocuim cu noul numar, notat aici tot cu k ).
Formulam ipoteza nula (H0 ) : pi = p0 i, (i = 1, 2, . . . , k ),
unde pi este probabilitatea unei observatii de a apartine clasei i si p0 i sunt valori specicate. Daca
p0 i nu sunt cunoscute, atunci ele vor trebui estimate mai intai (vezi cazul parametric de mai jos). Alegem statistica
k
2 =
i=1
(ni n pi )2 . n pi
(7.18)
Teoria deciziei
185
(Valorile ni reprezinta numarul de valori observate in clasa i iar n pi este numarul estimat de valori ale repartitiei cercetate ce ar cadea in clasa i. Astfel, ecare dintre termenii
(ni npi )2 npi
poate
privit ca ind o eroare relativa de aproximare a valorilor asteptate ale repartitiei cu valorile observate.) Statistica 2 urmeaza repartitia 2 (k 1). Uneori, statistica =
2 se numeste discrepanta.
Alegem nivelul de semnicatie , de regula, foarte apropiat de zero. Alegem regiunea critica pentru 2 ca ind regiunea pentru care valoarea acestei statistici pentru
observatiile date satisface
2 2 0 > 1; k1 , 2 unde 2 1; k1 este cuantila de ordin 1 pentru repartitia (k 1.
Daca ne aam in regiunea critica, atunci ipoteza nula (H0 ) se respinge la nivelul de semnicatie . Altfel, nu sunt dovezi statistice suciente sa se respinga.
Exerciiu 7.19
Se arunca un zar de 60 de ori si se obtin rezultatele din Tabelul 7.10. Sa se decida,
la nivelul de semnicatie = 0.02, daca zarul este corect sau fals. Faa Frecvena absoluta
1 2 3 4 5 6
15 7 4 11 6 17
Table 7.10: Tabel cu numarul de puncte obtinute la aruncarea zarului.

este
Aplicam testul 2 de concordanta, cazul neparametric. Clasele sunt i, i = 1, 6. Ipoteza nula
1 (H0 ) : pi = , 6
(i = 1, 2, . . . , 6),
186 cu ipoteza alternativa:
1 (H1 ) : Exista un j, cu pj = , 6
(j {1, 2, . . . , 6}).
Calculez valoarea statisticii 2 data de (7.18) pentru observatiile date:
2 0 =
(15 10)2 (7 10)2 (4 10)2 (11 10)2 (6 10)2 (17 10)2 + + + + + 10 10 10 10 10 10 = 13.6.
Repartitia statisticii 2 data de (7.18) este 2 cu k 1 = 5 grade de libertate. Regiunea critica este:
U = (2 0.98; 5 ; +) = (13.3882, +).

Deoarece 2 0 se aa in regiunea critica, ipoteza nula se respinge la nivelul de semnicatie = 0.02, asadar zarul este fals.
Observaia 7.20
Daca nivelul de semnicatie este ales = 0.01, atunci 2 0.99; 5 = 15.0863, ceea ce
determina acceptarea ipotezei nule (adica zarul este corect) la acest nivel. Codul
Matlab:
k=6; alpha = 0.02; x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); chi2 = sum((f-60*p).^2)./(60*p)); val = chi2inv(1-alpha,k-1); H=(chi2 > val)
Cazul parametric
a priori
Acest caz apare atunci cand probabilitatile pi nu sunt
cunoscute si trebuie estimate. Fiecare
estimare ne va costa un grad de libertate. Sa presupunem ca legea de probabilitate a lui X de mai sus este f (x, ), unde = (1 , 2 , . . . , p ) Rp sunt parametri necunoscuti. Folosim obsrvatiile culese asupra lui X sa aproximam acesti parametri (de exemplu, prin metoda verosimilitatii maxime). Ipoteza nula va aici:
(H0 ) : pi = p i ,
(i = 1, 2, . . . , k ),
unde pi este probabilitatea unei observatii de a apartine clasei i si p i sunt valorile estimate. Odata parametrii estimati, etapele testului in cazul parametric sunt cele de mai sus, cu deosebirea ca statistica 2 data prin (7.18) urmeaza repartitia 2 cu (k p 1) grade de libertate. (se pierd p grade de
Teoria deciziei
libertate din cauza folosirii observatiilor date pentru estimarea celor p parametri necunoscuti).
187
Etapele aplicarii testului 2 de concordanta (parametric)
Se dau ,
x1 , x2 , . . . , xn ,
1 , 2 , . . . , p ); F (x;
2 Determinam intervalul (0, 2 1; kp1) , unde 1; kp1 este cuantila de ordin 1 pentru
repartitia 2 cu (k p 1);
1 , 2 , . . . , p ; Determinam estimarile de verosimilitate maxima ,

i=1
xi Determinam distributia empirica de selectie (tabloul de frecvente), X : ni 1 , 2 , . . . , p ) F (ai1 ; 1 , 2 , . . . , p ); Se calculeaza p i = F (ai ;

k
ni = n;
i=1, n
Se calculeaza 2 0 =
i=1
(ni n p i )2 ; np i
2 Daca 2 0 < 1; kp1 , atunci acceptam (H0 ), altfel o respingem.
Exerciiu 7.21
La campionatul mondial de fotbal din 2006 au fost jucate in total 64 de meciuri,
numarul de goluri inscrise intr-un meci avand tabelul de distributie 7.11. Determinati (folosind un nivel de semnicatie = 0.05) daca numarul de goluri pe meci urmeaza o distributie Poisson.
Aplicam testul 2 neparametric. Fie X variabila ce reprezinta numarul de goluri inscrise pe
meci. Atunci, X ia una dintre valorile {0, 1, 2, 3, 4, 5, 6}, cu frecventele respective din tabel. In totat au fost inscrise 144 de goluri, deci numarul de goluri pe meci este estimat de media de goluri pe meci,
=x=
144 64
= 2.25.
Avem astfel de testat ipoteza nula:
(H0 )
). X urmeaza o lege Poisson P (
(H1 )
). X nu urmeaza o lege Poisson P (
188
Nr. de goluri pe meci
Nr. de meciuri
0 1 2 3 4 5 6
8 13 18 11 10 2 2
Table 7.11: Tabel cu numarul de goluri pe meci la FIFA WC 2006.
Din punct de vedere teoretic, daca X este o variabila aleatoare Poisson, atunci multimea tuturor valorilor sale este multimea numerelor naturale, N. Daca admitem ipoteza (H0 ) (adica X P (2.25),
) si tabloul de distributie a valorilor variabilei este: Deoarece pentru ultimele doua atunci pi = pi (
Clasa
ni 8 13 18 11 10 2 2 4
pi 0.1054 0.2371 0.2668 0.2001 0.1126 0.0506 0.0274 0.0780
n pi 6.7456 15.1775 17.0747 12.8060 7.2034 3.2415 1.7514 4.9926
n1 n pi n pi 0.2333 0.3124 0.0501 0.2547 1.0857 0.1973
0 1 2 3 4 5 6 5
Table 7.12: Tablou de distributie pentru P (2.25).
clase din tabelul 7.12, X = 5 si X 5, numerele n pi nu depasesc 5, le stergem din tabel si le unim intr-o singura clasa, in care X 5, cu n pi = 4.9926 5. Ipoteza nula (H0 ) se poate rescrie astfel:
(H0 ) : p0 = 0.1054, p1 = 0.2371, p2 = 0.2668, p3 = 0.2001, p4 = 0.1126, p5 = 0.0780.
Teoria deciziei
Ipoteza alternativa este
189
(H1 ) ipoteza (H0 ) nu este adevarata.

Calculam acum valoarea statisticii 7.18 pentru observatiile date:
2 0 = +
(8 6.7456)2 (13 15.1775)2 (18 17.0747)2 (11 12.8060)2 + + + + ... 6.7456 15.1775 17.0747 12.8060 (10 7.2034)2 (4 4.9926)2 + = 2.1336. 7.2034 4.9926
Deoarece avem 6 clase si am estimat parametrul numarul gradelor de libertate este 6 1 1 = 4.

2 Cuantila de referinta (valoarea critica) este 2 0.95; 4 = 9.4877. Regiunea critica pentru este intervalul 2 2 (2 0.95; 4 , +). Deoarece 0 < 0.95; 4 , urmeaza ca ipoteza nula (H0 ) nu poate respinsa la nivelul de
semnicatie . Asadar, este rezonabil sa armam ca numarul de goluri marcate urmeaza o repartitie Poisson.
Observaia 7.22
Daca ipoteza nula este respinsa, atunci motivul poate acela ca unele valori ale
valorilor asteptate au deviat prea mult de la valorile asteptate. In acest caz, este interesant de observat care valori sunt extreme, cauzand respingerea ipotezei nule. Putem deni astfel
reziduurile
standardizate:
ri = Oi n pi n pi (1 pi ) = Oi Ei Ei (1 pi ) ,
unde prin Oi am notat valorile observate si prin Ei valorile asteptate. Daca ipoteza nula ar adevarata, atunci ri N (0, 1). In general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observate extreme.
7.7.2
Testul de concordanta Kolmogorov-Smirnov
Acest test este un test de contingenta utilizat in compararea unor observatii date cu o repartitie cunoscuta (testul K-S cu o selectie) sau in compararea a doua selectii (testul K-S pentru doua selectii). De fapt, este cuanticat distanta dintre functia de repartitie empirica a selectiei si functia de repartitie pentru repartitia testata, sau distanta intre doua functii de repartitie empirice. Testul KolmogorovSmirnov cu doua selectii este unul dintre cele mai utile teste de contingenta pentru compararea a doua selectii. In ecare caz, repartitiile considerate in ipoteza nula sunt repartitii de tip continuu. Testul Kolmogorov-Smirnov este bazat pe rezultatul Teoremei 5.20.
190
Testul K-S pentru o selectie
Acest test este mai puternic decat testul 2 , in cazul in care ipotezele testului sunt satisfacute. Sa presupunem ca ne sunt date un set de date statistice si urmarim sa stabilim repartitia acestor date. Mai intai, cautam sa stabilim ipoteza nula, de exemplu:
(H0 )
repartitia empirica a setului de date urmeaza o repartitie data, X , ce are functia de repartitie teoretica F (x).
versus ipoteza alternativa (H1 ) care arma ca ipoteza (H0 ) nu este adevarata. Studiind functia empirica de repartitie a acestui set de date, Kolmogorov a gasit ca (vezi relatia (5.7))
distanta dn = sup |Fn (x) F (x)| satisface relatia x R
lim P ( n dn < ) = K (),
unde K () =
k=
este functia lui Kolmogorov (tabelata). Daca ipoteza (H0 ) este adevarata, atunci
diferentele dn nu vor depasi anumite valori, d; n . Este resc, asadar, sa consideram regiunea critica (acolo unde (H0 ) nu are loc) ca ind acea regiune unde
P (dn > d; n | (H0 ) adevarata) = ,

unde este nivelul de semnicatie. Dar, pentru orice n xat, sucient de mare, avem ca:
P (dn d; n | (H0 ) adevarata) = 1 P (dn > d; n | (H0 ) adevarata) = 1 ,

de unde alegem d; n = 1; n (cuantila de ordin 1 pentru functia lui Kolmogorov). Principiul de decizie este urmatorul:
Daca dn satisface inegalitatea Daca dn satisface inegalitatea
n dn < 1; n , atunci admitem ipoteza (H0 ); n dn > 1; n , atunci respingem ipoteza (H0 );
Etapele aplicarii testului lui Kolmogorov-Smirnov pentru o selectie:

,
cu
i=1
xi Se dau , F (x) si tabloul de frecvente X : ni Calculam 1; n astfel incat K (1; n ) = 1 ;
ni = n;
i=1, n
Teoria deciziei
Se calculeaza dn = sup |Fn (ai ) F (ai )|, xi = i=1, n ai1 +ai ; 2
191
Daca dn satisface inegalitatea
n dn < 1; n , atunci admitem ipoteza (H0 ), altfel o respingem.
Exerciiu 7.23
Intr-o anumita zi de lucru, urmarim timpii de asteptare intr-o statie de tramvai,
pana la incheierea zilei de lucru (adica, pana trece ultimul tramvai). Fie X caracteristica ce reprezinta numarul de minute asteptate in statie, pana soseste tramvaiul. Rezultatele observatiilor sunt sumarizate in Tabelul 7.13. Se cere sa se cerceteze ( = 0.5) daca timpii de asteptare sunt repartizati exponential Durata
02 35
25 25
5 10 17
10 15 14
15 20 6
20 30 3
ni
Table 7.13: Timpi de asteptare in statia de tramvai.
Solutia 1 Folosim testul 2 de concordanta, parametric. Avem de testat ipoteza nula
(H0 )
F (x) = F0 (x) = 1 e x , x > 0
(H1 )
ipoteza (H0 ) este falsa.
Deoarece parametrul este necunoscut, va trebui estimat pe baza selectiei date, prin metoda verosimilitatii maxime. Functia de verosimilitate pentru exp() este
n n
L(x1 , x2 , . . . , xn ; ) =
k=1
e x
xi n i=1 = e = n e n x
Punctele critice pentru L() sunt date de ecuatia
ln L = 1. = 0 = (n ln n x) = x
Se observa cu usurinta ca
2 ln L | = n x2 < 0, 2 =
este punct de maxim pentru functia de verosimilitate. de unde concluzionam ca

Pentru i = 1, 2, . . . , 6, calculez probabilitatile
pi
(0)
) F0 (ai1 ; ) = P (X (ai1 , ai ] | F = F0 ) = F0 (ai ;
192
Durata
(0, 2] 0.2917
(2, 5] 0.2861
(5, 10] 0.244
(10, 15] 0.103
(15, 20] 0.0435
(20, +) 0.0318
pi
(0)
Table 7.14: Probabilitati de asteptare in statia de tramvai.
Completam tabelul de frecvente, Tabelul 7.14. Numarul gradelor de libertate este k p 1 = 4. Calculam valoarea 2 0.95; 4 = 9.4877 si, de asemenea,
k
2 0 =
i=1
(ni n pi )2 n pi
(0)
(0)
= 1.1887.
2 Deoarece 2 0 < 0.95; 4 , ipoteza (H0 ) nu poate respinsa la acest nivel de semnicatie. Codul
Matlab
este urmatorul:
x = [ones(35,1);2.5*ones(25,1);7.5*ones(17,1);12.5*ones(14,1);... 17.5*ones(6,1);25*ones(3,1)]; l = 1/mean(x); F = inline('1-exp(-l*t)'); % estimatorul % functia de repartitie p3 = F(l,10)-F(l,5);
p1 = F(l,2)-F(l,0); p2 = F(l,5)-F(l,2);
p4 = F(l,15)-F(l,10);p5 = F(l,20)-F(l,15); p6 = F(l,1e6)-F(l,20); n = [35, 25, 17, 14, 6, 3]; p = [p1, p2, p3, p4, p5, p6]; chi2 = (n-100*p).^2/(100*p); cuant = chi2inv(0.95,4); if (chi2 < cuant) disp('ipoteza (H0) se admite'); else disp('ipoteza (H0) se respinge'); end
Solutia 2 Folosim testul Kolmogorov-Smirnov ...
Exerciiu 7.24 (de vericare a normalitatii)
Se considera caracteristica X ce reprezinta inaltimea
barbatilor (in centimetri) dintr-o anumita regiune a unei tari. S-a facut o selectie de volum n = 200, iar datele de selectie au fost grupate in Tabelul 7.15. Se cere sa se verice normalitatea lui X a) utilizand testul de concordanta 2 , cu nivelul de semnicatie = 0.05;
Teoria deciziei
b) utilizand testul de concordanta Kolmogorov-Smirnov, cu nivelul de semnicatie = 0.05.
193
Clasa
(, 165]
(165, 170]
(170, 175]
(175, 180]
(180, 185]
(185, 190]
(190, 195]
(195, 200]
(200, +]
ni
12
23
31
43
35
27
17
Table 7.15: Frecventa inaltimii barbatilor dintr-o anumita regiune.
Teste de concordan n
Matlab
Am vazut deja ca functia chi2gof(x) testeaza (folosind testul 2 ) daca vectorul x provine dintr-o repartitie normala, cu media si dispersia estimate folosind x.
h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)
[h, p, ksstat, cv] = kstest(x, F, alpha, type)
194

Exerciiu 7.2
Intr-un oras A, 325 de locuitori din 1500 interogati declara ca nu detin un computer.
Intr-un alt oras, B , 412 din 1800 declara acelasi lucru. Sa se testeze daca proportia de locuitori care nu detin un computer este aceeasi n ambele orase. ( = 0.05) Facem presupunerea ca numarul cetatenilor dintr-un oras ce nu detin nu computer are o repartitie uniforma continua.
Exerciiu 7.3
Intr-un spital s-a inregistrat de-alungul timpului sexul copiilor a 564 mame care au
cate 4 copii. Rezultatele sunt cele din Tabelul 7.16. Testati ipoteza ca in ecare familie probabilitatea Numar de copii Frecventa
4 fete 3 fete si un baiat 2 fete si 2 baieti

o fata si 3 baieti
38 138 213 141 34
4 baieti
Table 7.16: Distributia copiilor intr-o familie cu 4 copii.
de a apare la nastere a un baiat este aceeasi cu cea de a apare o fata.
Exerciiu 7.4
Caracteristica X reprezinta cheltuielile lunare pentru convorbirile telefonice ale unei
familii. In urma unui sondaj la care au participat 100 de familii, am obtinut datele (repartitia de frecvente):
6 11 13 18 20 14 11 7
[50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300) .
(i) Sa se verice, cu nivelul de semnicatie = 0.02, ipoteza ca media acestor cheltuieli lunare pentru o singura familie este de 140 RON , stiind ca abaterea standard este 35 RON . (ii) Sa se verice aceeasi ipoteza, in cazul in care abaterea standard nu este cunoscuta
a priori.
Bibliography
[1] Petru Blaga, [2] Virgil Craiu,
Statistica. . . prin Matlab, Presa universitara clujeana, Cluj-Napoca, 2002. Teoria probabilitatilor cu exemple si probleme,
Editura Fundatiei "Romania de
Maine", Bucuresti, 1997. [3] Jay L. DeVore, Kenneth N. Berk,
Modern Mathematical Statistics with Applications (with CD-
ROM), Duxbury Press, 2006, ISBN: 0534404731.

[4] David Freedman, Robert Pisani, Roger Purves, edition, 2007, ISBN: 0393929728 [5] Robert V. Hogg, Allen Craig, Joseph W. McKean, tice Hall, 6th edition, 2004, ISBN: 0130085073. [6] Marius Iosifescu, Costache Moineagu, Vladimir Trebici, Emiliana Ursianu,
Statistics,
W. W. Norton & Company, Inc., 4th
Introduction to Mathematical Statistics, Pren-
Mic enciclopedie de
statistic, Editura stiintica si enciclopedica, Bucuresti, 1985.

[7] Gheorghe Mihoc, N. Micu, [8] Elena Nenciu,
Teoria probabilitatilor si statistica matematica, Bucuresti, 1980.
Lectii de statistica matematica, Universitatea A.I.Cuza, Iasi, 1976. Probabilitati si Statistica matematica - Computer Applications, Iai, 2000.
[9] Octavian Petru, [10] Dan Stefanoiu,
Ghid de utilizare MATLAB, Editura Transilvania, Brasov, 1994.

Statistica Prin Matlab

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Statistica Prin Matlab

Încărcat de

Drepturi de autor:

Formate disponibile

Universitatea "Al.

Reprezentare prin puncte

2 Elemente de Teoria probabilitilor

Cmp de probabilitate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Cmp de probabilitate geometric . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii

2.5 2.6 2.7 2.8 2.9

Probabiliti condiionate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variabile aleatoare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Caracteristici funcionale ale variabilelor aleatoare . . . . . . . . . . . . . . . . . . . .

Caracteristici numerice ale variabilelor aleatoare . . . . . . . . . . . . . . . . . . . . . . Inegaliti ntre momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Experiene aleatoare n Matlab

3.4 3.5 3.6 3.7

Alte comenzi utile n

Simularea aruncrii unei monede . . . . . . . . . . . . . . . . . . . . . . . . . . Simularea aruncrii unui zar . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Probabiliti geometrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Repartitii probabilistice in

4 Elemente de Statistic descriptiv

5 Noiuni de teoria seleciei

Exerciii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6 Noiuni de teoria estimaiei

6.1 6.2 6.3 6.4 6.5 6.6

Interval de incredere pentru selectii mari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.7 6.8 6.9

Tabel cu intervale de incredere Functii de estimatie in

Paradox cu intervale de ncredere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6.10 Exercitii rezolvate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.11 Exercitii propuse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7 Vericarea ipotezelor statistice

165 165 168

Testul t pentru o selecie

Testul t pentru dou selecii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testul t in

Testul 2 pentru dispersie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Testul 2 in

Testul F pentru raportului dispersiilor . . . . . . . . . . . . . . . . . . . . . . .

7.6.10 Testul raportului verosimilitatilor . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6.11 Tabel cu teste parametrice in 7.7

Teste de concordanta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7.1 7.7.2 Testul 2 de concordan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Testul de concordanta Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . .

1.1 1.2 1.3 1.4

3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9

B (n, p) si P (np) pentru n = 100, p = 0.15 . . . . . . . . . . . . . . . . . . . . . . . . .

Functia de repartitie empirica si functia de repartitie teoretica pentru distributia normala. 87 ix

Reprezentare pentru numarul de accidente.

Intervalul de incredere pentru Exercitiu 6.27.

50 de realizari ale intervalului de incredere pentru . . . . . . . . . . . . . . . . . . .

7.1 7.2 7.3 7.4

160 161 161 164

1.1 1.2 1.3 1.4

Tabel cu frecvente pentru date discrete.

stem-and-leaf reprezentand punctajele studentilor.

Repartitii uzuale in Funcii

Matlab utile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Matlab specice pentru masuri descriptive. . . . . . . . . . . . . . . . . . . .

Tabel cu intervale de incredere. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimatori punctuali uzuali pentru parametri. . . . . . . . . . . . . . . . . . . . . . . .

7.1 7.2 7.3 7.4 7.5 7.6

159 159 160 172 174 177

7.7 7.8 7.9

ii are originile n expresia latin

desemnat pentru a analiza

Aceast descriere a trasturilor unei colectivitcti poate  fcut at

n contul Statisticii intereniale putem trece luarea de decizii asupra unor

1.2 Modelare Statistica

Data observata = f (x, ) + eroare de aproximare,

populatie (colectivitate) statistica

o multime de elemente ce poseda o trasatura comuna.

unitati statistice sau indivizi.

La randul lor, variabilele cantitative pot  discrete (numarul de

ind astfel caracter-

selectie (sau esantion)

Daca se face o enumerare sau o listare a ecarui element

selectie repetata (sau cu repetitie) o selectie

Dintre selectiile nerepetate amintim:

7 Vericarea ipotezelor statistice

Matlab utile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Matlab specice pentru masuri descriptive. . . . . . . . . . . . . . . . . . . .

Aceast descriere a trasturilor unei colectivitcti poate fcut at

La randul lor, variabilele cantitative pot discrete (numarul de

ind astfel caracter-

Daca se face o enumerare sau o listare a ecarui element

De exemplu, numarul de apeluri la 112 in luna Iulie, specicat

1.4 Reprezentari grace

denitia axiomatica (Kolmogorov).

2.2 Deniia axiomatic a probabilitii

(inchidere la complementariere) (inchidere la reuniune nita).