Sunteți pe pagina 1din 84

1 Statistic Aplicat (L1 & S1) Experimente aleatoare n Matlab

Generarea de numere (pseudo-)aleatoare


Vorbim de numere pseudo-aleatoare deoarece numerele generate de unui program deja existent n tea sunt numere aleatoare.

Matlab, i de aceea ele nu pot  aleatoare n sensul strict al cuvntului.

Matlab sunt rezultatul compilrii

ns, putem face abstracie de modul programat de generare ale acestor numere i s considerm c aces-

Generarea de numere aleatoare de o repartiie dat


Comenzile

Matlab pentru generarea de numere aleatoare ce urmeaz repartiia notat generic lege sunt:
legernd(<param>, m, n)

sau, alternativ,

random('lege',

<param>, m, n).

Oricare dintre cele dou comenzi genereaz o matrice aleatoare, cu numere aleatoare ce urmeaz repartiia din Tabelul 1.1. De exemplu,

m linii i n coloane, avnd componente

lege.

n loc de

lege putem scrie oricare dintre expresiile din tabelul

normrnd (5, 0.2,


genereaz o matrice aleatoare cu

100, 10);

100 10

componente repartizate

N (5, 0.2).

random ('poiss',0.01, 200, 50);


genereaz o matrice aleatoare cu Utiliznd comanda

200 50

componente repartizate

P (0.01).

randtool
putem reprezenta interactiv selecii aleatoare pentru diverse repartiii. generate de parametri Comanda deschide o interfa De exemplu, folosind datele

grac ce reprezint prin histograme seleciile dorite, pentru parametrii dorii (vezi Figura 1.1). Datele

Matlab pot  exportate n ierul Workspace cu numele dorit.


10000
i

din Figura 1.1, am generat o selecie aleatoare de

de numere ce urmeaz repartiia lognormal de

=2

= 0.5

i am salvat-o (folosind butonul Export) ntr-un vector

L.

Figura 1.1: Interfa pentru generarea de numere aleatoare de o repartiie dat.

repartiii probabilistice discrete

repartiii probabilistice continue

bino: nbin: poiss: unid: geo: hyge:

repartiia binomial repartiia Poisson

B (n, p) B N (n, p)

repartiia binomial negativ

P () U (n)

repartiia uniform discret repartiia geometric repartiia

G eo(p) hipergeometric H(n, a, b)

norm: unif: exp: gam: beta: logn: chi2: t: f: wbl:

repartiia normal

N (, )

repartiia uniform continu repartiia exponenial repartiia repartiia repartiia repartiia repartiia repartiia repartiia

U (a, b) exp() Gamma (a, ) Beta (m, n) lognormal log N (, ) 2 ( n ) student t(n) Fisher F (m, n) Weibull W bl(k, )

Tabela 1.1: Repartiii uzuale n

Matlab Matlab folosind i alte seturi de funcii,

Repartiiile uniform continu i normal mai pot  simulate n

mai simplu de utilizat. Aceasta se datoreaz faptului c ele sunt cele mai des utilizate n simularea de date aleatoare. Dup cum vom vedea mai trziu, putem genera valori aleatoare de o repartiie dat plecnd de la repartiia uniform continu.

Generarea de numere uniform repartizate ntr-un interval, U (a, b)


Funcia rand

Funcia

rand

genereaz un numr aleator repartizat uniform n

[0, 1].

De exemplu, comanda

X = (rand < 0.5)


simuleaz aruncarea unei monede ideale. numr aleator repartizat Mai putem spune ca numrul

astfel generat este un

B (1, 0.5).

De asemenea, numrul

Y = sum(rand(10,1) < 0.5)


urmeaz repartiia

B (10, 0.5)

(simularea a

10

aruncri ale unei monede ideale).

rand(m, n)
Comanda

genereaz o matrice aleatoare cu

mn

componente repartizate

U (0, 1). [a, b].

a + (b a) rand

genereaz un numr pseudo-aleator repartizat uniform n

Folosind comanda

s = rand('state'), i se atribuie variabilei s un vector de 35 de elemente, repre-

zentnd starea actual a generatorului de numere aleatoare uniform (distribuite). Pentru a schimba starea curent a generatorului sau iniializarea lui, putem folosi comanda

rand(method, s) method este metoda prin care numerele aleatoare sunt generate (aceasta poate  'state', 'seed' sau 'twister'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniialiunde zatorului. De exemplu,

rand('state', 125)
xeaz generatorul la starea

125. (a, b)
nelegem

Observaia 1.1

Printr-o generare de numere aleatoare uniform distribuite n intervalul

numere aleatoare care au aceeai ans de a  oriunde n

(a, b),

i nu numere la intervale egale.

Figura 1.2 reprezint cu histograme date uniform distribuite n intervalul

Matlab:

[2, 3],

produse de comanda

hist(5*rand(1e4,1)-2,100)

Figura 1.2: Reprezentarea cu histograme a datelor uniforme.

Generarea de numere repartizate normal, N (, )


Funcia randn

Funcia

randn

genereaz un numr aleator repartizat normal

N (0, 1). N (0, 1).

randn(m, n)

genereaz o matrice aleatoare cu

mn

componente repartizate

Pentru a schimba metoda prin care sunt generate numerele aleatoare normale sau starea generatorului, folosim comanda:

randn(method, s)
unde unde sau

method este metoda prin care numerele aleatoare sunt generate (aceasta poate  'state' 'seed'), iar s este un numr natural ntre 0 i 232 1, reprezentnd starea iniializatorului.
m + randn genereaz un numr aleator repartizat normal N (m, ).
De exemplu, codul

Comanda

urmtor produce Figura 1.3:

x = 0:0.05:10; y = 5 + 1.1*randn(1e5,1); hist(y,x)

% date distribuite N (5, 1.1)

Simularea aruncrii unei monede

Comanda X = (rand < 0.5);

250

200

150

100

50

10

Figura 1.3: Reprezentarea cu histograme a datelor normale.

simuleaz aruncarea unei monede ideale. numr aleator repartizat

Vom mai spunem c numrul

astfel generat este un

B (1, 0.5)

(similar cu schema bilei revenite, n cazul n care o urn are bile

albe i negre n numr egal i extragem o bil la ntmplare)

Numrul Y = urmeaz repartiia

sum (rand(30,1)<0.5)
30
aruncri ale unei monede ideale).

B (30, 0.5)

(simularea a

Acelai experiment poate  modelat i prin comanda

round(rand(30,1))
Pentru a numra cte fee de un anumit tip au aprut, folosim

sum(round(rand(30,1)))

Simularea n

Matlab a unei v.a. de tip discret


3
rezultate posibile,

S considerm o variabil aleatoare ce poate avea doar realizare

a, b

c,

cu probabilitile de

0.5, 0.2

i, respectiv,

0.3.

Tabloul de repartiie asociat este:

X:
Pentru a modela aceast variabil aleatoare n un numr

a b c 0.5 0.2 0.3

,
alegem uniform la ntmplare realizat, dac experiment se

Matlab, procedm astfel:

x din intervalul [0, 1]. Dac x < 0.5, atunci convenim c rezultatul a s-a 0.5 < x < 0.7, atunci rezultatul b s-a realizat. Altfel, rezultatul v.a. X este c. Dac acest

repet de multe ori, atunci rezultatele pot  folosite n estimarea probabilitilor de realizare a variabilei aleatoare. Cu ct vom face mai multe experimente, cu att vom aproxima mai bine valorile teoretice ale probabilitilor, deci putem spune c am aproximat variabila aleatoare n

Matlab, scriem:

X.

syms a b c % declaram a, b si c ca variabile simbolice r = rand; X = a*(r<0.5) + b*(0.5<r & r<0.7) + c*(r>0.7)
5

Folosind aceast metod, putem simula aruncarea unui zar ideal. Avem apariia unei fee cu

rezultate posibile, i anume,

1, 2, 3, 4, 5

sau n

6 6

puncte.

Pentru a simula acest experiment, modicm n mod

convenabil problema. Vom considera c punctele din intervalul posibile i mprim intervalul

[0, 1] formeaz mulimea tuturor cazurilor

[0, 1]

subintervale de lungimi egale:

(0,

1 1 2 2 3 3 4 4 5 5 ), ( , ), ( , ), ( , ), ( , ), ( , 1) . 6 6 6 6 6 6 6 6 6 6

corespunztoare, respectiv, celor ase fee, s zicem n ordinea cresctoare a punctelor de pe ele. Vom vedea mai trziu (vezi metoda Monte Carlo) ca alegerea acestor intervale cu capete nchise, deschise sau mixte nu are efect practic asupra calculului probabilitii dorite. Acum, dac dorim s simulm n

Matlab apariia feei cu 3 puncte la aruncarea unui zar ideal, vom alege (comanda rand) un numr "la Matlab
ntmplare" din intervalul

[0, 1]

i vericm dac acesta se a n intervalul

2 3 (6 , 6 ).

Aadar, comanda

u = rand; (u < 3/6 & u > 2/6)


6
fee sunt identice, putem simplica

simuleaz aruncarea unui zar ideal. Ca o observaie, deoarece cele aceast comanda i scrie

(rand < 1/6).

Repartiii probabilistice n Matlab


Funcia de probabilitate (pentru v.a. discrete) i densitatea de repartiie (pentru v.a. continue) (ambele notate anterior prin

f (x))

se introduc n

Matlab cu ajutorul comenzii pdf, astfel:


sau
LEGEpdf(x, <param>).

pdf('LEGE', x, <param>)
Funcia de repartiie

F (x)

a unei variabile aleatoare se poate introduce n

cdf,

Matlab cu ajutorul comenzii

astfel:

cdf('LEGE', x, <param>)

sau

LEGEcdf(x, <param>).

Inversa funciei de repartiie pentru repartiii continue,

F 1 (y ),

se introduce cu comanda

icdf,

astfel:

icdf('LEGE', y, <param>)
n comenzile de mai sus, iar

sau

LEGEinv(y, <param>).

vector pentru care se calculeaz

<param>

LEGE poate  oricare dintre legile de repartiie din Tabelul 1.1, x este un scalar sau f (x) sau F (x), y este un scalar sau vector pentru care se calculeaz F 1 (y ),

este un scalar sau un vector ce reprezint parametrul (parametrii) repartiiei considerate.

Observaia 1.2
tiiei. Pentru un

X x R,
Fie

o variabil aleatoare i relaia matematic

F (x, )

funcia sa de repartiie,

ind parametrul repar-

P (X x) = F (x)
o putem scrie astfel n

Matlab:
cdf('numele repartiiei lui X',x,).
6 (1.1)

Problema poate aparea la evaluarea n

Matlab a probabilitii P (X < x). Dac repartiia considerat este una continu, atunci corespondentul n Matlab este tot (1.1), deoarece n acest caz
P (X x) = P (X < x) + P (X = x) = P (X < x). X N (5, 2),
atunci

De exemplu, dac

P (X < 4) = cdf('norm', 4, 5, 2).


Dac

este de tip discret, atunci

P (X < x) =
unde

P (X [x]) , x nu e ntreg P (X m 1) , x = m Z,

[x]

este partea ntreag a lui

x.
atunci

De exemplu, dac

X B (10, 0.3),

P (X < 5) = P (X 4) = cdf('bino', 4, 10, 0.3) = 0.8497.

Exerciii rezolvate Exerciiu 1.1


(a) (b)
O moned ideal este aruncat de

100

de ori, iar

este variabila aleatoare ce reprezint

numrul de fee cu stema aprute. Care este probabilitatea de a obine exact S se calculeze

52

de steme?

P (45 X 55). P1 = P (X = 52).


ns

Soluie:

(a)

Avem de calculat

este o variabil aleatoare distribuit

B (100, 0.5),

aadar rezultatul exact este:

52 P1 = C100 (0.5)52 (0.5)48 = 0.0735.


(b) Notm cu

FX

funcia de repartiie pentru variabila aleatoare binomial

X.

Atunci,

P2 = P (45 X 55) = P (X 55) P (X < 45) = FX (55) FX (44)


55

=
k=45
nl

k C100 (0.5)k (0.5)100k = 0.7287.

Matlab, putem calcula probabilitile astfel:


sau
P1 = binopdf(52,100,0.5) P1 = nchoosek(100,52)*(0.5)^52*(0.5)^48 P2 = binocdf(55,100,0.5) - binocdf(44,100,0.5) .

(a) (b)

Exerciiu 1.2

Cineva a nregistrat zilnic timpul ntre dou sosiri succesive ale tramvaiului ntr-o anumit

staie i a gsit c, n medie, acesta este de

20 de minute.
7

Se tie c acest timp este distribuit exponenial.

Dac o persoan a ajuns n staie exact cnd tramvaiul pleca, aai care sunt ansele ca ea s atepte cel puin

15

minute pn vine urmtorul tramvai.

Soluie:
este:

Notm cu

timpul de ateptare n staie ntre dou sosiri succesive ale tramvaiului i cu

FT

funcia sa de repartiie. tim c

T exp(),

unde

= 20.

Aadar, avem de calculat

P (T 15),

care

P (T 15) = 1 P (T < 15) = 1 FT (15),


i aceasta este

1 - cdf('exp',15, 20) = 0.4724


ceea ce implic

(sau 1-expcdf(15, 20) = 0.4724),

47.24%

anse.

Exerciiu 1.3
sunt femei.

Dintre spectatorii prezeni pe un anumit stadion la un meci de fotbal, un procent de

20%

La o tombola organizat pentru spectatori, un computer alege la ntmplare numerele a i se premiaz posesorii. (i) (ii) (iii) Care este probabilitatea ca mcar

7 bilete de intrare

dintre spectatorii premiai s e femei?

Care este probabilitatea ca nicio femeie s nu ctige la tombol? Dac selecia biletelor ctigtoare ar  fost realizat prin alegerea a

spectatori ce erau aezai

n ir, pe un acelai rnd ales la ntmplare, argumentai dac probabilitile gsite la (i) si (ii) rmn aceleai.

Soluie:
(i) n

Fie

variabila aleatoare ce reprezint numrul de femei ce apar la alegerea la ntmplare a

spectatori. Atunci

Matlab,

X B (7, 0.2). Fie p = 0.2. P (X 3) = 1 P (X < 3) = 1 P (X 2) = 1 FX (2) = 0.1480.

(ii) n

Matlab,

0 p0 (1 p)7 = 0.2097 P (X = 0) = C7

P1 = 1-binocdf(2,7,0.2). (=binopdf(0,7,0.2)). P2 = binopdf(0,7,0.2).

(iii) n acest caz,

nu ar mai  o v.a. binomial, deoarece alegerea spectatorilor nu mai este aleatorie

(spectatorii aezai alturi pot  cunotinte, prieteni etc.).

Exerciiu 1.4
(ii)

(i)

n faa unui oponent de acelai calibru la tenis de mas, care eveniment este mai

probabil: s ctigi

partide din

4,

sau s ctigi

partide din

8?

Justicai rspunsul.

Se menine rezultatul anterior dac, n loc de tenis de mas, cei doi s-ar ntrece la ah? Presupunem

c adversarii sunt de aceeai valoare. Justicai rspunsul.

 X

(i)

Deoarece cei doi oponeni sunt de acelai calibru, probabilitatea unuia de a ctiga mpotriva

celuilalt este

p = 0.5. 8

S notm cu

numrul de jocuri ctigate de juctorul

este o variabil aleatoare binomial; n cazul n care se joac doar partide,

J1 mpotriva lui J2 . Atunci, 4 partide, X B (4, 0.5), iar n cazul

n care se joac

Probabilitatea ca (ii)

J1

s ctige

iar probabilitatea ca

X B (8, 0.5). 3 0.54 = 0.25, 3 din 4 este P1 = C4 5 0.58 = 0.2187. J1 s ctige 5 din 8 este P2 = C8 3
rezultate posibile).

n acest caz, rezultatul se schimb. Nu mai putem folosi repartiia binomial, deoarece la ah exist

i posibilitatea unei remize (pentru o singur partid, exist

Exerciiu 1.5

Un sondaj preliminar a determinat c

42% 40%

dintre persoanele cu drept de vot dintr-o

anumit ar ar vota candidatul

pentru preedinie. Alegem la ntmplare i

200

de votani. Care este

probabilitatea ca un procent dintre acetia, situat ntre

50%,

l vor vota pe

la preedinie?

S notm cu

p = 0.42

i cu

variabila aleatoare ce reprezint numrul de votani ce au ales

candidatul

C,

din selecia aleatoare de volum

probabilitatea

P (80 X 100)

(deoarece

n = 200 considerat. Este clar c X B (n, p). Se cere 40% din 200 nseamn 80 etc). Deoarece X este o variabil

aleatoare discret, avem c:

P = P (80 X 100) = P (X 100) P (X < 80) = FX (100) FX (79),


unde n

Matlab:

FX

este funcia de repartiie a lui

X.

P = binocdf(100, 200, 0.42) - binocdf(79, 200, 0.42) = 0.7303.

Exerciiu 1.6


Care este probabilitatea de apariie pentru prima oar a feei cu

puncte la aruncarea

unui zar ideal n cel mult Notm cu

aruncri? Dar n exact

aruncri?

v.a. variabil aleatoare ale crei valori reprezint numrul de eecuri avute pn

la primul succes. Aceasta urmeaz repartiia geometric necesare obinerii feei pentru prima dat este

G eo(1/6).

n consecin, numrul de aruncri

Y = X + 1.

Probabilitatea de a obine pentru prima

oar aceast fa din cel mult

aruncri este totuna cu probabilitatea de a avea cel mult

eecuri pn

la apariia acestei fee. Aadar, avem:

P1 = P (Y 3) = P (X 2) = 0.4213.
Probabilitatea de a obine pentru prima oar faa din exact

aruncri este:

P2 = P (Y = 3) = P (X = 2) = 0.1157.
n

Matlab scriem:
P1 = geocdf(2,1/6); P2 = geopdf(2,1/6);

Exerciiu 1.7
atunci Poisson.

Demonstrai c dac

X P ()

X + Y P ( + ).

Generalizai

Y P () sunt dou variabile aleatoare independente, rezultatul pentru n variabile aleatoare independente repartizate
i

Soluie:
lor,

Demonstrm un rezultat mai general: atunci suma

Dac variabilele aleatoare

X1 P (1 ), X1 P (1 ), . . . , X1 P (n ) sunt independente, Y = X1 + X2 + + Xn , urmeaz repartiia Y P (1 + 2 + + n ). Funcia generatoare de momente pentru X1 este MX1 (t) = E(etX1 ) =
k N

etk e1

k 1 = e1 k!

k N

(1 et )k t t = e1 e1 e = e1 (e 1) . k!

Folosind independenta variabilelor aleatoare date, putem scrie:

MY (t) = MX1 +X2 ++Xn (t) = E(et(X1 +X2 ++Xn ) ) = E(etX1 ) E(etX2 ) E(etXn ) = e1 (e
t 1)

e2 (e

t 1)

en (e

t 1)

= e(1 +2 ++n )(e

t 1)

MY (t) este funcia generatoare de momente pentru o variabil aleatoare Poisson cu parametrul 1 + 2 + + n . Folosind unicitatea funciei generatoare de momente, deducem c
Obinem c

Y P (1 + 2 + + n ).

Exerciiu 1.8 (a) n magazinul de la colul strzii intr n medie 20 de clieni pe or.
ntr-o anumit or s intre n magazin cel puin

tiind c numrul

clienilor pe or este o variabil aleatoare repartizat Poisson, s se determine care este probabilitatea ca

15

clieni?

(b)

Care este probabilitatea ca, ntr-o anumit zi de lucru (de

10

ore), n magazin s intre cel puin

200

de clieni?

Soluie:

(a) Probabilitatea este

P1 = P (X 15) = 1 P (X < 15) = 1 P (X 14) = 1 FX (14) = 0.8951.


10
(b)

10

10

P2 = P (
k=1

Xk 200) = 1 P (
k=1 10

Xk < 200) = 1 P (
k=1

Xk 199) = 1 F

Xk (199)

= 0.5094.

Am folosit faptul c

Xk P (200),
k=1

deoarece avem o sum de v.a. independente, identic repartizate

Poisson (vezi Exerciiu 1.7). n

Matlab, probabilitile cerute se calculeaz astfel:


P1 = 1 - poisscdf(14,20); P2 = 1 - poisscdf(199,200);

Exerciiu 1.9
urmtoarea:

n drumul Mariei de acas pn la serviciu se a dou semafoare. Notm cu

X1

v.a. ce

reprezint numrul de semafoare pe care Maria le prinde pe rou, i presupunem c repartiia lui

X1

este

x p(x)
De asemenea, e (a) (b)

0 0.2

1 0.5

2 0.3

X2

numrul de semafoare pe care Maria le prinde pe rou pe drumul de ntoarcere spre

cas. Presupunem c

X1

X2

sunt independente i identic repartizate.

Determinai repartiia, media i dispersia variabilei aleatoare Care e probabilitatea ca Maria s prind cel puin

X = X1 + X2 .

semafoare pe rou de acas la serviciu i retur?

Soluie:

(a) Repartiia lui

este:

x p(x)

0 0.04

1 0.2

2 0.37

3 0.3

4 0.09 X1
i

E(X ) = E(X1 ) + E(X2 ) = 2(0 0.2 + 1 0.5 + 2.3) = 2.2.

i, folosind independena lui

X2 ,

D2 (X ) = D2 (X1 ) + D2 (X2 ) = 2[(0 1.1)2 0.2 + (1 1.1)2 0.5 + (2 1.1)2 0.3] = 0.98.
(b)

P = 0.37 + 0.3 + 0.09 = 0.76.


10

Exerciii suplimentare Exerciiu 1.10


Considerm funcia

f : R R, dat prin 2 2 x e x , x > 0; f (x) = 0 , x 0. ,


funcia

(a) Pentru ce valori ale parametrului (S notm cu (b) Calculai (c) Dac

este o densitate de repartiie?

variabila aleatoare ce are aceast densitate de repartiie)

EX i D2 (X ). = 2, calculai P (X 2).
Considerm o v.a.

Exerciiu 1.11

de tip continuu, avnd funcia de repartiie

0 x F (x) = 1 + ln 4 1
Calculai: (a) (b) (c)

, x 0; 4 x , x [(0, 4]; , x > 4.

P (X 1), P (X = 1); E(X ); P (1 X < 3). 160 litri,


de

Exerciiu 1.12
230 litri.
Fie

Un anumit comerciant vinde trei tipuri de congelatoare: de

190 litri

i de

variabila aleatoare care reprezint alegerea unui client ales la ntmplare, ce are tabelul

de repartiie:

x p(x)
(a) (b) (c) (d) Calculai

160 0.2

190 0.5

230 0.3

E(X ), D2 (X ). P = 7X 9.5,
calculai valoarea ateptat a

Dac preul unui frigider se calculeaz dup formula Calculai

preului pltit de urmtorul client care cumpr un congelator.

D2 (P ). X,
capacitatea real a unui congelator este

Presupunem c, dei capacitatea aat este

h(X ) =

0.01X 2 . Care este valoarea medie a capacitii reale pentru un congelator cumprat de urmtorul

clint?

Exerciiu 1.13
(a) (b)

Dou zaruri ideale sunt aruncate n mod independent unul de cellalt.

Notm cu

maximum dintre valorile aprute. Determinai tipul v.a.

i tabloul su de repartiie.

Determinai funcia de repartiie i desenai-o grac.

Exerciiu 1.14
Calculai

T (0 C ) dintr-un anumit proces P (T < 0); P (2.5 < T < 2.5); P (2 T 3).
Temperatura

chimic are repartiia

U (5, 5).

11

Exerciiu 1.15
standard de

Temperatura de topire a unui anumit material este o v.a. cu media de Determinai temperatura medie i deviaia standard n

2 oC .

o F , tiind c

120 o C i deviia o F = 1.8 o C + 32.

Exerciiu 1.16 Exerciiu 1.17


(a) Calculai

Dac

Z N (0, 1),

calculai:

P (Z 1.35); P (0 Z 1); P (1 Z ); P (|Z | > 1.5). Sn suma numerelor probabilitatea P = P (S2 6).
Notm cu ce apar n

aruncri independente ale unui zar ideal.

(b) Calculai probabilitatea obinerii unui numr par.

Exerciiu 1.18
a lui

O companie de asigurri ofer angajailor si diverse polie de asigurare.

Pentru un

asigurat ales aleator, notm cu

numrul de luni scurs ntre dou pli succesive. Funcia de repartiie

este:

0 0.3 0.4 F (x) = 0.45 0.65 1 X. P (3 X 6)


i

, x < 1; , 1 x < 3; , 3 x < 4; , 4 x < 6; , 6 x < 12; , 12 x.

(a) (b)

Determinai funcia de probabilitate a lui Calculai

P (4 X ).

Exerciiu 1.19

Pentru evaluarea rezultatelor obtinute la teza de Matematica de catre elevii unei anumite

scoli, se face un sondaj de volum

35

printre elevii scolii, iar notele lor sunt sumarizate in Tabelul 1.2.

note frecventa

4 3

5 6

6 7

7 8

8 5

9 4

10 2

Tabela 1.2: Medii generale si frecvente

(i) Sa se scrie si sa se reprezinte grac functia de repartitie pentru aceasta selectie; (ii) Notam cu

variabila aleatoare care guverneaza populatia.

Utilizand selectia de mai sus, sa se

aproximeze probabilitatea

P (6 X 8). 200
de ori. Care este probabilitatea s

Exerciiu 1.20 Exerciiu 1.21

O pereche de zaruri ideale este aruncat de

obinem o sum de

n cel puin

20%

dintre cazuri?

Simulai n

Matlab variabila aleatoare discret X ce are tabloul de distribuie:


X: 2 0
1 4 1 2

2
1 4

. X.
Calculai

Gsii i reprezentai grac funcia de repartiie

F (x)

a variabilei aleatoare

F(1 2 ).

12

Exerciiu 1.22
(ii)

(i)

Determinai funcia generatoare de momente pentru o repartiie exponenial,

exp().
cu

n Folosind funcia generatoare de momente, artai c dac {Xi }i=1 sunt variabile aleatoare indepenn

dente, repartizate

exp(i )

(respectiv), atunci vaiabila alatoare

Y =
i=1

Xi

urmeaz repartiia

(n, ),

=
i=1

i .

Exerciiu 1.23
(ii) binomial.

(i)

Determinai funcia generatoare de momente pentru o repartiie binomial,

B (n, p).

Demonstrai c dac

X + Y B (m + n, p).

X B (m, p) i Y B (n, p) sunt dou variabile aleatoare independente, atunci Generalizai rezultatul pentru n variabile aleatoare independente repartizate

13

2 Statistic Aplicat (L2 & S2)


Exerciiu 2.1
Dac (repartiia obinut

X N (0, 1), 2 este (1)).

determinai densitatea de repartiie a variabilei aleatoare

X 2.

Funcia densitate de repartiie pentru

este dat de (2.1)

x2 1 fX (x) = e 2 , x R. 2

Notm cu formula

FX 2 (y ) funcia de repartiie pentru X 2 i cu fX 2 (y ) densitatea sa de repartiie. Nu putem folosi 2 de la curs deoarece funcia g (x) = x , x R, nu este bijectiv. Pentru a calcula densitatea lui 0 , P ( y X y ) , y 0; y > 0, y 0; y > 0,

X 2,

putem proceda astfel:

FX 2 (y ) = P (X 2 y ) =
de unde

fX 2 (y ) = FX 2 (y ) =

, 1 [fX ( y ) + fX ( y )] , 2 y 0 , y 0; 1 = fX ( y ) , y > 0. y 0 , y 0; y = 1 e 2 dy , y > 0. 2y

Exerciiu 2.2
N (, ), 
atunci i

Artai c dac

atunci variabila

X1 , X2 , . . . , Xn sunt variabile aleatoare independente, identic repartizate n 1 aleatoare H = (Xi )2 urmeaz repartiia 2 (n). 2
i=1
atunci

Dac

Xi N (, ),
sunt

{Yi2 }n i=1

Xi N (0, 1). Deoarece {Xi }n i=1 sunt independente, 2 independente. Dac X N (0, 1), atunci X are densitatea de repartiie 1 e x 2 dx , x > 0. 2x fX 2 (x) = 0 , x 0. Yi = X2
0
este

Funcia generatoare de momente pentru

MX 2 (t) = E(etX ) =
Folosind independena variabilelor

etx

x 1 e 2 dx = (1 2t)1/2 , 2x

t < 1/2. H
este

{Yi2 }n i=1 ,
n

obinem c funcia generatoare de momente a lui

MH (t) =
i=1

(1 2t)1/2 = (1 2t)n/2 , 2 (n).

t < 1/2,

care este densitatea de repartiie pentru o variabil aleatoare

14

Exerciiu 2.3

Fie variabila aleatoare

ie de numere aleatoare ce urmeaz

X exp(). repartiia lui X .


este este:

Folosind metoda Hincin-Smirnov, generai o selec-

Funcia de repartiie a lui

se denete doar pentru valori n

X (0, 1))

F : R [0, 1],

F (x) = 1 ex/ , x > 0,

iar

F 1

(care

F 1 (u) = ln(1 u),


Atunci, dac

u (0, 1).

F 1 (u2 ),
n

{u1 , u2 , . . . , un } sunt numere aleatoare uniform repartizate n [0, 1], avem c {F 1 (u1 ), . . . , F 1 (un )} formeaz o selecie ntmpltoare de numere repartizate exp(). Figura 2.1, am reprezentat grac o dou selecii de volum 150 de numere aleatoare repartizate exp(5);
Seleciile generate au fost ordonate descresctor. Funcia

una generat prin metoda funciei de repartiie inverse, cealalt generat de funcia

exprnd.

Matlab care genereaz gura este

Matlab predenit

prezentat mai jos. Apelarea funciei se face prin tastarea n fereastra de lucru n

Matlab a comezii expsel(5).

function expsel(lambda) % functia expsel.m % generez 150 de numere cu metoda Hincin-Smirnov si le ordonez descrescator Y = sort(-lambda*log(1-rand(150,1)), 'descend'); plot(Y, 'bo'); hold on % desenez selectia si retin figura % generez 150 de numere cu exprnd si le ordonez descrescator Z = sort(exprnd(lambda, 150,1), 'descend'); plot(Z, 'r*') % desenez Z cu rosu legend('metoda functiei inverse','generare cu exprnd')

Figura 2.1: Generare de numere aleatoare prin metoda funciei inverse.

Exerciiu 2.4
aleatoare

Dac U este o variabil Y = ln(U ), > 0.

aleatoare repartizat

U (0, 1),

determinai repartiia variabilei

15

Soluie:

Densitatea de repartiie a lui

este

fU (x) =
Funcia de repartiie a lui

1, 0,

dac dac

x > 0, x 0.

este

FY (y ) = P (Y y ) = P ( ln(U ) y ) =
y P ln(U ) , 0,

dac dac

y > 0, = y 0. Y

1 P U < e , 0,
este

dac dac

y > 0, y 0.

1 FU e , 0,

dac dac

y > 0, y 0.

Atunci, densitatea de repartiie a lui

y f e U fY (y ) = FY (y ) = 0,
Se observ c

1 y e ,

dac dac

y > 0, y 0.

y 1 e , = 0,

dac dac

y > 0, y 0.

Y exp().
S presupunem c

Exerciiu 2.5
o ar. determine

Se tie c

X este o v.a. continu ce reprezint nlimea (n cm) brbailor dintrP (X 170) = 0.1. tiind c X este normal distribuit, cu media m = 175, s se dispersia lui X . Z=
X 175

Soluie:

Consider variabila aleatoare standardizat

N (0, 1). =P

Atunci,

0.1 = P (X 170) = P
de unde de unde

X 175 170 175 Z N (0, 1).

,
(norminv(0.1)),

5 este = 3.9.

cuantila de ordin

0.1

pentru

Aceasta este

z0.1 = 1.28

Exerciiu 2.6

Trei ntreprinderi trimit acelai tip de piese ntr-un depozit central, n proporie de

5, 3, 2.

Cele trei ntreprinderi au rebuturi n proporie de, respectiv, a  rebuturi este de

1%, 3%, 2%.

Valoarea pieselor ce s-au dovedit

3600 RON.

Cum ar trebui mprit aceast sum ntre cele

ntreprinderi?

Soluie:

Notm cu:

Aevenimentul ca o pies aleas la ntmplare din depozitul central s e rebut. Ai evenimentul ca, alegnd la ntmplare o pies din depozitul central, aceasta s aparin rmei i. Pentru a determina cum mprim cei 3600 ntre cele 3 rme, va trebui s determin probabilitile condiionate P (A1 | A), P (A2 | A), P (A2 | A), care reprezint ponderile de rebuturi produse de ecare
rm, condiionate de apariia unui rebut la o alegere la ntmplare din depozit. Dar,

P (A1 ) = 0.5, P (A2 ) = 0.3, P (A3 ) = 0.2

P (A|A1 ) = 0.01, P (A|A2 ) = 0.03, P (A|A3 ) = 0.02.

Avem c

P (A) = P (A1 )P (A|A1 ) + P (A2 )P (A|A2 ) + P (A3 )P (A|A3 ) = 0.5 0.01 + 0.3 0.03 + 0.2 0.02 = 0.018.
i (formula lui Bayes)

P (A1 | A) =

P (A1 )P (A|A1 ) 5 P (A2 )P (A|A2 ) 1 P (A3 )P (A|A3 ) 2 = , P ( A2 | A) = = , P (A3 | A) = = . P (A) 18 P (A) 2 P (A) 9
16

n consecin, pierderile vor trebui s e mprite astfel:

5 1 2 3600 = 1000 (rma 1); 3600 = 1800 (rma 2); 3600 = 800 (rma 3). 18 2 9

Exerciiu 2.7

Un anumit restaurant popular servete la cin doar trei tipuri de meniuri cu preuri xe,

i anume: 25, 30 i 45 (incluznd buturile). Pentru un cuplu ales la ntmplare dintre cele ce iau cina n acest restaurant, notm cu

costul meniului ales de femeie i cu

costul meniului ales de partenerul

ei. Repartiia comun a costurilor este dat n tabelul urmtor:

Y p(x, y )
25 25 0.05 0.05 0 i 30 0.05 0.10 0.20 45 .10 .35 .10

30 45

(1) (2) (3) (4) (5)

Calculai repartiiile marginale pentru Determinai dac

Y; 30
de ecare?

Care este probabilitatea ca preul cinei pentru ambii parteneri s e cel mult

sunt v.a. independente;

Care este valoarea ateptat a costului total al cinei pentru un cuplu ales la ntmplare? La nalul cinei, ecare cuplu primete din partea casei prjituri cu rva. Dac un cuplu gsete n

rva mesajul Drept curtoazie din partea casei, din preul total al cinei vei primi napoi diferena dintre

cel mai scump i cel mai ieftin dintre meniurile comandate de amndoi, ct se ateapt restaurantul s
returneze pentru un singur cuplu? (6) (7) (8) Determinai coecientul de corelaie dintre Determinai repartiia lui Calculai

Y. (X = 30).

E(Y |X = 30) pX (x) =


y

Y condiionat de D2 (Y |X = 30).
Pentru

evenimentul

Soluie:

(1)

p(x, y ).
este:

x = 25,

atunci

pX (25) = 0.05 + 0.05 + 0.1 = 0.2.

Obinem c

repartiia marginal a lui

x pX (x)
Similar,

25 0.2
atunci

30 0.5

45 0.3
Obinem c

pY (y ) =

x p(x,

repartiia marginal a lui

y ). Pentru y = 45, Y este: y pY (y )

pY (45) = 0.1 + 0.35 + 0.1 = 0.55.

25 0.1

30 0.35

45 0.55

(2) (3)

Probabilitatea cerut este Variabilele

P (X 30, Y 30) = 0.05 + 0.05 + 0.05 + 0.1 = 0.25.


mcar pentru o pereche

(x, y ).
(4)

De exemplu,

Y nu sunt independende, deoarece p(x, y ) = pX (x) pY (y ) p(25, 25) = 0.05 = 0.2 0.1 = pX (25) pY (25).
i

h(X, Y ) = X + Y

E(h(X, Y )) =
x y

h(x, y )p(x, y ) =
x y

(x + y )p(x, y ) = 71.25.

(5)

Determinm repartiia variabilei aleatoare

Z = |X Y |.
17

Aceasta este:

z p Z (z )
Media lui (6)

0 0.1

5 0.25

15 0.55

20 0. 1

este

E(Z ) = 11.5. E(X Y ) X Y cov (X, Y ) = . X Y X Y

Prin deniie,

X,Y =
Dar,

X =
x

xpx = 25 0.2 + 30 0.5 + 45.3 = 33.5; Y =


y 2 X = x 2 (x x )2 px = 60.25; Y =

ypy = 25 0.1 + 30 0.35 + 45 0.55 = 37.75. (y y )2 py = 66.188.


y

E(X Y ) =
x
Obinem c (7)

xy p(x, y ) = 1253.8.
y

X,Y = 0.1722. Y |X = 30
are funcia de probabilitate

Variabila aleatoare

fY |X (y | 30) =

p(30, y ) , pX (30)

ce are tabelul de

repartiie urmtor:

y pY |X (y | 30)
(8)

25 0.1

30 0.2

45 0.7
i

Y |X =30 = E(Y |X = 30) =

y pY |X (y | 30) = 25 0.1 + 30 0.2 + 45 0.7 = 40

D2 (Y |X = 30) = E(Y 2 |X = 30) 2 Y |X =30 = 60.

Exerciiu 2.8

O numit companie de ambalat fructe uscate, amestec n acelai pachet trei tipuri de

fructe, mango, ananas i papaya, astfel nct masa net a pachetului este de ecrui fruct la produsul nal este egal cu S notm cu

500 de grame, dei cantitile

individuale din ecare fruct uscat pot varia de la un pachet la altul. Deoarece suma ponderilor maselor

1,

putem determina masa net de ananas din ecare pachet

dac am avea informaii despre repartiia comun a celorlale dou cantiti de fruct din pachet.

ponderea masei de mango din masa net a unui anumit pachet i cu

ponderea masei

de ananas din masa net a aceluiai pachet, ales la ntmplare. Presupunem c repartiia comun a celor dou cantiti este

f (x, y ) =
(a) (b) (c) (d) Vericai dac

24xy, 0,

pentru altfel.

0 x 1, 0 y 1, x + y 1,

f (x, y )

este o densitate de repartiie legitim i calculai probabilitatea ca masa net

de papaya s e mai mare de un sfert de pachet. Determinai densitile de repartiie marginale. Vericai dac

sunt independente.

Determinai coecientul de corelaie dintre

Y.

18

(e) (f ) (g) (h)

Determinai densitatea de repartiie a lui Gsii probabilitatea ca (i.e., calculai

condiionat de

X = x.

a pachetului.

Y s e cel mult un sfert de pachet, tiind c X este jumtate din masa net P (Y 0.25|X = 0.5)). Calculai media condiionat a lui Y tiind c X = 0.5. (i.e., E(Y |X = 0.5)) 2 Calculai D (Y |X = 0.5).
(a) Se vede c

Soluie:

f (x, y ) 0, x, y .
1 1x

n plus,

f (x, y ) dxdy =
0 0
Not cu

24xy dy
i

dx =
0

24x

y2 2

y =1x y =0

dx =
0

12x(1 x)2 dx = 1.

D = {(x, y ); 0 x 1, 0 y 1 P ((X, Y ) D) =
D

x + y 0.75}.
0.75

Atunci, probabilitatea cerut este:

0.75x

f (x, y ) dxdy =
0
este:

24xy dy
0

dx = 0.3164.

(b)

Repartiia marginal a lui

fX (x) =

Repartiia marginal a lui

f (x, y ) dy =

12x(1 x)2 , 0,

dac

0 x 1;

altfel.

este:

fY (y ) =

(c) (d) Deoarece

f (x, y ) dx =

12y (1 y )2 , 0,

dac

0 y 1;

altfel.

f (x, y ) = fX (x) fY (y ), x, y ,

cele dou variabile nu sunt independente.

Prin deniie,

X,Y =
Dar,

E(X Y ) X Y cov (X, Y ) = . X Y X Y


1

X =

xfX (x) dx =
0 1

12x2 (1 x)2 dx = 0.4; Y =

yfY (y ) dy =
0 1

12y 2 (1 y )2 dy = 0.4.

2 X = E(X 2 )2 X = 0

2 12x3 (1x)2 dx0.16 = 0.04; Y = E(Y 2 )2 Y = 0 1 1x

12y 3 (1y )2 dy 0.16 = 0.04. 2 . 15

E(X Y ) =

Obinem c (e)

xyf (x, y ) dxdy =


0 0

24x2 y 2 dxdy =

X,Y

2 = . 3 fY |X =x (y |x) = f (x, y ) 2y = , 0 y 1 x. fX (x) (1 x)2

(f )

Probabilitatea cerut este:

0.25

0.25

P (Y 0.25|X = 0.5) =

fY |X (y |x) dy =
0

2y 1 dy = . (1 x)2 4

19

(g)

1x

Y |X =x = E(Y |X = x) =

n particular, pentru (h)

yfY |X (y |x) dy =
0

2y 2 2 dy = (1 x), 0 x 1. (1 x)2 3

X = 0.5,

obinem c

E(Y |X = 0.5) =
1x

1 3.

D2 (Y |X = x) = E(Y 2 |X = x) 2 Y |X = x =
n particular, pentru

2y 3 4 1 dy (1 x)2 = (1 x)2 , 0 x 1. 2 (1 x) 9 18

X = 0.5,

obinem c

2 2 Y |X =0.5 = D (Y |X = 0.5) = 0.0139.

Exerciiu 2.9

Dac

variabilei aleatoare

X i Y sunt Z = X/Y .

v.a. independente i identic repartizate

N (0, 1),

determinai repartiia

Soluie:

Densitile de repartiie pentru

sunt

1 2 fX (x) = ex /2 , x R, 2

1 2 fY (y ) = ey /2 , y R. 2 (X, Y )
este:

Deoarece sunt independente, densitatea de repartiie a vectorului

fX,Y (x) =

1 (x2 +y2 )/2 e , (x, y ) R R. 2 u = x/y, v = y ,


care transform

Pentru a determina repartiia cerut, folosim transformarea

(U, V ) = (X/Y, Y ).

Transformarea invers

x = uv, y = v .

Jacobianul transformrii inverse

(X, Y ) n este J = v .

Folosind formula de schimbare de variabile, obinem:

fU, V (u, v ) = fX,Y (uv, v )|v | =

1 v2 (u2 +1)/2 e |v |, (u, v ) R R. 2

Densitatea de repartiie marginal a primei componente se obine integrnd n raport cu a doua variabil. Obinem:

fX/Y (u) = fU (u) =

Se observ c

fU, V (u, v )dv =

1 v2 (u2 +1)/2 1 e |v |dv = , 2 (u2 + 1) C (0, 1).

u R.

fX/Y

este densitatea de repartiie pentru o repartiie Cauchy

Exerciii suplimentare Exerciiu 2.10


Folosind metoda Hincin-Smirnov, generai o familie de

100

de numere aleatoare ce ur-

meaz densitatea de repartiie

f (x) =

5x4 ,

0 x 1.

U ( , ). 2 2 (i) Determinai repartiia variabilei aleatoare Y = tan(X ) (Y se numete variabil aleatoare Cauchy). (ii) Folosind metoda Hincin-Smirnov, generai o familie de 1000 de numere aleatoare repartizate Cauchy C (0, 1). (iii) Calculai P (| tan X | > 3).

Exerciiu 2.11

Fie

o variabil aleatoare repartizat

20

Exerciiu 2.12
aleatoare

Dac

este o variabil aleatoare repartizat

U (0, 1),

determinai repartiia variabilei

Y =

eX .
Fie

Exerciiu 2.13
toare

o variabil aleatoare repartizat

B (n, p).

Determinai repartiia variabilei alea-

Y = n X.
Erorile a

Exerciiu 2.14
(1) tiia (2)

10

msurtori sunt variabile aleatoare

N (0, 1), i = 1, 2, . . . , n.
10

Artai (folosind funcia generatoare de momente) c variabila aleatoare

H=
i=1

2 i urmeaz repar-

2 ,

i.e.

H 2 (10). P (H 7); P (9.25 H 10.75);

Determinai probabilitile urmtoare:

P (H > 12). f (x) =

Exerciiu 2.15
x 8,

Latura unui ptrat este o variabil aleatoare ce are densitatea de repartiie

x (0, 4).

Determinai densitatea de repartiie a ariei ptratului.

Exerciiu 2.16 Exerciiu 2.17


Artai c dac

Dac

X N (0, 1),

determinai densitatea de repartiie a lui

|X |.

(lipsa de memorie a variabilei aleatoare exponeniale)

X exp(),

atunci are loc relaia:

P (X > y + x| X > y ) = P (X > x), (x 0, y 0).

Exerciiu 2.18

Fie

dou variabile aleatoare independente, identic repartizate

nai raza cercului (r ) cu centrul n origine astfel nct

P ((X, Y ) D(0, r)) = 0.95.

N (0, 1). Determi(D (0, r ) = {(x, y )

R, x 2 + y 2 r 2 })

Exerciiu 2.19
standard este (a) tiind c

Distana

la care sunt aruncate mingile aruncate de o main automat de servit mingi Media distanei este necunoscut, dar deviaia

de tenis este o variabil aleatoare repartizat normal.

1.2 m. P (X 20) = 0.95,

s se gseasc valoarea ateptat a distanei (adic,

(b) Stabilii repartiia variabilei aleatoare

X E(X ) Z= 1.2

E(X )). P (Z 2 2). U (0, 1).

i calculai probabilitatea

Exerciiu 2.20
(1) (2) (3)

Fie

dou variabile aleatoare independente i identic repartizate

Determinai repartiia vectorului aleator Determinai repartiiile variabilelor

(U, V ). aleatoare X = 2 ln U cos(2V ) U (0, 1)

Y =

2 ln U sin(2V ).

Bazndu-v pe rezultatul de la (2), construii un algoritm care s permit simularea de variabile

aleatoare

N (0, 1)

independente plecnd de la variabile aleatoare

independente.

Exerciiu 2.21
zate

Determinai repartiia sumei a dou variabile aleatoare independente i identic reparti-

U (0, 1).
Determinai repartiia raportului a dou variabile aleatoare independente i identic re-

Exerciiu 2.22
partizate

N (0, 1).
21

Exerciiu 2.23

Pcal l ademenete pe Tndal la un joc de barbut. Pcal a confecionat urmtoarele

trei zaruri, pentru care numrul de puncte de pe ecare fa sunt modicate:

zarul 1: zarul 2: zarul 3:

5 2 1

7 3 6

8 4 11

9 15 12

10 16 13

18 17 14

Pentru ecare zar, toate feele au aceeai ans de apariie. Fiecare juctor alege un zar i l pstreaz pentru restul competiiei. Un joc const n aruncarea zarului ales, iar cel care obine un numr mai mare de puncte va ctiga jocul. independente. (a) (b) (c) Pcal, politicos ind, l invit pe Tndal s e primul care i alege zarul. Artai c, orice zar ar La ecare joc, cel care obine un numr mai mare de puncte primete de la cellalt juctor alege Tndal, Pcal are posibilitatea de a alege un zar mai bun dintre cele rmase. Un astfel de joc poate  repetat de mai multe ori, n condiii identice i

1 RON.

Determinai ctigul mediu pe care l poate avea Pcal dup Calculai probabilitatea ca, dup

60

de jocuri (aruncri).

60

de jocuri, Pcal s aib cel puin

10 RON.

Exerciiu 2.24
urmtor:

Repartiia comun a vectorului aleator bidimensional

(X, Y ) este reprezentat de tabelul

Y p(x, y )
20 10 a 0.1 20 0.1 0.3 30 a 3a repartiie legitim;

X
(a) (b) (c) (d) (e) (f ) Determinai parametrul real

40

a pentru care tabelul reprezint o Calculai P (X 20 i Y 30) i P (X 20 i Y 30). Calculai F (20, 30), F (30, 40) i F (30, 25). Pentru Z = X + Y , calculai probabilitatea P (|Z 45| > 5). 2 Pentru W = 2X 0.5Y + 10, determinai E(W ) i D (W ). Determinai cov (X, Y ) i X,Y .
La o benzinrie exist dou tipuri de staii:

Exerciiu 2.25

cu servire asistat sau cu auto-servire.

Fiecare serviciu are cte dou pompe independente. S notm cu servire asistat care sunt folosite ntr-un anumit moment i cu folosite n acelai moment. Repartiia comun pentru

numrul de pompe de la staia cu

numrul de pompe de la auto-servire

(X, Y ) Y

este

p(x, y )
0

0 0.1 0.08 0.06

1 0.04 0.20 0.14

2 .02 .06 .3

1 2

(a) (b) (c) (d) (e) (f )

Calculai

P (X = 1

Y = 1)

Descriei n cuvinte evenimentul Determinai probabilitile Vericai dac Calculai

P (X 1 i Y 1). (X = 0 i Y = 0) i calculai marginale pentru X i Y .


i

probabilitatea acestuia.

sunt independente.

Determinai coecientul de corelaie

X,Y .

E(Y |X = 0).

Explicai n cuvinte ce reprezint aceast medie.

22

Exerciiu 2.26
i

O anumit rm primete comenzi la oricare dintre cele dou linii telefonice disponibile.

Pentru ecare linie, timpul de ateptare dintre dou apeluri este repartizat exponenial. Notm prin

cei doi timpi de ateptare. Presupunem c aceti timpi sunt independeni unul de cellalt. Dac

este timpul de ateptare mai mic dintre dou, atunci se poate arta c repartiia comun pentru este

X X X i Y

f (x, y ) =
(a) (b) (c) (d) (e) (f )

2e(x+y) , 0, Y

pentru altfel.

0 < x < y < .

Determinai densitatea de repartiie marginal a lui Determinai densitatea de repartiie a lui Gsii probabilitatea ca Vericai dac

X. X = x. X1
(i.e.,

condiionat de

s e mai mare dect

minute, tiind c

P (Y > 2|X 1)).

sunt independente.

Determinai media condiionat a lui Determinai probabilitile

Y tiind c X = 1. (i.e., P (X + Y 1) i P (X 1, Y 1). X


i

calculai

E(Y |X = 1)).

Exerciiu 2.27

Repartiia comun pentru variabilele aleatoare

este

f (x, y ) =

e(x+y) , 0,

pentru altfel.

0 < x, y < .

Determinai densitile de repartiie pentru variabilele aleatoare

U =X +Y

V =

X X +Y .

Exerciiu 2.28
(1) (2) (3)

Presupunem c timpii de funcionare continu a dou baterii,

unul de cellalt. De asemenea, presupunem c

T1 exp(1000h)

T1 i T2 , sunt independeni T2 exp(1200h). 1500h.

Determinai densitatea de repartiie comun celor dou variabile aleatoare. Calculai probabilitatea ca ambele baterii s funcioneze continuu mai mult de tiind c prima baterie a funcionat exact

1200h,

care este probabilitatea ca a dou baterie s mai

funioneze dup acest timp?

Exerciiu 2.29

Un b de lungime

1m

este rupt n dou, alegnd la ntmplare i uniform punctul de

rupere. S notm cu

distana de la stnga bului pn la punctul de rupere. Rupem din nou partea

din stnga (de lungime (a) (b) (c) Determinai

X ),

alegnd la ntmplare i uniform un nou punct de rupere. S notm cu

distana de la stnga bului rupt pn la noul punct de rupere.

E(Y |X = x). Folosind fX (x) i fY |X (y |x), Gsii fY (y ).


Vectorul aleator

determinai

f (x, y ).

Exerciiu 2.30

(X, Y )

are densitatea de repartiie

f (x, y ) =
(a) (b) Determinai valoarea lui

key 0,

pentru altfel.

0 < x < y < 1.

pentru care

Calculai coecientul de corelaie

f (x, y ) X, Y .

este o densitate de repartiie.

Exerciiu 2.31

Vectorul aleator

(X, Y )

are densitatea de repartiie

f (x, y ) =

key 0,

pentru altfel.

x > 0, y > x.

23

(a) (b) (c)

Determinai valoarea lui Calculai

pentru care

f (x, y )

este o densitate de repartiie.

Determinai densitatile de repartiie marginale.

P (X > 1|Y < 3).


Fie variabilele aleatoare discrete

Exerciiu 2.32
X=x p(x)
(i) (ii)

Y,

reprezentnd sumele ce pot  ctigate la dou

jocuri de noroc independente. Aceste variabile au tabelele de repartiie urmtoare:

5 0.5

10 0.4

20 0.1

Y =y p(y )

1 0.6

10 0.25
i

15 0. 1

30 0.05

S se determine repartiiile variabilelor aleatoare

m = min{X, Y }

M = max{X, Y }.

Determinai valoarea ateptat a ctigului cumulat din cele dou jocuri.

Exerciiu 2.33

Vectorul aleator

(X, Y )

are densitatea de repartiie

f (x, y ) =
(a) (b) (c) Calculai probabilitile Calculai

exy 0,

pentru altfel.

x 0, y 0.

Calculai probabilitile

P (X 1, Y 1), P (X + Y 1), P (X + Y > 2). P (Y 1| X 1), P (X > 1| Y > 1), P (X 2Y ). E(Y | X = 1), E(X | X = 1).
Se arunc o moned ideal n mod repetat, independent de alte aruncri. Notm cu

Exerciiu 2.34
Xk
stema, sau

k (k N). Acesta poate  2 (ctig), dac apare Sn ctigul cumulat din primele n aruncri. Cunoscnd valorile S1 , S2 , . . . , Sn (i.e., istoria ctigurilor pn la rangul n), s se determine valoarea ateptat a ctigului la aruncarea n + 1, i.e., E[Sn+1 | Sn , Sn1 , . . . , S0 ].
ctigul obinut de un juctor la aruncarea de rang

(pierdere) dac apare cealalt fa. Notm cu

24

3 Statistic Aplicat (L3 & S3) Aplicaii la TLC


Justicare grac a teoremei limit central Exerciiu 3.1
n Figura 3.1 am reprezentat grac (cu bare) funciile de probabilitate pentru repartiiile

binomial i Poisson, atunci cnd numrul de extrageri n schema binomial este un numr mare. Observm c pentru un numr

n sucient de mare, cele dou grace se suprapun.


k k nk lim Cn p q =

Aceasta este o "demonstraie"

grac a urmtoarei convergene:

n p0

e k . k!

(3.1)

=np

0.12

0.1

0.08

0.06

0.04

0.02

10

15

20

25

30

Figura 3.1:

B (n, p)

P (np)

pentru

n = 100, p = 0.15

n practic, proprietatea (3.1) este satisfcut pentru

n 30, p 0.1, = n p 0.1.


Din gura 3.1, observm c gracul are forma clopotului lui Gauss, justicnd grac faptul c funciile de probabilitate pentru binomial ( repartiia normal.

albastru)

i Poisson (

rou)

tind la densitatea de repartiie pentru

n = input('n='); p = input('p='); lambda = n*p; a=fix(lambda-3*sqrt(lambda)); b=fix(lambda+3*sqrt(lambda)); % a si b sunt valorile din problema celor 3 x=a:b; fB=binopdf(x,n,p); fP=poisspdf(x,lambda); bar(x',[fB',fP'])
25

Exerciiu 3.2
X
(a) (b) (c)

O pereche de zaruri ideale sunt aruncate de

100

de ori, n mod independent. Notm cu

variabila aleatoare ce reprezint numrul de duble aprute. Care este probabilitatea de a obine exact S se calculeze

20

de duble?

P (14 X 17). P1 = P (X = 20).


20
ns

Aproximai probabilitile de la (a) i (b) folosind teorema limit central. (a) Avem de calculat

Soluie:

este o variabil aleatoare repartizat

B (100, 1/6),

aadar rezultatul exact este:

P1 =
(b) Notm cu

20 C100

1 6

5 6

80

0.0679. X.
Atunci,

FX

funcia de repartiie pentru variabila aleatoare binomial

P2 = P (14 X 17) = P (X 17) P (X < 14) = FX (17) FX (13)


17

=
k=14
(c) Dac aproximm

k C100

1 6

5 6

100k

0.3994.

P1

folosind formula

P (X = k )
obinem:

1 npq

k np npq

1 5 (k = 20, p = , q = ) 6 6

P1
Dac aproximm

1 100
1 6

5 6

20 100/6 0.0717. 5 100 1 6 6

P2

folosind formula

P (X k )
obinem:

k+ 1 np 2 npq

P2 = P (14 X 17) = P (X 17) P (X 13)


Codul

17 +

1 2

1 6

100

100 6

13 +

1 2

1 6

5 6

100

100 6

0.3907.

5 6

Matlab urmtor calculeaz probabilitile cerute.


= = = = binopdf(10,100,1/6) % valoarea exacta binocdf(17,100,01/6) - binocdf(13,100,1/6) % valoarea exacta 6/sqrt(500)*normpdf((20-100/6)*6/sqrt(500)) % valoarea aproximativa normcdf((17+0.5-100/6)*6/sqrt(500))-normcdf((13+0.5-100/6)*6/sqrt(500)) % aprox P1 P2 P1 P2

P1 P2 P1 P2

Exerciiu 3.3

Timpul de deservire la un anumit ghieu dintr-o banc este o variabil aleatoare repartizat

exponenial, cu media de

minute. tiind c n fa mai sunt nc

36

persoane ce ateapt s e servite

(prima persoan la rnd abia a fost chemat) i c timpii de servire sunt independeni, s se calculeze probabilitatea de a atepta mai mult de o or la rnd.

26

Soluie:
Atunci

Notm cu

Ti

timpul de deservire pentru persoana din rnd de pe poziia

i (i = 1, 36).
36

Ti

sunt variabile aleatoare independente i identic repartizate

exp(2).

Notm cu

S36 =
i=1

Ti .

Probabilitatea cutat este

P (S36 > 60) = 1 P (S36 60) = 1 FS36 (60).


Pentru o variabil aleatoare exponenial Deoarece Aadar,

exp(2),

media este

= 2

i deviaia standard este

n = 36 > 30, aplicnd S36 N (72, 12). Atunci,

teorema limit central, putem concluziona c probabilitatea cutat este aproximativ

= 2. Sn N (n, n).

1 - normcdf(60, 72, 12) = 0.8413.


Altfel, putem scrie probabilitatea sub forma

P (S36 > 60) = 1P (S36 60) = 1P

60 72 S36 72 12 12

= 1(1) = 1normcdf(-1) = 0.8413.

Observaia 3.1

Putem chiar determina i repartiia exact a variabilei aleatoare

S36 .

Folosind rezultatul

din Exerciiul 1.22, obinem c

S36 (36, 2).

Aadar, probabilitatea cutat este (exact)

1 - gamcdf(60, 36, 2) = 0.8426.

Exerciiu 3.4
este punctul de paii

Un cetean turmentat pleac de la bar spre cas. S presupunem c punctul de plecare

ori face un pas n fa, cu probabilitatea

O de pe axa orizontal i se mic doar pe aceast ax astfel: n ecare unitate de timp, acesta 0.5, ori face un pas n spate, cu probabilitatea 0.5, independent anteriori. Folosind Teorema limit central, estimai probabilitatea ca, dup 100 de pai, acesta

nu a ajuns la mai mult de doi pai de punctul de plecare.

Soluie:

Xi variabila aleatoare ce reprezint pasul pe care ceteanul l face la momentul i (i N). S atribuim X = 1, dac face un pas la stnga, i X = 1, dac face un pas la dreapta. Aadar, X este o variabil aleatoare discret ce poate lua doar dou valori, 1 i 1, ambele cu probabilitatea 0.5. Se 2 calculeaz cu uurin, E(X ) = 0 i D (X ) = 1. Suntem interesai s am ce se ntmpl dup 100 de
Fie

pai. Considerm mai nti

Sn =
i=1 n

Xi .

Atunci,

E(Sn ) =
i=1
deoarece

E(Xi ) = 0

D2 (Sn ) =
i=1

D2 (Xi ) = n,

{Xi }i=1, n

sunt independente. Pentru

n 30,

Teorema limit central spune c

Sn E(Sn ) Sn = N (0, 1), D(Sn ) n


echivalent cu

Sn N (0,

n).

Pentru

n = 100, S100 N (0, 10).

Probabilitatea cerut este:

P (|S100 | 2) = P (2 S100 2) = FSn (2) FSn (2) 0.1585.


27

Matlab, calculm astfel:


N = input('N = '); X = 2*(rand(N,1)<0.5)-1; S = cumsum(X); plot(1:N, S, '-') Z=length(find(S == 0))

normcdf(2,0,10)-normcdf(-2,0,10).
% % % % %

Folosind urmtorul cod, putem simula n

Matlab micarea aleatoare 1dim (vezi Figura 3.2):


numar de pasi simuleaza pasii la fiecare moment simuleaza unde a ajuns dupa fiecare pas reprezinta miscarea numarul de reintoarceri la bar

Figura 3.2: Micare aleatoare (random walk)

1D .

Exerciiu 3.5
(a) Calculai (i) (ii)

Sn suma numerelor probabilitatea P = P (S2 6).


Notm cu

ce apar n

aruncri independente ale unui zar ideal.

(b) Folosii teorema limit central pentru a aproxima probabilitile urmtoare:

P1 = P (S50 > 180); P2 = P (340 S100 360).


(a) Tabloul de repartiie pentru

Soluie:

S2 5
4 36

este:

S2 :
de unde:

2
1 36

3
2 36

4
3 36

6
5 36

7
6 36

8
5 36

9
4 36

10 11 12
3 36 2 36 1 36

P = 1 P (S2 < 6) = 1 P (S2 5) = 1


(b) Notm cu Observm c:

10 13 = . 36 18
(i

Xi numrul aprut la aruncarea de rang i (i = 1, n). Xi = S1 U (6), = E(Xi ) = 3.5, 2 = D2 (Xi ) = 35 12


n n

= 1, n).
n

Sn =
k=1
Obinem c:

Xi ,

E(Sn ) =
k=1 875 6 ),

E(Xi ) = n E(Xi ) = 3.5n,

D (Sn ) =
k=1

D2 (Xi ) =

35 n. 12

S50 N (175,

S100 N (350,

875 3 ). Pentru aproximare, scriem

P (Sn x)

x + 0.5 E(Sn ) D(Sn )


28

Vom avea:

P1 = P (S50 > 180) = 1 P (S50 180) 1 5.5


n

6 875

0.3244.

Matlab,

1-normcdf(5.5*sqrt(6/875))
P2 = P (340 S100 360) = P (S100 360) P (S100 339) 10.5 3 875 10.5 3 875 0.4613.

Matlab,

normcdf(10.5*sqrt(3/875)) - normcdf(-10.5*sqrt(3/875))

Exerciiu 3.6

Aruncm o moned ideal n condiii identice i notm cu

n frecvena absolut de apariie

a feei cu stema din cele efectuate pentru ca

repetiii ale experimentului. Care este numrul minim de aruncri ce trebuie

P
Determinai

n 0.5 0.1 0.98. n

prin dou metode: (i) (ii) Folosind inegalitatea lui Cebev; Folosind Teorema limit central.

Soluie:
Aadar,

(i)

Observm c variabila aleatoare

n B (n, 0.5),

de unde

E(n ) =

n 2 i

D2 (n ) =

n 4.

E(
Folosim inegalitatea lui Cebev pentru

n n 1 ) = 0.5, D2 ( ) = . n n 4n n X = n , a = 0.1. Gsim c: =1 25 . n

P
Impunem condiia

n D2 n n 0.5 0.1 1 n 0.01

1
de unde obinem c (ii) Cutm

25 0.98, n

n 1250

astfel nct

P 0.1
Ne ateptm ca valoarea lui

n 0.5 0.1 = 0.98. n

(3.2)

s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,

scriem c variabila aleatoare standardizat

n E(n ) n 0.5n = N (0, 1). D(n ) 0.5 n

29

Folosind aceasta, rescriem egalitatea (3.2) astfel:

n 0.98 = P 0.1 0.5 0.1 n n 0.5n n n = P 0.1 0.1 0.5 0.5 0.5 n n n = 5 5 n n n = 1 = 2 5 5 5

de unde

1 0.99
pentru repartiia normal

n 5

= 0.99

n 5

= (0.99) = z0.99 2.33 n 135.2974.

(cuantila de ordin n

standard). Din ultima egalitate gsim c

Matlab, calculm astfel:

n = (5*norminv(0.99,0,1))^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca

n 136

Observm c aceast valoare este mult mai mic dect cea gsit anterior. Metoda a doua (TLC) ne d un rezultat mai bun dect cel obinut cu ajutorul inegalitii lui Cebev. Aici, mai bun se traduce prin faptul c, folosind numr mai mic de simulri ale experimentului, obinem acelai rezultat.

Exerciiu 3.2
puin

O companie independent de evaluri statistice a estimat ca un anumit candidat are

25%

anse s ctige alegerile locale.

Dorim s efectum un alt sondaj de opinie care s verice rezultatul

companiei. Determinai care ar trebui s e volumul minim de selecie pentru ca, cu o probabilitate de cel valorile

0.97, procentul de alegtori ce intenioneaz s-l voteze pe respectivul candidat se ncadreaz ntre 20% i 30%. Determinai volumul minim folosind cele dou metode menionate n Exerciiul 3.6.
S notm cu

Soluie:

Se cere cel mai mic

n numrul de n N pentru care

votani (din

alei aleator) care voteaz cu respectivul candidat.

P 0.2
echivalent cu

n 0.3 0.97, n

P
(i) Observm c variabila aleatoare

n 0.25 0.05 0.97. n n B (n, 0.25), de unde E(n ) = n ) = 0.25, n X=


n n ,

n 4 i

D2 (n ) =

3n 16 . Aadar,

E(

D2 (

n 3 )= . n 16n
Gsim c:

Folosim inegalitatea lui Cebev pentru

a = 0.05.

P
Impunem condiia

n D2 n n 0.25 0.05 1 n 0.052

=1

75 . n

1
de unde obinem c (ii) Cutm

75 0.97, n

n 2500

astfel nct

P 0.05

n 0.25 0.05 = 0.97. n


30

(3.3)

Ne ateptm ca valoarea lui

s e mare, deci putem aplica Teorema limit central. Aplicnd TLC,

scriem c variabila aleatoare standardizat

n E(n ) n 0.25n =4 N (0, 1). D(n ) 3n


Folosind aceasta, rescriem egalitatea (3.3) astfel:

0.97 = P 0.05

n 0.25 0.05 n n n n 0.25n = P 0.05 4 4 0.05 4 3 3 3n n n = 0.2 0.2 3 3 n n n = 0.2 1 0.2 = 2 0.2 3 3 3
i

de unde

0.2

n 3

= 0.985

0.2

n 3

standard). Din ultima egalitate gsim c

= z0.985 2.17 (cuantila de ordin 0.985 n 353.1969. n Matlab, calculm

pentru repartiia normal astfel:

n = 3*(norminv(0.985,0,1)/0.2)^2
Aadar, pentru ca relaia din enun s aib loc, va trebui ca

n 354

Observm, din nou, c aceast valoare este mult mai mic dect cea gsit anterior.

Exerciiu 3.7

Urmtorul set de date reprezint preurile (n mii de euro) a

20

de case, vndute ntr-o

anumit regiune a unui ora:

113 60.5 340.5 130 111.5 525 50 122.5

79 475.5 125.5 75

90 100 175.5 100 150 89 100 70

Determinai amplitudinea, media, mediana, modul, cuartilele i distana intercuartilic pentru aceste date. Care valoare este cea mai reprezentativ?

Soluie:

Rearanjm datele n ordine cresctoare:

50 60.5 70 113.5 122.5


Amplitudinea este

75 79 89 125.5 130

90 100 100 100 150 175.5 340.5


este este

111.5 475.5

525

525 50 = 475, media lor inferioar este Q1 = 84, cuartila superioar d = Q3 Q1 = 56. 340.5, 475.5, 525,

154.15, mediana este 105.75, modul este 100, cuartila Q3 = 140, Q2 = M e i distana intercuartilic este

Mediana este valoarea cea mai reprezentativ n acest caz, deoarece cele mai mari trei preuri, anume mresc media i o fac mai puin reprezentativ pentru celelalte date. n cazul n care setul de date nu este simetric, valoarea median este cea mai reprezentativ valoare a datelor. n

Matlab,

31

X = [113; 60.5; 340.5; 130; 79; 475.5; 90; 100; 175.5; 100; ... 111.5; 525; 50; 122.5; 125.5; 75; 150; 89; 100; 70 a = range(X); m = mean(X); Me = median(X); Mo = mode(X); Q1 = quantile(X,0.25); Q2 = quantile(X,0.5); Q3 = quantile(X,0.75); d = Q3 - Q1;

nlimea (n cm)

frecvena

[0, 5) [5, 10) [10, 15) [15, 20) [20, 25) [25, 30)
Tabela 3.1:

5 13 23 17 10 2

Exerciiu 3.8

Considerm datele din Tabelul 3.1. Determinai amplitudinea, media, mediana, modul,

dispersia i prima cuartil pentru aceste date.

Soluie:

Amplitudinea este

a = 30.

Media este

x =

(x f ) 1 = (2.5 5 + 7.5 13 + 12.5 23 + 17.5 17 + 22.5 10 + 27.5 2) = 13.9286. n 70

Dispersia este:

s2 =

1 ( (x2 f ) n x 2 ) n1 1 = (2.52 5 + 7.52 13 + 12.52 23 + 17.52 17 + 22.52 10 + 27.52 2 70 13.92862 ) 69 = 37.06. [10, 15). 35
Deoarece n clasele anterioare ([0,

Clasa median este clasa

5)

[5, 10))

se a deja

5 + 13 = 18

date mai mici dect mediana, pentru a aa nlimea median a plantelor (i.e., acea valoare care este mai mare dect nlimea a de plante i mai mic dect nlimea a alte

35

de plante), va trebui

s determinm acea valoare din clasa median ce este mai mare dect alte Aadar, avem nevoie de a determina o fracie median este

17

valori din aceast clas.

17 23 dintre valorile clasei mediane. n concluzie, valoarea

M e = 10 +
Clasa modal este cele

17 5 = 13.6957. 23 12.5.

[10, 15),

iar modul este valoarea central a clasei,

Calculm acum prima cuartil. mprim setul de date n patru. Prima cuartil este acea valoare dintre

70

care este mai mare dect alte

18

valori, adic

Q1 = 10.

Implementarea n

Matlab:

x = [2.5; 7.5; 12.5; 17.5; 22.5; 27.5]; % centrele claselor f = [5; 13; 23; 17; 10; 2]; % frecventele n = 70; m = sum(x.*f)/n; s2 = (sum(x.^2.*f) - n*m^2)/(n-1);

32

Exerciiu 3.9

O companie de asigurri a nregistrat numrul de accidente pe sptmn ce au avut loc

ntr-un anumit sat, n decurs de un an (52 de sptmni). Acestea sunt, n ordine:

1, 0, 2, 3, 4, 1, 4, 0, 4, 2, 3, 0, 3, 3, 1, 2, 3, 0, 1, 2, 3, 1, 3, 2, 3, 2, 4, 3, 4, 2, 3, 4, 4, 3, 2, 4, 1, 2, 0, 1, 3, 2, 0, 4, 1, 0, 2, 2, 4, 1, 2, 2

(a) Construii un tabel de frecvene care s conin numrul de accidente, frecvenele absolute i relative. (b) Gsii media empiric, mediana i deviaia standard empiric. (c) Reprezentai prin bare rezultatele din tabelul de frecvene. (d) Gsii i reprezentai grac (cdfplot) funcia de repartiie empiric a numrului de accidente. (e) Aproximai probabilitatea ca ntr-o sptmn aleas la ntmplare s  avut cel puin dou accidente.
Soluie:
(a) Tabelul de frecvene este Tabelul 3.2.

numrul frecv. abs. frecv. rel.

0 7 0.1346

1 9 0.1731

2 14 0.2692

3 12 0.2308

4 10 0.1923

Tabela 3.2: Tabel de frecvene pentru Exerciiu 3.9

(b) Avem:

52

x=
i=1
(c) 3.3.

xi = 2.1731,

s=

1 51

52

(xi x )2 = 1.3094,
i=1 (x) Fn

M e = 2.
sunt reprezentate n Figura

Reprezentarea prin bare a numrului de accidente i gracul lui

(d) Funcia de repartiie empiric este:

0, 7 52 , 16 , 52 Fn (x) = P (X x) = 30 52 , 42 52 , 1,
Probabilitatea cerut la

x < 0; dac x [0, dac x [1, dac x [2, dac x [3, dac x 4.
dac

1); 2); 3); 4);

(e)

este:

P (X 2) = 1 P (X < 2) = 1 P (X 1) 1 Fn (1) = 1
Codul

16 = 0.6923. 52

Matlab pentru calcule i grace este:

Y = [zeros(7,1);ones(9,1);2*ones(14,1);3*ones(12,1);4*ones(10,1)]; m = mean(Y); s = std(Y); Me = median(Y); subplot(1,2,1); bar(0:4,[7,9,14,12,10]) % graficul cu bare subplot(1,2,2); cdfplot(Y) % graficul functiei de repartitie empirice
33

Figura 3.3: Reprezentare pentru numrul de accidente.

Exerciiu 3.10
este

Testm media notelor obinute de studenii din ultimul an al unei universiti. S pre-

supunem c pentru aceste note avem media de selecie

x = 7.24

i deviaia standard

s = 0.7.

Media ta

8.45.

Care i este poziia mediei tale, raportat la mediile colegilor ti? (i.e., cte deviaii standard,

s,

dedesubtul sau deasupra mediei de selecie te situezi?)

Soluie:

Calculm scorul

Z.

Avem: deviaii standard deasupra mediei de selecie.

z=

xx 8.50 7.24 = = 1.8 0.7

Exerciii suplimentare Exerciiu 3.11


(a) (b) (c) Notm cu

Sn

numrul de steme ce apar la aruncarea repetat de

ori a unei monede

ideale. Folosii teorema limit central pentru a aproxima urmtoarele probabiliti:

P1 = P (S100 > 57); P2 = P (473 S1000 548); P3 = P (S50 = 25). Care este

valoarea exact a lui

P3 ?

Exerciiu 3.12
astfel nct

Fie X1 , X2 , . . . , Xn variabile aleatoare identic repartizate i independente stochastic, P (Xi > 0) = 1, i (i.e., Xi > 0 a.s.). Artai c pentru n sucient de mare, produsul X1 X2 . . . Xn urmeaz repartiia lognormal.

Exerciiu 3.13
(a) (b) (c) exact

Se arunc o pereche de zaruri n mod repetat i independent.

Care este numrul mediu de aruncri necesare pentru a obine o dubl? Care este probabilitatea de a obine o dubl pentru prima dat din cel mult

aruncri? Dar din

aruncri?

Aplicnd Teorema limit central, determinai numrul minim de aruncri necesare pentru ca, cu o

probabilitate de

0.95,

frecvena relativ a numrului de duble obinute s e ntre

0.25

0.35.

34

Exerciiu 3.14
aproxima: (a) (b)

Un zar ideal este aruncat de

48

de ori.

Utilizai Teorema limit central pentru a

probabilitatea ca suma punctelor obinute s e mai mare dect probabilitatea ca suma punctelor obinute s e ntre

165.

160

175.

Exerciiu 3.15 Exerciiu 3.16

Dac

X P (1), determinai cel mai mic numr natural n pentru care P (X < n) 0.99.
o variabil aleatoare cu

Fie

= E(X ) = 1

D2 (X ) = 0.2.

Determinai

marginile inferioare pentru urmtoarele probabiliti:

P (0.5 X 1.5),

P (|X 1| < 2).


care pot lua urmtoarele

Exerciiu 3.17 Considerm irul de variabile aleatoare independente {Xn }nN


valori:

n, 0,

n,

cu probabilitile:

1 P (X1 = 0) = 1, P (Xk = k ) = P (Xk = k ) = k


Artai c acest ir satisface legea slab a numerelor mari.

2 P (Xk = 0) = 1 , k

k = 2, 3, 4, . . . .

Exerciiu 3.18
intervalul

Teorema limit central arm c suma unui ir de v.a. independente i identic reparti-

zate are o form normal, indiferent ce tip de repartiie au variabilele din ir. Dorim s dovedim aceasta grac, prin simulri n

Matlab, alegnd o funcie de repartiie oarecare.

S alegem

40

de numere din

[0, 1]

ce au una dintre densitile de repartiie de mai jos.

Calculm suma lor, notat

S40 .

Repetm acest eperiment de

n acelai sistem de coordonate, desenm densitatea de repartiie Urmrii ct de bine se potrivesc cele dou grace. (a)

1000 de ori i realizm un grac cu bare (20 de bare) a rezultatelor obinute. N (, ), unde = (S40 ) i = (S40 ).
(b)

f (x) = 2x;

f (x) = 3x2 ; n,

(c)

f (x) = 2 4|x 0.5|. Sn


din exerciiul precedent s e

Exerciiu 3.19
aleatoare n

Ct de mare ar trebui s e

astfel nct suma

aproximativ normal? Rspundei al aceast ntrebare alegnd, pe rnd, cte

n = 1, 5, 15, 20 n

numere

[0, 1],

pentru ecare dintre densitile de repartiie de la

(a) (c),

calculai de ecare dat pentru care obinei

Sn

i repetai experimentul de

1000

de ori. Determinai, de ecare dat, pe acel

cea mai bun potrivire ntre gracul cu bare i gracul densitii de repartiie.

35

4 Statistic Aplicat (L4 & S4)

Utiliznd funciile

legernd(< param >, m, n)


i

(4.1)

random( lege , < param >, m, n)


introduse anterior, putem genera variabile aleatoare de selecie de un volum dat, trebui ca

(4.2)

n.

Pentru aceasta, va

m=n

n (4.1) i (4.2). Astfel, comanda

random('norm',100,6, 50,50)
genereaz o matrice ptratic, de dimensiune

50.

Putem privi aceast matrice aleatoare astfel: ecare

coloan a sa corespunde unei variabile aleatoare de selecie de volum valori ale sale obinute la o observaie. n total, avem aleatoare de selecie. Aadar, am generat repartiia

50,

creia i precizm cele

50

de

50

de coloane, corespunznd celor

50

de variabile aleatoare de selecie de volum

50 de 50, ce

variabile urmeaz

N (100, 6).
Presupunem c masa medie a unor batoane de ciocolat produse de o main este o n vederea vericrii parametrilor mainii, dintre batoanele primite

Exerciiu 4.1
caracteristic (i) (ii)

X N (100, 0.65).

ntr-un depozit s-au ales la ntmplare Calculai

1000

de buci.

Calculai media i deviaia standard ale mediei de selecie,

X. 102
de grame. Calculai

P (98 < X < 102). 98


de grame sau peste

(iii) Un baton este declarat rebut dac masa sa este sub procentul de rebuturi avute.

Soluie:

(i)

tim c media de selecie

urmeaz repartiia

N (100, 0.65/ 1000).

Aadar,

X = 100,
(ii) Probabilitatea

X 0.02.

P1 = P (98 < X < 102)

este

P1 = P (X < 102) P (X 98) = FX (102) FX (98) 1.


(iii) Probabilitatea de a avea un rebut este:

P2 = P {X < 98}

{X > 102}

= P (X < 98) + P (X > 102) = FX (98) + 1 FX (102),


de unde, procentul de rebuturi este

r = P2 100% 0.2091%,
adic aproximativ

rebuturi la

1000

de batoane.

36

Matlab, acestea pot  calculate astfel:


mu = 100; sigma = 0.65; n=1000; % n = volumul selectiei X = normrnd(mu, sigma, n,n); % am generat selectia de volum n Xbar = mean(X); S = sigma/sqrt(n); % Xbar = media de selectie m = mean(Xbar); s = std(Xbar); % media si deviatia standard P1 = normcdf(102, mu, S) - normdf(98, mu, S); P2 = normcdf(98,mu,sigma) + 1 - normcdf(102,mu,sigma); rebut = P2*100;

Exerciiu 4.2
500ml
cel de (a) (b) (c) (d) i

amponul marca Fairhair se vinde acum n supermarket n trei mrimi (volume): 250ml, 1 litru. Treizeci la sut dintre cumprtorii acestui produs cumpr aconul de 250ml, 50% pe 500ml, iar restul pe cel de 1 litru. Notm cu X volumul unui acon de Fairhair. Fie X1 i X2

volumele acoanelor cumprate de doi dintre clieni, alei la ntmplare. Determinai repartiia mediei de selecie

2 Calculai D (X ) i comparai-o cu
Calculai probabilitatea

X . Calculai = D2 (X ).

media

E(X )

i comparai-o cu

= E(X ).

P (X 500).

Care ar trebui s e volumul minim de cumprtori pentru ca media de selecie s satisfac relaia

P (X 500) > 0.75?


Soluie:
Fie v.a.

ce reprezint volumul ales de un cumprtor. Atunci distribuia lui

este:

x p(x)
Deoarece

250 0.3

500 0 .5

1000 0.2

X2 sunt variabile aleatoare de selecie, ele X . Avem c = E(X ) = 525 i = D(X ) = 25 109. (a) Media de selecie este X = (X1 + X2 )/2. Repartiia
i

X1

sunt independente ac si au aceeai repartiie ca sa este:

x p(x)
Media este (b) (c) (d)

250 0.09

375 0.3

500 0.25

625 0.12

750 0 .2

1000 0.04

X = E(X ) = E(X ) = = 525. 109 X = = 25 < . 2 2 P (X 500) = 0.25 + 0.12 + 0.2 + 0.04 = 0.61. X N (0, 1) n general, X N , , de unde gsim c n n X
n

Aadar,

0.75 < P (X 500) = 1P (X 500) = 1P


de unde

500
n

= 1

500
n

= 1

n 109

n 109

< 0.25

n < 1 (0.25) = z0.25 = 0.6745, 109

de unde

2 n > 109 z0 .25 50.

37

Exerciiu 4.3

n vederea studierii unei caracteristici

ce are densitatea de repartiie

f (x) =
s-a efectuat o selecie repetat de volum unde

2 x, x (0, 1); 0, x (0, 1).


Se cere s se determine probabilitatea

n = 100.

P (X < 0.65),

este media de selecie.

Soluie:

Se observ cu uurin c

f (x)

ndeplinete condiiile unei funcii de repartiie, adic este

msurabil, nenegativ i

f (x) dx =
R 0
Pentru a calcula probabilitatea cerut, avem nevoie de

2 x dx = 1. E(X )
1
i

D2 (X ).

Avem:

E(X ) =
R

x f (x) dx =
0

2 2 x2 dx = , 3 4 1 = . 9 18

D2 (X ) = E(X 2 ) (E(X ))2 =


R
Aadar, repartiia mediei de selecie

x2 f (x) dx

este

XN

1 2 , 3 18 100

Putem acum calcula probabilitatea cerut. Ea este:

P (X < 0.65) = FX (0.65) = normcdf(0.65, 2/3, 1/(30*sqrt(2))) = 0.2398.

Exerciiu 4.4

Notm cu

P1 , P2 , . . . , P9

preurile oferite de

rea unui anumit tablou. Presupunem c acestea sunt variabile aleatoare repartizate uniform obinut pentru acest tablou.

9 ofertani la o licitaie public pentru vindeU (1000, 2000).

Obiectul se va vinde celui care vine cu oferta cea mai mare. Determinai valoarea ateptat a preului

Deoarece

P U (1000, 2000),

atunci

f (x) =

1 1000 ,

dac dac

0,

1000 < x < 2000 x (1000, 2000)

F (x) =

0, 1,

dac dac dac

x1000 , 1000

x 1000 1000 < x < 2000 x 2000

Funcia de repartiie a statisticii de ordine

M = P(9) = max{P1 , P2 , . . . , P9 } x R.

este

FT(9) (x) = [F (x)]9 ,


Densitatea de repartiie a statisticii de ordine

este

fT(9) (x) = FT(9) (x) = 9[F (x)]8 f (x),


38

x R.

Preul de vnzare ateptat este media variabilei aleatoare

M, x 1000 1000
8

2000

E(Y ) =

9 xfY (x)dx = 1000


1000

dx = 1900.

Exerciiu 4.5
manufacturier

Becurile produse de un manufacturier

au timpul mediu de funcionare de

1400

ore,

200 ore, n timp ce timpul mediu de funcionare ale becurilor produse de un B au timpul mediu de funcionare de 1200 ore, cu deviaia standard de 100 ore. Se face o selecie de 125 becuri din ecare tip i se testeaz becurile alese. Pentru seleciile date, care este probabilitatea ca becurile produse de A au un timp mediu de via mai mare cu (a) 160 de ore; (b) 250 de ore; mai mare dect timpul mediu de funcionare ale becurilor produse de B ? (c) Care este probabilitatea ca timpul mediu de funcionare al becurilor selectate din tipul A s e cuprins ntre 1375 de ore i 1425 de ore? (d) Presupunem c timpul mediu de funcionare ale becurilor produse de A este o v.a. normal. Alegem la ntmplare un bec de tipul A. Care este probabilitatea ca timpul s mediu de funcionare s e cuprins ntre 1375 de ore i 1425 de ore?
cu deviaia standard de

Soluie:

Notm cu

T1

T2

cele dou timpuri de funcionare. Avem c i

T1 = 1400, T1 = 200
Pentru o selecie de volum

T2 = 1200, T2 = 100.

n = 125

(vom considera c selecia este repetat, deoarece volumul seleciei

este mult mai mic dect numrul becurilor produse de ecare manufacturir), avem c:

200 T1 N (1400, ) 5 5

100 T2 N (1200, ). 5 5

Diferena mediilor de selecie este o v.a. repartizat astfel:

T1 T2 N (200, 20).
(a) Probabilitatea cerut este:

P (T1 T2 > 160) = 1 FT1 T2 (160) = 1 - normcdf(160,200,20) = 0.9772.


(b) Probabilitatea cerut este:

P (T1 T2 > 250) = 1 FT1 T2 (250) = 1 - normcdf(250,200,20) = 0.0062.


(c) Probabilitatea cerut este:

P (1375 T1 1425) = FT1 (1425) FT1 (1375) = normcdf(1425,1400,8*sqrt(5)) - normcdf(1375,1400,8*sqrt(5)) = 0.8377.


39

(c)

Probabilitatea cerut este:

P (1375 T1 1425) = FT1 (1425) FT1 (1375) = normcdf(1425,1400,200) - normcdf(1375,1400,200) = 0.0995.

Exerciiu 4.6
n

Dou avioane zboar n aceeai direcie pe dou coridoare paralele. La momentul

t = 0,

6km n faa celui de-al doilea. Presupunem c viteza primului avion (msurat 510 i deviaia standard 10, iar viteza celui de-al doilea avion este normal repartizat, cu media 500 i deviaia standard 10. (a) Care este probabilitatea ca, dup 4 ore de zbor, al doilea avion s nu l  ajuns pe primul? (b) Determinai probabilitatea ca, dup 4 ore de zbor, distana dintre cele dou avioane s e de cel mult 5km.
primul avion are un avans de

km/h)

este o v.a. repartizat normal, cu media

Soluie:

Notm cu

v1

v2

cele dou viteze. Avem c

v1 N (510, 10)
Dup

v2 N (500, 10). 4
pentru ecare v.a., anume

ore de zbor (adic avem cte o selecie de volum

{v1i }i , {v2i }i , i =

1, 4),

mediile de selecie for satisface:

v1 N (510, 5)

v2 N (500, 5).

Diferena mediilor de selecie este o v.a. repartizat astfel:

v1 v2 N (10, 5 2).
(a) Evenimentul ca, dup

4 {

ore de zbor, al doilea avion s nu l  ajuns pe primul este

v1i + 6
i=1 i=1

v2i > 0} = {4v1 4v2 + 6 > 0}.

Probabilitatea acestui eveniment este:

3 3 3 P ({4v1 4v2 + 6 > 0}) = P ({v1 v2 > }) = 1 P ({v1 v2 }) = 1 Fv1 v2 ( ) 2 2 2 = 1 - normcdf(-3/2,10,5*sqrt(2)) = 0.9481.
(b) Evenimentul ca, dup

ore de zbor, distana dintre cele dou avioane s e de cel mult

5km

este

{|4v1 4v2 + 6| 5}.

Probabilitatea acestui eveniment este:

P ({|4v1 4v2 + 6| 5}) = P

11 1 v1 v2 4 4 1 11 = Fv1 v2 Fv1 v2 4 4 = normcdf(-1/4,10,5*sqrt(2)) - normcdf(-11/4,10,5*sqrt(2)) = 0.0379.

40

Exerciiu 4.7
proprieti:

S se arate c dispersia de selecie i dispersia de selecie modicat au urmtoarele

2 2 E[d2 (X )] = D (X ), E[d (X )] =

n1 2 D (X ), n N . n

Notm cu

= E(X ).

Avem c:

E(d2 (X )) = E = 1 E n 1 n

1 n

(Xi X )2
i=1 n 2 i=1

1 E n

(Xi + X )2
i=1 n n

(Xi ) 2(X )
i=1 n

(Xi ) +
i=1

( X ) 2

E (Xi )2 2nE (X )2 + nE (X )2
i=1

1 nE (X )2 nE (X )2 = n D 2 (X ) n1 2 = D 2 (X ) = D (X ). n n
Totodat, se observ c

1 nD2 (X ) nD2 (X ) n

2 E[d2 (X )] = D (X ).

Exerciii suplimentare Exerciiu 4.8


(a) Un anumit component electric, care este strict necesar pe un satelit ce orbiteaz Pmntul,

are durata medie de funcionare continu de

10

zile.

Care este probabilitatea ca durata de funcionare continu a unui astfel de component s depeasc zile? (se consider c timpul de funcionare este o v.a. exponenial). De ndat ce se defecteaz, acest component va trebui nlocuit imediat cu unul nou, identic. Care este

10
(b)

numrul minim de componente de acest tip ce trebuie luate la plecarea ntr-o misiune de un an, pentru ca probabilitatea ca satelitul s devin inoperativ din cauza epuizrii tuturor rezervelor funcionabile s e mai mic de

0.02?
Considerm funcia

Exerciiu 4.9

f : R R, f (x) =

dat prin

a ex 0 f (x)

, x > 0; , x 0.

(i) Gsii valoarea parametrului (ii) Fie (ii) Fie

pentru care

este o densitate de repartiie; media de

X v.a. ce are densitatea de repartitie gasit. Calculai probabilitatea P (X > 1); {X1 , X2 , . . . , X100 } variabilele aleatoare de selecie repetat asupra lui X si e X selecie. Calculai P X > 1 i P X = a .

Exerciiu 4.10 Exerciiu 4.11


(i) (ii)

Determinai dispersia statisticii dispersie de selecie

d2 (X ).

Presupunem c timpul necesar pescuirii unui pete dintr-un anumit iaz este o variabil

aleatoare repartizat

exp(10min).

La un concurs, apte pescari se ntrec n a prinde cte un pete,

ctignd cel care l-a prins primul. Care este probabilitatea ca primul pete s e prins n mai puin de Care este probabilitatea ca toi cei

minute?

pescari s  prins cte un pete n mai puin de

15

minute?

41

Exerciiu 4.12

(a)

Artai c dac

U U (0, 1),

atunci

X = + tan
(b) Generai n

1 2

C (, ).

Matlab o selecie de 500 de variabile aleatoare ce urmeaz repartiia Cauchy C (100, 10).
Cantitatea de ap consumat de Ana n ecare zi se presupune a  o v.a. normal cu

Exerciiu 4.13
media

2l

i deviaia standard

300 ml,

independent de zi. Ana a cumprat azi un bax de

sticle a cte

2.5

litri de ap ecare. Presupunnd c Ana bea doar din apa cumprat azi, care este probabilitatea ca

ea s mai aib ap din acest stoc i dup o sptmn (7 zile, inclusiv cea de azi)?

Exerciiu 4.14

Masa medie a unui bagaj ce trece pe la serviciul de check-in al aeroportului din Iai pentru

cursa de Viena este o v.a. cu media i o v.a. cu media (a) (b)

21 kg

i deviaia standard

3.5 kg

pentru pasagerii de la clasa economic

12 kg

i deviaia standard

4.5 kg

pentru pasagerii de la clasa business. Presupunem c

aceste valori sunt ale unor variabile aleatoare independente de la un pasager la altul, indiferent de clas. Dac ntr-o anumit curs se a

16

pasageri la clasa business i

81

pasageri la clasa economic, care

este valoarea ateptat i deviaia standard a masei totale de bagaje ale pasagerilor din acel avion? Care este probabilitatea ca masa total de bagaje ale celor

97

de pasageri pentru aceast curs s

nu depeasc

2000 kg ? 6
pasageri de la clasa economic i a

(c) Se aleg la ntmplare bagajele a mic de

10

pasageri de la clasa business

i se cntresc. Care este probabilitatea ca diferena maselor bagajelor dintre cele dou clase s e mai

20 kg ?
Batoanele de ciocolat produse de o anumit rm cntresc ecare

Exerciiu 4.15
standard

50

g, cu deviaia buci.

0.02

g. Se aleg la ntmplare dou loturi de batoane de ciocolat, ecare avnd

Care este probabilitatea ca masele totale ale celor dou loturi s nu difere prin mai mult

100 de de 5 g?

Exerciiu 4.16
U (0, 10)
(a) (b) (c) repartizat

Presupunem c timpul de ateptare a autobuzului n staie este o v.a. Toi timpii sunt independeni ntre ei.

repartizat

pentru orele dimineii, iar timpul de ateptare a autobuzului n staie la orele serii este o v.a.

U (0, 8).

Dac ntr-o anumit sptmn luai autobuzul n ecare zi (5 zile lucrtoare), care este timpul total Care este abaterea standard a timpului total petrecut n staia de autobuz n ntreaga sptmn? Determinai valoarea medie i abaterea standard a diferenei dintre timpul total petrecut dimineaa

mediu pe care v ateptai s-l petrecei n staia de autobuz n ntreaga sptmn?

i timpul total petrecut seara n staia de autobuz n ntreaga sptmn?

Exerciiu 4.17 Exerciiu 4.18


Presupunem c (a) (b) (c) (d) (e) (f )

Fie

X1 , X2 , . . . , X10

o selecie repetat de volum

media i deviaia standard pentru primele dou statistici de ordine,

10 de v.a. repartizate U (0, 1). X(1) i X(2) .

Gsii

Tudor i Maria au hotrt s se ntlneasc ntre orele 1:00p.m. i 2:00p.m. n faa unui

restaurant local, pentru a lua prnzul. Notm cu

timpul sosirii Mariei i cu

sunt independente, ecare ind uniform repartizate

Y timpul U (1, 2).

sosirii lui Tudor.

Care este repartiia comun a vectorului Dac primul care ajunge ateapt

(X, Y )?

Care este probabilitatea ca amndoi s ajung ntre 1:15 i 1:30?

15

minute, iar dac celtalt nu sosete n acest timp pleac, care

este probabilitatea ca ei s se ntlneasc n faa acelui restaurant? Dac Tudor a ajuns la 1:15 p.m., care este probabilitatea ca Maria s  ajuns pn la 1:30p.m.? Determinai probabilitatea ca primul sosit s ajung pn la ora 1:15p.m. Determinai probabilitatea ca amndoi s soseasc pn la ora 1:15p.m.

42

5 Statistic Aplicat (L5 & S5) Estimaii prin Matlab


Estimaii punctuale
Estimarea parametrilor prin metoda verosimilitii maxime poate  realizat n

mle.

Matlab folosind funcia

Formatul general al funciei este:

[p, pCI] = mle(X,'distribution','lege','nume_1','val_1','nume_2','val_2',...)


unde:

este parametrul (sau parametrii) (sau vectorul de parametri) ce urmeaz a  estimat punctual; este variabila de memorie pentru intervalul (intervalele) de ncredere ce va  estimat;

pCI X

este un vector ce conine datele ce urmeaz a  analizate; este parte din formatul comenzii iar

distribution
1.1;

lege

poate  oricare dintre legile din Tabelul

nume_i/val_i

sunt perechi opionale de argumente/valori, dintre care amintim:

 alpha

reprezint nivelul de conden pentru intervalul de ncredere. Valoarea implicit n este

Matlab

= 0.005;

 ntrials (utilizat doar pentru repartiia binomial, reprezint numrul de repetiii ale experimentului.

Dac urmrim s estimm parametrii unei caracteristici gaussiene, atunci putem folosi comanda simplicat:

[p, pCI] = mle(X)


fr a mai preciza legea de distribuie.

vrsta
[18, 25) [25, 35) [35, 45) [45, 55) [55, 65)

Total

frecvena 34 76 124 87 64 385

frecvena relativ 8.83% 19.74% 32.21% 22.60% 16.62% 100%

frecvena cumulat 8.83% 28.57% 60.78% 83.38% 100.00% -

vrsta medie 21.5 30 40 50 60 -

Tabela 5.1: Tabel cu frecvene pentru rata somajului.

De exemplu, s lum drept obiect de lucru datele din Tabelul 5.1. O estimare a parametrilor metoda verosimilitii maxime este

prin

43

X=[7*rand(34,1)+18;10*rand(76,1)+25;10*rand(124,1)+35;10*rand(87,1)+45;10*rand(64,1)+55] [p, pCI] = mle(X)


i obinem estimrile:

p = 41.9716 pCI =

12.0228

% estimari punctuale pentru si

40.7653 43.1779

11.2439 12.9547

% intervale de incredere

unde prima coloan reprezint estimarea punctual i un interval de ncredere pentru estimarea punctual i un interval de ncredere pentru

, iar a doua coloan

Estimri punctuale i cu intervale de ncredere mai putem obine i utiliznd funcia

LEGEfit(X,alpha)
unde, n locul cuvntului i

alpha

LEGE

punem o lege de probabilitate ca n Tabelul 1.1,

este nivelul de conden. (Exemple:

X reprezint normfit, binofit, poissfit, expfit etc).


X

observaiile

Exerciiu 5.1
parametrului

S se arate c media de selecie din repartiia Poisson

constituie un estimator absolut corect i ecient al

P (). E(X ) = D2 (X ) = . =
n
Atunci,

Soluie:

Deoarece

X P (), E(X ) =

urmeaz c

1 E n =

Xi
i=1

1 n

E(Xi )
i=1

=
n

1 ( n

) = ,
i=1

D 2 (X ) =

1 2 D n2

Xi
i=1

1 n2

D2 (Xi )
i=1

1 ( n2

) =
i=1

0, n

cnd

n . .
Funcia

Aadar, conform deniiei, media de selecie este un estimator absolut corect pentru parametrul de probabilitate este

f (x, ) = e
de unde

x , x N, x!

ln f (x, ) x = 1 + . ln f (X, ) X X2 + 2
2

Calculm eciena estimatorului. Avem

In () = n E

= nE 1 2
Se observ c

=n X

12

1 + 2 (2 + )

n .

D2 (X ) In () = 1,

deci estimatorul

pentru

este ecient.

44

Exerciiu 5.2

Fie

Xi B (1, p), i = 1, n
n

= nX =
i=1
S se arate c

Xi ,

numrul de succese n

incercri.

este

un estimator sucient pentru

p.

Soluie:

Pentru vericarea sucienei, utilizm deniia. Avem succesiv:

L(x1 , x2 , . . . , xn ; p) =

pxi (1 p)1xi
i=1 n n

xi = p i=1

n
i=1

xi

(1 p) (x), p), = g (x) h(


unde

g (x) 1

(x) (x), p) = p h( (1 p)n(x) .

Exerciiu 5.3

Aruncm o moned despre care nu tim dac este sau nu corect (adic, probabilitatea

de apariie a feei cu stema nu este neaprat

0.5).

Fie

variabila aleatoare ce reprezint numrul de

apariii ale feei cu stema la aruncarea repetat a unei monede. Notm cu ca la o singur aruncare a monedei apare stema. Realizm valorile (1 nseamn c faa cu stema a aprut iar

probabilitatea evenimentului

80

de aruncri ale acelei monede i obinem

dac nu a aprut):

0 1 0 0 1 0 1 1 0 1 0 0 1 0 1 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 0 1 0 1 1 0 1 0 1 0 1 0 0 0 1 1 0 0 1 0 1 1 0 1 1 0 0 0 1 1 0 1 0 1 1 0 1 1 1 0 0 0 1 0 1 0
(1) S se gseasca un estimator absolut corect pentru din

i a se studieze eciena acestuia.

(2) S se gseasc estimaii punctuale i intervale ncredere pentru

Matlab.

p,

folosind funciile

mle

binofit

Soluie:

(1) Repartiia lui

este Bernoulli,

B (1, p).

Astfel,

E(X ) = p,
Un estimator absolut corect pentru medie este

D2 (X ) = p(1 p). (Xk )k=1 n . p(1 p) 0. n n2

Considerm variabilele de selecie repetat de volum,

X,

deoarece

E(X ) = E(X )
n
Aadar, pentru selecia dat, valoarea (2) Utiliznd funciile

D2 (X ) =

x=
k=1

xk = 0.5125.

Matlab astfel:

[p,pCI] = mle(Y,'distribution','bino','ntrials',1,'alpha',0.05)

45

cu rezultatul:

p = 0.5125

pCI =

0.3981 0.6259

sau, folosind comanda

binofit,

[p,pCI] = binofit(sum(Y),length(Y),0.05)
cu rezultatul:

p = 0.5125

pCI = 0.3981 0.6259

Exerciiu 5.4

Considerm un vector ale crui componente sunt:

X = 2*rand(1e6,1) - 1;
Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a. atunci estimm parametrii si astfel: normale

N (, ),

[mu, sigma] = normfit(X)


Gsim estimrile

mu = 0.0006425 sigma =0.5771


Dac presupunem c aceste observaii au fost obinute urmrind valorile unei v.a. uniforme continuu

U (a, b),

atunci estimm parametrii si astfel:

[a, b] = unifit(X) a = -1.0000 b = 1.0000

Exerciiu 5.5
1RON

Considerm urmtorul joc de noroc: Se arunc o moned pentru care probabilitatea de

apariie a feei cu banul este

Dac la o aruncare a monedei apare faa cu banul, atunci juctorul pierde

i jocul se ncheie. Altfel, pentru ecare apariie consecutiv a feei cu stema ctig

1RON

i are

posibilitatea s arunce din nou moneda. oprete.

Jocul continu pn la apariia feei cu banul, cnd jocul se

46

Notm cu este:

suma (ctigat sau pierdut) la acest joc de noroc i presupunem c funcia sa probabilitate

f (x; ) =
(a) (b) Vericai dac

(1 )2 x

, x = 1; , x = 0, 1, 2, . . . E(X )
(valoarea ateptat a

f (x; )

este o funcie de probabilitate legitim. Calculai

ctigului).

. 10 persoane au participat la acest joc, {1, 1, 0, 1, 2, 3, 1, 1, 2, 0}. Folosii aceste observaii


Determinai un estimator pentru parametrul (c) Un numr de tatea de a pierde la acest joc.

urmtoarele ind sumele rezultate n ecare caz: pentru a determina o estimare pentru probabili-

Soluie:

(a) Mai nti, observm c

(0, 1).

Artm c suma probabilitilor este 1. Avem:

+
x=0
Media variabilei aleatoare

(1 )2 x = + (1 )2
x=0
este:

x = + (1 )2

1 = 1. 1

E(X ) = +
x=0

(1 )2 xx = + (1 )2
x=0

xx = + (1 )2

= 0. (1 )2 ,
deoarece

Observm c nu putem utiliza metoda momentelor pentru a determina un estimator pentru

E(X )

nu depinde de

(nu conine nicio informaie despre

).

(b) Notm cu

variabila aleatoare ce reprezint numrul de insuccese (i.e., numrul variabilelor aleatoare

de selecie pentru care

Xi = 1).

Atunci, funcia de verosimilitate este:

nY n nY Y+

Xi
i=1

L() =
i=1
Logaritmnd, obinem:

f (xi ; ) =

Y i=1

(1 )

2 Xi

(1 )2(nY ) .

nY

ln L() = (Y +
i=1

Xi ) ln + 2(n Y ) ln(1 )

Punctele critice pentru aceast funcie veric ecuaia:

ln L() = 0,
de unde gsim c

nY

Y + = 2n Y +

Xi
i=1 nY

. Xi

i=1
Se veric faptul c derivata a doua a acestei funcii n raport cu este de maxim.

este negativ, deci punctul obinut

47

Pentru urmtoarele observaiile date, gsim c

= Y = 2 i valoarea estimatorului este


3 7.

2+10 202+10

3 7 , ceea

ce nseamn c probabilitatea de a pierde la acest joc este Mai mult, observm c estimaia lui

bazat pe un ir de

observaii toate egale cu

este

= 1

nY
(deoarece, n acest caz, pierdante este

Y = n,
i=1

Xi = 0), adic estimarea ansei de a pierde bazat pe cele n observaii

1.
Timpii de deservire la un anumit ghieu pentru 7 clieni sunt (n minute.fraciuni de mi-

Exerciiu 5.6
nut):

estimatori pentru parametrul

3.14, 4.63, 2.71, 4.85, 4.37, 5.12, 3.49 sunt valori ale unei caracteristici uniforme U (0, ). Determinai prin metoda momentelor i prin metoda verosimilitii maxime. Calculai

valorile estimatorilor pentru selecia dat.

Soluie:

Densitatea de repartiie pentru o variabil aleatoare

U (0, )

este

1 f (x; ) = 0
Metoda momentelor:
selecie de ordinul nti

, x (0, ); , n
rest

Egalnd momentul teoretic de oridinul nti

(1 (X ) = E(X ))

cu momentul de

(1 (X ) = X ),

obinem:

= E(X ) = X, 2
de unde estimatorul obinut prin metoda momentelor este este

1 = 8.0886.

1 = 2X .

Pentru selecia dat, valoarea acestuia

Metoda verosimilitii maxime:

Funcia de verosimilitate este

1 L(X ; ) = n 0

, Xi (0, ), i = 1, n; ,
n rest

Observm c aceast funcie admite un maxim doar n cazul n care toate variabilele aleatoare de selecie iau valori n n

(0, ),

caz n care

max Xi .
i=1, n

Dar, funcia de verosimilitate este o funcie descresctoare

aadar maximumul lui

L()

se obine pentru

2 = max Xi .
i=1, n

Pentru observaiile date, estimaia de verosimilitate maxim este

2 = 5.12.

Observaia 5.1
foarte mare (n

Dei valorile celor doi estimatori sunt diferite, totui, dac numrul de observaii este atunci estimaiile date de i

),

vor  sensibil egale. Pentru un numr mic de

observaii, aceste valori nu sunt neaprat uniform distribuite ntr-un interval, deci nu ne putem atepta la valori egale pentru

2 .

48

Estimaii prin intervale de ncredere n Matlab


Exemplu 5.2
masa de O main de ngheat umple cupe cu ngheat. Se dorete ca ngheat din cupe s aib Desigur, este practic imposibil s umplem ecare cup cu exact

= 250g.

250g

de ngheat.

Presupunem c masa coninutului din cup este o variabil aleatoare repartizat normal, cu masa necunoscut i dispersia cunoscut, ntmplare

= 3g. Pentru a verica dac maina este ajustat bine, se aleg la 30 de nghetate i se cntrete coninutul ecreia. Obinem astfel o selecie repetat, x1 , x2 ,

. . . , x30

dup cum urmeaz:

257 248

249 256

251 247

251 250

252 247

251 251 249 251 247 252

248 248

248 253

251 251

253 247

248 253

245 244

251 253

Se tie c un estimator absolut corect pentru masa medie este media de selecie, Se cere s se gseasc un interval de ncredere pentru

cu nivelul de

X = 250.0667. conden 0.99.


este:

Soluie:

Dup cum am vzut mai sus, un interval de ncredere pentru

(, ) =
Urmtorul cod

, x z1 2 n

x + z1 2 n

Matlab furnizeaz un interval de ncredere bazat pe datele de selecie observate.

n=30; sigma=3; alpha = 0.01; x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ... 248 256 247 250 247 251 247 252 248 253 251 247 253 244 253]; z = icdf('norm',1-alpha/2,0,1); % cuantila de ordin 1-alpha/2 pentru normala m1 = mean(x)-z*sigma/sqrt(n); m2 = mean(x)+z*sigma/sqrt(n); % capetele intervalului fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru

cnd

este cunoscut:

(, ) = (248.659, 251.478).

Observaia 5.3
ncredere cnd

Exist funcii predenite n

Matlab ce furnizeaz estimatori punctuali i intervale de Matlab predenite).

ncredere. A se compara rezultatul din acest exerciiu cu cel din Exemplul 5.4 (estimare a intervalului de

nu este cunoscut) sau Exerciiul 5.6 (intervale furnizate de funcii

Exemplu 5.4

S se gseasc un interval de ncredere pentru masa medie din Exerciiul 5.2, n cazul n

care abaterea standard

nu mai este cunoscut.

Soluie:

Dup cum am vzut mai sus, un interval de ncredere pentru

este:

(, ) =

d (X ) x t1 , ; n1 2 n
49

d (X ) x + t1 ; n1 2 n

Figura 5.1: Intervalul de ncredere pentru Exerciiu 5.2.

Urmtorul cod

Matlab furnizeaz un interval de ncredere bazat pe datele de selecie observate.

n=30; alpha = 0.01; x=[257 249 251 251 252 251 251 249 248 248 251 253 248 245 251 ... 248 256 247 250 247 251 247 252 248 253 251 247 253 244 253]; dev = std(X); % deviatia standard de selectie t = icdf('t',1-alpha/2,n-1); % cuantila de ordin 1-alpha/2 pentru t(n-1) m1 = mean(x)-t*dev/sqrt(n); m2 = mean(x)+t*dev/sqrt(n); % capetele intervalului fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2); % afiseaza intervalul dupa modul dorit
Rulnd codul, obinem intervalul de ncredere pentru

cnd

este cunoscut:

(, ) = (248.572, 251.561).

Observaia 5.5
predenite).

A se compara rezultatul din acest exemplu cu cel din Exemplul 5.2 (estimare a in-

tervalului de ncredere cnd

este cunoscut) sau Exerciiul 5.6 (intervale furnizate de funcii

Matlab

Exemplu 5.6

Suntem, din nou, n cadrul Exerciiului 5.2, cu meniunea c dispersia nu este cunoscut

a priori (vezi Exerciiu 5.4). Dorim s obinem o estimaie printr-un interval de ncredere pentru
nu este cunoscut. Folosind funcia

cnd

normfit

obinem chiar mai mult dect ne propunem, i anume:

estimaii punctuale pentru

i cte un interval de ncredere pentru ambele. Rulnd funcia, adic

[m,s,mCI,sCI] = normfit(X,0.01)

50

Observm c valorile furnizate pentru intervalul de ncredere pentru obinute n Exerciiu 5.4.

, (mCI),

sunt exact aceleai ca cele

m = 250.0667

s = 2.9704

mCI = 248.572 251.561

sCI =

2.2111 4.4159

Observaia 5.7
= 0.01)

S presupunem c facem

50

de selecii repetate de volum

30

(adic alegem n

50

de zile

diferite cte o selecie de

30

de ngheate) i am intervalele de ncredere (toate cu nivelul de conden

pentru masa medie a coninutului. Figura 5.2 reprezint grac cele

50

de intervale.

Dup cum se observ din gur, se poate ntmpla ca un interval de ncredere generat s nu conin valoarea pe care acesta ar trebui s o estimeze. Aceasta nu contrazice teoria, deoarece probabilitatea cu care valoarea estimat este acoperit de intervalul de ncredere este

P < < = 1 = 0.99,


deci exist anse de a grei n estimare, n cazul de fa de

1%.

Figura 5.2:

50

de realizri ale intervalului de ncredere pentru

Exemplu 5.8
nscrii, doar conden de

ntr-un institut politehnic, s-a determinat c dintr-o selecie aleatoare de

100

de studeni

67 au terminat studiile, obinnd o diplom. Gsii un interval de ncredere care, cu o 90%, s determine procentul de studeni absolveni dintre toi studenii ce au fost nscrii.
67 = 0.1, n > 30, p = 100 = 0.67, np = 67 > 5 i n(1 p) = 33 > 5. informaie despre N (numrul total de studeni nscrii), putem presupune c

Soluie:

Mai nti, observm c

Deoarece nu ni se d vreo

n < 0.05N .

Gsim c intervalul de ncredere cutat este:

0.67 z0.975

0.67 (1 0.67) , 100

0.67 + z0.975

0.67 (1 0.67) 100

= (59.27%, 74.73%).

51

Exemplu 5.9

Dintr-o selecie de

200 de elevi ai unei coli cu 1276 de elevi, 65% arm c dein cel puin = 0.05.
gsim c un interval de ncredere

un telefon mobil. S se gseasc un interval de ncredere pentru procentul de copii din respectiva coal ce dein cel puin un telefon mobil, la nivelul de semnicaie

Soluie:

Avem:

la nivelul de semnicaie

n = 200, N = 1276, p = 0.65. 0.05 este 0.65 (1 0.65) 200

Deoarece

n 0.05N ,

0.65 1.96

1276 200 , 1276 1

0.65 + 1.96

0.65 (1 0.65) 200

1276 200 1276 1

= (58.93%, 71.07%).

Observaia 5.10
p

Dac se dorete estimarea volumului seleciei pentru care se obine estimarea proporiei

printr-un interval de ncredere cu o eroare maxim

E,

atunci folosim formula

E = z1 2
Dac am putea ghici proporia populaiei,

p (1 p) n

(5.1)

p,

atunci gsim urmtoarea estimare a volumului seleciei:

n = p(1 p) [ ] este partea ntreag. Dac p pentru p = 0.5 i estimm pe n prin


unde

z1 2 E

, p(1 p)

(5.2)

nu poate  ghicit, atunci folosim faptul c

este maxim

n=

1 4
i

z1 2 E 40%

Exemplu 5.11

Un studiu susine c ntre

35%

dintre elevii de liceu din ar fumeaz. Ct de

mare ar trebui s e volumul unei selecii dintre elevii de liceu pentru a estima procentul real de elevi ce fumeaz, cu o eroare de estimare maxim de

0.5%.

Se va alege nivelul de semnicaie

= 0.1. 50%).

Soluie:

Folosim formula (5.2), pentru

p = 0.4

(se alege valoarea

40%,

cea mai apropiat de

Cuantila este

z0.95 = 1.28.

Gsim c o estimaie pentru

n
2

este:

n = 0.4(1 0.4)

1.64 0.005

= 25820.

Exemplu 5.12

O fabric produce batoane de ciocolat cntrind

100g

ecare. Pentru a se estima aba-

terea masei de la aceast valoare, s-a fcut o selecie de

35

de batoane, obinndu-se valorile:

100.12; 99.89; 99.76;

99.92; 100.15; 100.1;

100.1; 99.9; 99.24;

99.89; 99.7; 98.19;

100.07; 99.88; 100.11; 99.90; 99.97; 100.2; 100.2; 99.7; 100.2; 100.1; 100.04; 99.89; 100.15; 100.5; 99.79; 98.95; 100.23; 99.89;

52

100.12;

98.63;

99.03;

100.3;

98.68.
pentru deviaia standard masei batoanelor produse de res-

Gsii un interval de ncredere (cu pectiva fabric.

= 0.05)

Soluie:

Mai nti, calculm

d2 (x).

Avem:

d2 (x) =
Din tabele, sau utiliznd

1 35

35

[Xi 100]2 = 0.3.


i=1

Matlab, gsim cuantilele:


2 0.975; 35 = 53.2033; 2 0.025; 35 = 20.5694.

Matlab, cuantilele se calculeaz astfel:


icdf('chi2',0.975, 35); icdf('chi2',0.025, 35)

Intervalul de ncredere pentru dispersie este:

( 2 , 2 ) = (0.20, 0.51).
Pentru variaia standard, intervalul de ncredere este:

(, ) = ( 0.2, 0.51) = (0.44, 0.71).

Exemplu 5.13
de nicotin de

Gsii un interval de ncredere (cu

nicotin a unui anumit tip de igri, dac o selecie de

= 0.05) pentru deviaia standard a coninutului de 25 de buci are deviaia standard a coninutului

1.6mg. s = d (x) = 1.6.


Din tabele, sau utiliznd

Soluie:

Mai nti,

Matlab, gsim:

2 0.975; 24 = 39.3641;
Intervalul de ncredere pentru dispersie este:

2 0.025; 24 = 12.4012.

( 2 , 2 ) = (1.56, 4.95).
Pentru variaia standard, intervalul de ncredere este:

( 1.5608, 4.9544) = (1.25, 2.22).

Exemplu 5.14

Dou strunguri sunt potrivite s produc piese identice pentru o comand.

Pentru a

estima dac abaterile diametrelor pieselor produse de cele dou maini sunt sensibil egale, s-au luat la ntamplare dou seturi de volume la urmtoarele rezultate:

n1 = 7

n2 = 10

de piese din cele dou loturi. Msurtorile au condus

53

Lotul Lotul

1 2

25.06 25.01

24.95 25.09

25.01 25.02

25.05 24.95

24.98 24.97

24.97 25.03

25.02 24.99

24.97

25.03

24.98

S se determine un interval de ncredere pentru raportul dispersiilor diametrelor pieselor produse de cele dou loturi (

= 0.1).

Se va presupune c diametrele pieselor urmeaz o repartiie normal.

Soluie:

Determinm mai nti dispersiile empirice. Acestea sunt:

d2 1 =
Cuantilele sunt:

1 6

(L1i L1i )2 = 0.0412


i=1

d2 2 =

1 9

10

(L2j L2j )2 = 0.0409.


j =1

f0.05, 6, 9 = 0.2440
Folosind

f0.95, 6, 9 = 3.3738.

Matlab, putem calcula cuantilele astfel:


f1 = finv(0.05, 6, 9); f2 = finv(0.95, 6, 9);

Gsim intervalul de ncredere:

(f1 , f2 ) (0.25, 3.4).

Dintr-o selecie de 45 de baiei ai unei coli, 21 au spus c le place Matematica, iar dintr-o 65 de fete ale aceleiai coli, 37 au susinut c le place aceast disciplin. Construii un interval de ncredere la nivelul de semnicaie = 0.02 pentru diferena proporiilor de baiei i fete din respectiva selecie de coal crora le place Matematica.

Exemplu 5.15

Soluie:

Mai nti,

p1 =
21 45

23 45 ,

p2 =
37 65

37 65 i

z0.99 2.33.

Intervalul cutat este:

21 37 2.33 45 65

24 45 + 45

28 65 , 65

21 37 + 2.33 45 65

21 45

24 45 + 45

37 65

28 65 = (0.1990, 0.0061). 65

Exerciiu 5.16
de volum cu

O selecie aleatoare de volum ce are deviaia standard

N = 1000,

n = 25 = 2.

cu media se selecie

x = 50

se ia dintr-o populaie

(a) Dac presupunem c populaia este normal, gsii un interval de ncredere pentru media populaiei,

= 0.05. = 0.05)
n cazul n care populaia nu este

(b) Gsii un interval de ncredere pentru media populaiei ( normal.

Soluie:

(a) Gsim intervalul de ncredere

(, ) =

2 50 z0.975 , 25

2 50 + z0.975 25

= (48.4, 51.6).

54

(b) Deoarece populaia nu este normal distribuit i nici volumul populaiei nu este mare (n lui

< 30),

vom

estima intervalul de ncredere bazndu-ne pe inegalitatea lui Cebev. Avem c probabilitatea ca valorile

s e aproximate prin

X =

cu o eroare de cel mult

deviaii standard este:

P ({|X X | < kX }) 1
Lund

1 . k2

1 = 0.95, k2

gsim

k=

20.

Astfel, un interval de ncredere pentru media populaiei va 

(, ) =

x k , x + k n n
2 = D 2 (X ) = X

50

2 20 , 25

50 +

2 20 25

= (46.42, 53.58).

Am folosit faptul c

rior, de aceea inegalitatea lui Cebev este rar folosit pentru a determina intervale de ncredere. Totui, n acest caz nu aveam o alt alternativ de calcul. Dac se dorete o precizie mai bun, ar  indicat ca volumul seleciei s e de cel puin

2 . n

Observm c acest interval este mai mare dect cel gsit ante-

30, caz n care putem folosi aproximarea cu repartiia normal.

Exerciii propuse Exerciiu 5.7 Exerciiu 5.8


Artai c

n (1 X ) este un estimator sucient pentru parametrul p din repartiia B (n, p). In ()


pentru o caracteristic

Artai c informaia Fisher

N (, )

este

In () = nI1 () =
(deci, cantitatea de informaie crete cu descreterea lui

n . 2

.) 2 = D2 (X ),
iar

Exerciiu 5.9

2 Artai c statistica d (X ) este un estimator absolut corect pentru 2 2 statistica d (X ) este un estimator corect, dar nu absolut corect, pentru D (X ).

Exerciiu 5.10
B (n, p).

Estimai prin metoda verosimilitii maxime parametrul

al unei caracteristici

Exerciiu 5.11
prin:

Determinai un estimator punctual (prin metoda momentelor i prin metoda verosimili-

tii maxime) pentru parametrul

al caracteristicii

ce are densitatea de repartiie

f : R R+ ,

dat

f (x; ) =
Vericai dac estimatorul gsit este deplasat.

ex 0

, x > 0, , x 0.

Exerciiu 5.12

Fie selecia

871 822 729 794 523 972 768 758 583 893 598 743 761 858 948 598 912 893 697 867 877 649 738 744 798 812 793 688 589 615 731
S se estimeze absolut corect dispersia populaiei din care provine aceast selecie.

55

Exerciiu 5.13 Exerciiu 5.14

Estimai prin metoda momentelor parametrii unei caracteristici

X N (, ). n efectuate asupra

Dac

{Xi }i=1, n

sunt variabile aleatoare de selecie repetat de volum

unei caracteristici

X,

artai c informaia Fisher

In ()

denit prin

In () = E
este

L(X, )

In () = nI1 ().

(i.e., informaia Fisher coninut n selecia dat este de

ori informaia coninut

ntr-o singur variabil de selecie.)

Exerciiu 5.15
N (, ).

S se arate c

este un estimator ecient pentru parametrul

al repartiiei normale

Exerciiu 5.16 Exerciiu 5.17

Considerm o selecie de volum

n dintr-o colectivitate repartizat (n, ), n N.

Gsii

un estimator pentru parametrul

prin metoda verosimilitii maxime i unul prin metoda momentelor.

Considerm funcia

f : R R, dat prin 2 x e xa2 , x > 0; f (x) = a 0 , x 0. a,


funcia

(a) Pentru ce valori ale parametrului (S notm cu

f (x)

este o densitate de repartiie?

variabila aleatoare ce are aceast densitate de repartiie);

(b) Gsii un estimator pentru parametrul similitii maxime); (c) Calculai

(folosind, la alegere, metoda momentelor sau metoda vero-

E( a), D2 ( a), P (X > 0).


La un control de calitate se veric masa tabletelor de ciocolat produse de o anumit

Exerciiu 5.18

main. Pentru a se realiza acest control s-a efectuat o selecie de ciocolatelor are urmtoarele dimensiuni (n grame):

50

tablete i s-a obinut c masa

al

Masa Frecvena

99.98 9

99.99 10

100.00 13

100.01 11

100.02 7

S se determine: (a) o estimaie absolut corect pentru masa medie a tabletelor produse; (b) o estimaie corect i una absolut corect pentru dispersia valorilor masei fa de medie.

Exerciiu 5.19 Exerciiu 5.20


are media

Fie

o variabil aleatoare exponenial de parametru

Dac

r > 0, gsii un estimator

prin metoda verosimilitii maxime pentru

P (X r). n
mare, luat dintr-o caracteristic ce

Fie

X1 , X2 , . . . , Xn

o selecie repetat de volum

necunoscut i dispersia

4.

Determinai volumul seleciei pentru care, cu o probabilitate de

99%

putem estima pe

cu o eroare de o zecime.

56

Exerciiu 5.21 Exerciiu 5.22


1500

La un control de calitate, dintr-un lot de

150

de piese,

s-au gsit defecte. Determinai

un interval de ncredere cu

= 0.01

pentru probabilitatea ca o pies luat la ntmplare s e defect.

Un angajat la Serviciu Forelor de Munc dorete s fac un sondaj prin care s determine

procentul de persoane dintr-o regiune a rii ce lucreaz la negru. El dorete s e gsit estimeaz procentul real cu o eroare de cel mult de persoane angajate,

98% sigur c rezultatul

2%.

Dintr-un sondaj recent, la care au participat

273

au declarat c nu li s-au fcut carte de munc.

(a) Ct de mare ar trebui s e volumul seleciei pentru a realiza estimarea dorit? (b) Dac nu ar avea acces la acel sondajul recent, ct de mare ar trebui s e volumul seleciei pentru a realiza estimarea dorit?

Exerciiu 5.23
risc

Un studiu recent arat c dintre

120

de accidente rutiere ce s-au soldat cu victime,

56

era datorate consumului de alcool. Gsii un interval de ncredere care s estimeze cu o probabilitate de

= 0.05

procentul real al accidentelor rutiere cauzate de consumul de alcool.

Exerciiu 5.24

Notm cu

procentul de timp necesar unui student (ales la ntmplare) pentru a termina

un anumit test ntr-un interval de timp xat. Densitatea de repartiie a lui

este

f : R R+ ,

f (x; ) =
(a) Pentru ce valori ale parametrului

( + 1) x 0 ,
funcia

, 0 x 1, , altfel. f

( R)

este o densitate de repartiie?

Datele urmtoare reprezint rezultatele a

studeni alei la ntmplare:

x1 = 0.87, x2 = 0.75, x3 = 0.54, x4 = 0.95, x5 = 0.68, x6 = 0.72, x7 = 0.8.


(b) Folosii metoda momentelor pentru a determina un estimator pentru parametrul estimatorului pentru datele de mai sus. (c) Folosii metoda verosimilitii maxime petru a determina un estimator pentru parametrul valoarea estimatorului pentru datele de mai sus.

i calculai valoarea i calculai

Exerciiu 5.25 Exerciiu 5.26


semnicaie

Ct de mare ar trebui s e volumul seleciei, pentru a estima proporia de fumtori din

ar cu o eroare de cel mult

2%,

i o probabilitate de ncredere de

0.95?

Fie

o caracteristic binomial

B (n, p),

cu

cunoscut. Folosind metoda intervalelor

de ncredere pentru selecii mari, determinai un interval de ncredere pentru parametrul

p,

la nivelul de

.
n urma aruncrii unei monede de

Exerciiu 5.27
de

4050

de ori, s-a observat c faa cu stema a aprut

2052

ori. Determinai un interval de ncredere pentru probabilitatea de apariie a feei cu stema la

aruncarea respectivei monede. Se va lua nivelul de semnicaie

= 0.05.
de piese,

Exerciiu 5.28
defect.

La un control de calitate, dintr-un lot de

150

au fost gsite defecte. Deter-

minai un interval de ncredere cu

= 0.01

pentru probabilitatea ca o pies luat la ntmplare s e

57

6 Statistic Aplicat (L6 & S6)


Testarea tipului de date experimentale
Pentru a putea efectua un test statistic n mod corect, este necesar s tim care este tipul (tipurile) de date pe care le avem la dispoziie. Pentru anumite teste statistice (e.g., testul

sau testul

t,

datele

testate trebuie s e normal distribuite i independente. De multe ori, chiar i ipoteza ca datele s e normal repartizate trebuie vericat. concordan ntr-o seciune urmtoare. n De aceea, se pune problema realizrii unei legturi ntre funcia de repartiia empiric i cea teoretic (teste de concordan). Vom discuta mai pe larg aceste teste de

normplot(X)

Matlab sunt deja implementate unele funcii ce testeaz dac datele sunt normal repartizate.
reprezint grac datele din vectorul

Funcia

versus o repartiie normal. Scopul acestei funcii

este de a determina grac dac datele din observate sunt normal distribuite. Dac aceste date sunt selectate dintr-o repartiie normal, atunci acest grac va  liniar, dac nu, atunci va  un grac curbat. De exemplu, s reprezentm cu

normplot

vectorii

de mai jos. Gracele sunt cele din Figura 6.1.

X = normrnd(100,2,200,1); subplot(1,2,1); normplot(X) Y = exprnd(5,200,1); subplot(1,2,2); normplot(Y)

Figura 6.1: Reprezentarea normal a datelor.

Observm c primul grac este aproape liniar, pe cnd al doilea nu este. Putem astfel s concluzionm c datele date de din

sunt normal repartizate (fapt conrmat i de modul cum le-am generat), iar datele

nu sunt normal repartizate.

Funcia

chi2gof

determin, n urma unui test

2 ,

dac datele observate sunt normal repartizate, la un

nivel de semnicaie

= 0.05.

Astfel, comanda

h = chi2gof(x)

58

ne va furniza rezultatul admis), sau ipoteza nul

h = 1.

h = 0, dac nu putem respinge ipoteza c datele (H0 ) este admis). Aplicnd testul pentru X i Y

h = 1,

dac datele nu sunt normal repartizate (i.e., ipoteza alternativ de mai sus, obinem

(H1 )

este

observate sunt normal distribuite (i.e.,

h = 0,

respectiv,

De asemenea, putem verica dac datele statistice ar putea proveni i din alte repartiii dect cea normal. De exemplu, funcia

probplot(distribution,Y)
creaz un grac ce compar repartiia datelor din vectorul

cu repartiia dat de

tre repartiiile ce pot  comparate folosind aceast comand menionm:

'weibull'
implicit c

'lognormal'.

distribution. Prin'normal', 'exponential',

Trebuie avut grij ca valorile vectorului O alt comand util este

cu oricare dintre ultimele trei repartiii. Comanda simplicat este

distribution = 'normal'.
wblplot(Y)

Y s e pozitive pentru compararea probplot(Y), care presupune n mod

care este echivalent cu comanda

probplot(weibull,Y).

n continuare, prezentm un exemplu de utilizare a acestor comenzi. Figura 6.2, vericm dac ecare dintre cele dou selecii generate, una exponenial i cealalt normal, ar putea proveni dintr-o repartiie exponenial.

x = exprnd(0.5, 250,1); % selectie exponentiala y = normrnd(3, 1, 250,1); % selectie normala probplot('exponential',[x y]) legend('Selectie exponentiala','Selectie normala','Location','SE')

Figura 6.2: Reprezentarea exponenial a datelor.

59

Urmtoarea funcie

Matlab compar un set de date cu o repartiie precizat.

Funcia

histfit(X, n, 'tip_repartitie')

reprezint datele din vectorul X printr-o histogram ce are numrul de bare egal cu n. Dac opiunea 'tip_repartitie' apare (valabil doar pentru lucrul cu Statistics Toolbox!), atunci peste histogram se va desena densitatea de repartiie a repartiiei precizate (e.g., exponential, gamma, lognormal etc). n caz n care opiunea nu apare, se consider implicit c repartiia cu care se compar datele este cea normal. Exemplul de mai jos produce gracul din Figura 6.3.
X = binornd(1e3, 0.1, 1e4, 1); histfit(X, 100)

Figura 6.3: Compararea prin histograme.

Testul Z n

Matlab

Teste parametrice rezolvate n Matlab


Matlab utiliznd comanda

Testul Z pentru o selecie poate  simulat n

[h, p, ci, zval] = ztest(X,m0,sigma,alpha,tail)

unde:
h este rezultatul testului. Dac h = 1, atunci ipoteza nul se respinge, dac h = 0, atunci ipoteza nul nu

poate  respins pe baza observaiilor facute (adic, se admite, pn la un test mai puternic);

p este valoarea P (P value); ci este un interval de ncredere pentru , la nivelul de semnicaie ;


60

nota 2 3 4 5 6 7 8 9 10 Total

frecvena 2 4 8 15 18 17 15 7 4 90

frecvena relativ 2.22% 4.44% 8.89% 16.67% 20.00% 18.89% 16.67% 7.78% 4.44% 100%

Tabela 6.1: Tabel cu frecvene pentru date discrete.

zval este valoarea statisticii Z pentru observaia considerat; X este un vector sau o matrice, coninnd observaiile culese. Dac X este matrice, atunci mai multe teste Z sunt efectuate, de-alungul ecrei coloane a lui X; m0 = 0 , valoarea testat; sigma este deviaia standard teoretic a lui X , alpha este nivelul de semnicaie; tail poate  unul dintre urmtoarele iruri de caractere:
a priori

cunoscut;

 'both', pentru un test bilateral (poate s nu e specicat, se subnelege implicit);  'left', pentru un test unilateral stnga ( < 0 );  'right', pentru un test unilateral dreapta ( > 0 ); Exemplu 6.1 Spre exemplicare, s presupunem c datele discrete din Tabelul 6.1 sunt obinute n urma unui sondaj care contabilizeaz notele la Matematic obinute de elevii unei anumite coli. Dorim s testm, la nivelul de semnicaie = 0.05, dac media tuturor notelor la Matematic a elevilor colii este = 6.8 sau mai mare. Se tie c deviaia standard este = 2.5.
Soluie:

Aadar, avem de testat


(H0 ) = 6.8

vs.

(H1 )

> 6.8.

Vectorul X de mai jos cuprinde toate notele obinute n urma sondajului.


X = [2*ones(2,1); 3*ones(4,1); 4*ones(8,1); 5*ones(15,1); 6*ones(18,1); ... 7*ones(17,1); 8*ones(15,1); 9*ones(7,1); 10*ones(4,1)]; [h, p, ci, zval] = ztest(X, 6.8, 2.5, 0.05, 'right')

Acest cod aeaz


h = 0 p = ci = stats = -1.6444

0.9500

5.9332 Inf

Aceasta nseamn faptul c ipoteza nul este admis la acest nivel de semnicaie.
61

Observaia 6.2 (1) Dac ipoteza alternativ este bilateral ((H1 ) : = 6.8), atunci comanda ar :
[h, p, ci, zval] = ztest(X, 6.8, 2.5)

n acest caz, gsim c ipoteza nul este respins (i.e., rezultatul este h = 1). (2) Decizia testului putea  luat i pe baza P valorii. Aceasta este: n

Matlab, aceast valoare poate  calculat astfel:

Pv = P (Z > z0 ) = 1 P (Z z0 ) = 1 (z0 ) = 0.95 > 0.05 = .

m0 = 6.8; sigma = 2.5; n = 90; z0 = (mean(X) - m0)/(sigma/sqrt(n)); Pv = 1 - normcdf(z0, 0, 1)

(3) Pentru efectuarea testului, nu este neaprat necesar s am toate cele patru variabile din membrul stng. Putem aa, dup preferin, doar trei, dou, sau numai o variabil, dar doar n ordinea precizat. De exemplu, comanda
h = ztest(X, m0, sigma, alpha, tail)

ne va furniza doar rezultatul testului (h = 0 sau h = 1), fr a aa alte variabile. (4) Nu exist o funcie n care s simuleze testul Z pentru dou selecii.

Testul t n

Matlab

Matlab

Testul t pentru o selecie


Testul t poate  simulat n

Matlab utiliznd comanda general

[h, p, ci, stats] = ttest(X,m0,alpha,tail)

unde:
h, p, ci, m0, alpha, tail sunt la fel ca n funcia ztest; variabila stats nmagazineaz urmtoarele date:

 tstat - este valoarea statisticii T pentru observaia considerat;  df - numrul gradelor de libertate ale testului;  sd - deviaia standard de selecie; Exemplu 6.3 Dorim s testm dac o anumit moned este corect, adic ansele ecrei fee de a apare la orice aruncare sunt 50% 50%. Aruncm moneda n caza de 100 de ori i obinem faa cu stema de exact 59 de ori. Pe baza acestei experiene, cutm s testm ipoteza nul
(H0 ) :

moneda este corect moneda este msluit,


62

vs. ipoteza alternativ


(H1 ) :

la un prag de semnicaie = 0.05.


Soluie: Fie X variabila aleatoare ce reprezint faa ce apare la o singur aruncare a monedei. S spunem c X = 1, dac apare faa cu stema i X = 0, dac apare faa cu banul. Teoretic, X B(1, 0.5), de unde E(X ) = 0.5, D2 (X ) = 0.25. Prin ipotez, ni se d o selecie de volum n = 100 i scriem observaiile fcute ntr-un vector x ce conine 59 de 1 i 41 de valori 0. Deoarece n = 100 > 30, putem utiliza testul t pentru o selecie. Rescriem ipotezele (H0 ) i (H1 ) astfel:

(H0 ) : (H1 ) :

= 0.5 = 0.5.

Dac {X1 , X2 , . . . , Xn } sunt variabilele aleatoare de selecie, atunci alegem statistica


T = X
d (X ) n

Dac ipoteza (H0 ) se admite, atunci este xat, = 0.5 i statistica T t(n 1). Valoarea acestei statistici pentru selecia dat este:
t0 = x
d (X ) n

= 1.8207.

= t0.975; 99 = 1.9842, rezult c |t0 | < t1 , i decidem c ipoteza (H0 ) este admis (nu poate Din t1 2 ; n1 2 ; n1  respins la nivelul de semnicaie ). P valoarea este

Codul

Matlab pentru calculul analitic de mai sus este urmtorul:

Pv = 1 Fn1 (t0 ) + Fn1 (t0 ) = 1 F99 (1.8207) + F99 (1.8207) = 0.0717.

n=100; mu = 0.5; alpha = 0.05; x = [ones(59,1); zeros(41,1)]; t0 = (mean(x) - mu)/(std(x)/sqrt(n)); tc = tinv(1-alpha/2, n-1); % cuantila if (abs(t0) < tc) disp('moneda este corecta') else disp('moneda este masluita') end Pv= 1 - tcdf(t0,n-1) + tcdf(-t0,n-1) % P-valoarea

Rulnd codul, obinem rezultatul:


moneda este corecta

n loc s folosim codul de mai sus, am putea folosi funcia ttest din
[h, p, ci, stats] = ttest(X,0.5,0.05,'both')

Matlab, dup cum urmeaz:

i obinem
h = p = 0.0717 ci = 0.4919 0.6881 stats = tstat: 1.8207 df: 99 sd: 0.4943
63

Observaia 6.4 (1) Deoarece P valoarea este p = 0.0717, deducem c la un prag de semnicaie 0.08, ipoteza nul ar  fost respins. (2) Dac dintre cele 100 de observri aveam o apariie n plus a stemei, atunci ipoteza nul ar  respins, adic moneda ar  fost catalogat a  msluit. Testul t pentru dou selecii
Testul t pentru egalitatea a dou medii poate  simulat n

Matlab utiliznd comanda

[h, p, ci, stats] = ttest2(X, Y, alpha, tail, vartype)

unde:
h, p, ci, alpha, stats i tail sunt la fel ca mai sus; X i Y sunt vectori sau o matrice, coninnd observaiile culese. Dac ele sunt matrice, atunci mai multe teste Z sunt efectuate, de-alungul ecrei coloane; vartype ia valoarea equal dac dispersiile teoretice sunt egale sau unequal pentru dispersii inegale.

Exemplu 6.5 Caracteristicile X1 i X2 reprezint notele obinute de studenii de la Master M F 08, respectiv, M F 09 la examenul de Statistic Aplicat. Conducerea universitii recomand ca aceste note s urmeze repartiia normal i examinatorul se conformeaz dorinei de sus. Presupunem c X1 N (1 , 1 ) i X2 N (2 , 2 ), cu 1 = 2 , necunoscute a priori. Pentru a verica modul cum s-au prezentat studenii la acest examen n doi ani consecutivi, selectm aleator notele a 25 de studeni din prima grup i 30 de note din a doua grup. distribuctii
de frecvene ale notelor sunt cele din Tabelul 6.2. (i) Vericai dac ambele seturi de date provin dintr-o repartiie normal; (ii) Gsii un interval de ncredere pentru diferena mediilor, la nivelul de semnicaie = 0.05; (ii) S se testeze (cu = 0.01) ipoteza nul
(H0 ) : 1 = 2 , (n
medie, studenii sunt la fel de buni

versus ipoteza alternativ


(H1 ) : 1 < 2 , (n
medie, studenii au note din ce n ce mai mari

Nota obinut
5 6 7 8 9 10

Frecvena absolut Grupa M F 08 Grupa M F 09


3 4 9 7 2 0 5 6 8 6 3 2

Tabela 6.2: Tabel cu note.

Soluie:

(i)

h = chi2gof(u) k = chi2gof(v)

% %

h = 0, deci u N k = 0, deci v N

(u i v sunt vectorii din codul

Matlab de mai jos)


64

(ii)

Un interval de ncredere la acest nivel de semnicaie se obine apelnd funcia

Matlab

[h, p, ci, stats] = ttest2(u, v, 0.05, 'both', 'unequal')

Acesta este:

(-0.7294,

0.6760)

Altfel, se calculeaz intervalul de ncredere:


x1 x2 t1 ; N
2

d2 d2 1 + 2 , n1 n2

x1 x2 + t1 2; N

2 d2 d 1 + 2 n1 n2

Codul

Matlab:

n1=25; n2=30; alpha = 0.05; u = [5*ones(3,1);6*ones(4,1);7*ones(9,1);8*ones(7,1);9*ones(2,1)]; v = [5*ones(5,1);6*ones(6,1);7*ones(8,1);8*ones(6,1);9*ones(3,1);10*ones(2,1)]; d1 = var(u); d2 = var(v); N = (d1/n1+d2/n2)^2/((d1/n1)^2/(n1-1)+(d2/n2)^2/(n2-1))-2; t = tinv(1-alpha/2,N); m1 = mean(u)-mean(v)-t*sqrt(d1/n1+d2/n2); m2 = mean(u)-mean(v)+t*sqrt(d1/n1+d2/n2); fprintf('(m1,m2)=(%6.3f,%6.3f)\n',m1,m2);

(iii)

Comanda

Matlab este:

[h,p,ci,stats] = ttest2(u, v, 0.01, 'left', 'unequal')

n urma rulrii comenzii, obinem:


h = 0 p = ci = -Inf 0.8137 stats = tstat: -0.0761 df: 52.7774 sd: 2x1 double

0.4698

Observaia 6.6 Valoarea P poate  calculat i cu formula:


n

Matlab,

Pv = P (T < t0 ) = FN 1 (t0 ) = 0.4698.

t0 = (mean(u)-mean(v))/sqrt(d1/n1+d2/n2);

Pv = tcdf(t0, N-1)

Testul 2 pentru dispersie n

Matlab
10.50 10.55 10.60 10.65 2 3 5 1
65

Exemplu 6.7 Se cerceteaz caracteristica X, ce reprezint diametrul pieselor (n mm) produse de un strung. tim c X urmeaz legea normal N (, ). Alegem o selecie de volum n = 11 i obinem distribuia empiric:
.

S se testeze (cu = 0.1) ipoteza nul


(H0 ) :

2 = 0.003, 2 = 0.003.

versus ipoteza alternativ


(H1 ) :
Soluie:

Intervalul de ncredere pentru este (0.0012, 0.0055) iar valoarea critic este 2 0 = 7.2727. Deoarece aceasta aparine intervalului de ncredere, concluzionm c ipoteza nul nu poate  respins la acest nivel de semnicaie. Aceeai concluzie poate  luat n urma inspeciei valorii P , care este mai mare dect nivelul . Avem:
2 2 Pv = P (|2 | > |2 0 |) = P ( > 0 ) = 1 Fn1 (7.2727) = 0.6995.

Testul 2 poate  simulat n

Matlab utiliznd comanda

[h, p, ci, stats] = vartest(X,var,alpha,tail)

unde:
h, p, ci, m0, alpha, stats, tail sunt la fel ca n funcia ttest; var este valoarea testat a dispersiei;

Spre exemplicare, codul

Matlab pentru exerciiul anterior este:

X = [10.50*ones(2,1); 10.55*ones(3,1); 10.60*ones(5,1); 10.65]; [h, p, ci, stats] = vartest(X,0.003,0.1,'both')

Rularea acestuia ne d:
h = 0 p = ci = 0.0012 0.0055 stats = chisqstat: 7.2727 df: 10

0.6011

adic ipoteza nul este acceptat la acest nivel de semnicaie. Folosind , putem calcula P valoarea astfel:

Matlab

c0 = (n-1)/0.003*var(X);

Pv = 1 - chi2cdf(c0,10)

Testul F n

Matlab
Matlab utiliznd comanda
[h, p, ci, stats] = vartest2(X, Y, alpha, tail)

Testul raportului dispersiilor poate  simulat n

unde variabilele sunt la fel ca n funcia ttest2.


66

Exemplu 6.8 Revenim la Exerciiul 6.5 i vericm dac cele dou selecii de note (Tabelul 6.2) provin din populaii cu dispersii egale. Aadar, avem de testat (la nivelul de semnicaie = 0.01)
(H0 )
Soluie:

2 2 1 = 2

vs.

Utiliznd notaiile din Exerciiul 6.5, comanda

Matlab care rezolv acest test este:

(H1 )

2 2 1 = 2 .

[h, p, CI, stats] = vartest2(u, v , 0.01 , 'both')

(pentru teste unilaterale, folosim 'left' sau 'right' n locul lui 'both'.) Rezultatul comenzii anterioare este:
h = 0 p = CI = 0.2191 1.7426 stats = fstat: 0.6047 df1: 24 df2: 29

0.2119

Deoarece h = 0, decidem c dispersiile teoretice ale celor dou populaii pot  considerate a  egale la nivelul de semnicaie = 0.01.

Observaia 6.9 Decizia testului poate  luat i pe baza inspeciei valorii P , observnd c aceasta este mai mare dect . Aceasta este:
n

Matlab, calculm astfel:

Pv = 1 Fn1 1, n2 1 (|f0 |) + Fn1 1, n2 1 (|f0 |) = 1 Fn1 1, n2 1 (|f0 |).

f0 = var(u)/var(v); Pv = 1 - fcdf(abs(f0),n1-1,n2-1)

Teste parametrice pentru proporii Exemplu 6.10 ntr-un sondaj naional de opinie, 5000 de persoane au fost rugate s rspund la o ntrebare legat de apartenena religioas. La ntrebarea "Suntei cretini?", rspunsul a fost armativ n 4893 dintre cazuri. Rezultatul acestui sondaj este utilizat n estimarea procentului de cretini din ar. S notm cu p acest procent. La nivelul de semnicaie = 0.05, testai dac p este de 95% sau mai mare.
Soluie:

Avem de testat ipoteza


(H0 ) : p = 0.95

vs.

(H1 ) : p > 0.95.

Procentul de selecie este p =

4893 5000

= 0.9786, cuantila este z1 = 1.6449 i valoarea statisticii este 0.9786 0.95 0.95 (1 0.95) 5000 = 9.2791 [1.6449, ),

P0 =

aadar ipoteza nul este respins la acest nivel de semnicaie. Admitem c p > 0.95. Aceeai concluzie poate  dedus i prin inspecia P valorii. Aceasta este
Pv = P (Z > P0 ) = 1 P (Z P0 ) = 1 (9.2791) 0 < = 0.05.

Aadar, ipoteza nul va  respins la toate nivele de semnicaie practice.


67

Exemplu 6.11 Revenim la Exemplul 5.15. S se testeze, la nivelul de semnicaie = 0.02 dac exist diferene semnicative ntre proporiile de baiei i fete din respectiva coal crora le place Matematica.
Soluie:

Avem: p1 =

23 45 ,

p2 = P0 =

37 65 ,

p =

23+37 45+65

6 11

i z0.99 2.33. Valoarea statisticii este:


= 0.6019 [2.3263, 2.3263],

23 45 6 11 (1

6 11 )

37 65 1 45

1 65

deci ipoteza nul nu poate  respins la acest nivel de semnicaie. Aceeai concluzie o putem lua dac vericm P valoarea. Aceasta este:
Pv = P (|Z| > |P0 |) = 1 P (Z < |P0 |) + P (Z < |P0 |) = 0.5472 > 0.02 = .

Exerciii suplimentare Exerciiu 6.1 Se arunc o moned de 250 de ori, obinndu-se 138 de apariii ale stemei. La un nivel de semnicaie = 0.05, s se decid dac avem suciente dovezi de a arma c acest moned este fals. Exerciiu 6.2 Caracteristica X reprezint cheltuielile lunare pentru convorbirile telefonice ale unei familii. n urma unui sondaj la care au participat 100 de familii, am obinut datele (repartiia de frecvene):
[50, 75) [75, 100) [100, 125) [125, 150) [150, 175) [175, 200) [200, 250) [250, 300) 6 11 13 18 20 14 11 7
.

(a) S se verice, cu nivelul de semnicaie = 0.02, ipoteza c media acestor cheltuieli lunare pentru o singur familie este de 140 RON , tiind c abaterea standard este 35 RON . (b) S se verice aceeai ipotez, n cazul n care abaterea standard nu este cunoscut a priori.

Exerciiu 6.3 La un examen naional, se contabilizeaz nota x obinut de ecare examinat n parte. Pentru o
200

analiza statistic, se aleg la ntmplare 200 de candidai. S-a gsit c suma notelor alese este
i=1 200

xi = 1345.37 i

suma ptratelor acestor note este


i=1

x2 i = 10128.65. Se cer:

(a) Gsii un interval de ncredere pentru media a tuturor notelor participanilor la examen, la nivelul de semnicaie = 0.05. (b) Testai ipoteza nul (H0 ) : = 6.75, vs. ipoteza alternativ (H1 ) : = 6.75, la nivelul = 0.05. Argumentai statistica folosit n testare.

Exerciiu 6.4 Pentru o selecie dat, de volum n = 196, am obinut x = 0.25 i s = 4. Nu cunoatem nici valoarea medie i nici dispersia variabilei aleatoare ce caracterizeaz populaia. Vericai la nivelul de semnicaie = 0.05 ipoteza = 0, cu alternativa = 0. Exerciiu 6.5 Un patron susine c rma sa nu face discriminare sexual la angajare (i.e., att brbaii, ct i femeile au aceeai ans de a se angaja n respectiva rm). Se aleg 500 de angajai i se gsesc 267 de brbai. Testai la nivelul de semnicaie 0.05 dac patronul rmei spune adevrul sau nu. Exerciiu 6.6 Dintre toate nregistrrile vitezelor vehiculelor ce trec prin dreptul radarului x aezat n faa universitii, se aleg 10 date la ntmplare. Acestea sunt (n km/h):

68

48

44

55

45

47

41

39

49

55

52

Presupunem c selecia face parte dintr-o populaie normal. (a) Gsii un interval de ncredere cu ncrederea de 98% pentru viteza medie a vehiculelor ce trec prin dreptul radarului. (b) Testai dac viteza medie cu care se circul prin faa acestui radar este de 45km/h sau nu, considerndu-se un nivel de semnicaie = 0.02 ; (c) Estimai probabilitatea ca viteza legal de 50km/h s  fost depit, folosind datele seleciei considerate.

Exerciiu 6.7 O selecie de volum n = 50 este folosit pentru a verica urmtoarea ipotez
(H0 ) : = 15

vs.

(H1 ) :

= 15,

la nivelul de semnicaie = 0.05. Determinai: valoarea critic, regiunea critic, valoarea statisticii pentru selecia dat i concluzia testrii, pentru (a) x = 17.5 i s = 4.5 ( este necunoscut); (b) x = 17.5 i = 4.

Exerciiu 6.8 O selecie de volum n = 50 este folosit pentru a verica urmtoarea ipotez
(H0 ) : = 15

vs.

(H1 ) :

= 15,

la nivelul de semnicaie = 0.05. Determinai: valoarea critic, regiunea critic, valoarea statisticii pentru selecia dat i concluzia testrii, pentru (a) x = 17.5 i s = 4.5 ( este necunoscut); (b) x = 17.5 i = 4.

Exerciiu 6.9 ntr-un sondaj de opinie, 5 brbai i 5 femei au fost ntrebate dac urmresc meciuri de fotbal la TV n mod regulat. Toi brbaii i doar dou femei au rspuns armativ, ceilali spunnd c nu. S se testeze la nivelul de semnicaie = 0.05 dac diferena este semnicativ din punct de vedere statistic (i.e., dac femeile se uit la fotbal la TV cot la cot cu brbaii). Exerciiu 6.10 Urmrim preul X al aceluiai articol n 20 de magazine, alese la ntmplare. Acestea sunt:
9.6 9.9 9.9 9.8 10.3 10.1 10.0 10.4 10.5 9.9 9.7 9.9 10.2 10.0 10.4 10.2 10.3 10.1 10.0 9.7

Considerm c preul acestui articol urmeaz o repartiie gaussian. (i) Se poate admite ipoteza E(X ) = 10.0, la nivelul de semnicaie = 0.05? (ii) Se poate admite ipoteza D2 (X ) = 0.2, la nivelul de semnicaie = 0.05?

Exerciiu 6.11 Informaiile din tabelul de mai jos sunt date despre dou selecii independente ce au fost extrase din dou populaii statistice.
Selecia
1 2

Volumul seleciei
50 75

media de selecie
9.75 9.5

deviaia standard de selecie


1.5 0.95

Se cer: (a) Estimai punctual i printr-un interval de ncredere ( = 0.01) valoarea 1 2 ; (b) Testai ( = 0.01) ipoteza
(H0 ) : 1 = 2

vs.
69

(H1 ) :

1 = 2

Exerciiu 6.12 O selecie de 700 de salarii pe or din Romnia arat c media salariului pe or este x = 11.42RON i s = 9.3. Putem decide, pe baza acestui sondaj, c media salariului pe or este, de fapt, > 9.78RON, valoare stabilit de guvernul romn? Se va folosi = 0.05.

70

7 Statistic Aplicat (L7 & S7) Teste de concordan (probleme)


Exemplu 7.1 Se arunc un zar de 60 de ori i se obin rezultatele din Tabelul 7.1. S se decid, la nivelul de semnicaie = 0.02, dac zarul este corect sau fals.
Faa (clasa Oi )
1 2 3 4 5 6

Frecvena absolut (ni )


15 7 4 11 6 17

Tabela 7.1: Tabel cu numrul de puncte obinute la aruncarea zarului.

(aplicm testul 2 de concordan, cazul neparametric) Zarul este corect doar dac ecare fa a sa are aceeai ans de a aparea, adic probabilitile ca ecare fa n parte s apar sunt:
Soluie:

(H0 ) :

pi =

1 , 6

(i = 1, 2, . . . , 6).

Altfel, notm cu X variabila aleatoare ce are valori numrul punctelor ce apar la aruncarea zarului. Un zar corect ar nsemna c X urmeaz repartiia uniform discret U (6). Toate cele 60 de rezultate obinute n urma aruncrii zarului pot  mprite n ase clase. Aceste clase sunt: Oi = {i}, i {1, 2, . . . , 6}. Ipoteza nul este (H0 ) sau, echivalent,
(H0 ) :

Funcia de repartiie a lui X este U (6).

Ipoteza alternativ este "(H0 ) nu are loc", adic:


(H1 ) : Exist un j, cu pj = 1 , 6 (j {1, 2, . . . , 6}).

Calculez valoarea statisticii 2 pentru observaiile date:


2 0 = = (15 10)2 (7 10)2 (4 10)2 (11 10)2 (6 10)2 (17 10)2 + + + + + 10 10 10 10 10 10 13.6.

Repartiia statisticii 2 este 2 cu k 1 = 5 grade de libertate. Regiunea critic este:


U = (2 0.98; 5 ; +) = (13.3882, +).

Deoarece 2 0 se a n regiunea critic, ipoteza nul se respinge la nivelul = 0.02, aadar zarul este msluit. Codul :

Matlab

n = 60; k=6; alpha = 0.02; x = 1:6; chi2 = sum((f-n*p).^2)./(n*p)); val = chi2inv(1-alpha,k-1); H = (chi2 > val)

f % % %

= [15,7,4,11,6,17]; p = 1/6*ones(1,6); valoarea 2 0 cuantila 2 0.99; 5 afiseaza 0 daca zarul e corect si 1 daca nu

Observaia 7.2 Dac nivelul de semnicaie este ales = 0.01, atunci 2 0.99; 5 = 15.0863, ceea ce determin acceptarea ipotezei nule (adic zarul este corect) la acest nivel.

71

Exemplu 7.3 n urma unui recensmnt, s-a determinat c proporiile indivizilor din RO ce aparin uneia dintre cele patru grupe sanguine sunt: O : 34%, A : 41%, B : 19%, AB : 6%. S-au testat aleator 450 de persoane din RO, obinndu-se urmtoarele rezultate:
Grupa sanguin Frecvena
O 136 A 201 B 82 AB 31

Vericai, la nivelul de semnicaie = 0.05, compatibilitatea datelor cu rezultatul teoretic.


Soluie:

Ipotezele statistice sunt:


(H0 ) : (H1 ) :

Rezultatul observat este compatibil cu cel teoretic,

Exist diferene semnicative ntre rezultatul teoretic i observaii.

Dac ipoteza nul ar  adevrat, atunci valorile ateptate pentru cele patru grupe sanguine (din 450 de persoane) ar : O : 153.5, A : 184.5, B : 85, AB : 27. Calculez valoarea statisticii 2 pentru observaiile date:
2 0 = = (136 153.5)2 (201 184.5)2 (82 85)2 (31 27)2 + + + 153.5 184.5 85 27 4.1004.

Repartiia statisticii este 2 (3). Astfel, regiunea critic este:


U = (2 0.95; 3 ; +) = (7.8147, +).

Deoarece 2 0 nu se a n regiunea critic, ipoteza nul nu poate  respins la acest nivel de semnicaie.

Teste de concordan n

Matlab
Matlab este:

Am vzut deja c funcia chi2gof(x) testeaz (folosind testul 2 al lui Pearson) dac vectorul x provine dintr-o repartiie normal, cu media i dispersia estimate folosind x. Pentru testul 2 , forma general a funciei

[h,p,stats] = chi2gof(X,name1,val1,name2,val2,...)

h, p sunt la fel ca n exemplele anterioare; perechile namei/valuei sunt opionale. Variabilele namei pot : numrul de clase, 'nbins', un vector de valori centrale ale intervalelor ce denesc clasele, 'ctrs', sau un vector cu capetele claselor, 'edges'. Alte variabile ce pot  utilizate: 'cdf', 'expected', 'nparams', 'emin', 'frequency', 'alpha'. variabila de memorie stats aeaz: chi2stat - statistica 2 , df - gradele de libertate, edges - un vector cu capetele intervalelor claselor dup triere, O - numrul de valori observate n ecare clas, E - numrul de valori

unde:

ateptate n ecare clas.

Exemplu 7.4 Spre exemplicare, revenim la Exerciiul 7.1, dar cu valoarea nivelului de ncredere din Observaia 7.2. Codul ce folosete funcia de mai sus este:

Matlab

x = 1:6; f = [15,7,4,11,6,17]; p = 1/6*ones(1,6); e = N*p; alpha = 0.01; [h, p, stats] = chi2gof(x,'ctrs', x,'frequency', f,'expected',e, 'alpha',alpha)

72

Acest cod returneaz:


h = p = stats = chi2stat: df: edges: O: E:

0.0184

13.6000 5 [0.5000 1.5000 2.5000 3.5000 4.5000 5.5000 6.5000] [15 7 4 11 6 17] [10 10 10 10 10 10]

Acest rezultat conrm c ipoteza nul (zarul este corect) este acceptat la nivelul = 0.01.

Exemplu 7.5 La campionatul mondial de fotbal din 2006 au fost jucate n total 64 de meciuri, iar repartiia numrului de goluri nscrise ntr-un meci are tabelul de distribuie ca n Tabelul 7.2. Determinai (la nivelul de semnicaie = 0.05) dac numrul de goluri pe meci urmeaz o distribuie Poisson.
Nr. de goluri pe meci
0 1 2 3 4 5 6

Nr. de meciuri
8 13 18 11 10 2 2

Tabela 7.2: Tabel cu numrul de goluri pe meci la FIFA WC

2006.

(aplicm testul de concordan 2 parametric) Fie X variabila aleatoare ce reprezint numrul de goluri nscrise ntr-un meci. Teoretic, X poate lua orice valoare din mulimea N. Mulimea observaiilor fcute asupra lui X este {1, 2, 3, 4, 5, 6}, cu frecvenele respective din tabel. n total, au fost inscrise 144 de goluri. = x = 144 = 2.25. Pe baza datelor observate, dorim s Estimm numrul de goluri pe meci prin media lor, adic 64 testm dac X urmeaz o repartiie Poisson. Avem astfel de testat ipoteza nul:
Soluie:

(H0 ) :

). X urmeaz o lege Poisson P ( ). X nu urmeaz o lege Poisson P (

vs. ipoteza alternativ


(H1 ) :

) i distribuia valorilor variabilei este dat de Dac admitem ipoteza (H0 ) (adic X P (2.25), atunci pi = pi (

Clasa
0 1 2 3 4 5 6 5

ni 8 13 18 11 10 2 2 4

pi 0.1054 0.2371 0.2668 0.2001 0.1126 0.0506 0.0274 0.0780

n pi 6.7456 15.1775 17.0747 12.8060 7.2034 3.2415 1.7514 4.9926

(ni n pi )2 n pi 0.2333 0.3124 0.0501 0.2547 1.0857 0.1973

Tabela 7.3: Tablou de distribuie pentru

P (2.25).

Tabelul 7.3. Valoarea pi este P (X = i), adic probabilitatea ca variabila aleatoare X P (2.25) s ia valoarea i
73

(i = 0, 1, 2, 3, 4). Am putea forma 7 clase. Deoarece pentru ultimele dou clase din Tabelul 7.3, anume {X = 5} i {X 6}, numerele ni nu depec valoarea 3, le tergem din tabel i le unim ntr-o singur clas, n care {X 5}, cu ni = 4 > 3. Vom nota prin p5 probabilitatea
4

p5 = P (X 5) = 1 P (X < 5) = 1 P (X 4) = 1
i=0

P (X = i).

Rmnem aadar cu 6 clase. Ipoteza nul (H0 ) se poate rescrie astfel:


(H0 ) : p0 = 0.1054, p1 = 0.2371, p2 = 0.2668, p3 = 0.2001, p4 = 0.1126, p5 = 0.0780. (H1 ) :
2

Ipoteza alternativ este

ipoteza (H0 ) nu este adevrat.

Calculm acum valoarea statisticii pentru observaiile date:


2 0 = + (13 15.1775)2 (18 17.0747)2 (11 12.8060)2 (8 6.7456)2 + + + + ... 6.7456 15.1775 17.0747 12.8060 (4 4.9926)2 (10 7.2034)2 + = 2.1337. 7.2034 4.9926

Deoarece avem 6 clase i am estimat parametrul , deducem c numrul gradelor de libertate este 6 1 1 = 4. Cu2 2 antila de referin (valoarea critic) este 2 0.95; 4 = 9.4877. Regiunea critic pentru este intervalul (0.95; 4 , +). 2 2 Deoarece 0 < 0.95; 4 , urmeaz c ipoteza nul (H0 ) nu poate  respins la nivelul de semnicaie . Aadar, este rezonabil s armm c numrul de goluri marcate urmeaz o repartiie Poisson. Prezentm mai jos un cod ce rezolv aceast problem.

Matlab

X = [0*ones(8,1);1*ones(13,1);2*ones(18,1);3*ones(11,1);4*ones(10,1);... 5*ones(2,1);6*ones(2,1)]; f = [8 13 18 11 10 4]; % vectorul de frecvente absolute n = 64; alpha = 0.05; lambda = mean(X); for i=1:5 % probabilitatile P(X=i), i=0,1,2,3,4 p(i) = poisspdf(i-1,lambda); end p(6)= 1 - poisscdf(4,lambda); % probabilitatea P(X5) H2 = sum((f-n*p).^2./(n*p)); Hstar = chi2inv(1-alpha,4); if (H2 < Hstar) disp('X urmeaza repartitia Poisson'); else disp('X nu urmeaza repartitia Poisson'); end

Observaia 7.6 Dac ipoteza nul este respins, atunci motivul poate  acela c unele valori observate au deviat prea mult de la valorile ateptate. n acest caz, este interesant de observat care valori sunt extreme, cauznd respingerea ipotezei nule. Putem deni astfel reziduurile standardizate:
ri = Oi n pi n pi (1 pi ) = Oi Ei Ei (1 pi ) ,

unde prin Oi am notat valorile observate i prin Ei valorile ateptate. Dac ipoteza nul ar  adevrat, atunci ri N (0, 1). n general, reziduuri standardizate mai mari ca 2 sunt semne pentru numere observate extreme.

Exemplu 7.7 ntr-o anumit zi de lucru, urmrim timpii de ateptare ntr-o staie de tramvai, pn la ncheierea zilei de lucru (adic, pn trece ultimul tramvai). Fie T caracteristica ce reprezint numrul de minute ateptate n staie, pn sosete tramvaiul. Rezultatele observaiilor sunt sumarizate n Tabelul 7.4. Se cere s se cerceteze ( = 0.05) dac timpii de ateptare sunt repartizai exponenial.
74

Durata
ni

05 39

5 10 35

10 15 14

15 20 7

20 25 5

Tabela 7.4: Timpi de ateptare n staia de tramvai.

Soluie:

(folosim testul 2 de concordan, parametric)


(H0 )

Avem de testat ipoteza nul

F ( x) = F0 (x) = 1 e x , x > 0

vs. ipoteza alternativ


(H1 )

ipoteza (H0 ) este fals.

Deoarece parametrul este necunoscut, va trebui estimat pe baza seleciei date. Pentru aceasta, folosim metoda verosimilitii maxime. Funcia de verosimilitate pentru exp() este
n

L(t1 , t2 , . . . , tn ; ) =
k=1

e ti = n e n t .

Mai sus, am notat prin t1 , t2 , . . . , tn valorile de selecie pentru variabila aleatoare T . Punctele critice pentru L() sunt date de ecuaia
ln L = 0 = n ln n t = 1. = t

Se observ cu uurin c

2 ln L 2 | = n t < 0 , 2 =

este punct de maxim pentru funcia de verosimilitate. de unde concluzionm c Tabelul de distribuie pentru caracteristica T este: 2.5 39 7. 5 35 12.5 14 17.5 7 22.5 5 .

1 = 0.1299. (2.5 39 + 7.5 35 + 12.5 14 + 17.5 7 + 22.4 5) = 7.7, adic Calculm media de selecie, t = 100 Dac variabila T ar urma repartiia exponenial exp(), atunci probabilitile ca T s ia valori n ecare clas sunt, n mod corespunztor:

) = P (X (ai , ai+1 ] | F = F0 ) = F0 (ai+1 ; ) F0 (ai ; ), pi = pi (

i = 1, 2, 3, 4, 5.

unde a6 = +. n Tabelul 7.5 am nregistrat urmtoarele date:



clasele

(de notat c ultima clas este (20, +), deoarece se dorete o concordan a datelor observate cu date repartizate exponenial, iar mulimea valorilor pentru repartiia exponenial este R+ ),
extremitile

din stnga ale claselor (ai ),


ni (sau valorile observate n ecare clas),
valorile ateptate

frecvenele absolute

probabilitile pi ,
erorile relative

n ecare clas (n pi ),

de aproximare ale datelor ateptate cu cele observate.

Numrul gradelor de libertate este k p 1 = 3. Calculm valoarea critic 2 0.95; 3 = 7.8147 i, de asemenea, valoarea
k

H0 =
i=1

(ni n pi )2 = 6.5365. n pi

75

2 Deoarece 2 0 < 0.95; 3 , ipoteza (H0 ) nu poate  respins la acest nivel de semnicaie.

Codul

Matlab este urmtorul:

% %

T = sau T = n = a = for

[2.5*ones(39,1);7.5*ones(35,1);12.5*ones(14,1);17.5*ones(7,1);22.5*ones(5,1)]; [5*rand(39,1);5+5*rand(35,1);10+5*rand(14,1);15+5*ones(7,1);20+5*ones(5,1)]; 100; alpha = 0.05; m = mean(T); lambda = 1/m; [0, 5, 10, 15, 20, Inf]; f = [39, 35, 14, 7, 5]; i =1:5 p(i) = expcdf(a(i+1),m)-expcdf(a(i),m);

end H2 = sum((f-n*p).^2./(n*p)); cuant = chi2inv(0.95,3); if (H2 < cuant) disp('Timpii de asteptare sunt exponential repartizati'); else disp('ipoteza (H0) se respinge'); end
Clasa

ai 0 5 10 15 20

ni 39 35 14 7 5 100

pi 0.4776 0.2495 0.1303 0.0681 0.0745 1

n pi 47.7615 24.9499 13.0334 6.8085 7.4467 100

(0, 5] (5, 10] (10, 15] (15, 20] (20, +) (0, +)

(ni n pi )2 n pi 1.6072 4.0483 0.0717 0.0054 0.8039 6.5365

Tabela 7.5: Tabel de distribuie pentru timpii de ateptare.

76

Corelaie i Regresie
Fie X i Y doi vectori de acelai tip. Urmtoarele funcii din regresiei:

Matlab sunt utile pentru analiza corelaiei i

scatter(X,Y) reprezint grac valorile lui Y vs. valorile lui X; R = corrcoef(X,Y) calculeaz coecientul de corelaie ntre X i Y. Rezultatul este aat sub forma: >> ans = 1.0000 1.0000

unde 1.0000 este coecientul de corelaie dintre X i X, respectiv Y i Y, iar este coecientul cutat.
cov(X,Y) pentru matricea de covarian empiric dintre X i Y; b = regress(Y,X) aeaz estimarea coecienilor pentru care Y = b X . Aici, X este o matrice n k i Y un vector coloana n 1. Coloanele vectorului X corespund observaiilor (i.e., variabilelor independente). Dac X este un vector coloan de aceeai dimensiune cu Y, atunci b este doar un scalar. Dac X este matrice, atunci putem folosi aceast comand pentru a estima coecienii de regresie liniar

multipl. Spre exemplu, s presupunem c se dorete estimarea coecienilor de regresie liniar simpl, i.e., 0 i 1 pentru care y = 0 + 1 x, unde pentru ecare dintre x i y avem n observaii. n acest caz, k = 2. Fie X, respectiv, Y vectorii ce conin aceste observaii. Comanda care estimeaz cei doi coecieni este

Matlab

B = regress(Y', [ones(n,1)'; X]')

Comanda furnizeaz aproximri pentru parametrii 0 i 1 ce fac urmtoarea aproximare ct mai bun:
y1 y2 . . . yn 1 x1 1 x2 0 . + 1 . . . . . 1 xn .

p = polyfit(X,Y,n) gsete coecienii unui polinom p(x) de grad n ale crui valori p(xi ) se apropie cel mai mult de datele observate yi , n sensul celor mai mici ptrate. va aa n acest caz un vector linie de lungime n + 1, coninnd coecienii polinomiali n ordinea descresctoare a puterilor. Spre exemplu,

Matlab

dac

atunci

Matlab va aa

p(x) = 0 + 1 x + 2 x2 + + n xn , n , . . . , 1 , 0 .

Y = polyval(p,X) aeaz valorile unui polinom p(x) pentru valorile din vectorul X . Polinomul p(x) este dat prin coecienii si, ordonai n ordine descresctoare a puterilor. De exemplu, dac p(x) = 3x2 + 2x + 4 i dorim s evalum acest polinom pentru trei valori, 3, 1 i 5, atunci scriem n :

Matlab

p = [3

2 4];

polyval(p,[-3 1 5]) 37 5 69

obinnd rezultatul:

ans =

Exerciiu 7.8 Dorim s determinm dac exist vreo corelaie ntre notele la examenul de Probabiliti i cele de la Statistic obinute de studenii unui an de studiu. n acest sens, au fost observate notele obinute de 10 studeni
77

la aceste dou discipline i au fost trecute n Tabelul 7.6 de mai jos. Se cere: (a) Stabilii dac exist o legtur puternic ntre aceste note (r i r2 ); (b) Determinai dreapta de regresie a notelor de la Statistic n raport cu notele la Probabiliti i desenai-o n acelai sistem de axe ca i notele obinute (scatter plot). (c) Testai dac exist sau nu vreo corelaie ntre notele de la Statistic i Probabiliti. Student Probabiliti Statistic A
82 84

B
36 42

C
72 50

D
58 64

E
70 68

F
48 54

G
44 46

H
94 80

I
60 60

J
40 32

Tabela 7.6: Notele la Statistic i Probabiliti.

Soluie:

n codul formula

(a) Calculm r (cu formula lui Person). Funcia Matlab pentru coecientul Pearson este corrcoef. Matlab de mai jos l-am calculat pe r folosind aceast funcie, dar i n dou alte modaliti, folosind
r=

cove (x, y )
sx sy

sau scriind desfurat expresia lui r.

(b) Coecienii de regresie se pot obine n 3 moduri, e folosind funcia polyfit, care realizeaz tarea datelor cu un polinom, n cazul liniar ind un polinom de forma S (P ) = 0 + 1 P . O alt variant de calcul a coecienilor 0 i 1 este simpla implementare n a formulelor pentru acetia. A treia variant este folosirea funciei regress din . Reprezentarea grac a datelor poate  realizat folosind ori funcia plot, ori funcia "scatter", ambele funcii predenite din . Gracul este cel din Figura 7.1.

Matlab

Matlab

Matlab

Matlab

P = [82,36,72,58,70,48,44,94,60,40]; S = [84,42,50,64,68,54,46,80,40,32]; mp = mean(P); ms = mean(S); %%%~~~~~~~~~~~~~~ Calculez coeficientul de corelatie empiric ~~~~~~~~~~~~~~~~~~~~~~~~~~ CC = corrcoef(P,S); r = CC(1,2) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru r ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % C = cov(P,S)/(std(P)*std(S)); r = C(1,2); % r = sum((P-mp).*(S-ms))/sqrt(sum((P-mp).^2)*sum((S-ms).^2)); %%%~~~~~~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~ B = polyfit(P,S,1) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % b1 = sum((P-mp).*(S-ms))/sum((P-mp).^2); b0 = ms - b1*mp; % B = regress(S',[P;ones(10,1)']'); %%%~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:100; plot(P,S,'*',x,B(2) + B(1)*x,'r-') % scatter(P,S) % varianta pentru scatter plot %%%~~~~~~~~~~~~~~~~~~~~~~~ Testul pentru = 0 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ alpha = 0.05; n = 10; T0 = r*sqrt((n-2)/(1-r^2)); quant = tinv(1-alpha/2,n-2); if (abs(T0) < quant) disp('P si S nu sunt corelate') else disp('P si S sunt corelate') end

Rulnd codul de mai sus, obinem:


r = 0.8247 B = 0.7553 10.3816 P si S sunt corelate

78

Figura 7.1: Notele i dreapta de regresie.

Exerciiu 7.9 Fie irul de date:


x = y = 0.3 3.52 0.8 4.53 1.2 5.58 1.6 6.62 2.1 8.27 2.4 10.18 2.7 11.80

S se studieze existena unei dependene ntre x i y de forma y = a eb x .


Soluie:

Calculm ln y . Obinem:
ln y = 1.2585 1.5107 1.7192 1.8901 2.1126 2.3204 2.4681

Se observ c r = 0.9988 1 (coecientul de corelaie ntre x i ln y ), de unde bnuim c e posibil s avem o regresie liniar ntre variabilele x i ln y . Estimm coecienii de regresie ai lui ln y fa de x i gsim: 0 = 1.1074, 1 = 0.4980. Aceasta poate  realizat n prin comanda

Matlab

regress(log(y)',[x',ones(7,1)])

Aadar, ln y = 0.4980 x + 1.1074, de unde y = e1.1074 e0.4980 x 3 ex/2 . n Figura 7.2 am reprezentat grac datele observate i aproximrile lor.

Exerciiu 7.10 Prognoza spune c temperatura ntr-o anumit zon muntoas descrete cu cca. 6 C la ecare 1km ctigat n nlime. Pentru o vericare, au fost msurate simultan temperaturile n 10 localiti diferite din acea zon, acestea ind nregistrate n Tabelul 7.7. Dac temperatura se presupune a  o funcie liniar (regresie
hi Ti 500 15 1000 14 1500 11 2000 6 2500 1 3000 2 3500 0 4000 4 4500 8 5000 14

Tabela 7.7: Tabel cu temperaturi (Ti ) la diverse altitudini (hi ).

liniar) de altitudine, se cere:


79

Figura 7.2: Aproximarea datelor din Exerciiul 7.9

(i) S se estimeze parametrii 0 i 1 ; (ii) S se testeze ( = 0.05) dac prognoza din enun este adevarat (i.e., 1 = 0.006); (iii) S se gseasc un interval de ncredere pentru panta dreptei de regresie, 1 ; (iv) Ct de bun este aproximarea temperaturii cu o funcie liniar de altitudine? (v) Estimai temperatura la altitudinea h = 2544. Gsii, de asemenea, un interval de ncredere pentru aceasta temperatur.
Soluie:

(i) Estimm parametrii necunoscui folosind formulele


1 = sxy s2 x

0 = y 1 x,

(7.1)

sau folosind funcia polyfit (vezi codul de mai jos). (ii) Pentru testarea ipotezei nule (H0 ) : 1 = 0.006 utilizm testul pentru coecientul 1 . (iii) Un interval de ncredere pentru 1 se poate calcula folosind formula
1 t1 2 ; n2 , sx 1 + t1 2 ; n2 . sx

Matlab

(7.2)

(iv) Pentru a decide ct de bun este aproximarea, calculm coecientul de determinare, R2 . Acesta este R2 = 94.83, ceea ce nseamn c temperatura real este foarte aproape de cea prognozat. (v) Utilizm formulele y p = 0 + 1 x p . (7.3) i
yp t1 2 ; n2 1+ 1 (xp x)2 + , n s2 x yp + t1 2 ; n2 1+ 1 (xp x)2 + . n s2 x

(7.4)

pentru xp = 2544. (vezi rezultatele generate de codul de mai jos) Codul este urmtorul:

Matlab

h = [500 1000 1500 2000 2500 3000 3500 4000 4500 5000]; T = [15 14 11 6 -1 2 0 -4 -8 -14]; mh = mean(h); mT = mean(T); %%%~~~~~~ Calculez coeficientul de corelatie empiric si coeficientul de determinare ~~~ CC = corrcoef(h,T); r = CC(1,2) R2 = r^2 %%%~~~~~~~~~~~~~~~~~~~ Calculez coeficientii de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
80

B = polyfit(h,T,1) %%%~~~~~~~~~~~~~~~~~~~~ Alte variante de calcul pentru B ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ % B = regress(T',[h;ones(10,1)']'); % b1 = sum((h-mh).*(T-mT))/sum((h-mh).^2); b0 = mT - b1*mh; %%%~~~~~~~~~~~~~~~~~~~~ Scatter plot si dreapta de regresie ~~~~~~~~~~~~~~~~~~~~~~~~~ x=0:5600; plot(h,T,'*',x,B(2) + B(1)*x,'r-') %%%~~~~~~ Testul pentru panta dreptei de regresie, (H0 ) : 1 = 0.006 ~~~~~~~~~~~~~~~~ alpha = 0.05; n = 10; sigmahat = sqrt(sum((T-B(2) - B(1)*h).^2)/(n-2)); sigmax = std(h); T0 = (B(1)+0.006)*sigmax/sigmahat; quant = tinv(1-alpha/2,n-2); if (abs(T0) < quant) disp('ipoteza (H0 ) se accepta') else disp('ipoteza (H0 ) se respinge') end %%%~~~~~~~~~~~~~~~ Interval de incredere pentru 1 ~~~~~~~~~~~~~~~~~~~~~~~ CI = [B(1) - quant*sigmahat/sigmax,\;B(1) + quant*sigmahat/sigmax] hp = 2544; Tp = B(2) + B(1)*hp CI_T = [Tp - quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}, ... Tp + quant*sigmahat*sqrt{1 + 1/n + (hp-mh)^2/sigmax^2}]

Rulnd codul de mai sus, obinem:


r = -0.9738 R2 = Tp = 94.83 B = [-0.0061, 18.9333] CI_T = [-2.2335, 8.9555] ipoteza nula se accepta

CI =

[-0.0096, -0.0026]

3.3610

Figura 7.3: Diagrama de temperaturi n funcie de altitudine, i dreapta de regresie.

81

Exerciii suplimentare Exerciiu 7.1 Testai normalitatea datelor din Tabelul 3.1 la nivelul de semnicaie = 0.1. Exerciiu 7.2 Se prezice c repartiia literelor care apar cel mai des n limba englez ar  urmtoarea:
Litera Frecvena
O 16 R 17 N 17 T 21 E 29

Aceasta semnic urmtoarea: de ecare dat cnd cele 5 litere apar ntr-un text, n 16% dintre cazuri apare litera O, n 21% dintre cazuri apare litera T etc. S presupunem c un criptologist analizeaz un text i numr apariiile celor 5 litere. Acesta a gsit urmtoarea distribuie: Litera Frecvena
O 18 R 14 N 18 T 19 E 31

Folosind testul 2 de concordan, s se verice dac aceste apariii sunt n not discordant cu predicia iniial.

Exerciiu 7.3 Un student ia cu mprumut o carte de la bibliotec i observ c pagina de interes este rupt pe alocuri. Totui, poate citi textul din Figura 7.4. Se cere s se reconstruiasc pasajul de text (i.e., determinai y i dreapta de regresie a lui x fa de y ). De asemenea, calculai coecientul empiric de corelaie r i comentai asupra aproximrii datelor de seleie prin dreptele de selecie.

Figura 7.4: Fragment incomplet dintr-un text

Exerciiu 7.4 Tabelul 7.8 conine calicativele obinute de un elev de clasa I la cele 9 discipline, n ecare dintre cele dou semestre. S se gseasc o msur a legturii dintre cele dou seturi de calicative (e.g., coecientul de corelaie Spearman).
Discipline
Sem. I Sem. II

A FB B

B FB B

C B B

D FB FB

E B FB

F B S

G B B

H S S

I FB FB

Tabela 7.8: Calicative din anul I de studiu

Exerciiu 7.5 Se dau urmtoarele date:


(a) Testai dac = 0 (coecientul de corelaie teoretic). (b) Este faptul c x i y sunt legate prin relaia y = x2 n contradicie cu rezultatul de la punctul (a) (datele sunt perfect necorelate)? (c) Calculai coecientul de corelaie Spearman.
82

x y

3 9

2 4

1 1

0 0

1 1

2 4

Exerciiu 7.6 Suntem interesai n determinarea unei legturi ntre nlime i mrimea la pantof. Datele din tabelul de mai jos reprezint observaii asupra nlimilor (H ) i a mrimilor la pantof (M ) pentru 10 brbai, alei la ntmplare.
H M 1.75 43 1.70 41.5 1.80 44 1.65 40.5 1.83 44.5 1.73 41 1.86 44.5 1.65 39.5 1.68 40 1.82 43.5

(a) Calculai coecientul de corelaie Pearson dintre nlime i mrimea la pantof. Ce procent din valorile lui M sunt determinate de valorile lui H (b) Determinai o aproximare pentru dreapta de regresie a lui M fa de H . (c) Obinei o predicie a mrimii la pantof pentru un brbat cu nlimea 1.78. (d) La nivelul de semnicaie = 0.05, testai ipoteza c panta dreptei de regresie este .
3 4

Exerciiu 7.7 Fie irul de date:


u = v = 1.0 1.5 1.5 4.5 2.0 7.5 2.5 12.5 3.0 17.5 3.5 24.5 4.0 32.5

S se studieze existena unei dependene ntre u i v de forma v = a u2 + b.

Exerciiu 7.8 n tabelul urmtor, se dau cte 5 valori pentru dou variabile x i y , unde y este variabila independent. Determinai o dreapta de regresie potrivit pentru a calcula (i) valoarea lui x cnd y = 2.5; (ii) valoarea lui y cnd x = 50; (iii) Putem prezice valoarea lui y pentru x = 75?
x y 46 1.7 55 2.1 41 1.5 58 2.9 53 1.9

Exerciiu 7.9 Se msoar viteza unei maini, v , n primele 10 secunde dup aceasta a nceput s accelereze. Aceste date sunt nregistrate n Tabelul 7.9. Se cere:
t v 0 0 1 3. 1 2 6.9 3 9.9 4 12.7 5 16.1 6 19.8 7 21.2 8 22.8 9 24.3 10 25.9

Tabela 7.9: Viteza unei maini n primele

10

secunde dup plecarea de pe loc

(a) Desenai diagrama scatter plot; (b) Determinai dreapta de regresie a lui v fa de t; (c) Calculai coecientul de corelaie empiric i comentai asupra validitii aproximrii datelor cu dreapta de regresie.

83

Exerciiu 7.10 Opinia general este c rata maxim (R) a btilor inimii unei persoane se poate determina dup formula R = 0 + 1 V , unde V este vrsta persoanei, calculat n ani. Cercettorii cardiologi arma c aceti coecieni ar : 0 = 220 i 1 = 1. Pentru o vericare empiric a acestei armaii, sunt alese la ntmplare 15 persoane de diverse vrste, care sunt supuse unui test pentru determinarea ratei maxime ale batilor inimii. Aceste rezultate sunt contabilizate n Tabelul 7.10. (a) Calculai coecientul de corelaie Pearson dintre vrst i rata maxim a batilor inimii. Care este semnicaia acestei valori? (b) Determinai dreapta de regresie a lui R fa de V i desenai-o n acelai sistem de axe cu datele din tabel. (c) Testai ipoteza (H0 ) : 1 = 1, vs. ipoteza alternativ (H1 ) : 1 = 1, la nivelul de semnicaie = 0.05.

Vrsta 15 23 25 35 17 34 54 50 45 42 19 42 20 39 37 Rata max 207 186 187 180 200 175 169 183 156 183 199 174 198 183 178
Tabela 7.10: Tabel cu rata maxim a batilor inimii n funcie de vrst.

Exerciiu 7.11 Dreapta de regresie a variabilei y fa de variabila x este y = 2 x 6. Determinai condiiile n care dreapta de regresie a lui x fa de y este x = 0.5 y + 3.

A 3 1 4 12 11 3 5 2 9 6 4 6 7 6 14 N 9.00 9.50 8.75 4.75 5.50 8.50 6.75 8.25 5.50 6.75 8.00 7.75 6.00 7.00 3.50
Tabela 7.11: Tabel cu absene i note la Statistic.

Exerciiu 7.12 Tabelul 7.11 conine numrul de absene (A) la Statistic i notele corespunztoare (N ) a 15 studeni. (a) Calculai coecientul de corelaie Pearson. Care este semnicaia acestei valori referitor la relaia dintre absene i note? (b) Determinai dreapta de regresie a lui N fa de A i desenai-o n acelai sistem de axe cu datele din tabel. (c) Testai, la un nivel de semnicaie = 0.05, dac exist dovezi suciente pentru a arma c ntre numrul de absene i notele obinute exist o corelaie. Exerciiu 7.13 n Tabelul 7.12 datele reprezint nlimile (H ) i masele corporale (M ) a 10 fete dintr-o clas a unui liceu. Suntem interesai n prezicerea masei corporale, tiind nalimea unei eleve.
H M 179.6 61.2 166.8 48.2 163.1 46 180.0 64.4 158.4 46.3 166.5 54.7 165.8 51.4 168.1 55.3 175.9 65.3 160.7 47.9

Tabela 7.12: nalimea i masa corporal a

10

eleve dintr-o clas.

(a) Desenai diagrama scatter plot a lui H versus M . Bazndu-v pe aceast diagram, considerai c metoda regresiei liniare este potrivit n acest caz? (b) Calculai estimaii ale parametrilor (0 i 1 ) de regresie liniar i reprezentai grac dreapta de regresie liniar. (c) Obinei o estimare nedeplasat pentru 2 . (d) Testai ipoteza nul (H0 ) : 1 = 0.9.

84

S-ar putea să vă placă și