Documente Academic
Documente Profesional
Documente Cultură
STATISTICA
(manual electronic - anul I - studenti economisti)
2016
grupul yahoo:
https://groups.yahoo.com/neo/groups/matstat12/info
CUPRINS
Introducere
I. Elemente de teoria probabilitilor ..................................................................... pag. 1
II. Variabile aleatoare discrete i continue ..............................................................pag. 21
III. Repartiii clasice ................................................................................................. pag. 53
IV. Serii statistice ....................................................................................................... pag. 76
V. Elemente de Teoria Estimaiei ..............................................................................pag. 100
VI. Verificarea ipotezelor statistice ...........................................................................pag. 110
Formular cu formule utile ........................................................................................ pag.122
Bibliografie - la sfarsitul fiecarui capitol.
Introducere
Materialul a fost conceput astfel nct s fie util i pentru studenii care vor
s nvee mai mult dect se cere pentru examenul de Statistic. Pentru a nelege
bine prile din material cerute la examen este obligatorie prezena la cursuri. La
cursuri vom studia n plus i alte aplicaii practice. Urmrii sptmnal mesajele
de pe grup (pe care le vei primi i n csua personal de mail). Putei pune
ntrebri de Statistic la cursuri dar i prin email.
Vei primi teme de cas i vei susine un test scris n timpul semestrului.
Nota final se stabilete pe baza activitii din timpul semestrului (20%) i a
rezultatului de la examenul final (scris). Detaliile le vom stabili la curs.
2
Evenimentul imposibil este un eveniment care nu se realizeaz niciodat, ori de
cte ori repetm aceeai experien. Poate fi formulat n multe feluri. Ca mulime, se
exprim ntotdeauna prin mulimea vid, i se noteaz cu (litera "fi"). De exemplu,
B: "se obine un numr mai mare ca 10". Deci B = .
Deci {1, 2, 3, 4, 5, 6} .
3
evenimentul sigur i de aceea se noteaz tot cu . De obicei este o mulime finit dar
uneori poate fi i infinit. n exemplul nostru {{1}, {2}, ..., {6}} {1, 2, ..., 6} .
Observaie. Expresia "se poate demonstra" va apare des n acest curs. Aceasta
nseamna c nu v cer demonstraiile matematice ale rezultatelor folosite (fiind un curs
elementar de statistic) dar vom aplica n probleme aceste rezultate, deci trebuie tiute.
4
A se realizeaz atunci i numai atunci cnd nu se realizeaz A. De exemplu, dac
considerm X: "se obine faa 4" atunci X ={1, 2, 3, 5, 6} . Evident, n general, dac dou
evenimente sunt contrare atunci ele sunt i incompatibile. Reciproca este fals: de
exemplu, A {1, 2, 3} i B ={4, 6} sunt incompatibile dar nu sunt opuse, deoarece
A {4, 5, 6} B .
5
k din cele n evenimente echiprobabile ale lui , adic A {i1 , i2 , ..., ik } , 1 k n .
"pe
de
A")
ca
fiind
raportul
P ( A)
k
.
n
Se
mai
spune
2 1
33% .
6 3
k
se numete frecvena relativ de realizare a lui A. Practica ne arat c
n
dac n crete foarte mult, n anumite condiii pe care le presupunem ndeplinite (peste
tot n acest curs), raportul
k
tinde spre o anumit valoare p . Numrul p [0, 1] se
n
k
, pentru valori mari ale lui n. Vom aborda mai precis aceast idee
n
6
Observaie. De multe ori n probleme apar formulri de genul "se tie c ... un
anumit eveniment se realizeaz cu probabilitatea cunoscut p ". n astfel de situaii se
subnelege c p a fost calculat cu definiia empiric a probabilitii.
P () 1 ; P ( ) 0
i 1
i 1
care are loc numai dac evenimentele aleatoare respective sunt incompatibile cte dou,
adic Ai A j , dac i j .
sunt dependente din punct de vedere probabilistic dac realizarea sau nerealizarea
evenimentului A influeneaz ansa (probabilitatea) de realizare sau de nerealizare a
evenimentului B . n caz contrar evenimentele se numesc independente din punct de
vedere probabilistic. De exemplu, ntr-o urn sunt 6 bile albe i 10 bile negre. Mai nti,
s presupunem c extragem la ntmplare dou bile, una dup alta, fr revenire (adic
nu mai punem bila extras napoi). Fie evenimentele A : "prima bil extras este alb" i
B : "a doua bil extras este alb". Atunci, utiliznd definiia clasic a probabilitii de
6
. Dar, probabilitatea de realizare a lui B depinde de
16
realizarea sau nerealizarea lui A . Dac la prima extragere s-a realizat A , atunci
probabilitatea de realizare a lui B este egal cu
forma P ( B A)
5
. Scriem pe scurt aceast idee sub
15
5
i citim "probabilitatea de realizare a evenimentului B condiionat
15
5
". Dac la prima extragere s-a obinut o
15
bil neagr (adic s-a realizat evenimentul A , opus lui A ), atunci probabilitatea ca la a
doua extragere s obinem o bil alb este egal cu
6
6
. Scriem P ( B A) . S
15
15
8
probabilitatea de a obine o bil alb la prima extragere este aceeai cu probabilitatea de
a obine o bil alb la a doua extragere, adic P ( A) P ( B )
6
. Evenimentele A i B
16
Inegalitatea lui Boole. Exist situaii n practic cnd nu putem stabili dac un
grup de evenimente aleatoare sunt independente sau dependente probabilistic. n acest
caz putem determina o margine inferioar (limit inferioar) a probabilitii de realizare
simultan a mai multor evenimente. Fie (E) o experien aleatoare oarecare i
A1 , A2 , ..., An un set de evenimente arbitrare asociate experienei. Atunci are loc
inegalitatea:
n
i 1
i 1
P ( Ai ) P ( Ai ) n 1 .
9
Observaii. Toate formulele probabilistice de mai sus pot fi generalizate (vezi
facultativ bibliografia de la sfritul acestui capitol. "Facultativ" se refer la cei care
doresc s nvee mai mult dect se cere la examen). Referitor la independena
(dependena) a dou evenimente A i B , dac ele sunt independente (sau dependente)
atunci exact la fel rmn i perechile A, B sau A, B sau A, B .
Recapitulare liceu. Numrul natural notat cu " Cnk " se numete "combinri din
luate
Cnk
n!
n(n 1)(n 2) ... (n k 1)
, unde 0 k n . n probleme NU vom
(k !) (n k )!
k!
cte
k ".
Acest
numr
se
calculeaz
cu
formula
calcula pn la capt aceste numere!! Mai important ns este ceea ce reprezint acest
numr. Dac M {a1 , a2 , ..., an } este o mulime de n elemente atunci Cnk reprezint
numrul total de submulimi ale lui M formate din cte k elemente fiecare.
1
. Sau, la fiecare extragere (cu revenire) a unei bile din urn,
6
6
. n ambele situaii este vorba
16
10
aleator asociat experienei care are aceeai probabilitate de realizare la fiecare repetare a
experienei. Ne-am putea pune ntrebri de tipul: care este probabilitatea ca la o mie de
aruncri ale zarului s obinem faa 5 de exact 432 de ori (per total) ? Sau, care este
probabilitatea ca n 675 de extrageri cu revenire s obinem exact 45 de bile albe (per
total) ? Se poate demonstra urmtorul rezultat care ne d raspunsul.
Deci
rspunsurile
432 1
P (1000; 432) C1000
6
la
432
cele
5
6
568
dou
ntrebri
puse
mai
45
45 6 10
i respectiv P (675; 45) C675
16 16
sus
sunt
630
Schema prezentat aici se mai numete schema bilei revenite pentru urna cu bile de
dou culori.
Schema bilei nerevenite. S presupunem c ntr-o urn sunt N bile dintre care
m sunt albe i N m sunt negre. Se extrag la ntmplare, fr revenire, n bile din urn.
Atunci, probabilitatea ca exact k bile din cele n extrase s fie albe (per total) este
P ( N ; m; n; k )
Cmk CNn km
.
CNn
11
n formula de mai sus avem c 1 n N , 1 m N i 0 k n . Atenie, n teoria
probabilitilor se consider echivalente experienele de extragere la ntmplare a celor
Probleme
A, B
i C
probabilistic, deci putem folosi doar inegalitatea lui Boole pentru estimare. Avem:
12
P ( X ) P ( A B C ) P ( A) P ( B ) P (C ) 3 1 0,98 0,96 0,93 2 0,87 .
Prin urmare probabilitatea cerut este de cel puin 87%. Altfel exprimat, cel puin 87%
din produsele firmei sunt corespunztoare, deci acceptate de pia.
Problema 2. ntr-un lot format din 300 de produse se afl 36 de produse defecte. Se
mparte lotul n trei pri egale, alegnd la ntmplare produsele. Care este probabilitatea
ca n fiecare parte s fie exact 12 produse defecte?
Soluie. Fie evenimentele aleatoare X : "n fiecare din cele dou pri (extrase) sunt 12
produse defecte", A: "n prima parte sunt 12 produse defecte" i B : "n a doua parte
sunt 12 produse defecte". Deoarece X se realizeaz cnd se realizeaz simultan A i
B , avem X A B . Evenimentele A i B sunt dependente probabilistic, deoarece
bilei
nerevenite,
produse
300 36 264
corespunztoare.
Deci
12
88
C36
C264
. Pentru a calcula a doua probabilitate ne imaginm c s-a realizat
100
C300
176
corespunztoare.
Deci
P ( B A)
12
88
C24
C176
.
100
C200
Deci
12
88
12
88
C36
C264
C24
C176
P( X )
, probabilitatea cerut.
100
100
C300
C200
13
Fi
F1
F2
F3
F4
F5
Numrul de luni
10
( ni )
ni
, unde n 12 (luni) i
n
i 1, 5 . Deci obinem:
Fi
F1
F2
F3
F4
F5
Numrul de luni
10
7
12
8
12
5
12
10
12
9
12
( ni )
( pi )
Problema 4. O firm are trei filiale care funcioneaz n mod independent (una fa de
alta). Consiliul de administraie al firmei a fixat o valoare S fa de care se raporteaz
profitul fiecrei filiale. Din datele statistice ale firmei se tie c probabilitile cu care
fiecare filial obine un profit ce depete suma S sunt p1 0,5 , p2 0, 6 i respectiv
p3 0,8 . S se afle probabilitatea ca:
14
b) nici o filial s nu aib un profit mai mare ca S
c) cel puin o filial s aib un profit mai mare ca S .
Soluie.
a) Considerm evenimentele Ai : "profitul filialei i depete S", i 1, 3 . Evenimentele
definite sunt independente probabilistic. Fie X : "profitul tuturor filialelor depete
S ". Evident c X A1 A2 A3 i deci P ( X ) P ( A1 A2 A3 ) P ( A1 ) P ( A2 ) P ( A3 ) ,
Y A1 A2 A3 .
Deci
obinem
P(Y ) P( A1 A2 A3 ) P ( A1 ) P ( A2 ) P ( A3 )
c) Evenimentul Z : "cel puin o filial are un profit mai mare ca S " se realizeaz cnd
se realizeaz cel puin unul din evenimentele A1 , A2 i A3 . Deci Z A1 A2 A3 . Dar
deoarece evenimentele A1 , A2 i A3 sunt compatibile, este mai greu de urmat aceast
cale. (Vezi "formula lui Poincare", facultativ, n bibliografia de la sfritul capitolului).
Mai simplu ar fi s observm c Z Y i deci P ( Z ) P (Y ) 1 P (Y ) 1 0, 04 0,96 .
15
a) nelegerea primei propoziii din enun este cheia problemei. Dac la 5 vizitatori sunt
2 care cumpr, la un numr N (neprecizat, mare) de vizitatori avem
2N
persoane
5
care cumpr, cu regula de trei simpl din gimnaziu. Atunci, folosind definiia clasic a
2N
2
probabilitii, probabilitatea ca un vizitator oarecare s cumpere este p 5 0, 4 .
N
5
Deoarece p este aceeai pentru oricare vizitator, suntem n cazul schemei binomiale
(recitii !!) , cu n 1000 , k 654 i p 0, 4 . Deci probabilitatea cerut este
654
P (1000; 654) C1000
(0, 4)654 (0, 6)346 .
654
654
654
k 0
k 0
k 0
k
P ( X ) P ( Ak ) P ( Ak ) C1000
(0, 4) k (0, 6)1000 k .
c) Fie evenimentul aleator Y : "cel puin 654 de persoane cumpr". Analog ca mai sus,
P (Y ) P (
1000
k 654
Ak )
1000
k 654
P ( Ak )
1000
k 654
k
1000
16
b) Cel mult 3 aciuni s aparin societii A
c) Cel puin 3 aciuni s aparin societii A .
Soluie.
C303 C707
a) Folosim schema bilei nerevenite. P (100; 30;10; 3)
.
10
C100
b) Fie evenimentele aleatoare Ak : " k aciuni din cele vndute aparin societii A " ,
0 k 10 . Aceste evenimente sunt 2 cte 2 incompatibile i evenimentul X : "cel mult
aciuni
aparin
societii
A"
se
scrie
X Ak .
Deci
k 0
k 0
k 0
10 k
C30k C70
.
10
C100
k 0
3
P ( X ) P ( Ak ) P ( Ak )
10
10
10
k 3
k 3
10 k
C30k C70
.
10
C100
k 3
10
i deci P (Y ) P ( Ak ) P ( Ak )
Problema 7. ntr-un depozit la sfritul unei luni (oarecare) stocul din produsul P1 se
termin cu probabilitatea 30%, stocul din produsul P2 se termin cu probabilitatea 40%
iar ambele stocuri se termin cu probabilitatea 10%. Aflai probabilitatea ca, ntr-o lun
oarecare de activitate a depozitului:
a) s se termine cel puin unul din stocuri
b) s se termine numai stocul cu produse P1
c) s nu se termine nici un stoc
Soluie.
17
a) Definim evenimentele X : "se termin stocul cu produse P1 " i Y : "se termin stocul
cu produse P2 ". Evenimentele acestea sunt compatibile. De asemenea sunt dependente
probabilistic,
deoarece,
din
datele
problemei
avem
P (T ) P ( Z ) 1 P ( Z ) 1 0, 6 0, 4 .
18
b) Fie evenimentelea aleatoare Ak : "stocul este utilizat n (exact) k zile", 0 k 7 .
Aceste evenimente sunt incompatibile cte dou i evenimentul X : "stocul este utilizat
3
k 0
k 0
k 0
n cel mult 3 zile" se scrie X Ak . Deci P ( X ) P ( Ak ) C7k (0, 25) k (0, 75) 7 k .
19
Problema 11. n medie, 3% din produsele unei firme au defeciuni. Un lot de 100 de
produse este supus controlului de calitate. Condiia ca lotul s fie respins const n
depistarea a cel puin unui produs defect n dou verificri consecutive la ntmplare.
Aflai probabilitatea ca:
a) lotul s fie acceptat
b) lotul s fie respins
Soluie.
a) Fie evenimentele A : "primul produs verificat este corespunztor" i B : "al doilea
produs verificat este corespunztor". Extragerile se fac fr revenire (evident) i deci
evenimentele acestea sunt dependente probabilistic. Fie X : "lotul este acceptat". Atunci
X A B i P ( X ) P ( A B ) P ( A) P ( B A)
b)
Evenimentul
Y:
"lotul
P (Y ) P ( X ) 1 P ( X ) 0, 06 .
este
97 96
0,94 .
100 99
respins"
este
opusul
lui
X,
deci
20
Bibliografie (la acest capitol)
21
22
valoarea x ". Pentru a doua probabilitate mai putem scrie P ( X [a, b)) , este acelai
lucru.
Sau, alt exemplu, se extrag 5 bile cu revenire dintr-o urn care conine 9 bile albe i 4
bile negre. Definim variabila aleatoare Y care reprezint numrul de bile albe extrase
(din cele 5). Care este probabilitatea ca 2 bile din cele extrase s fie albe? n acest caz,
evenimentul aleator A : "2 bile din cele extrase sunt albe" se scrie pe scurt " Y 2 ".
Deci, cu schema bilei
revenite
2
9 4
P ( A) P (Y 2) C52 .
13 13
( n 5,
k 2,
9
,
13
4
),
13
obinem
23
n al treilea exemplu, se consider un eantion format din n 10 studeni i notm cu
Z variabila aleatoare care reprezint nota obinut la examenul de matematic. S
presupunem c valorile lui Z sunt date de urmtoarea serie statistic (ir de valori)
Z : 4, 5, 5, 4, 4, 4, 7, 6, 8, 7 .
Nota
Numrul de studeni
Frecvena
(valorile
relativ
lui Z )
( ni )
( zi )
4
4/10
2/10
1/10
2/10
1/10
Total
n 10
(volumul eantionului)
2
. Sau, probabilitatea ca un student s obin
10
24
P ( Z 8) P ( Z 9) P ( Z 10) 0, 2 0,1 0, 2 0,1 0 0 0, 6 60% . Am utilizat
" Z k " cu k 5,10 care sunt dou cte dou incompatibile i deci
x
X : 1
p1
x2
...
p2 ...
xn
pn
unde xi sunt valorile distincte (scrise n ordine cresctoare preferabil) pe care le poate
lua variabila aleatoare X iar pi sunt probabilitile respective cu care X ia aceste
valori, adic pi P ( X xi ) , i 1, n . n general pi (0, 1] , i 1, n . Cazul banal este cel
x
n care tabelul are forma X : , caz n care v.a. X se identific cu numrul real x ,
1
X x . Obligatoriu, n orice tabel de acest fel trebuie ndeplinit condiia
p
i 1
1.
25
cte
dou
iar
reuniunea
lor
este
i 1
i 1
i 1
evenimentul
sigur,
Deci
1 P () P ( " X xi ") P ( X xi ) pi .
5
6
7
8
4
Z :
. O astfel de variabil aleatoare ( Z ) discret asociat
0, 4 0, 2 0,1 0, 2 0,1
0
bile cu revenire, tabelul de repartiie are forma Y :
p0
p1
p2
p3
p4
5
.
p5
Valorile lui Y sunt 0, 1, 2, 3, 4 sau 5. Evenimentul aleator " Y k " se citete " k bile
din cele 5 extrase sunt albe" i probabilitatea de realizare a sa, cu schema bilei revenite,
k
9 4
este pk P (Y k ) C
13 13
5 k
k
5
, k 0, 5 .
este
defect".
Legea
de
repartiie
lui
este
de
forma
26
1
X :
p1
2
p2
3 ...
p3 ...
n ...
. Evenimentul " X n " se scrie ca o intersecie de n
pn ...
produs
testat
este
P( X n) P ( A1 ) P ( A2 ) ... P ( An 1 ) P ( An ) .
k 1, n .
corespunztor",
P ( Ak ) 1 p 0,9
Deoarece
n 1
Deci,
i
(0,1) unde n 1 .
Ultimul exemplu n care se cere construirea unui tabel de repartiie: "ntr-un lot
de 100 de produse 10 sunt defecte. La un control de calitate se extrag la ntmplare 5
produse, fr revenire. Determinai repartiia variabilei aleatoare X care reprezint
numrul de produse defecte din cele 5 extrase". Evident, valorile lui X pot fi 0, 1, 2, 3,
4 sau 5. Legea de repartiie cutat este
0
X :
p0
ca
din
pk P ( X k ) P (100;10; 5; k )
bile
extrase
1
p1
2
p2
3
p3
P( X k )
fie
4
p4
5
.
p5
nseamn
defecte.
Deci
C10k C905 k
, k 0, 5 .
5
C100
x
probabilitate (, K , P ) oarecare i o variabil aleatoare discret X : 1
p1
x 2 ...
p2 ...
xn
,
pn
pi , daca x x i
f ( x)
, unde x . Funcia de repartiie a variabilei aleatoare X
0,
daca
x
x
i
27
se definete prin F : [0, 1] , F ( x) P ( X x ) , pentru orice numr real x . Se pot
demonstra urmtoarele proprieti ale funciei de repartiie:
- F
F ( x1 ) F ( x2 ) .
- lim F ( x) 0 i lim F ( x) 1 .
x
Din definiie se deduce c pentru v.a. discret X dat mai sus funcia de repartiie
0, daca x (, x1 ]
p , x (x , x ]
1
2
1
p1 p2 , x ( x2 , x3 ]
are expresia: F ( x) p1 p2 p3 , x ( x3 , x4 ]
.
...
p1 p2 ... pn 1 , x ( xn 1 , xn ]
1, x ( xn , )
Alte proprieti importante ale funciei de repartiie, utile la calculul unor probabiliti
sunt:
- P (a X b) F (b) Fa ) , pentru orice numere reale a i b
- P (a X b) F (b) Fa ) P ( X a )
- P (a X b) F (b) Fa ) P ( X a ) P ( X b)
- P ( X ) (lim F ( x)) F ( ) , pentru orice numr real .
x
x
2
4
2 1 0
Exemplu. Se d v.a. discret X :
. Se cere:
0,1 0,1 0, 4 0, 2 0, 2
a) Funcia frecvenelor
28
b) Funcia de repartiie i graficul su.
c) P ( X 0,5) i P ( X 1, 75) , utiliznd funcia de repartiie.
d) P(2,55 X 3 1,88 X 3, 77) , utiliznd funcia de repartiie.
Soluie.
0,1 daca x {2, 1}
0, 2 daca x {2, 4}
0, in rest
0, x 2
0,1 daca 2 x 1
0, 2 daca 1 x 0
b) Funcia de repartiie este F : [0, 1] , F ( x)
.
0,
6
daca
0<x
1 daca x 4
Graficul su arat ca o scar, de aceea astfel de funcii se mai numesc "funcii scar".
29
P( A B)
. Prin urmare avem:
P ( A)
30
P (1,88 X 3)
F (3) F (1,88) P ( X 1,88) P ( X 3)
0,8 0,1
1.
0,8 0,1
simbolul pentru intersecie " ". Din punct de vedere logic, intersecia o asociem (n
raionamente) cu cuvntul "i" iar reuniunea cu "sau" ct i cu "cel puin".
x
asociate unui cmp de probabilitate (, K , P ) avnd repartiiile X : 1
p1
y
i Y : 1
q1
x2
...
p2 ...
xn
pn
y2 ... ym
. Spunem c aceste variabile sunt independente probabilistic
q2 ... qm
probabilistic.
Perechea
Z (X , Y)
se
cheam
vector
aleator
bidimensional. n general un vector aleator de acest tip este dat prin tabelul de
repartiie comun. Acest tabel conine repartiiile marginale (adic individuale) ale
31
variabilelor X i Y ct i valorile probabilitilor ij . Valorile ij se calculeaz pe
baza datelor problemei i innd seama de natura variabilelor X i Y , adic dependente
sau independente.
pi
-1
1/3
1/6
1/12
7/12
1/12
1/12
1/4
5/12
qj
5/12
3/12
4/12
p q
i
ij
1,
ij
q j i
2
1 1
0 1
12 12
12 12 12
1
1
1
1
centru, valorile 11 , 12 i 13 . Pe a doua linie apar valorile 21 ,
3
6
12
12
22
1
1
i 23 . Deci cnd scriem " ij ", indicele i indic linia iar indicele j
12
4
indic coloana.
32
Exemplu. Un proces economic financiar este rezultanta a dou componente
eseniale (mrimi financiare) A i B caracterizate prin nedeterminare i incertitudine.
Modelul probabilistic al procesului este o variabil bidimensional discret Z ( X , Y ) ,
unde X modeleaz probabilistic componenta A i Y modeleaz componenta B . Se
cunoate repartiia lui Z :
Y
0,2
0,3
0,1
0,1
0,1
0,2
pi
0,2
0,3
0,1
0,6
0,1
0,1
0,2
0,4
qj
0,3
0,4
0,3
33
b) Studiem natura variabilelor aleatoare X i Y , adic verificm relaiile ij pi q j .
Observm c 11 P ( X 2, Y 0) 0, 2 p1q1 0, 6 0,3 . Deci variabilele aleatoare
X i Y sunt dependente probabilistic. Prin urmare, mrimile financiare A i B se
intercondiioneaz.
Exemplu. n producia unei mari companii sunt n medie 3% rebuturi din cauza
defectului A i 4% rebuturi din cauza defectului B . Producia este corespunztoare n
proporie de 95%. S se stabileasc dac cele dou tipuri de defecte se
intercondiioneaz.
Soluie. Putem descrie situaia aceasta astfel: se alege un produs dintr-un stoc al firmei.
Definim
produsul ales. i anume notm cu " X 0 " evenimentul aleator "produsul ales nu are
defectul A " i cu " X 1 " evenimentul "produsul ales are defectul A ". Cum enunul
1
0
ne d c P ( X 1) 3% , repartiia lui X este X :
. Analog construim
0,97 0, 03
1
0
variabila aleatoare Y cu repartiia Y :
. (Enunul ne-a dat probabilitatea ca
0,96 0, 04
34
Y
pi
0,95
0,02
0,97
0,01
0,02
0,03
qj
0,96
0,04
pe
baza
regulilor
tiute
deja
de
mai
sus.
Observm
x
0
are tabelul . Dac legea de repartiie a lui X este X : 1
1
p1
x2 ...
p2 ...
xn
i dac
pn
x1 x2 ... xn
.
p2 ... pn
p1
35
Ridicarea la o putere a unei variabile aleatoare discrete. n acest caz, se
ridic la acea putere fiecare valoare a lui X , se rein valorile distincte, scrise cresctor.
Apoi se calculeaz probabilitile corespunztoare. Atenie, trebuie ca s aib sens
ridicarea la putere !
1
1 0
Exemple. Fie v.a. X :
. Atunci v.a. Y 5 X are repartiia
0, 2 0,5 0,3
5
5 0
2
2
2
2
Y :
. V.a. X are ca valori posibile: (1) , 0 , 1 , adic 0 i 1. Tabelul
0,
2
0,5
0,3
su este
1
0
X 2 :
. Am calculat astfel:
0,5 0,5
P ( X 2 0) P ( X 0) 0,5
x
repartiiile variabilelor sunt X : 1
p1
constant).
x
Z : 1
p1
Atunci
v.a.
x2 ...
p2 ...
Z X
xn
i Y (variabil aleatoare
pn
(sau
Z X Y )
x2 ... xn
y1
. Dac Y are repartiia Y :
p2
...
pn
q1
are
repartiia
y2 ... ym
, atunci
q2 ... qm
36
probabiliti
de
forma
P ( X a, Y b) .
Dac
sunt
independente,
atunci
P ( X a, Y b) P ( X a ) P (Y b) .
X
poate fi privit ca o combinaie de ridicare la putere i apoi un
Y
respective. Ctul
produs, adic
X
X (Y ) 1 . Evident trebuie ca v.a. Y s nu ia valori nule !
Y
pi
-1
1/3
1/6
1/12
7/12
1/12
1/12
1/4
5/12
qj
5/12
3/12
4/12
Se cere:
a) Determinai repartiia variabilei aleatoare T X Y .
b) Idem pentru U XY .
Soluie.
Variabilele X i Y sunt dependente probabilistic, vezi mai sus acelai tabel i
justificarea.
37
a) Adunm 1 cu 0, 1 i 2: 1 , 0, 1. Adunm 1 cu 0, 1 i 2: 1, 2, 3. Scriem valorile
distincte n ordine cresctoare:
1 , 0, 1, 2 i 3. Repartiia lui T
este
1 0 1 2 3
T :
. Calculm probabilitile respective.
a b c d e
1
a P (T 1) P ( X 1, Y 0) . Am gndit astfel: cum s-a obinut T 1 ? Cnd
3
X 1 i Y 0 . Din tabelul comun de repartiie am citit probabilitatea
b P (T 0) P ( X 1, Y 1)
1
.
3
1
. c P (T 1) P ( X 1, Y 2) P ( X 1, Y 0)
6
1 1 1
. Aici, au fost dou posibiliti i reamintim c "sau" nseamn reuniune
12 12 6
1
.
12
1
.
6
2
. Gndim la fel ca mai sus.
e
c P (U 0) P ( X 1, Y 0)
1
0
1
2
2
1 1
5
P ( X 1, Y 0) . n final gsim U :
.
3 12 12
1/12 1/ 6 5 /12 1/12 1/ 4
38
3
2
X :
i
0, 4 0, 6
1
0
Y :
. Se cere:
0,5 0,5
Y
.
X
Soluie.
a) Deoarece variabilele date sunt independente, putem scrie: ij P ( X xi , Y y j )
P ( X xi ) P (Y y j ) pi q j , pentru orice pereche de indici i, j 1, 2 . Tabelul cerut
este:
Y
pi
0,2
0,2
0,4
0,3
0,3
0,6
qj
0,5
0,5
b) mprim prima valoare a lui Y la fiecare valoare a lui X : 0/2, 0/3. Apoi a doua
0 1/ 3 1/ 2
valoare: 1/2; 1/3. Reinem valorile distincte. Tabelul cerut este V :
.
c
a b
a P (V 0) P (Y 0, X 2) P (Y 0, X 3) 0, 2 0,3 0,5 . Etc. Deci n final
0 1/ 3 1/ 2
obinem V :
.
0,5 0,3 0, 2
39
n continuare vom defini anumii parametri (sau indicatori) importani asociai
unei variabile aleatoare discrete. Mai nti parametrii de poziie (parametrii tendinei
centrale) : valoarea medie, moda, momente iniiale. Apoi parametrii de variaie:
dispersia, abaterea standard, momente centrate.
x
discret cu legea de repartiie X : 1
p1
x2 ...
p2 ...
xn
. Valoarea medie a lui X este
pn
x p
i
min x M ( X ) max x
i
i
i
i
Moda (sau modul). O notm cu M o ( X ) i este valoarea cea mai probabil a lui
X (adic valoarea cu cea mai mare probabilitate de realizare). Vezi exemplul de mai
jos.
40
Momente iniiale (sau necentrate) de ordinul r ( r numr natural). Fie X o
v.a. discret. Momentul iniial (sau necentrat) de ordinul r este prin definiie valoarea
medie a variabilei aleatoare X r : M r ( X ) M ( X r ) . Se calculeaz cu formula dedus
din definiie: M r ( X ) xir pi . Dac r 0 atunci M 0 ( X ) 1 iar dac r 1 , atunci
i
M 1 ( X ) M ( X ) , evident.
aleatoare
Se
deduce
de
aici
formula
de
calcul:
41
Abaterea standard (sau abaterea medie ptratic).
O notm cu
D( X ) D 2 ( X ) .
Exemplu.
Se
dau
variabilele
aleatoare
3
3 1
X :
0, 2 0,1 0, 7
2 3
6 7, 65
Y :
. Se cere:
0, 4 0,1 0, 4 0,1
a) Media v.a. X
b) Moda v.a. X i Y
c) Modulul variabilei aleatoare X
d) Momentul iniial de ordinul doi al v.a. X
e) Momentul centrat de ordinul trei al v.a. X
f) Dispersia v.a. X (calculat n dou feluri)
g) Abaterea standard a v.a. X .
Soluie.
a) M ( X ) (3) 0, 2 1 0,1 3 0, 7 1, 6 .
b) M o ( X ) 3 , deoarece valoarea 3 are cea mai mare probabilitate de realizare: 0,7.
V.a. X este unimodal. Dar v.a. Y este plurimodal deoarece cea mai mare
probabilitate (adic 0,4) apare de dou ori. Cele dou mode sunt
2 i 6.
42
respective. Se obine: 3 3 , 1 1 i 3 3 . Deci tabelul de repartiie al modulului lui
1 3
X este X :
. a P( X 1) P ( X 1) P ( X 1) 0,1 P ( ) 0,1 0 0,1 .
a b
b P( X 3) P ( X 3) P ( X 3) 0, 2 0, 7 0,9 .
d) M 2 ( X ) (3) 2 0, 2 12 0,1 32 0, 7 8, 2 .
e) 3 ( X ) (3 1, 6)3 0, 2 (1 1, 6)3 0,1 (3 1, 6)3 0, 7 17,568 .
f) D 2 ( X ) M 2 ( X ) ( M ( X )) 2 8, 2 (1, 6) 2 5, 64 .
Sau, D 2 ( X ) (3 1, 6) 2 0, 2 (1 1, 6) 2 0,1 (3 1, 6) 2 0, 7 5, 64 .
g) Abaterea standard este D ( X ) 5, 64 2,37 .
afaceri, nlimea unui individ, temperatura corpului unei persoane, diametrul unei
piese, timpul de ateptare pentru un client care se adreseaz cu o cerere unei firme, etc.
Intervalul n care X ia valori poate fi nchis sau deschis, mrginit sau nemrginit.
O v.a. continu X nu mai este descris printr-un tabel de repartiie ca n cazul discret.
Informaiile despre o v.a. continu X sunt date de dou funcii importante, funcia de
repartiie a lui X i funcia densitate de repartiie (sau funcia densitate de
probabilitate) a lui X . Dou variabile aleatoare continue X i Y sunt independente
43
probabilistic dac P ( X I , Y J ) P ( X I ) P ( X J ) , pentru orice dou intervale I
i J ale axei reale.
x . De aceea, probabilitile ca X
P ( X x) 0 , pentru orice numr real x . De aceea, n inegaliti vor apare numai "<"
44
deplaseze spre dreapta. Zona haurat devine din ce n ce mai mare. Numrul real, spre
care tinde aria zonei haurate cnd b tinde spre , se noteaz cu
f ( x)dx . Pe scurt
a
lim
b a
45
numr care reprezint, intuitiv, aria ntregii zone delimitate de axa Ox i de graficul
funciei f ( x) . Integralele generalizate (improprii) care apar n statistic sunt n general
tabelate, deci nu este necesar (n acest curs) s le calculm.
1)
46
2)
f ( y )dy , ()x .
47
De asemenea, are loc relaia f ( x) F '( x ) , exceptnd eventual un numr finit de puncte
48
proprietile pentru medie de la cazul variabilelor aleatoare discrete (vezi mai sus).
49
Deci moda M o ( X ) este abscisa punctului celui mai nalt poziionat pe graficul
densitii de repartiie f ( x) .
Momentele
Mr (X )
iniiale
sau
necentrate
de
ordinul
sunt
f ( x)dx . Evident, M 0 ( X ) 1 i M 1 ( X ) M ( X ) .
50
Cuantilele de ordinul 1/2, 1/4, 3/4 se mai numesc quartile. Cuantila de ordinul 1/2 = 0,5
se mai numete median i o notm cu x0,5 sau cu M e ( X ) . Mediana mparte zona
delimitat de axa Ox i graficul densitii de repartiie n dou zone de arii egale cu 0,5.
Atenie, nu confundai media unei variabile aleatoare cu mediana !! Cuantilele de
ordinul k /10 , unde k 1, 9 , se mai numesc decile iar cuantilele de ordinul k /100 ,
unde k 1, 99 , se mai numesc percentile.
D ( X ) M (( X M ( X )) ) M 2 ( X ) ( M ( X ))
( x M ( X ))
f ( x )dx .
51
Momentele centrate de ordinul r sunt definite prin relaia:
r ( X ) M (( X M ( X )) r )
( x M ( X ))
f ( x)dx .
M (X ) Mo(X )
.
D( X )
Dac
c.a.s. 0
curba
frecvenelor
este
simetric
4 ( X )
. Dac c.b. 3 atunci curba densitii de repartiie este mai ascuit la
( 2 ( X )) 2
vrf dect curba normal (vezi curba verde din figur) iar dac c.b. 3 atunci are vrful
mai plat ("flat" - cea albastr) dect la curba normal. Curba normal este graficul
densitii de repartiie normale pe care o vom studia n capitolul urmtor. Pentru curbele
din familia normal c.b. 3 (vezi curba de culoare rou nchis din figur).
52
53
0
este de forma X :
p0
1
p1
2 ...
p2 ...
n
k k nk
unde pk P ( X k ) Cn p q , k 0, n ,
pn
D 2 ( X ) npq
(n 1) p 1 M o ( X ) (n 1) p .
Exemplu. Din datele statistice ale unei agenii de turism se tie c probabilitatea
ca un client ce se adreseaz ageniei s cumpere un anumit pachet de servicii este egal
cu 0,85 . Care este numrul cel mai probabil de clieni care ncheie un contract de acest
tip din 1000 de clieni ai ageniei?
Soluie. Notm cu X variabila aleatoare care indic numrul de clieni care ncheie un
contract turistic de acest tip, din cei 1000. Valorile posibile ale lui X sunt numerele
naturale de la 0 la 1000. Evenimentul aleator " X k " se citete " k clieni (din cei
1000) ncheie contractul respectiv". Deoarece p 0,85 nu depinde de client (este
constant),
suntem
cazul
schemei
binomiale.
Deci
k
pk P ( X k ) C1000
(0,85) k (0,15)1000 k , k 0, 1000 . Prin urmare tabelul de repartiie
54
k
al lui X este de forma X : , unde k 0, 1000 i pk se calculeaz cu formula
pk
anterioar. Deci X B (n 1000; p 0,85) i prin urmare numrul cel mai probabil de
clieni care ncheie contract de acel tip este moda (modul) lui X . Obinem:
(1000 1) (0,85) 1 M o ( X ) (1000 1) (0,85) ,
adic 849,85 M o ( X ) 850,85 . Cum moda este printre valorile lui X , ea trebuie s
fie numr natural, deci M o ( X ) 850 clieni.
Exemplu. ntr-un transport de fructe sunt 10.000 de lzi. Din datele statistice ale
companiei se cunoate c probabilitatea ca fructele s se strice ntr-o lad este egal cu
0, 00065 . Aflai:
Prin urmare n acest caz M o ( X ) 6 (moda este o valoare a lui X , deci trebuie s fie
numr natural).
55
Exemplu. O companie de asigurri deine 1000 de polie de asigurare pentru
brbai n vrst de 70 de ani. Compania estimeaz c probabilitatea ca un brbat de
aceast vrst s decedeze ntr-un an este de 0,01. Se cere:
a) estimai numrul mediu de decese pentru aceast categorie de asigurai n anul
respectiv .
b) care este probabilitatea ca nici un asigurat s nu decedeze n anul respectiv ?
Soluie.
a) Justificarea faptului c X B (n 1000, p 0, 01) se face ca mai sus (TEM).
Avem: M ( X ) np 10 asigurai.
b) Deoarece probabilitatea p 0, 01 nu depinde de asigurat, suntem n cazul schemei
binomiale, cu n 1000 , k 0 i q 1 p 0,99 . Deci probabilitatea cerut este
0
P (1000; 0) C1000
(0, 01) 0 (0,99)1000 (0,99)1000 .
fixate)
dac
0
X :
p0
1
p1
tabelul
2 ...
p2 ...
k
pk
de
...
...
repartiie
al
lui
este
de
forma
n
Cmk C Nn km
unde
p
P
(
X
k
)
, k 0, n , iar
k
pn
CNn
N n
m
, unde p
i q 1 p . Scriem
N 1
N
56
Observaie. Se poate arta c, n anumite condiii, diferena dintre "fr
revenire" i "cu revenire" este neglijabil, adic c repartiia hipergeometric se poate
aproxima cu repartiia binomial. Aceasta se poate face dac N i m sunt mari fa de
n iar p
m
nu este apropiat de 0 i nici de 1. n astfel de situaii probabilitile pk de
N
mai sus le putem calcula cu formula de la repartiia binomial, lund n acea formul
p
m
i acelai n .
N
k 0, 10 .
M ( X ) np 10
Prin
urmare
10 k
C26k C174
,
10
C200
Atunci
26
N n
26 174 200 10
1,30 i D 2 ( X ) npq
10
1, 08 .
200
N 1
200 200 200 1
57
n continuare vom prezenta cteva repartiii clasice continue. Reamintim (vezi
capitolul anterior) c o variabil aleatoare continu X este descris prin dou funcii
importante, funcia densitate de repartiie a lui X i funcia de repartiie a lui X .
1
forma f ( x)
e
2
( x m )2
2 2
X N (0, 1) . n figura care urmeaz avei cteva exemple de grafice ale unor astfel de
58
1
Curbele din figur au ecuaia y f ( x)
e
2
( x m )2
2 2
1 x2 / 2
i reprezint
e
2
graficul repartiiei normale standard (se mai cheam i clopotul lui Gauss). Pentru orice
curb "normal", axa Ox este asimptot orizontal spre i, dreapta paralel cu Oy ,
de ecuaie x m , este ax de simetrie. Punctele de inflexiune sunt x m i aria
zonei mrginite de axa Ox i de curba normal este egal cu 1, vezi figura urmtoare:
59
se numete funcia lui Laplace. Valorile acestei funcii sunt tabelate i se gsesc n
orice carte i n orice soft utilitar de statistic. Intuitiv, dac x este un numr real fixat
pe axa Ox , ( x) reprezint aria zonei "de la pn la x " delimitate de clopotul lui
Gauss i de axa Ox .
n unele cri (sau soft-uri utilitare), funcia lui Laplace este definit ca reprezentnd
aria zonei "de la zero la x ". O vom nota cu ( x) . Atenie, aceasta nu mai este funcia
de repartiie a variabilei aleatoare X N (0, 1) !! Recapitulnd cele spuse anterior, i
folosind figura de mai sus ca suport intuitiv, avem:
( x) P( X x)
1
2
y2 / 2
1
( x) P (0 X x)
2
y2 / 2
( x) ( x) 0,5 .
60
Pentru a vedea, ntr-o surs bibliografic sau ntr-un program utilitar, care din cele dou
funcii este folosit, putem folosi observaia c (0) 0,5 dar (0) 0 .
Tabelele funciei Laplace sunt construite n general pentru x 0 . Se poate uor vedea
c are loc relaia ( x) ( x) 1 , pentru orice x numr real. De aici rezult c
( x) 1 ( x) , relaie pe care putem s o folosim pentru cazul n care argumentul
X m
61
Soluie.
P ( a X b) P (a m X m b m) P (
aleatoare Y
X m
P (a X b) P (
am
X m
bm
) . tim c variabila
am
bm
) (
bm
) (
am
) tabel.
"= tabel" nseamn c mai departe putem folosi un tabel cu valorile funciei Laplace.
62
P ( X m ) P (m X m ) P ( X m ) P (
X m
X m
N (0, 1) i c
( ) 1 ( ) .
63
Se observ c (0) 0,500 deci este vorba de funcia Laplace notat i n acest curs cu
. i figura ne arat acelai lucru. De exemplu, (0.52) 0, 6985 . Am descompus pe
z : z 0,5 0, 02 i am mers la intersecia dintre linia lui 0,5 i coloana lui 0,02. Un
) 1 (2) 1 0,97725 0, 02 .
2500
2500
)
2500
2500
2500
P (0, 2 Y 0, 2) 2 (0, 2) 1 2 0,57926 1 0,16 .
64
b) Procentul de produse a cror durat de funcionare este de peste 140 de zile.
Soluie.
a)
P ( X t ) 0, 03 . Standardizm i obinem c P (
rezult c (
X 120 t 120
) 0, 03 . De unde
10
10
t 120
) 0, 03 . Din tabelele funciei Laplace gsim c (1,88) 0, 03 .
10
t 120
1,88 , de unde t 10 1,88 120 120 18,8 101, 2 zile.
10
Procedm
analog,
P ( X 140) P (
) 1 P(
2)
10
10
10
1 (2) 1 0,98 0, 02 2% .
65
relaia
P( X t (r )) aria
zonei
"de
la
t (r )
la
".
Prin
urmare,
66
(Aria ntregii zone delimitate de grafic i de axa Ox este egal cu 1, ca la orice lege de
repartiie). Vezi i figura de mai jos.
La adresa http://stattrek.com/online-calculator/t-distribution.aspx
gsii un calculator
67
dreapta cuantilei i P ( X 2 (r )) 1 aria zonei de la stnga cuantilei. Mai jos
avei schia graficului densitii de repartiie de tip hi-ptrat i o parte dintr-un tabel de
cuantile.
Aria zonei "de la 15,51 spre " este egal cu 0,05 iar aria zonei "de la 0 pn la
15,51"
68
freedom" 8 i la "cumulative probability" pe 0.950 (adic 1 ordinul cuantilei !!). Click
"Calculate" i gsii "15.5".
69
obinei "2.04". Aria de la 0 pn la 2,04 este egal cu 0,975 iar aria de la 2,04 la
este egal cu 0,025. Sau, alt exemplu, cuantila F0,975 (28, 33) 0.478 . Aria de la stnga
ei este egal cu 0,025 i aria de la dreapta ei (spre ) este egal cu 0,975. Calculatorul
online v d (cu rotunjire) 0,48. Vezi poza de mai jos:
70
n ncheiere prezentm trei rezultate importante foarte des utilizate n practic,
cu exemple.
D2 ( X )
probabilitatea cerut este de cel puin 0,36. Sau, echivalent, cel puin 36% din valorile
lui X sunt n intervalul (0, 75;1, 25) .
71
X
reprezint frecvena relativ de realizare a
n
X
p ) 1 , pentru orice numr 0 .
n
lim P(
X
.
n
30.000
. Pe baza legii
n
30.000
30.000
. De unde rezult n
. Deci
n
p
72
trebuie gsit
p . Avem:
p P (9,8 X 10, 2) P (
20
20
) (
) 2 (1,3333) 1 .
15
15
De
la
adresa
9,8 10 X 10 10, 2 10
)
0,15
0,15
0,15
dat
mai
sus,
gsim
X np
urmeaz
npq
73
k 0, 10.000 . Deci X B (n 10.000; p 0, 005) . Prin urmare M ( X ) np 50 i
M(
P(
X
p 0, 001) . Deoarece
n
X
1
1
) M ( X ) np p i
n
n
n
D2 (
X
1
1
pq
) 2 D 2 ( X ) 2 npq
0, 0000004975 , putem aplica inegalitatea lui
n
n
n
n
Cebev:
P(
X
0, 0000004975
p 0, 001) 1
0,5025 . Deci probabilitatea cerut este de cel
n
0, 0012
puin 0,5025.
b) P (
X
X np
p 0, 001) P (0, 001
0, 001)
n
n
P(0, 001
n
X np
0, 001
pq
npq
n
) 2 (0, 001
pq
n
) 1 2 (1, 41776) 1
pq
x
discret, cu tabelul de repartiie X : 1
p1
x2
...
p2 ...
xn
txi
, atunci g (t ) e pi . Dac X
pn
i
tx
f ( x) atunci
74
ambele situaii, momentul iniial de ordinul r al lui X este egal cu derivata de ordinul
r a funciei g n punctul zero, adic M r ( X ) g ( r ) (0) , pentru orice r .
1 0
Exemplu. Se d variabila aleatoare discret X : 1 1
6 2
1 . Se cere:
b) M ( X ) M 1 ( X ) g (1) (0) (
M2(X ) (
e t et
1 1 1
) .
6 3 t 0
6 3 6
e t et
1 1 1
) .
6 3 t 0 6 3 2
2
c) D 2 ( X ) M 2 ( X ) ( M ( X )) 2
1 1 17
.
2 6 36
75
Bibliografie (la acest capitol)
1. Laura Simon, Scott Roths, STAT 414 - 415, Lecture Notes, Dept. of Statistics,
PennState University , 2012
2. C. Chilrescu, N. Surulescu, et al., Bazele Statisticii, Ed. Universitii de Vest, 2002
3. http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=166&idb=11
(curs online Academia de Studii Economice, Bucureti)
4. http://www.math.uah.edu/stat (Virtual Laboratories)
5. http://stattrek.com/online-calculator/normal.aspx (calculator online - funcia Laplace
i cuantile repartiii)
76
se
77
general, bazat pe informaiile obinute din analizarea eantioanelor, se numete o
inferen statistic. Raportul descriptiv-inferenial n cercetarea statistic este
evideniat n figura de mai jos.
78
valorile lui X , corespunztoare unitilor din eantionul selectat, formeaz seria
statistic de mai jos:
X : 12; 15; 17; 12; 14; 21; 21; 17; 19; 24; 15; 11; 11; 14; 19; 21; 21; 15; 18; 17.
Aceste date se pot scrie ordonat ntr-o distribuie de frecvene cu valori individuale,
ca n tabelul de mai jos. Pe prima coloan se trec valorile distincte ale variabilei
aleatoare X , notate cu
f
i
ni
. Avem, ntotdeauna,
n
n
i
n i
79
( xi )
( ni )
( fi )
( Ni )
( Fi )
11
0,1
0,1
12
0,1
0,2
14
0,1
0,3
15
0,15
0,45
17
0,15
12
0,60
18
0,05
13
0,65
19
0,1
15
0,75
21
0,2
19
0,95
24
0,05
20
Total
n 20
Pentru eantioane de volum mare, dac X este privit ca o variabil aleatoare continu,
datele se pot grupa pe intervale, ca mai jos. S presupunem c avem o serie statistic
simpl cu n 50 de valori ale lui X scrise n tabelul:
80
Vom considera intervalele de forma (a, b] iar ultimul interval de forma [a, b] . Primul
interval trebuie s conin cea mai mic valoare din serie, adic pe xmin 138 iar ultimul
interval trebuie s conin cea mai mare valoare din serie, adic pe xmax 201 . Fiecare
interval (a, b] are o limit inferioar, adic pe " a " i o limit superioar, adic pe
"b". Limita inferioar a primului interval se alege convenabil. Poate fi zero, sau poate fi
o valoare apropiat de xmin , mai mic sau egal cu xmin . Lungimea fiecrui interval, h ,
o calculm cu formula lui Sturges, adic h
xmax xmin
, unde " lg n " nseamn
1 3,322 lg n
201 138
63
egal cu 4. Aceasta nseamn c exact 4 din cele 50 de valori de mai sus se afl n
intervalul (135, 145] . Ele sunt: 140; 138; 142; 142. (142 apare de dou ori !!). Sau, n
intervalul (155, 165] apar 13 observaii (valori observate). Atenie, 155 nu aparine
acestui interval!! Celelalte coloane, care se pot aduga dac este necesar, se construiesc
la fel mai sus. Formulele, notaiile i denumirile sunt la fel ca n tabelul anterior celui cu
50 de valori.
81
( xi )
( ni )
( fi )
( Ni )
( Fi )
135 - 145
0,08
0,08
145 - 155
0,1
0,18
155 - 165
13
0,26
22
0,44
165 - 175
11
0,22
33
0,66
175 - 185
0,16
41
0,82
185 - 195
0,12
47
0,94
195 - 205
0,06
50
Total
n 50
82
n figura de mai sus avei o histogram a frecvenelor relative, pentru distribuia din
tabelul anterior. Am folosit softul utilitar gratuit de la adresa
http://www.zweigmedia.com/RealWorld/stats/histogram.html .
Unind mijloacele bazelor superioare ale dreptunghiurilor se obine poligonul
frecvenelor relative, de culoare roie. Dac pe axa Oy reprezentm frecvenele
absolute (ni ) , atunci se obin respectiv histograma frecvenelor absolute i poligonul
frecvenelor absolute. TEM !!
Dac pe axa Oy reprezentm frecvenele absolute cumulate ( N i ) sau
frecvenele relative cumulate ( Fi ) , obinem respectiv poligonul frecvenelor absolute
cumulate sau poligonul frecvenelor relative cumulate (se mai cheam ogive).
Unitatea de msur se alege convenabil pe fiecare ax. n figura de mai jos avei
histograma frecvenelor relative cumulate i, cu rou, ogiva frecvenelor relative (sau
poligonul frecvenelor relative cumulate). Ogivele sunt poligoane cresctoare, continue.
83
Pentru (multe !!) alte metode de reprezentare grafic a datelor i de prelucrare primar,
facultativ, putei consulta bibliografia de la sfritul acestui capitol.
84
care ncep s semene din ce n ce mai mult ca form cu o anumit curb. Dac
histogramele acestea sunt histograme de frecvene relative (adic pe axa Oy
reprezentm frecvenele relative ( f i )) atunci se obine un ir de poligoane de frecvene
relative care "tinde" ctre o anumit curb. Dac notm cu X variabila aleatoare
(continu) care modeleaz matematic caracteristica comun unitilor statistice din
populaia studiat, atunci curba respectiv este de fapt graficul densitii de repartiie
f ( x) a variabilei aleatoare X . Aceast curb se numete curb de repartiie sau curba
ct mai "bine" poligonul frecvenelor relative pentru volume n foarte mari. n mod
analog ne putem imagina un ir de poligoane de frecvene relative cumulate (ogive ( Fi ) pe axa Oy ) construite pentru distribuii de frecvene de volum n din ce n ce mai
mare i cu lungimea intervalelor (n care sunt grupate valorile) din ce n ce mai mic.
Acest ir de ogive tinde, ca form, ctre graficul funciei de repartiie F ( x) a variabilei
aleatoare X . Determinarea ct mai exact a acestor funcii, f ( x) i F ( x) reprezint
problema principal a Statisticii i aceast problem va fi abordat n cursurile viitoare
de Statistic i Econometrie.
Mai jos, avei cteva figuri care ilustreaz (intuitiv) aceste idei. Histogramele i
poligoanele de frecvene au fost construite pentru eantioane de volume de la 1000 la
10.000 de valori. (Nu trebuie, evident, memorate aceste figuri).
85
86
87
mai sus. Ceilali vor fi studiai la seminar. Pentru fiecare parametru vom prezenta
modalitatea de calcul n trei situaii.
1
xi . Deci, n
n i
1
(12+15+17+12+14+21+21+17+19+24+15+11+11+14+19+21+21+15+18+17) =
20
16,7.
Dac aceast serie se scrie ca o distribuie de frecvene cu valori individuale, adic
88
( xi )
( ni )
11
12
14
15
17
18
19
21
24
Total
n 20
1
( ni xi ) . Deci, obinem:
n i
1
(2 11 2 12 2 14 2 14 3 15 3 17 118 2 19 4 21 1 24) = 16,7.
20
89
( xi )
( ni )
135 - 145
145 - 155
155 - 165
13
165 - 175
11
175 - 185
185 - 195
195 - 205
Total
n 50
atunci trebuie mai nti s calculm mijloacele intervalelor ( xi ). Mijlocul unui interval
(a, b] este numrul
ab
. Adugm la tabel coloana cu mijloacele intervalelor,
2
( xi )
( ni )
( xi )
135 - 145
140
145 - 155
150
155 - 165
13
160
165 - 175
11
170
175 - 185
180
185 - 195
190
195 - 205
200
Total
n 50
90
i folosim formula x
1
( ni xi ) . Deci obinem:
n i
1
(4 140 5 150 13 160 11 170 8 180 6 190 3 200) = 168,80.
50
1
1
1
xir , xr ni xir i respectiv xr ni ( xi ) r .
n i
n i
n i
Exemplu. Vom calcula momentul iniial de ordinul doi pentru seria statistic
X : 12; 15; 17; 12; 14; 21; 21; 17; 19; 24; 15; 11; 11; 14; 19; 21; 21; 15; 18; 17.
Avem:
x2
1
(122 152 17 2 122 142 212 212 17 2 192 24 2 152
20
91
( xi )
( ni )
11
12
14
15
17
18
19
21
24
Total
n 20
92
Deci x2
( xi )
( ni )
( xi2 )
( ni xi2 )
11
121
242
12
144
288
14
196
392
15
225
675
17
289
867
18
324
324
19
361
722
21
441
1764
24
576
576
Total
n 20
5850
5850
292,50 .
20
93
( xi )
( ni )
135 - 145
145 - 155
155 - 165
13
165 - 175
11
175 - 185
185 - 195
195 - 205
Total
n 50
Deci x2
( xi )
( ni )
( xi )
( ( xi ) 2 ) ( ni ( xi ) 2 )
135 - 145
140
19600
78400
145 - 155
150
22500
112500
155 - 165
13
160
25600
332800
165 - 175
11
170
28900
317900
175 - 185
180
32400
259200
185 - 195
190
36100
216600
195 - 205
200
40000
120000
Total
n 50
1437400
1437400
28748 .
50
94
Dispersia (sau variana). O vom nota cu 2 de aceast dat. Corespunztor
celor trei situaii de mai sus, se calculeaz cu (una din) formulele:
1
1
( xi x ) 2 x2 ( x ) 2 , 2 ni ( xi x ) 2 x2 ( x ) 2 i respectiv
n i
n i
1
ni ( xi x ) 2 x2 ( x ) 2 . Diferenele " xi x " se numesc abateri individuale
n i
1
[(12-16,7) 2 +(15-16,7) 2 +(17-16,7) 2 +(12-16,7) 2 +(14-16,7) 2 +(21-16,7) 2 +
20
95
( xi )
( ni )
11
12
14
15
17
18
19
21
24
Total
n 20
pentru care x 16, 7 (a fost calculat mai sus), atunci calculele se pot aranja astfel:
96
Deci 2
( xi )
( ni )
( xi x )
( xi x ) 2
ni ( xi x ) 2
11
-5,7
32,49
64,98
12
-4,7
22,09
44,18
14
-2,7
7,29
14,58
15
-1,7
2,89
8,67
17
0,3
0,09
0,27
18
1,3
1,69
1,69
19
2,3
5,29
10,58
21
4,3
18,49
73,96
24
7,3
53,29
53,29
Total
n 20
272,20
272, 20
13, 61 . Rezultat pe care-l puteam obine i cu cealalt formul care
20
97
( xi )
( ni )
135 - 145
145 - 155
155 - 165
13
165 - 175
11
175 - 185
185 - 195
195 - 205
Total
n 50
Deci 2
( xi )
( ni )
( xi )
( xi x )
( xi x ) 2
ni ( xi x ) 2
135 - 145
140
-28,80
829,44
3317,76
145 - 155
150
-18,80
353,44
1767,20
155 - 165
13
160
-8,80
77,44
1006,72
165 - 175
11
170
1,20
1,44
15,84
175 - 185
180
11,20
125,44
1003,52
185 - 195
190
21,20
449,44
2696,64
195 - 205
200
31,20
973,44
2920,32
Total
n 50
12728
12728
254,56 . Cu a doua formul, care pune n eviden momentul iniial
50
98
Abaterea standard (sau abaterea medie ptratic). Se definete (n toate cele
trei cazuri de care am vorbit mai sus) prin 2 .
Deci, corespunztor celor trei forme de mai sus de prezentare a datelor, avem respectiv:
n
2.
n 1
20
13, 61 14,32 . Iar pentru a
20 1
50
254,56 259, 75 .
50 1
99
1. Laura Simon, Scott Roths, STAT 414 - 415, Lecture Notes, Dept. of Statistics,
PennState University, (2012)
2. ipo Ciprian, Preda Ciprian, Statistic Economic, Editura Mirton, Timioara, 2004
3. http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=116&idb=21
(Curs online gratuit, Academia de Studii Economice Bucureti; click pe fiecare capitol
din cuprins)
100
101
Estimarea mediei ( m ) n cazul n care n 30 i variana ( 2 ) a populaiei
este cunoscut.
m x z
) 1 p 2 ( z ) ,
unde x este media de selecie, este abaterea standard a populaiei, n este volumul
eantionului, m este media populaiei iar ( z ) este funcia lui Laplace (redus - aria de
la "0 la z " de sub clopotul lui Gauss). " " se numete nivel de semnificaie iar
p 1 se numete coeficient de ncredere. " z " se determin din tabelele funciei
p
.
2
, x z
aparine intervalului
, x z
] cu coeficientul de
102
fie corect fie incorect. Cum nu tim valoarea adevrat a lui m , nu putem ti cu
siguran absolut dac intervalul gsit este corect sau nu. Adic dac m se afl n acel
interval sau nu. Putem fi doar foarte ncreztori c am gsit un interval corect, deoarece
95% din toate intervalele pe care le-am fi putut obine sunt corecte.
De aceea, vom spune c " m aparine intervalului
[x z
, x z
] cu un
coeficient de ncredere de 95%". Aceste observaii rmn valabile pentru tot ceea ce
urmeaz mai jos, n acest capitol.
n general, dac [a, b] este un interval de ncredere, jumtate din lungimea sa,
adic
z
ba
se cheam marj de eroare. n cazul nostru, marja de eroare este egal cu
2
103
Soluie.
Folosim relaia dat mai sus. Avem: ( z )
0,95
0, 475 . Gsim z 1,96 . Atenie ce
2
tabel folosii !! Dac dorii s utilizai softul de la adresa (dat i n capitolul III)
http://stattrek.com/online-calculator/normal.aspx ,
acela lucreaz cu ( z ) ( z ) 0,5 . Deci va trebui s introducei acolo 0,975
( 0,975 0, 475 0,5 ).
asemenea,
x z
x z
Calculm
29, 2 1,96
29, 2 1,96
7,5
27,89 u .
126
De
7,5
30,51 u . Deci, concentraia medie a
126
nivelului de plumb din snge a populaiei format din poliitii de la circulaie rutier
din LAPD este m [27,89 u; 30,51 u ] , cu un coeficient de ncredere de 95%.
Observaie.
z
1,96
Marja
de
eroare
("margin
of
error")
este
egal
cu
7,5
1,30 . n mrime relativ, marja de eroare se poate calcula ca
126
1,30
4% .
29, 2
s
s
m x t
) 1 p ,
n
n
104
n care t este cuantila (vezi capitolul III) repartiiei Student cu n 1 grade de libertate i
de ordinul
s
.
n
1 p 1 0,95 0, 05 i
0, 05
0, 025 . Cuantila t t0,025 (15) 2,131 . Am
2
105
unde trebuie s introducei la "cumulative probability" pe 0,975 1 0, 025 (aria de la
"
x t
la
t"
de
sub
graficul
repartiiei
Student).
Mai
departe,
s
5, 66
118, 44 2,131
118, 44 3, 015 115, 42
n
16
i x t
s
118, 44 3, 015 121, 45 . Deci, cu un coeficient de ncredere de 95%, o
n
persoan din regiunea respectiv consum n medie anual o cantitate de carne de vit
m [115, 42 u;121, 45 u ] , unde " u " nseamn "pounds". (1 pound = 453,5 grame, deci
de aceea obezitatea face ravagii acolo....). Marja de eroare este de 3,015. TEM:
calculai marja de eroare relativ, ca procent din x .
a unei populaii
statistice.
(n 1) s 2
(n 1) s 2
2
) 1 p ,
b
a
i respectiv 1
[s
n 1
n 1
,s
] , cu coeficientul de ncredere p .
b
a
106
Exemplu. Un mare productor de dulciuri produce, mpacheteaz i vinde un
anumit tip de pachete de 52 grame cu dulciuri. Un manager responsabil cu controlul de
calitate este ngrijorat c variaia greutii reale a pachetelor este prea mare. Adic, el
este ngrijorat c unele pachete cntresc mai mult sau mai puin de 52 grame, cu o
cantitate semnificativ. Pentru a estima abaterea standard ( ) a greutilor tuturor
pachetelor de acest tip fabricate de companie, el alege printr-un sondaj aleator simplu 10
pachete din linia de producie a fabricii. Pentru acest eantion el calculeaz variana de
selecie s 2 4, 2 . Utilizai aceste date ca s gsii un interval de ncredere pentru ( ),
cu un coeficient de ncredere de 95%.
Soluie.
Avem:
1
n 1 10 1 9 ,
1 p 1 0,95 0, 05 ,
iar
0, 025
http://stattrek.com/online-calculator/chi-square.aspx
gsim
2
b 0,025
(9) 19
2
a 0,975
(9) 2, 7 . Atenie, dup cum tii deja din capitolul III, n softul acesta online
i s
n 1
9
4, 2
2, 05 0, 69 1, 41
b
19
n 1
9
4, 2
2, 05 1,83 3, 75 .
a
2, 7
Deci, abaterea standard a greutilor tuturor pachetelor de acest tip din producia fabricii
este [1, 41g ; 3, 75 g ] , cu un coeficient de ncredere de 95%.
107
Estimarea unui procent (proporie) dintr-o populaie (colectivitate) statistic.
1000
1% . Pentru a estima un procent al unei populaii printr-un interval de
100000
ncredere, avem nevoie de un eantion de volum ct mai mare, selectat din populaie
printr-un sondaj aleator simplu, de procentul (s zicem " r ") al eantionului, referitor la
atributul urmrit i de un coeficient de ncredere ( p ) corespunztor unui nivel de
semnificaie 1 p . De asemenea, eantionul trebuie s conin cel puin 10 uniti
care au atributul respectiv i cel puin 10 uniti care nu-l au.
n aceste condiii, relaia pe care o putem utiliza cu o bun aproximaie este
P(r z
r (1 r )
r (1 r )
R r z
) 1 p 2 ( z ) ,
n
n
r (1 r )
.
n
108
alegeri. Estimai, cu un coeficient de ncredere de 95%, procentul locuitorilor cu drept
de vot din ora care sprijin acel candidat.
Soluie.
Avem r
280
0, 67 67% (proporia sau procentul la nivel de eantion). De
418
p 0,95
Calculm
marja
de
eroare:
r (1 r )
0, 67(1 0, 67)
1,96
0, 045 4,5% .
n
418
i r z
r (1 r )
0, 67 0, 045 0, 625 62,5%
n
r (1 r )
) 0, 67 0, 045 0, 715 71,5% .
n
n concluzie, procentul R de locuitori din ora care sprijin candidatul respectiv se afl
n intervalul [62,5%; 71,5%] , cu un coeficient de ncredere de 95%. Sau, se mai poate
spune c 67% din locuitori sprijin candidatul, cu o marj de eroare de 4,5% i un
coeficient de ncredere de 95%.
(De multe ori la TV nu se precizeaz coeficientul de ncredere i intervalul de
ncredere....).
Observaie. Toate metodele de estimare de mai sus sunt foarte des aplicate n
practic. Estimarea direct a parametrilor la nivel de populaie este imposibil n
practic, deoarece procesul ar fi foarte costisitor sau imposibil tehnic, chiar distructiv.
De aceea se folosete estimarea prin intervale de ncredere. Metodele prezentate se
109
bazeaz pe teoreme importante din Statistic. Facultativ, le putei gsi n bibliografia de
mai jos. Tot acolo v-am pus i dou link-uri ctre materiale practice.
1. Laura Simon, Scott Roths, STAT 414 - 415, Lecture Notes, Dept. of Statistics,
PennState University, (2012)
2. ipo Ciprian, Preda Ciprian, Statistic Economic, Editura Mirton, Timioara, 2004
3. http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=116&idb=21
(Curs online gratuit, Academia de Studii Economice Bucureti; click pe fiecare capitol
din cuprins. Acolo putei citi i despre diferite tipuri de sondaje)
4. http://stattrek.com/ (foarte util, teorie i exemple, ct i un calculator pentru funcia
Laplace i cuantile ale repartiiilor clasice)
5. http://www.statsoft.com/textbook/ (teorie i soft profesional)
6. http://www.calculator.net/standard-deviation-calculator.html
(Calculator online,
110
ipoteza nul) cu nivelul de ncredere p ". Atenie, este greit s spunem "probabilitatea
111
ca m s ia valoarea m0 este egal cu p ", explicaia fiind similar cu cea dat n
capitolul precedent (la "estimarea parametrilor").
n fiecare test de verificare a unei ipoteze statistice apare o valoare calculat a
testului ct i o valoare critic a testului. Valoarea calculat se determin utiliznd
datele oferite de un eantion obinut printr-un sondaj aleator simplu. Valoarea critic se
determin din tabelele cu cuantile ale repartiiilor clasice nvate n capitolele
anterioare. Dup denumirea repartiiei clasice utilizate n test, avem teste de tip " z -test"
(repartiia normal sau Gauss-Laplace), de tip " t -test" (repartiia Student), de tip " 2 test" (repartiia Helmert-Peason) sau de tip " f -test" (repartiia Fisher-Snedecor).
Pentru justificarea matematic a metodelor prezentate mai jos, vezi, facultativ,
bibliografia de la sfritul acestui capitol.
(test
bilateral).
x m0
n .
p
se determin " z " utiliznd tabelele
2
repartiiei Laplace i notm cu z z valoarea critic gsit (am spus mai sus,
2
112
p 1 este dat). ( z ) este funcia lui Laplace din capitolul despre "repartiii
p
0,5 i gsii pe z z .
2
2
x m0
- Valoarea critic: ( z )
gsim z z 1,96 .
2
304, 60 325
50 1, 42 .
101,50
p 1 1 0, 05
113
- Deoarece zc z , acceptm (cu un nivel de ncredere de 95%) c o persoan din acea
2
(test
unilateral dreapta)
- ( H 0 ): m m0 i ( H a ): m m0
- Valoarea calculat: zc
x m0
n.
114
Soluie.
- ( H 0 ) : m m0 130 i ( H a ) : m 130 minute.
- zc
120 130
100 6, 67 .
15
(test
unilateral stnga)
- ( H 0 ): m m0 i ( H a ): m m0
- Valoarea calculat: zc
x m0
n.
115
(M4) Testarea ipotezelor privind media unei populaii statistice cnd NU se
cunoate variana ( 2 ) a populaiei i volumul eantionului este n 30 .
(test
bilateral)
x m0
n , unde s este abaterea standard de
s
de libertate i de ordinul
(test
unilateral dreapta)
x m0
n , unde s este abaterea standard de
s
116
(test M5) Exemplu. Conducerea unei companii alege 5 experi care i exprim
opiniile privind preul unui produs, n anul viitor. Valorile previzionate de ctre experi
sunt (respectiv) de 2,60u.m.; 3,32u.m.; 1,80u.m.; 3,43u.m.; 2,00u.m. . tiind c anul
acesta preul mediu al produsului este de 2,01u.m., sunt motive suficiente pentru a
susine (cu un nivel de ncredere de 95%) ipoteza c anul viitor preul mediu va fi
semnificativ mai mare fa de cel din anul acesta?
Soluie.
Volumul eantionului este n 5 30 deci folosim testul (de tip Student) M5 de mai
sus.
La nivel de eantion obinem:
s2
2,60+3,32+1,80+3,43+2,00
2, 63 u.m. i
5
1
1
( xi x ) 2
[(2,60-2,63) 2 +(3,32-2,63) 2 +(1,80-2,63) 2
n 1 i
5 1
Abaterea
(modificat)
de
selecie
este
s s 2 0,5507 0, 74 .
x m0
2, 63 2, 01
n
5 1,87 .
s
0, 74
117
95%) ca n anul viitor preul mediu s NU fie semnificativ mai mare fa de cel din anul
acesta (adic de 2,01u.m.).
(test
unilateral stnga)
x m0
n , unde s este abaterea standard de
s
118
(M7) Testarea ipotezelor privind mediile a dou populaii statistice n cazul
n care n1 30 i n2 30 iar varianele 12 i 22 ale celor dou populaii sunt
cunoscute (test bilateral).
- ( H 0 ): m1 m2 i ( H a ): m1 m2
- Valoarea calculat: zc
x1 x2
12
n1
22
n2
eantioane)
- Valoarea critic: din relaia ( z )
p
se determin " z " utiliznd tabelele repartiiei
2
- ( H 0 ): m1 m2 i ( H a ): m1 m2
- Valoarea calculat: zc
x1 x2
12
n1
eantioane)
22
n2
119
- Valoarea critic: din relaia ( z ) 1 p se determin " z " utiliznd tabelele
repartiiei Laplace i notm cu z z valoarea critic gsit ( p 1 este dat).
- Dac zc z atunci acceptm ipoteza nul ( H 0 ) cu nivelul de ncredere p iar n caz
contrar acceptm ipoteza alternativ ( H a ), cu nivelul de ncredere p .
- ( H 0 ): m1 m2 i ( H a ): m1 m2
- Valoarea calculat: zc
x1 x2
12
n1
22
n2
eantioane)
- Valoarea critic: din relaia ( z ) 1 p se determin " z " utiliznd tabelele
repartiiei Laplace i notm cu z z valoarea gsit ( p 1 este dat). Dar valoarea
critic este aici z .
- Dac zc z atunci acceptm ipoteza nul ( H 0 ) cu nivelul de ncredere p iar n caz
contrar acceptm ipoteza alternativ ( H a ), cu nivelul de ncredere p .
120
nainte de campanie i respectiv n 40 de zile dup campanie. Pentru cele dou
eantioane s-au calculat mediile de selecie, acestea fiind respectiv: x1 82, 45 u.m. i
x2 84,98 u.m. .
Varianele vnzrilor zilnice ale firmei nainte i dup campanie sunt respectiv
x1 x2
12
n1
22
n2
82, 45 84,98
4,36 .
8, 20 5,13
40
40
121
(Calculator online,
P( x z
P( x t
P(
m x z
) 1 p 2( z )
s
s
m x t
) 1 p , t t ( n 1)
n
n
2
(n 1) s 2
(n 1) s 2
2
) 1 p ,
b
a
P(r z
b 2 (n 1) i a 2 (n 1)
1
r (1 r )
r (1 r )
R r z
) 1 p 2 ( z )
n
n
( H0 ): m m0 i ( H a ): m m0 ; zc
( H0 ): m m0 i ( H a ): m m0 ; zc
( H0 ): m m0 i ( H a ): m m0 ; tc
x m0
x m0
n ; ( z)
p
; z z ; p 1 ; zc z .
2
2
2
n ; ( z ) p 1 ; z z ; zc z .
x m0
n ; t t (n 1) ; tc t (n 1) ; p 1 .
s
( H0 ): m1 m2 i ( H a ): m1 m2 ; zc
x1 x2
12
n1
22
n2
; ( z ) 1 p ; z z ; zc z .