Documente Academic
Documente Profesional
Documente Cultură
Variabila aleatoare discretă are un număr finit de valori sau o mulţime cel mult numărabilă de valori.
Repartiţia sau distribuția de probabilitate a unei variabile aleatoare discrete se scrie sub forma unui
tablou în care prima linie conţine toate valorile posibile ale variabilei (𝑥𝑖 ,𝑖 = 1,2, . ..), iar a doua linie
conţine probabilităţile de apariţie ale acestor valori (𝑃(𝑋 = 𝑥𝑖 ) = 𝑝𝑖 ,𝑖 = 1,2, . ..).
𝑥1 𝑥2 ⋯ 𝑥𝑖 ⋯ 𝑥𝑖
𝑋: (𝑝 𝑝 ⋯ 𝑝 ⋯) sau 𝑋: (𝑝 ), 𝑖 ∈ 𝐼 ⊂ 𝑁 ∗
1 2 𝑖 𝑖
1) 𝑝𝑖 ≥ 0 (∀)𝑖 ∈ 𝐼
2) ∑𝑖∈𝐼 𝑝𝑖 = 1
𝑥
Variabila aleatoare continuă are un număr infinit de valori 𝑋: (𝑓(𝑥)), unde 𝑥 ∈ 𝐼 ⊂ ℝ
Funcţia densitate de probabilitate: 1)𝑓(𝑥) ≥ 0, (∀)𝑥 ∈ 𝑅
∞
2) ∫−∞ 𝑓(𝑥)𝑑𝑥 = 1
𝑏
3) ∫𝑎 𝑓(𝑥)𝑑𝑥 = 𝑃(𝑎 ≤ 𝑋 ≤ 𝑏) = 𝐹(𝑏) − 𝐹(𝑎)
Funcţia de repartiţie a v. a. X:
𝑥
𝐹(𝑥) = 𝑃(𝑋 < 𝑥) = ∫−∞ 𝑓(𝑡)𝑑𝑡
⚫ Distribuţia normală standard, Z ~ N(0,1), (distribuţia normală normată sau normală redusă)
Orice distribuţie normală 𝑋~𝑁(𝜇, 𝜎 2 ) poate fi redusă la distribuţia normală standard folosind
𝑋−𝜇
transformarea 𝑍 = 𝜎 şi 𝑍~𝑁(0,1).
2
⚫ Dacă 𝛼 ∈ (0,1) se numeşte cuantilă de rang 𝜶 a repartiţiei normale standard Z, un număr 𝑧𝛼 cu
următoarea proprietate: 𝑃(𝑍 > 𝑧𝛼 ) = 𝑃(𝑍 ≥ 𝑧𝛼 ) = 𝛼 şi 𝑃(𝑍 < 𝑧𝛼 ) = 1 − 𝛼.
Teorema Limită Centrală constituie baza teoretică pentru larga aplicabilitate a distribuţiei normale.
Fie 𝑋1 , 𝑋2 , . . . , 𝑋𝑛 variabile aleatoare independente, identic distribuite, cu media 𝜇 şi dispersia 𝜎 2 .
∑𝑛 𝑋
Fie 𝑋̄ = 𝑖=1 𝑖 . Atunci când 𝑛 → ∞ avem:
𝑛
𝜎2 𝑋̄ −𝐸(𝑋̄ ) 𝑋̄ −𝜇
1) 𝑋̄~𝑁(𝜇, ) 2) 𝑍 = = 𝜎/ ~𝑁(0,1).
𝑛 𝜎𝑋̄ √𝑛
2) Distribuţia Hi-pătrat (Chi-squared) cu n grade de libertate − 𝝌𝟐𝒏
Teoremă: Fie 𝑍1 , 𝑍2 , . . . , 𝑍𝑛 ~𝑁(0,1) variabile aleatoare independente.
Atunci variabila aleatoare 𝑋 = 𝑍12 + 𝑍22 + ⋯ + 𝑍𝑛2 ~𝜒𝑛2
3
n – număr grade de libertate (corespunde numărului de termeni din sumă).
O v. a. cu distribuţie Hi–pătrat este totdeauna nenegativă şi graficul lui 𝑓(𝑥) nu este simetric. Forma sa
grafică, asimetrică spre dreapta, depinde numai de numărul gradelor de libertate.
Distribuţia Hi–pătrat se foloseşte pentru că apar frecvent situaţii în care intervin sume de pătrate de v.a.
independente una de alta, urmând fiecare o distribuţie normală.
Există tabele care dau funcţia de repartiţie Hi–pătrat.
(𝑛−1)𝑠2
Teoremă: Variabila 𝑈 = urmează o distribuţie 𝜒 2 cu (n−1) grade de libertate.
𝜎2
Densitatea de repartiţie are o formă similară cu cea a distribuţiei normale standard şi converge spre
distribuţia normală standard pe măsură ce numărul gradelor de libertate creşte.
𝑋̄ −𝜇
Teoremă: Variabila 𝑡 = 𝑠/ are o distribuţie Student cu (n-1) grade de libertate.
√𝑛
4) Distribuţia F (Fisher-Snedecor)
Teoremă: Fie două v.a. independente: 𝑿𝟏 ~𝝌𝟐𝒏𝟏 şi 𝑋2 ~𝜒𝑛22 . Atunci, v.a.
(𝑋 /𝑛 )
𝐹 = (𝑋1/𝑛1) are o distribuţie F cu (𝑛1 , 𝑛2 ) grade de libertate. Notăm 𝐹~𝐹𝑛1 ,𝑛2
2 2
4
𝑛1 este asociat cu variabila de la numărător; 𝑛2 este asociat cu variabila de la numitor.
– Distribuţia F este asimetrică la dreapta.
INFERENŢA STATISTICĂ
Prin inferenţă statistică se înţelege obţinerea de concluzii bazate pe o evidenţă statistică, adică pe
informaţii obţinute dintr-un eşantion. Concluziile sunt asupra caracteristicilor populaţiei din care provine
eşantionul.
Estimarea şi testarea ipotezelor constituie cele două ramuri ale inferenţei statistice clasice.
• ESTIMAREA. Estimarea este operaţia de stabilire, în baza datelor unui eşantion, a valorilor
parametrilor repartiţiei populaţiei din care a fost extras eşantionul.
Putem avea estimare punctuală sau estimare prin interval de încredere.
Estimarea punctuală
Considerăm o populaţie caracterizată de o v.a. teoretică X, care are o lege de probabilitate cunoscută,
𝑓(𝑥, 𝜃), dar 𝜃 este un parametru necunoscut.
Prin parametru al unei populatii întelegem un număr ce descrie, într- un anumit sens, populatia.
Extragem o selecţie aleatoare (𝑋1 , 𝑋2 , . . . , 𝑋𝑛 ) din populaţie şi folosim datele din eşantion pentru a estima
parametrii necunoscuţi.
𝜃̂ = 𝑓(𝑋1 , 𝑋2 , . . . , 𝑋𝑛 ) se numeşte statistică sau estimator. O valoare numerică particulară:
𝜃̂ = 𝑓(𝑥1 , 𝑥2 , . . . , 𝑥𝑛 ) este o estimaţie a parametrului real 𝜃.
Menţionăm că 𝜃̂ poate fi tratat ca o v.a. deoarece este o funcţie de datele de selecţie.
Estimarea punctuală furnizează o singură valoare (estimaţie ) a lui 𝜃.
Estimatori punctuali se obţin prin MCMMP şi prin metoda verosimilităţii maxime.
Proprietăţi ale estimatorilor
𝜃̂ s.n. estimator nedeplasat pentru parametrul 𝜃 dacă 𝐸(𝜃̂) = 𝜃
𝜃̂ este estimator liniar al lui 𝜃 dacă este o funcţie liniară de datele de observaţie.
𝜃̂ este estimator eficient al lui 𝜃 dacă este estimator de varianţă minimă.
Notaţii:
Indicatorul Populaţia generală Eşantion
∑𝑁
𝑖=1 𝑋𝑖 ∑𝑛
𝑖=1 𝑥𝑖
Media 𝜇= 𝑥̄ =
𝑁 𝑛
2 ∑𝑁
𝑖=1(𝑋𝑖 −𝜇)
2
2 ∑𝑛
𝑖=1(𝑥𝑖 −𝑥̄ )
2
Varianţa (Dispersia) 𝜎 = 𝑁
𝑠 = 𝑛−1
Abaterea medie pătratică 𝜎 = √𝜎 2 𝑠 = √𝑠 2
(abaterea standard)
5
Media aritmetică 𝑋̄ este estimator nedeplasat pentru media populaţiei 𝜇.
Abaterea standard 𝑠 este estimator nedeplasat pentru abaterea standard a populaţiei, 𝜎.
•TESTAREA IPOTEZELOR
Se numeşte ipoteză statistică orice presupunere despre parametrii unei populaţii statistice sau despre
distribuţia de probabilitate a populaţiei statistice.
Considerăm o v.a. X, având o pdf cunoscută 𝑓(𝑥, 𝜃), unde 𝜃 este parametrul distribuţiei. Parametrul real
𝜃 este necunoscut. Având o selecţie aleatoare de volum n, obţinem estimatorul punctual 𝜃̂.
Întrebare: H0: 𝜃 = 𝜃0 ?
Ar putea eşantionul nostru să provină dintr-o distribuţie avînd 𝑓(𝑥, 𝜃 = 𝜃0 )?
Ipoteza nulă H0 este testată contra ipotezei alternative H1: 𝜃 ≠ 𝜃0
Ipoteză nulă (H0) = constă în faptul că admitem caracterul întâmplător al deosebirilor, adică presupunem
că nu există deosebiri esenţiale.
Ipoteză alternativă (H1) = este o teorie care contrazice ipoteza nulă. Ea va fi acceptată doar când există
suficiente dovezi pentru a se stabili că este adevărată.
Testul statistic este utilizat drept criteriu de acceptare sau de respingere a ipotezei nule
Regiunea critică, Rc = valorile numerice ale testului statistic pentru care ipoteza nulă va fi respinsă.
Rc este aleasă astfel încât probabilitatea ca ea să conţină testul statistic, când ipoteza nulă este adevărată
să fie α, cu α mic (α=0,05; α=0,01; α=0,10).
Dacă valoarea testului cade în regiunea critică Rc, respingem ipoteza H0, iar dacă este în afara regiunii
critice Rc, acceptăm ipoteza H0.
Regiunea critică este delimitată de o valoare critică (𝑧𝛼 ,𝑧𝛼/2,𝑡𝛼 ,𝑡𝛼/2 ).
În luarea deciziei de acceptare sau de respingere a ipotezei H0 se pot comite 2 tipuri de erori:
Eroarea de genul întâi = eroarea pe care o facem dacă respingem ipoteza nulă, deşi este adevărată.
Riscul de genul întâi (α) = probabilitatea comiterii unei erori de genul întâi; se numeşte nivel sau prag
de semnificaţie.
6
Eroarea de genul al doilea = eroarea pe care o facem dacă acceptăm ipoteza nulă, deşi este falsă.
𝛼 = 𝑃(resping H0 |𝐻0 = adev.) este risc de genul întâi (nivel de semnificaţie)
𝛽 = 𝑃(accept H0 |𝐻0 = falsă) este risc de genul al doilea
Ipoteza adevărată
Decizia de acceptare
H0 H1
Decizie corectă Eroare de gen II
H0
(probabilitate 1-𝜶) (risc β)
Eroare de gen I Decizie corectă
H1
(risc 𝜶) (probabilitate 1-β)
Testarea ipotezei privind media populaţiei (μ) pentru eşantioane de volum mare (𝒏 > 𝟑𝟎)
𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 > 𝜇0 𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0
Etapa 3) Nivelul de semnificaţie şi Regiunea critică (RC) sau de respingere (RR) a ipotezei H0.
(TUD) (TUS) (TB)
𝑅𝑐 : 𝑧𝑐𝑎𝑙𝑐 > 𝑧𝛼 𝑅𝑐 : 𝑧𝑐𝑎𝑙𝑐 < −𝑧𝛼 𝑅𝑐 : 𝑧𝑐𝑎𝑙𝑐 < −𝑧𝛼 𝑠𝑎𝑢 𝑧𝑐𝑎𝑙𝑐 > 𝑧𝛼/2
2
7
Etapa 4) Folosim datele din eşantion şi calculăm valoarea testului statistic:
𝑥̄ −𝜇 𝑥̄ −𝜇
𝑧𝑐𝑎𝑙𝑐 = 𝜎/ 𝑛0 sau 𝑧𝑐𝑎𝑙𝑐 = 𝑠/ 𝑛0
√ √
Etapa 5) Decizia: Dacă 𝑧𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1.
Testarea ipotezei privind media populaţiei (μ) pentru eşantioane de volum mic (𝑛 ≤ 30).
Se presupune că 𝑋~𝑁(𝜇, 𝜎 2 ) cu necunoscut.
Etapa 1) Stabilirea ipotezelor
Testul unilateral dreapta Testul unilateral stânga Testul bilateral
𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0 𝐻0 : 𝜇 = 𝜇0
𝐻1 : 𝜇 > 𝜇0 𝐻1 : 𝜇 < 𝜇0 𝐻1 : 𝜇 ≠ 𝜇0