Documente Academic
Documente Profesional
Documente Cultură
Seminar Statistica
Mai 2018
ii
”Statistica este arta de a minti prin intermediul cifrelor.”
Wilhelm Stekel
12
Notiuni de statistica
1
2.7 milioane de dolari. Ca urmare a acestui caz faimos multe restaurante servesc
acum cafeaua la o temperatura de aproximativ 155∘ 𝐹 . Cat de mult ar trebui
sa astepte restaurantele din momentul in care cafeaua este turnata in ceasca
din aparat si pana cand ea poate fi servita, pentru a se asigura ca nu este mai
fierbinte de 155∘ 𝐹 ?
∙ Determinati ecuatia unui model de regresie exponentiala pentru a reprezenta
datele
∙ Reprezentati grafic curba obtinuta
∙ Decideti daca ecuatia obtinuta este buna pentru a reprezenta datele exis-
tente in tabel
∙ Interpolare: Cand ajunge temperatura cafelei la 106∘ 𝐹 ?
∙ Extrapolare: Care este temperatura prezisa, de modelul gasit, peste o ora?
2
Notiuni teoretice:
Valoarea 𝑧 * , care reprezinta punctul de pe curba lui Gauss pentru care prob-
abilitatea de a observa o valoare mai mare ca 𝑧 * este egala cu 𝑝, este denumita
valoarea critica superioara a distributiei normale standard.
3
De exemplu, pentru 𝑝 = 0.025, valoarea 𝑧 * pentru care 𝑃 (𝑍 > 𝑧 * ) = 0.025,
sau 𝑃 (𝑍 < 𝑧*) = 0.975, este egala cu 1.96 conform tabelului cu scorurile Z citit
in sens invers.
∙ pentru un interval de incredere cu nivelul de incredere C, valoarea lui 𝑝
este (1 − 𝐶)/2.
Medie necunoscuta si deviatie standard cunoscuta
Teorema:
Pentru o populatie cu media 𝜇 necunoscuta si deviatie standard 𝜎 cunos-
cuta, un interval de incredere pentru media populatiei, construit pe baza unui
esantion de volum 𝑛, este:
𝜎 𝜎
𝑥 − 𝑧* √ , 𝑥
(¯ ¯ + 𝑧* √ )
𝑛 𝑛
1+𝐶
unde 𝑧 * este valoarea critica corespunzatoare lui pentru distributia nor-
2
mala standard, adica Φ(𝑧 * ) = 1+𝐶
2 .
Medie necunoscuta si deviatie standard necunoscuta
∙ cand deviatia standard 𝜎 este necunoscuta este estimata de obicei prin 𝑠
numita eroarea standard /deviatia standard de selectie , unde:
𝑛
¯)2
∑︀
(𝑥𝑖 − 𝑥
2 𝑖=1
𝑠 =
𝑛−1
si 𝑛 este volumul selectiei.
Teorema:
Pentru o populatie cu media necunoscuta 𝜇 si deviatia standard 𝜎 ne-
cunoscuta, un inteval de incredere pentru media populatiei, construit pe baza
unui esantion de volum 𝑛, este:
𝑠 𝑠
𝑥 − 𝑡* √ , 𝑥
(¯ ¯ + 𝑡* √ )
𝑛 𝑛
1−𝐶
unde 𝑡* este valoarea critica corespunzatoare lui pentru distributia 𝑡-
2
Student cu n-1 grade de libertate.
∙ Pasul final consta in interpretarea rezultatului: pe baza datelor avute
suntem 𝐶% siguri ca adevarata medie a populatiei se afla intre valorile date de
intervalul gasit
De retinut
∙ valorile critice 𝑧 * si 𝑡* se pot gasi in tabelul urmator z-t-table
∙ distributia 𝑡 sau distributia Student este data de catre urmatoarea
densitate de probabilitate:
)︂− 𝑛+1
Γ( 𝑛+1 ) 𝑡2
(︂ 2
𝑓 (𝑡) = √ 2 𝑛 1+
𝑛𝜋Γ( 2 ) 𝑛
unde 𝑛 este numarul de grade de libertate si Γ este functia lui Euler.
4
Exemplu:
Presupunem ca un student care masoara temperatura de fierbere a unui
anumit lichid observa urmatoarele valori (exprimate in grade Celsius)
102.5, 101.7, 103.1, 100.9, 100.5, si 102.2 pentru 6 esantioane diferite de
lichid. Pe baza acestor dare el calculeaza media 𝑥 ¯ a esantionului ca fiind
101.82. Daca stie ca deviatia standard a acestei proceduri este 1.2 grade,
care este intervalul de incredere pentru media populatiei la un nivel de
incredere de 95% ?
Cu alte cuvinte, studentul doreste sa estimeze adevarata valoare medie
a temperaturii de fierbere a lichiduluui folosind rezultatele masuratorilor
lui. Daca masuratorile urmeaza o distributie normala atunci esantionul
𝜎2
ca avea o distributie 𝑁 (𝜇, ). Deoarece volumul esantionului este 6,
𝑛
1.2
deviatia standard a mediei esantionului este egala cu √ 6
= 0.49.
*
Valoarea critica 𝑧 pentru un nivel de increder de 95% este 1.96, unde
(1 − 𝐶)/2 = (1 − 0.95)/2 = 0.025. Astfel un interval de incredere pentru
media 𝑥 ¯ la un nivel de incredere 95% este:
Remarca:
Pe masura ce nivelul de incredere descreste, lungimea intervalului
descreste. Sa presupunem ca studentul era interesat de obtinerea
unui nivel de incredere de 90% pentru intervalul de incredere a tem-
peraturii de fierbere. In acest caz, 𝐶 = 0.90, si (1 − 𝐶)/2 = 0.05.
Valoarea critica 𝑧 * pentru acest nivel este 1.645, deci un astfel de
interval ca fi:
5
Testarea ipotezelor statistice
Two-tailed test:
𝐻0 : 𝜇 = 𝜇0
𝐻𝑎 : 𝜇 ̸= 𝜇0
⇒ regiunea critica/ regiunea de respingere, cand respingem 𝐻0 , este data
de:
𝑧𝑐𝑎𝑙𝑐 < −𝑧 *𝛼2 sau 𝑧𝑐𝑎𝑙𝑐 > 𝑧 *𝛼2 𝑡𝑐𝑎𝑙𝑐 < −𝑡*𝛼2 ,𝑛−1 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡*𝛼2 ,𝑛−1
Upper-tailed test:
𝐻0 : 𝜇 = 𝜇0
𝐻𝑎 : 𝜇 > 𝜇0
⇒ regiunea critica/ regiunea de respingere, cand respingem 𝐻0 , este data
de:
6
𝑧𝑐𝑎𝑙𝑐 > 𝑧𝛼* 𝑡𝑐𝑎𝑙𝑐 > 𝑡*𝛼,𝑛−1
Lower-tailed test:
𝐻0 : 𝜇 = 𝜇0
𝐻𝑎 : 𝜇 < 𝜇0
⇒ regiunea critica/ regiunea de respingere, cand respingem 𝐻0 , este data
de:
7
3. realizam un sistem de ecuatii pornind de la presupunerea ca momentele
populatiei 𝜇𝑘 sunt egale cu cele ale esantionului 𝑚𝑘 , si exprimam din
aceste ecuatii parametrul ca functii de momentele exantionului 𝑚𝑘 .
Exemplu:
Fie 𝑋1 , 𝑋2 , . . . 𝑋𝑛 un esantion dintr-o populatie care are o distributie bi-
nomiala 𝑋 ∼ 𝐵𝑖(𝑛0 , 𝑝) cu parametrii 𝑛0 si 𝑝. Estimati acesti parametri
folosind metoda momentelor.
Solutie: Deoarece
si:
𝑀2 (𝑋) = 𝑀 (𝑋 2 ) = 𝐷2 (𝑋) + 𝑀 (𝑋)2 = 𝑛0 𝑝(1 − 𝑝) + 𝑛20 𝑝2 ,
putem scrie 𝑛0 𝑝(1 − 𝑝) = 𝑀2 (𝑋) − 𝑀 (𝑋 2 ).
Egaland: (︂ )︂
𝑋1 + 𝑋2 + . . . + 𝑋𝑛
𝑀 (𝑋) = 𝑚1 =
𝑛
si
𝑋 2 + 𝑋22 + . . . + 𝑋𝑛2
(︂ )︂
𝑀2 (𝑋) = 𝑚2 = 1
𝑛
se poate observa ca:
𝑚2 − 𝑚21
1−𝑝=
𝑚1
astfel:
𝑚1 + 𝑚21 − 𝑚2
𝑝=
𝑚1
poate fi folosit ca un estimator pentru parametrul 𝑝.
In acelasi context:
𝑚1 𝑚21
𝑛0 = = .
𝑝 𝑚1 + 𝑚21 − 𝑚2
8
Analiza regresiva prin metoda celor mai mici patrate
Se pune problema gasirii unei curbe care sa aproximeze cat mai bine datele
obitnute experimental (norul de puncte)
∙ aceasta aproximare se face de obicei impunand conditia ca suma patratelor
distantelor de la puncte la curba sa fie minima (metoda celor mai mici patrate)
Regresia liniara
9
∑︀𝑛 ∑︀𝑛
𝑥𝑖 𝑖=1 𝑦𝑖
{︃
𝑎+𝑏· 𝑖=1
𝑛 =
∑︀𝑛 ∑︀𝑛 𝑛 2 ∑︀𝑛
𝑥𝑖 𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖 𝑦𝑖
𝑎· 𝑖=1
𝑛 +𝑏· 𝑛 = 𝑛
Regresia hiperabolica
∙ estimam norul de puncte printr-o hiperbola 𝑦 = 𝑓 (𝑥) = 𝑎 + 𝑥𝑏
∙ impunand conditia data de metoda celor mai mici patrate se obtine sis-
temul:
{︃ ∑︀ 1 ∑︀
𝑎·𝑛+𝑏· 𝑥 = 𝑦
∑︀ 1 ∑︀ 1
∑︀ 𝑦
𝑎· 𝑥 + 𝑏 · 𝑥2 = 𝑥
Regresia exponentiala
∙ estimam norul de puncte printr curba 𝑦 = 𝑓 (𝑥) = 𝑎 · 𝑏𝑥
∙ se logaritmeaza relatia si obtinem:
ln 𝑦 = ln 𝑎 + ln 𝑏 · 𝑥
care are forma unui model de regresie liniara pentru datele (𝑥𝑖 , ln 𝑦𝑖 ), 𝑖 = 1, 𝑛
deci 𝑎 si 𝑏 se determina din:
∑︀ ∑︀ ∑︀
𝑛 𝑥 ln 𝑦 − 𝑥 · ln 𝑦
ln 𝑏 = ∑︀ 2 ∑︀
𝑛 𝑥 − ( 𝑥)2
10
Probleme rezolvate
𝑥 9+1 = 𝑥5 = 11 ⇒ 𝑚𝑒 = 𝑄2 = 11.
2
Mai departe pentru a determina prima cuartilă ţinem cont de seria statistică
simplă
1, 2, 5, 7, 11
care are tot un număr impar de termeni şi obţinem
𝑥 5+1 = 𝑥3 = 5 ⇒ 𝑄1 = 5.
2
𝑥 5+1 = 𝑥3 = 22 ⇒ 𝑄3 = 22.
2
𝑄 = 𝑄3 − 𝑄1 = 22 − 5 = 17.
𝑋 : 1, 5, 4, 20, 3, 16.
Determinaţi:
a) amplitudinea absolută 𝐴.
b) abaterea medie pătratică 𝑎¯ (𝑋).
c) dispersia 𝜎 2 (𝑋).
d) deviatia standard 𝜎 (𝑋).
e) coeficientul de variaţie 𝑐𝑣(𝑋).
11
b) Abaterea medie pătratică 𝑎
¯ (𝑋) se obţine astfel
|1 − 𝑥| + |5 − 𝑥| + |4 − 𝑥| + |20 − 𝑥| + |3 − 𝑥| + |16 − 𝑥|
𝑎 (𝑋) = ,
6
unde media 𝑥 este
1 + 5 + 4 + 20 + 3 + 16
𝑥= = 8, 16.
6
Atunci rezultă
¯ (𝑋) ≃ 6, 55.
𝑎
c) Dispersia este
6
1 ∑︁ 2
𝜎 2 (𝑋) = (𝑥𝑖 − 𝑥) =
6 𝑖=1
1 (︀
7, 162 + 3, 162 + 4, 162 + 11, 842 + 5, 162 + 7, 842
)︀
=
6
= 51, 138 ≃ 51.
𝜎 (𝑋)
𝑐𝑣(𝑋) = · 100 = 85, 78.
𝑥
12
determinarea regiunii critice. Regiunea critică este egală cu mulţimea valorilor
scorului standard 𝑧 care determină respingerea ipotezei nule şi este situată la
extremitatea dreaptă a distribuţiei normale. Regiunea critică este la dreapta
deoarece valori mari ale mediei eşantionului susţin ipoteza alternativă ı̂n timp
ce valori apropiate valorii 72 susţin ipoteza nulă.
Valoarea critică ce desparte zona valorilor ”nu este superior” de zona valorilor
”este superior” este determinată de probabilitatea 𝛼 = 0, 05 de a comite o eroare
de tip 𝐼 (eroarea de tip 𝐼 apare când ipoteza nulă este adevărată şi tot ea este
respinsă).
Etapa 4: Determinarea valorii testului statistic
Valoarea testului statistic este dată de formula
𝑥−𝜇 75, 2 − 72
𝑧𝑐𝑎𝑙𝑐 = 𝜎 = = 1, 6.
√ 12
√
𝑛 36
Etapa 5: Luarea unei decizii şi interpretarea ei
Dacă comparăm valoarea găsită cu valoarea critică observăm că:
1, 6 < 1, 65
13
Probleme propuse
𝑋 : 1, 5, 7, 8, 10,
𝑌 : 1, 6, 100, 135
determinaţi mediana ı̂n ambele cazuri.
𝑋 : 4, 1, 1, 5, 6, 3, 2, 1,
(+5, 5000∘ 𝐾), (+10, 3000∘ 𝐾), (0, 10000∘ 𝐾), (−5, 25000∘ 𝐾), (+6, 7500∘ 𝐾)
14
Problema 4. Directorul de operatiuni al unei uzine ar dori sa estimeze timpul
mediu de care are nevoie un muncitor pentru a asambla o noua componenta
electronica. Presupunem ca deviatia standard a timpului de asamblare este de
3.6 minute.
a) Dupa cronometrarea a 120 de muncitori, managerul observa ca timpul lor
mediu de asamblare a componentei este de 16.2 minute. Construiti un interval
de incredre cu un nivel de incredere de 95% pentru timpul mediu de asamblare
a componentei.
b) Cati muncitori ar trebui sa fie implicati in studiul managerului pentru a
obtine timpul mediu real de asamblare cu o eroare de ±15 seconde si un nivel
de incredere de 95% ?
21 18 19 16 18 24 22 19 24 14 18 15
49 50 45 51 47 49 48 54 53 55 45 50 48
15
Problema 10. 𝑋1 , 𝑋2 , . . . 𝑋𝑛 reprezinta o selectie dintr-o populatie 𝑋 cu o
distributie Poisson, adica cu densitatea de repartitie:
{︃ 𝑘
𝑒−𝜆 𝜆𝑘! , if 𝑘 = 0, 1, . . .
𝑃 (𝑋 = 𝑘) =
0, otherwise
16