Sunteți pe pagina 1din 18

Matematici speciale

Seminar Statistica

Mai 2018
ii
”Statistica este arta de a minti prin intermediul cifrelor.”
Wilhelm Stekel

12
Notiuni de statistica

Datele din dreapta arata tempera-


turile de racire ale unei cesti de cafea,
care tocmai a fost preparata. Temper-
atura la care ajunge aparatul de cafea
este 180 de grade Fahrenheit (aproxi-
mativ 82∘ 𝐶).

In anul 1992 o femeie a dat in judecata McDonald’s pentru ca au servit


cafeaua la temperatura 180∘ 𝐹 si aceasta i-a cauzat arsuri serioase in momentul
in care a incercat sa o bea (vezi Liebeck vs. McDonald’s ). Un expert adus din
partea acuzarii a sustinut la proces ca lichidele care se afla la aceasta temper-
atura pot cauza distrugerea totala a pielii umane in doua pana la sapte secunde.
S-a stabilit ca daca ar fi fost servita la 155∘ 𝐹 (68∘ 𝐶) s-ar fi racit la timp si ar
fi fost evitat tot incidentul. Femeia a primit in prima instanta o despagubire de

1
2.7 milioane de dolari. Ca urmare a acestui caz faimos multe restaurante servesc
acum cafeaua la o temperatura de aproximativ 155∘ 𝐹 . Cat de mult ar trebui
sa astepte restaurantele din momentul in care cafeaua este turnata in ceasca
din aparat si pana cand ea poate fi servita, pentru a se asigura ca nu este mai
fierbinte de 155∘ 𝐹 ?
∙ Determinati ecuatia unui model de regresie exponentiala pentru a reprezenta
datele
∙ Reprezentati grafic curba obtinuta
∙ Decideti daca ecuatia obtinuta este buna pentru a reprezenta datele exis-
tente in tabel
∙ Interpolare: Cand ajunge temperatura cafelei la 106∘ 𝐹 ?
∙ Extrapolare: Care este temperatura prezisa, de modelul gasit, peste o ora?

2
Notiuni teoretice:

∙ Statistica descriptiva: populatie statistica, esantion statistic, serie sta-


tistica, frecventa abosluta, frecventa relativa, histograma, media 𝑥 ¯, mediana
𝑚3 , amplitudinea 𝐴, dispersia 𝜎 2 , deviatia standard 𝜎, moda (modulul) 𝑚𝑜 ,
dispersia de selectie 𝑠2 , deviatia standard de selectie 𝑠, cuartilele 𝑄1 , 𝑄2 , 𝑄3 ,
indicatorul de asimetrie 𝑠𝑘 (skewness), indicatorul de aplatizare 𝑘 (kurtosis)
Intervale de incredere

∙ intervalele de incredere sunt folosite cand vrem sa estimam un parametru al


unei populatii folosind un esantion. Parametrul poate fi estimat printr-o singura
valoare (estimare punctuala) dar de obicei e preferabil sa fie estimat printr-un
interval care va da unele indicii asupra gradului de incertitudine al estimarii.
∙ notatia obisnuita pentru acest parametru este 𝜃. Deseori, acest parametru
este media populatiei 𝜇, care este estimata prin media esantionului 𝑥 ¯.
∙ nivelul de incredere C al unui interval de incredere reprezinta probabilitatea
ca intervalul construit sa contina valoarea adevarata a parametrului.
∙ acest nivel de incredere este ales a priori si valorile cele mai utilizate sunt
0.90, 0.95, sau 0.99. Aceste nivele corespund procentajelor din aria curbei lui
Gauss, data de densitatea de probabilitate a unei variabile aleatoare normal
standard distribuita.
∙ de exemplu, un interval de incredere cu un nivel de incredere 𝐶 = 95%
acopera 95% din curba lui Gauss. Probabilitatea ca valoarea reala sa fie in afara
acestui interval este mai mica de 0.05. Pentru ca aceasta curba este simetrica
jumatate de arie se afla in partea din stanga a curbei si cealalta jumatate in
partea dreapta.
∙ dupa cum arata diagrama de mai jos, pentru un interval de incredere cu
nivelul C, aria din fiecare extremitate a curbei este 1−𝐶 2 . Pentru un nivel de
incredere 95%, aria din fiecare extremitate este 0.05/2 = 0.025.

Valoarea 𝑧 * , care reprezinta punctul de pe curba lui Gauss pentru care prob-
abilitatea de a observa o valoare mai mare ca 𝑧 * este egala cu 𝑝, este denumita
valoarea critica superioara a distributiei normale standard.

3
De exemplu, pentru 𝑝 = 0.025, valoarea 𝑧 * pentru care 𝑃 (𝑍 > 𝑧 * ) = 0.025,
sau 𝑃 (𝑍 < 𝑧*) = 0.975, este egala cu 1.96 conform tabelului cu scorurile Z citit
in sens invers.
∙ pentru un interval de incredere cu nivelul de incredere C, valoarea lui 𝑝
este (1 − 𝐶)/2.
Medie necunoscuta si deviatie standard cunoscuta
Teorema:
Pentru o populatie cu media 𝜇 necunoscuta si deviatie standard 𝜎 cunos-
cuta, un interval de incredere pentru media populatiei, construit pe baza unui
esantion de volum 𝑛, este:
𝜎 𝜎
𝑥 − 𝑧* √ , 𝑥
(¯ ¯ + 𝑧* √ )
𝑛 𝑛
1+𝐶
unde 𝑧 * este valoarea critica corespunzatoare lui pentru distributia nor-
2
mala standard, adica Φ(𝑧 * ) = 1+𝐶
2 .
Medie necunoscuta si deviatie standard necunoscuta
∙ cand deviatia standard 𝜎 este necunoscuta este estimata de obicei prin 𝑠
numita eroarea standard /deviatia standard de selectie , unde:
𝑛
¯)2
∑︀
(𝑥𝑖 − 𝑥
2 𝑖=1
𝑠 =
𝑛−1
si 𝑛 este volumul selectiei.
Teorema:
Pentru o populatie cu media necunoscuta 𝜇 si deviatia standard 𝜎 ne-
cunoscuta, un inteval de incredere pentru media populatiei, construit pe baza
unui esantion de volum 𝑛, este:
𝑠 𝑠
𝑥 − 𝑡* √ , 𝑥
(¯ ¯ + 𝑡* √ )
𝑛 𝑛
1−𝐶
unde 𝑡* este valoarea critica corespunzatoare lui pentru distributia 𝑡-
2
Student cu n-1 grade de libertate.
∙ Pasul final consta in interpretarea rezultatului: pe baza datelor avute
suntem 𝐶% siguri ca adevarata medie a populatiei se afla intre valorile date de
intervalul gasit

De retinut
∙ valorile critice 𝑧 * si 𝑡* se pot gasi in tabelul urmator z-t-table
∙ distributia 𝑡 sau distributia Student este data de catre urmatoarea
densitate de probabilitate:
)︂− 𝑛+1
Γ( 𝑛+1 ) 𝑡2
(︂ 2

𝑓 (𝑡) = √ 2 𝑛 1+
𝑛𝜋Γ( 2 ) 𝑛
unde 𝑛 este numarul de grade de libertate si Γ este functia lui Euler.

4
Exemplu:
Presupunem ca un student care masoara temperatura de fierbere a unui
anumit lichid observa urmatoarele valori (exprimate in grade Celsius)
102.5, 101.7, 103.1, 100.9, 100.5, si 102.2 pentru 6 esantioane diferite de
lichid. Pe baza acestor dare el calculeaza media 𝑥 ¯ a esantionului ca fiind
101.82. Daca stie ca deviatia standard a acestei proceduri este 1.2 grade,
care este intervalul de incredere pentru media populatiei la un nivel de
incredere de 95% ?
Cu alte cuvinte, studentul doreste sa estimeze adevarata valoare medie
a temperaturii de fierbere a lichiduluui folosind rezultatele masuratorilor
lui. Daca masuratorile urmeaza o distributie normala atunci esantionul
𝜎2
ca avea o distributie 𝑁 (𝜇, ). Deoarece volumul esantionului este 6,
𝑛
1.2
deviatia standard a mediei esantionului este egala cu √ 6
= 0.49.
*
Valoarea critica 𝑧 pentru un nivel de increder de 95% este 1.96, unde
(1 − 𝐶)/2 = (1 − 0.95)/2 = 0.025. Astfel un interval de incredere pentru
media 𝑥 ¯ la un nivel de incredere 95% este:

(101.82 − 1.96 · 0.49, 101.82 + 1.96 · 0.49) = (100.86, 102.78)

Remarca:
Pe masura ce nivelul de incredere descreste, lungimea intervalului
descreste. Sa presupunem ca studentul era interesat de obtinerea
unui nivel de incredere de 90% pentru intervalul de incredere a tem-
peraturii de fierbere. In acest caz, 𝐶 = 0.90, si (1 − 𝐶)/2 = 0.05.
Valoarea critica 𝑧 * pentru acest nivel este 1.645, deci un astfel de
interval ca fi:

(101.82 − 1.645 · 0.49, 101.82 + 1.645 · 0.49) = (101.01, 102.63)

O crestere a volumului esantionului va determina o descrestere a


lungimii intervalului de incredere atunci cand pastram nivelul de in-
credere cosntant. Marja de eroare 𝑒 a unui interval de incredere este
definita ca fiind valoarea adunata sau scazuta la media esantionului,
care determina lungimea intervalului: 𝑒 = 𝑧 * √𝜎𝑛 .

Sa presupunem ca in exemplul de mai sus studentul doreste sa aibe o


marja de eroare egala cu 0.5 grade la un nivel de incredere de 95%. Facand
calculele necesare se obtine 𝑛 = (1.96 · 1.2/0.5)2 = 22.09. Asadar, pentru
a obtine un interval de incredere de 95%, pentru temperatura medie de
fierbere, cu lungimea de 1 grad, studentul ca avea de facut 23 masuratori.


5
Testarea ipotezelor statistice

In procesul decizional managerii emit ipoteze care apoi pot fi testate cu


intrumentele statisticii matematice. Un test statistic examineaza doua ipoteze
opuse legate de o populatie statistica: ipoteza nula si ipoteza alternativa. Felul
in care sunt construite depinde de ceea ce se incearca a se arata.
Ipoteza nula 𝐻0
∙ ipoteza nula afirma ca un parametru al unei populatii statistice este egal cu
o valoare fixa. Ipoteza nula este de obicei o afirmatie facuta de catre manageri
pornind de la cercetarile si cunostintele anterioare.
Ipoteza alternativa 𝐻𝑎
∙ ipoteza alternativa afirma ca parametrul populatiei este diferit de cel pre-
supus in ipoteza nula. Ipoteza alternativa este ceea ce s-ar putea sa crezi ca e
adevarat sau speri sa se dovedeasca a fi adevarat.
Cele mai comune ipoteze sunt referitoare la media unei populatii statistice
Testarea unor astfel de ipoteze, a determina daca media 𝜇 a unei populatii
este egala cu o anumita valoare tinta 𝜇0 , presupune urmatorii pasi:

⇒ pentru un volum mare 𝑛 al esan- ⇒ pentru volumul 𝑛 < 30 al esan-


tionului sau 𝜎 cunoscuta tionului si 𝜎 necunoscuta
· folosim testul z si calculam: · folosim testul Student 𝑡 si calcu-
lam:
¯ − 𝜇0
𝑥 ¯ − 𝜇0
𝑥
𝑧𝑐𝑎𝑙𝑐 = 𝜎 𝑡𝑐𝑎𝑙𝑐 = 𝑠
√ √
𝑛 𝑛

Two-tailed test:

𝐻0 : 𝜇 = 𝜇0

𝐻𝑎 : 𝜇 ̸= 𝜇0
⇒ regiunea critica/ regiunea de respingere, cand respingem 𝐻0 , este data
de:

𝑧𝑐𝑎𝑙𝑐 < −𝑧 *𝛼2 sau 𝑧𝑐𝑎𝑙𝑐 > 𝑧 *𝛼2 𝑡𝑐𝑎𝑙𝑐 < −𝑡*𝛼2 ,𝑛−1 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡*𝛼2 ,𝑛−1

Upper-tailed test:

𝐻0 : 𝜇 = 𝜇0

𝐻𝑎 : 𝜇 > 𝜇0
⇒ regiunea critica/ regiunea de respingere, cand respingem 𝐻0 , este data
de:

6
𝑧𝑐𝑎𝑙𝑐 > 𝑧𝛼* 𝑡𝑐𝑎𝑙𝑐 > 𝑡*𝛼,𝑛−1

Lower-tailed test:

𝐻0 : 𝜇 = 𝜇0

𝐻𝑎 : 𝜇 < 𝜇0
⇒ regiunea critica/ regiunea de respingere, cand respingem 𝐻0 , este data
de:

𝑧𝑐𝑎𝑙𝑐 < −𝑧𝛼* 𝑡𝑐𝑎𝑙𝑐 < −𝑡*𝛼,𝑛−1

⇒ in toate aceste exemple 𝛼 este nivelul de semnificatie corespunzator unui


nivel de incredere 𝐶 = 1 − 𝛼
⇒ valorile critice 𝑧 * si 𝑡* pentru diferite intervale de incredere sunt afisate
in z-t-table

Estimarea parametrilor prin metoda momentelor

Metoda momentelor este o metoda de estimare a parametrilor unei populatii


statistice. Metoda este bazata pe presupunerea ca momentele esantionului sunt
estimatori buni pentru momentele corespunzatoare ale populatiei.
∙ pentru o populatie 𝑋 momentele 𝜇𝑘 de ordin 𝑘 (sau 𝑀𝑘 ) sunt definite ca:
⎧ ∫︁∞

𝑥𝑘 𝑓 (𝑥)𝑑𝑥, daca 𝑋 este continua






−∞
𝜇𝑘 = 𝑀 (𝑋 𝑘 ) =


⎪ ∑︁
𝑥𝑘𝑖 𝑝𝑖 , daca 𝑋 este discreta




𝑖∈𝐼

∙ momentele de ordin 𝑘 ale esantionului, notate 𝑚𝑘 , pentru un esantion de


volum 𝑛 sunt:
𝑛
1 ∑︁ 𝑘
𝑚𝑘 = 𝑋
𝑛 𝑖=1 𝑖
Estimarea prin metoda momentelor pur si simplu presupune egale cele doua
tipuri de momente 𝜇𝑘 = 𝑚𝑘 si urmareste apoi aflarea parametrilor lispa.(distributia
trebuie sa aiba momente finite)
Metoda momentelor:

1. vrem sa estimam un parametru 𝜃


2. calculam momente de ordin mic 𝜇𝑘 ca functii de 𝜃

7
3. realizam un sistem de ecuatii pornind de la presupunerea ca momentele
populatiei 𝜇𝑘 sunt egale cu cele ale esantionului 𝑚𝑘 , si exprimam din
aceste ecuatii parametrul ca functii de momentele exantionului 𝑚𝑘 .

Exemplu:
Fie 𝑋1 , 𝑋2 , . . . 𝑋𝑛 un esantion dintr-o populatie care are o distributie bi-
nomiala 𝑋 ∼ 𝐵𝑖(𝑛0 , 𝑝) cu parametrii 𝑛0 si 𝑝. Estimati acesti parametri
folosind metoda momentelor.
Solutie: Deoarece

𝑀 (𝑋) = 𝑛0 · 𝑝 (vezi fisa variabile aleatoare discrete)

si:
𝑀2 (𝑋) = 𝑀 (𝑋 2 ) = 𝐷2 (𝑋) + 𝑀 (𝑋)2 = 𝑛0 𝑝(1 − 𝑝) + 𝑛20 𝑝2 ,
putem scrie 𝑛0 𝑝(1 − 𝑝) = 𝑀2 (𝑋) − 𝑀 (𝑋 2 ).
Egaland: (︂ )︂
𝑋1 + 𝑋2 + . . . + 𝑋𝑛
𝑀 (𝑋) = 𝑚1 =
𝑛
si
𝑋 2 + 𝑋22 + . . . + 𝑋𝑛2
(︂ )︂
𝑀2 (𝑋) = 𝑚2 = 1
𝑛
se poate observa ca:
𝑚2 − 𝑚21
1−𝑝=
𝑚1
astfel:
𝑚1 + 𝑚21 − 𝑚2
𝑝=
𝑚1
poate fi folosit ca un estimator pentru parametrul 𝑝.
In acelasi context:

𝑚1 𝑚21
𝑛0 = = .
𝑝 𝑚1 + 𝑚21 − 𝑚2


8
Analiza regresiva prin metoda celor mai mici patrate

∙ in sectiunile anterioare am considerat experimente pentru care am observat


o singura cantitate (variabila) aleatoare, iar esantioanele respective au constat
din date reprezentate de numere reale 𝑥1 , 𝑥2 , . . . , 𝑥𝑛
∙ in aceasta sectiune vom considera experimente ı̂n care suntem interesati de
doua cantitati (variabile) aleatoare, deci esantioanele respective vor fi reprezen-
tate de perechi de numere reale (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), . . . , (𝑥𝑛 , 𝑦𝑛 )
∙ in analiza regresiva una din cele doua variabile (spre exemplu 𝑋) este
privita ca o variabila ce poate fi masurata (determinata) cu precizie, numita
variabila independenta si suntem interesati de modul cum cealalta variabila
𝑌 (numita variabila dependenta) depinde de aceasta: spre exemplu suntem
interesati de modul de aportul de crestere 𝑌 al animalelor ı̂n functie de cantitatea
zilnica de hrana 𝑋.
∙ in general, intr-un anumit experiment alegem valorile 𝑥1 , 𝑥2 , . . . , 𝑥𝑛 apoi
observam valorile 𝑦1 , 𝑦2 , . . . , 𝑦𝑛 ale unei variabile aleatoare 𝑌 , obtinand astfel
un esantion (𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), . . . , (𝑥𝑛 , 𝑦𝑛 )

Se pune problema gasirii unei curbe care sa aproximeze cat mai bine datele
obitnute experimental (norul de puncte)
∙ aceasta aproximare se face de obicei impunand conditia ca suma patratelor
distantelor de la puncte la curba sa fie minima (metoda celor mai mici patrate)

Regresia liniara

∙ estimam norul de puncte printr-o dreapta 𝑦 = 𝑓 (𝑥) = 𝑎 + 𝑏𝑥


∙ impunand conditia data de metoda celor mai mici patrate se obtine sis-
temul:

9
∑︀𝑛 ∑︀𝑛
𝑥𝑖 𝑖=1 𝑦𝑖
{︃
𝑎+𝑏· 𝑖=1
𝑛 =
∑︀𝑛 ∑︀𝑛 𝑛 2 ∑︀𝑛
𝑥𝑖 𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖 𝑦𝑖
𝑎· 𝑖=1
𝑛 +𝑏· 𝑛 = 𝑛

care are solutia: ∑︀ ∑︀ ∑︀


𝑛 𝑥𝑦 − 𝑥 · 𝑦
𝑏= ∑︀ 2 ∑︀
𝑛 𝑥 − ( 𝑥)2
si: ∑︀𝑛 ∑︀𝑛
𝑦𝑖 𝑥𝑖
𝑎= 𝑖=1
−𝑏 𝑖=1
= 𝑌¯ − 𝑏𝑋.
¯
𝑛 𝑛
Regresia parabolica
∙ estimam norul de puncte printr-o parabola 𝑦 = 𝑓 (𝑥) = 𝑎 + 𝑏𝑥 + 𝑐𝑥2
∙ impunand conditia data de metoda celor mai mici patrate se obtine sis-
temul:

+ 𝑏 · 𝑥 + 𝑐 · 𝑥2 =
∑︀ ∑︀ ∑︀
⎨𝑎 · 𝑛

∑︀ ∑︀ 2 ∑︀ 3 ∑︀
𝑦
𝑎· 𝑥+𝑏· 𝑥 +𝑐· 𝑥 = 𝑥𝑦

⎩ ∑︀ 2
𝑎 · 𝑥 + 𝑏 · 𝑥3 + 𝑐 · 𝑥4 = 𝑥2 𝑦
∑︀ ∑︀ ∑︀

Regresia hiperabolica
∙ estimam norul de puncte printr-o hiperbola 𝑦 = 𝑓 (𝑥) = 𝑎 + 𝑥𝑏
∙ impunand conditia data de metoda celor mai mici patrate se obtine sis-
temul:
{︃ ∑︀ 1 ∑︀
𝑎·𝑛+𝑏· 𝑥 = 𝑦
∑︀ 1 ∑︀ 1
∑︀ 𝑦
𝑎· 𝑥 + 𝑏 · 𝑥2 = 𝑥

Regresia exponentiala
∙ estimam norul de puncte printr curba 𝑦 = 𝑓 (𝑥) = 𝑎 · 𝑏𝑥
∙ se logaritmeaza relatia si obtinem:

ln 𝑦 = ln 𝑎 + ln 𝑏 · 𝑥

care are forma unui model de regresie liniara pentru datele (𝑥𝑖 , ln 𝑦𝑖 ), 𝑖 = 1, 𝑛
deci 𝑎 si 𝑏 se determina din:
∑︀ ∑︀ ∑︀
𝑛 𝑥 ln 𝑦 − 𝑥 · ln 𝑦
ln 𝑏 = ∑︀ 2 ∑︀
𝑛 𝑥 − ( 𝑥)2

si: ∑︀𝑛 ∑︀𝑛


𝑖=1 ln 𝑦𝑖 𝑖=1 𝑥𝑖
ln 𝑎 = − ln 𝑏 · .
𝑛 𝑛
prin intermediul formulelor 𝑎 = 𝑒ln 𝑎 si 𝑏 = 𝑒ln 𝑏

10
Probleme rezolvate

Problema 1. Calculaţi cuartilele 𝑄1 , 𝑄2 , 𝑄3 pentru următoarea serie


statistica simplă

𝑋 : 1, 2, 5, 7, 11, 21, 22, 23, 29

şi abaterea cuartilică.

Solutie: Facem mai ı̂ntâi observaţia că mediana 𝑚𝑒 coincide cu cuartila 𝑄2 .


Deoarece seria statistică dată are un număr impar de termeni (9 mai exact),
vom folosi formula corespunzătoare pentru a determina cuartila 𝑄2 şi avem

𝑥 9+1 = 𝑥5 = 11 ⇒ 𝑚𝑒 = 𝑄2 = 11.
2

Mai departe pentru a determina prima cuartilă ţinem cont de seria statistică
simplă
1, 2, 5, 7, 11
care are tot un număr impar de termeni şi obţinem

𝑥 5+1 = 𝑥3 = 5 ⇒ 𝑄1 = 5.
2

Analog procedăm pentru a treia cuartilă ţinând cont de seria statistică


simplă
11, 21, 22, 23, 29
care are tot un număr impar de termeni şi rezultă

𝑥 5+1 = 𝑥3 = 22 ⇒ 𝑄3 = 22.
2

Atunci rezultă că abaterea cuartilică este

𝑄 = 𝑄3 − 𝑄1 = 22 − 5 = 17.

Problema 2. Fie seria statistică

𝑋 : 1, 5, 4, 20, 3, 16.

Determinaţi:
a) amplitudinea absolută 𝐴.
b) abaterea medie pătratică 𝑎¯ (𝑋).
c) dispersia 𝜎 2 (𝑋).
d) deviatia standard 𝜎 (𝑋).
e) coeficientul de variaţie 𝑐𝑣(𝑋).

Solutie: a) Amplitudinea absolută 𝐴 este

𝐴 = 𝑋max − 𝑋min = 20 − 1 = 19.

11
b) Abaterea medie pătratică 𝑎
¯ (𝑋) se obţine astfel

|1 − 𝑥| + |5 − 𝑥| + |4 − 𝑥| + |20 − 𝑥| + |3 − 𝑥| + |16 − 𝑥|
𝑎 (𝑋) = ,
6
unde media 𝑥 este
1 + 5 + 4 + 20 + 3 + 16
𝑥= = 8, 16.
6
Atunci rezultă
¯ (𝑋) ≃ 6, 55.
𝑎
c) Dispersia este
6
1 ∑︁ 2
𝜎 2 (𝑋) = (𝑥𝑖 − 𝑥) =
6 𝑖=1
1 (︀
7, 162 + 3, 162 + 4, 162 + 11, 842 + 5, 162 + 7, 842
)︀
=
6
= 51, 138 ≃ 51.

d) deviatia standard rezultă imediat de mai sus


√︀ √
𝜎 (𝑋) = 𝜎 2 (𝑋) = 51 = 7, 14 ≃ 7.

e) Din cele de mai sus, rezultă coeficientul de variaţie

𝜎 (𝑋)
𝑐𝑣(𝑋) = · 100 = 85, 78.
𝑥

Problema 3. Pe o perioadă de mai mulţi ani, un profesor a ı̂nregistrat


rezultatele elevilor şi a obţinut ca media 𝜇 a acestor rezultate este 72 şi
abaterea standard 𝜎 = 12. Clasa de 36 de elevi pe care-i ı̂nvaţă ı̂n prezent
are o medie 𝑥 = 75, 2, iar profesorul afirmă ca ea este superioară celor
de până acum. Întrebarea care se pune este dacă media clasei 𝑥 este un
argument suficient pentru a susţine afirmaţia profesorului la un nivelul
de semnificaţie dat 𝛼 = 0, 05 (95% sigur).

Solutie: Etapa 1: Formularea ipotezei nule 𝐻0

𝐻0 : 𝑥 = 𝜇 = 72 ⇔ clasa nu este superioară.

Etapa 2: Formularea ipotezei alternative 𝐻𝑎

𝐻𝑎 : 𝑥 = 𝜇 > 72 ⇔ clasa este superioară.

Etapa 3: Metodologia de verificare a ipotezelor


a) Când ı̂n ipoteza nulă media populaţiei şi deviaţia standard sunt cunos-
cute, atunci folosim scorul standard 𝑧 ca şi test statistic.
b) Nivelul de semnificaţie este dat şi este 𝛼 = 0, 05.
c) În baza teoremei limită centrală distribuţia mediilor eşantioanelor este
aproape normală, deci prin urmare distribuţia normală va fi folosită pentru

12
determinarea regiunii critice. Regiunea critică este egală cu mulţimea valorilor
scorului standard 𝑧 care determină respingerea ipotezei nule şi este situată la
extremitatea dreaptă a distribuţiei normale. Regiunea critică este la dreapta
deoarece valori mari ale mediei eşantionului susţin ipoteza alternativă ı̂n timp
ce valori apropiate valorii 72 susţin ipoteza nulă.
Valoarea critică ce desparte zona valorilor ”nu este superior” de zona valorilor
”este superior” este determinată de probabilitatea 𝛼 = 0, 05 de a comite o eroare
de tip 𝐼 (eroarea de tip 𝐼 apare când ipoteza nulă este adevărată şi tot ea este
respinsă).
Etapa 4: Determinarea valorii testului statistic
Valoarea testului statistic este dată de formula
𝑥−𝜇 75, 2 − 72
𝑧𝑐𝑎𝑙𝑐 = 𝜎 = = 1, 6.
√ 12

𝑛 36
Etapa 5: Luarea unei decizii şi interpretarea ei
Dacă comparăm valoarea găsită cu valoarea critică observăm că:

1, 6 < 1, 65

Conform celor stabilite in sectiunea ipotezelor statistice respingem ipoteza 𝐻0


daca:
𝑧𝑐𝑎𝑙𝑐 > 𝑧𝛼*
Decizia: nu putem respinge ipoteza nulă !
În final, tragem concluzia că probele nu sunt suficiente pentru a susţine că
actuala clasă este superioară celor anterioare.

Problema 4. Noua dintre studenţii unei facultati cu profil sportiv au fost


selectaţi pentru a da un test de alergare pe distanţă mare. Masurătorile
pentru acest grup au condus la un timp mediu de 12, 87 minute cu o
abatere standard 𝑠 = 1, 3. Să se aproximeze, cu o probabilitate de 90%,
timpul mediu pe care studentii intregii facultati il vor inregistra pe acea
distanta .

Solutie: Deoarece nu se cunoaşte dispersia populaţiei iar eşantionul are volu-


mul mai mic dacât 30, intervalul de ı̂ncredere este dat de formula
(︂ )︂
𝑠 𝑠
𝑥 − √ 𝑡𝑛−1, 𝛼2 , 𝑥 + √ 𝑡𝑛−1, 𝛼2 ,
𝑛 𝑛

unde 𝑥 = 12, 87 ; 𝑠 = 1, 3 ; 𝑛 = 9 ; 𝛼 = 0, 10 ; iar 𝑡𝑛−1, 𝛼2 este valoarea critică a


repartiţiei Student (statisticianul William Sealy Gosset folosea acest pseudonim
𝛼 1−𝐶
in articolele sale ) cu 𝑛−1 grade de libertate corespunzătoare valorii =
2 2
care ı̂n cazul nostru este 𝑡9−1, 0.05 = 𝑡8, 0,05 = 1, 860 conform tabelului z-t-table
Obtinem intervalul
(12.064, 13.676)
In concluzie suntem 90% siguri ca timpul mediu inregistrat de un student
pe acea distanta va fi in acest interval !

13
Probleme propuse

Problema 1. Fiind date seriile statistice simple

𝑋 : 1, 5, 7, 8, 10,

𝑌 : 1, 6, 100, 135
determinaţi mediana ı̂n ambele cazuri.

Problema 2. Într-o colectivitate s-au ales date statistice numerice obţinându-se

𝑋 : 4, 1, 1, 5, 6, 3, 2, 1,

𝑌 : 100, 90, 40, 80, 70, 50, 100, 70.


Aflaţi după care din variabilele de mai sus, colectivitatea este mai omogenă.

Problema 3. Diagrama Herzsprung-Russell arata dependenta dintre magnitu-


dinile absolute si temperaturile efective de la suprafata stelelor:

Pentru un grup de stele din sirul principal al diagramei astronomii au inregistrat


cu ajutorul telescopului Keck urmatoarele date:

(+5, 5000∘ 𝐾), (+10, 3000∘ 𝐾), (0, 10000∘ 𝐾), (−5, 25000∘ 𝐾), (+6, 7500∘ 𝐾)

Cautati un model de regresie adecvat pentru aceste date.

14
Problema 4. Directorul de operatiuni al unei uzine ar dori sa estimeze timpul
mediu de care are nevoie un muncitor pentru a asambla o noua componenta
electronica. Presupunem ca deviatia standard a timpului de asamblare este de
3.6 minute.
a) Dupa cronometrarea a 120 de muncitori, managerul observa ca timpul lor
mediu de asamblare a componentei este de 16.2 minute. Construiti un interval
de incredre cu un nivel de incredere de 95% pentru timpul mediu de asamblare
a componentei.
b) Cati muncitori ar trebui sa fie implicati in studiul managerului pentru a
obtine timpul mediu real de asamblare cu o eroare de ±15 seconde si un nivel
de incredere de 95% ?

Problema 5. Pentru a asigura folosirea eficienta a unui server, este necesara


estimarea numarului mediu de useri simultani. Conform datelor disponibile me-
dia si deviatia standard a numarului de utilizatori simultani, inregistrati in 100
momente de timp aleator alese, este de 37.7, respectiv 9.2.
Construiti un interval de incredere, cu un nivel de incredere de 90%, pentru
media utilizatorilor concurenti.

Problema 6. Fie 𝑋1 , 𝑋2 , ..., 𝑋𝑛 variabile aleatoare normal distribuite cu media


𝑚 si dispersia 𝜎 2 . Care sunt estimarile date de metoda momentelor pentru media
𝑚 si dispersia 𝜎 2 ?

Problema 7. Un grup de consumatori, preocupati de procentajul mediu de


grasime al unui anumit steakburger trimite la un laborator independent un esan-
tion de 12 steakburgeri pentru analize. Procentajul de grasime gasit in fiecare
steakburger este dat mai jos:

21 18 19 16 18 24 22 19 24 14 18 15

Producatorul afirma ca procentajul mediu de grasime al unui steakburger este


aproximativ 20%. Presupunand ca procentajul de grasime este normal distribuit
cu o deviatie standard de 3, testati ipoteza producatorului, la un nivel de sem-
nificatie 𝛼 = 0.05.

Problema 8. Pe parcursul unei anumite saptamani, 13 copii s-au nascut la o


maternitate. O parte a procedurii standard e reprezentata de masurarea lungimii
acestora. Mai jos aveti o lista a lungimilor masurate, exprimate in centimetri:

49 50 45 51 47 49 48 54 53 55 45 50 48

Presupunand ca lungimile la nastere ale bebelusilor sunt normal distribuite, tes-


tati, la un nivel de semnificatie de 5%, ipoteza ca media lungimii la nastere a
unui bebelus este de 50 cm.

Problema 9. 𝑋1 , 𝑋2 , . . . 𝑋𝑛 reprezinta o selectie dintr-o populatie 𝑋 cu dis-


tributie exponentiala, adica cu densitatea de repartitie:
{︃
𝜆𝑒−𝜆𝑥 , if 𝑥 ≥ 0,
𝑓 (𝑥) =
0, otherwise

Estimati parametrul 𝜆 folosind metoda momentelor.

15
Problema 10. 𝑋1 , 𝑋2 , . . . 𝑋𝑛 reprezinta o selectie dintr-o populatie 𝑋 cu o
distributie Poisson, adica cu densitatea de repartitie:
{︃ 𝑘
𝑒−𝜆 𝜆𝑘! , if 𝑘 = 0, 1, . . .
𝑃 (𝑋 = 𝑘) =
0, otherwise

Estimati parametrul 𝜆 folosind metoda momentelor.

16

S-ar putea să vă placă și