Sunteți pe pagina 1din 89

Statistica - notit e de curs

Cuprins
1 Ce este statistica? 3
2 Not iuni de baza 5
3 Colectarea datelor 7
4 Determinarea frecvent ei si gruparea datelor 11
5 Prezentarea datelor 14
6 Parametrii si statistici ai tendint ei centrale 19
7 Parametrii si statistici ai dispersiei 22
8 Parametrii si statistici factoriali ai variant ei 25
9 Parametrii si statistici ale pozit iei 26
10 Seria de distribut ie a statisticilor
de esantioane 28
11 Teorema limita centrala 32
12 O aplicat ie a teoremei limita centrala 35
13 Estimarea punctuala a unui parametru; intervalul de ncredere 36
14 Generalitat i privind ipotezele statistice si problema vericarii ipotezelor
statistice 38
1
Lect.univ.dr. Doru Constantin
15 Vericarea ipotezelor statistice: varianta clasica 41
16 Vericarea ipotezelor statistice: varianta probabilista 48
17 Inferent a statistica privind media populat iei daca nu se cunoaste
abaterea standard a populat iei 52
18 Inferent a relativa la variant a si estimarea variant ei 59
19 Generalitat i despre corelat ie. Corelat ie liniara 65
20 Analiza de corelat ie liniara 73
21 Inferent a privind coecientul de corelat ie liniara 76
22 Regresie liniara 80
23 Analiza de regresie liniara 83
24 Inferent a referitoare la panta unei drepte de regresie liniara 87
2
1 Ce este statistica?
Denit ia 1.1. Statistica este stiint a colectarii, clasicarii, prezentarii, interpretarii
datelor numerice si a folosirii acestora pentru a formula concluzii si a lua decizii.
Denit ia 1.2. Statistica descriptiva se ocupa cu colectarea, clasicarea si prezentarea
datelor numerice.
Denit ia 1.3. Statistica inferent iala (inferential statistics) se ocupa cu interpretarea
datelor oferite de statistica descriptiva si cu folosirea acestora pentru a formula concluzii
si lua decizii.
Problema 1.1. Universitatea de Vest din Timisoara doreste sa faca un plan de dezvoltare
a facilitat ilor de cazare. Pentru a trece la act iune consiliul de administrat ie hotar aste ca
este necesar sa se raspund a la urmatoarea ntrebare: Cat i student i vor trebui cazat i n
urmatorii zece ani?
Pentru a raspunde la aceasta ntrebare trebuie sa cunoastem raspunsul la cel put in
urmatoarele doua ntreb ari: Cat i absolvent i de liceu vor ? Cat i vor sa vina la
universitate? (Si altele poate).
Pentru a raspunde la aceste doua ntreb ari e nevoie de date referitoare la num arul de
absolvent i de liceu n urmatorii zece ani si de date care indica procentul acelor absolvent i
de liceu care doresc sa devina student i la U.V.T. n urmatorii zece ani.
O cale de a obt ine date refritoare la num arul de absolvent i de liceu n urmatorii zece ani
este de a vedea care a fost acest num ar n ultimii zece ani si a extrapola acest numar.
Trebuie remarcat ca aceasta idee presupune ca exista o legatura dintre trecut si viitor.
Acest lucru nu este ntotdeauna adevarat. Ontrebare suplimentara care se pune n acest
context este daca va trebui sa num aram tot i absolvent ii de liceu din toate scolile din
ultimii zece ani sau ne putem limita sa numar am doar la anumite scoli? Altfel spus, daca
putem considera doar esantioane?
O cale de a obt ine date referitoare la procentul acelor absolvent i care doresc sa devina
student i la U.V.T. este aceea de a vedea aceste procente n ultimii zece ani si de a
extrapola.
Alte ntrebari care se pun sunt: Cum interpret am aceste date? Cum formul am o concluzie
pe baza acestor date? Cum se ia o decizie pe baza acestor date?
Nu am terminat cu enumerarea ntreb arilor care pot relevante. La acest moment ceea
ce este important este sa ncepem sa ne gandim la asemenea probleme si la ntreb arile
care trebuiesc lamurite pentru a obt ine un raspuns.
Remarca 1.1. Relat ia dintre statistica si probabilitat i
Statistica si probabilitat ile sunt doua domenii strans legate, dar distincte ale matematicii.
Se spune ca probabilitat ile sunt vehiculul statisticii. Aceasta este adevarat n sensul
ca daca nu ar legile probabiliste teoria statistica nu ar posibila. Pentru a ilustra
ns a diferent a dintre probabilitat i si statistica sa consideram doua urne: una probabilista
si una statistica.

In cazul urnei probabiliste se stie ca urna cont ine 5 bile albe, 5 bile
negre si 5 bile rosii; problema de probabilitate este daca scoatem o bila, care este sansa
ca aceasta sa e alba?

In cazul unei urne statistice nu cunoastem care este combinat ia
de bile din urna. Extragem un esantion si din acest esantion conjecturam ce credem ca
se gaseste n urna. Trebuie ret inut a deosebirea: probabilitatea pune ntrebarea sansei
ca ceva (un eveniment) sa se ntample atunci cand se cunosc posibilitat ile (se cunoaste
3
populat ia). Statistica ne cere sa facem un esantion, sa analizam esantionul si pe urma sa
facem predict ie asupra populat iei pe baza informat iei gasite n esantion.
Remarca 1.2. Folosirea corecta si folosirea gresita a statisticii
Utilizarea statisticii este nelimitata. Este greu de gasit un domeniu n care statistica nu
se foloseste. Iata cateva exemple, unde si cum este folosita statistica:
n educat ie; statistica descriptiva este adesea folosita pentru a prezenta rezultatele;
n stiint a; rezultatele experimentale trebuiesc colectate si analizate;
guvernele; aduna diferite date statistice tot timpul.
Mult i oameni sunt indiferent i fat a de descrierea statistica, alt ii cred ca statisticile sunt
minciuni. Majoritatea minciunilor statistice sunt inocente si rezulta din folosirea unei
statistici neadecvate sau date obt inute dintr-un esantion nepotrivit. Toate acestea conduc
la o nt elegere gresit a a informat iei din partea consumatorului. Folosirea gresita a
statisticii duce uneori la ncurc aturi.
Remarca 1.3. Statistica si calculatorul

In ultimul deceniu calculatorul a avut un rol important n aproape toate aspectele viet ii.
Domeniul statististicii nu face except ie. Statistica foloseste multe tehnici care au o
natura repetitiva; formule pentru a calcula statistici descriptive, proceduri de urmat
pentru a formula predict ii. Calculatorul este foarte bun pentru a face asemenea operat ii
repetitive. Daca calculatorul are un soft standard statistic este mult mai usoar a analiza
unor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (program
biomedical), SAS (Sistem de analiza statistica), IBM Scientic Subroutine Packages si
SPSS (pachet statistic pentru stiint e sociale).
4
2 Not iuni de baza
Denit ia 2.1. Populat ia este o colect ie (mult ime) de indivizi, obiecte sau date numerice
obt inute prin masur atori ale carei proprietat i trebuiesc analizate.
Remarca 2.1. Populat ia este colect ia completa de indivizi, obiecte sau date numerice
obt inute prin masuratori care prezint a interes (pentru cel care colecteaza esantionul).
Conceptul de populat ie este fundamental n statistica. Populat ia trebuie denita cu grija
si se considera complet denita daca lista membrilor este specicata. Mult imea student ilor
Facultat ii de Matematica si Informatica este o populat ie bine denita.
Daca auzim cuvantul populat ie de obicei ne gandim la o mult ime de oameni.

In statistica
populat ia poate o mult ime de animale, de obiecte fabricate sau de date numerice
obt inute prin masuratori. De exemplu mult imea nalt imilor student ilor facultat ii de
Matematica si Informatica este o populat ie.
Denit ia 2.2. Esantionul este o submult ime a unei populat ii.
Remarca 2.2. Un esantion consta din indivizi, obiecte sau date masurate selectate din
populat ie (de catre colectorul de esantion).
Denit ia 2.3. O variabila de raspuns (simplu variabila) este o caracteristica (de
obicei numeric a) care prezint a interes n cazul ecarui element (individ) al unei populat ii.
Remarca 2.3. Varsta studentului, media lui, culoarea parului, nalt imea, greutatea
s.a.m.d. sunt variabile de raspuns n cazul populat iei: student ii de la Facultatea de
Matematica si Informatica.
Denit ia 2.4. O data (la singular) este valoarea unei variabile de raspuns n cazul
unui element al populat iei sau esantionului.
Exemplul 2.1. Popescu Nicolae are vrsta de 19 ani, media 8.50, parul lui este
castaniu, n alt imea lui este 1 m si 75 cm, iar greutatea lui este 65 kg. Aceste cinci
valori ale celor cinci variabile de raspuns (Remarca 2.3) n cazul lui Popescu Nicolae
sunt cinci date.
Denit ia 2.5. Valorile unei variabile de raspuns n cazul unei populat ii sau a unui
esantion constituie un set de date .

Intr-un set de date aceeasi data apare de atatea ori
de cate ori variabila are aceasta valoare.
Exemplul 2.2. Cele 25 de nalt imi n cazul unui esantion de 25 de student i este un set
de 25 de date nu neaparat diferite.
Denit ia 2.6. O activitate planicata n urma careia se obt ine un set de date se numeste
experiment sau sondaj.
Denit ia 2.7. Parametru este o caracteristica numerica a unei populat ii.
Exemplul 2.3. Procentul de student i de la Facultatea de Matematica si Informatica care
au promovat toate examenele la sesiunea din iarna este un exemplu de parametru n cazul
populat iei: student ii de la Facultatea de Matematica si Informatica.
Remarca 2.4. Parametrul este o valoare numeric a care se refera la ntreaga populat ie.

In statistica se obisnuieste ca parametrul sa e notat cu litera greceasca.


5
Denit ia 2.8. O statistica este o caracteristica numeric a a unui esantion
Exemplul 2.4.

Inalt imea medie gasita folosind cele 25 de n alt imi n cazul unui esantion
de 25 de student i este un exemplu de statistica (de esantion).
Remarca 2.5. O statistica este o valoare numeric a care se refera la un esantion.
Statisticile (de esantion) se noteaza cu literele alfabetului latin.
6
3 Colectarea datelor
Prima problema a statisticianului este colectarea unui set de date. Aceasta presupune
denirea prealabila a obiectivelor sondajului (experimentului) a populat iei si a variabilei.
Exemple de obiective:
a) Compararea ecacitat ii unui medicament nou cu ecacitatea unui medicament
standard;
b) Estimarea venitului mediu al unei familii din judet .
Exemple de populat ii si variabile corespunzatoare:
a) pacient ii care sufera de o boala care se trateaza cu medicamentul considerat
reprezinta populat ia, iar timpul de recuperare reprezinta variabila;
b) familiile din judet reprezinta populat ia, iar venitul total al unei familii din judet
reprezinta variabila.
Tot nainte de colectarea setului de date trebuie hotarat daca setul de date se constituie
pentru ntreaga populat ie sau doar pentru un esantion. Daca setul de date se constituie
pentru ntreaga populat ie atunci se face un recensamant.
Denit ia 3.1. Un recensamant este o enumerare sau o listare a ecarui element al
populat iei mpreun a cu data (valoarea variabilei) corespunzatoare elementului.

In cazul unei populat ii mari, constituirea unui set de date la nivelul populat iei este dicil
si costisitor. De aceea, n cazul n care nu este posibila realizarea unui recensam ant,
setul de date se constituie doar pentru o parte a populat iei, pentru un esantion. Select ia
elementelor pentru esantion se face dintr-un cadru de esantionare.
Denit ia 3.2. Cadrul de esantionare este o lista de elemente care apart in populat iei,
din care va extras esantionul.
Remarca 3.1. Deoarece numai elementele din cadrul esantionului au sansa sa e selectate
pentru esantion, din perspectiva variabilei de raspuns cadrul de esantion trebuie sa e
reprezentativ pentru populat ie.
Remarca 3.2.

In cazul unei populat ii de indivizi listele de alegatori sau cart ile de telefon
sunt folosite adesea drept cadru de esantion.

In funct ie de variabila de raspuns acestea
pot cadre de esantion potrivite sau nepotrivite.
Remarca 3.3. Dupa denirea cadrului esantionului se trece la stabilirea modului de
alegere a elementelor esantionului. Acest proces se numeste proiectarea esantionului.
Denit ia 3.3. Proiectarea esantionului nseamna stabilirea procedurii de alegere a
elementelor esantionului din cadrul esantionului.
Exista mai multe procedee de alegere a elementelor esantionului.

In mare aceste procedee
mpreun a cu esantioanele corespunzatoare se mpart n doua categorii: procedee bazate
pe reprezentativitate si procedee probabiliste.
7
Denit ia 3.4. Esantioane bazate pe reprezentativitate sunt acelea pentru care
elementele se aleg astfel nc at din perspectiva variabilei de raspuns, elementul ales sa e
reprezentativ pentru populat ie.
Exemplul 3.1. Din perspectiva variabilei de raspuns: cursul A este util sau nu n
formarea dumneavoastra profesionala?, student ii din cadrul unui esantion care nu au
frecventat cursul nu sunt reprezentativi. Deci nu sunt alesi n esantion.
Denit ia 3.5. Un esantion pentru care elementele sunt selectate pe baza probabilista;
oricare element din cadrul esantionului are o anumit a sans a nenul a sa e selectat; se
numeste esantion probabilist.
Remarca 3.4. Inferent e statistice cer ca esantionul sa e probabilist. Esantioanele
probabiliste aleatoare sunt cele mai familiare esantioane probabiliste.
Denit ia 3.6. Un esantion de marimea n este esantion probabilist aleator daca orice
esantion de marimea n ales din acelasi cadru are aceeasi probabilitate sa e ales.
Remarca 3.5. Cea mai rasp andita metoda de a colecta date foloseste esantion aleator
simplu.
Denit ia 3.7. Un esantion probabilist aleator pentru care elementele sunt selectate dintr-
un cadru n care elementele au aceeasi probabilitate sa e alese se numeste esantion
aleator simplu.
Remarca 3.6. Atunci cand se construieste un esantion probabilist aleator simplu trebuie
avut a grija ca ecare element din cadrul esantionului sa aibe aceeasi probabilitate sa e
selectat. Adesea se fac greseli pentru ca termenul aleator este confundat cu ales
la ntamplare. Un procedeu corect de selectare a unui esantion probabilist aleator
simplu este acela care foloseste un generator de numere aleatoare sau o tabela de numere
aleatoare. Prima oara se numeroteaz a elementele din cadrul de esantionare. Dupa aceasta
n tabelul cu numere aleatoare se aleg atatea numere cate sunt necesare pentru esantion.
Fiecare element din cadrul de esantionare, al carui num ar coincide cu un num ar selectat
din tabelul de numere aleatoare va ales pentru esantion.
Exemplul 3.2. Daca cadrul esantionului este o lista de 4265 de student i atunci ei sunt
numerotat i de la 0001; 0002; ...; 4265. Pentru un esantion de 50 de student i se aleg 50 de
numere aleatoare cu patru cifre si se identic a student ii din cadrul esantionului.
Denit ia 3.8. Esantionul sistematic se construieste alegand ecare al k-lea element
din cadrul esantionului.
Remarca 3.7.

In aceasta select ie se foloseste tabela de numere aleatoare o singura data,
pentru a determina punctul de plecare.
Exemplul 3.3. Daca se considera un cadru de esantion de 245 de student i ai Facultat ii
de Matematica si Informatica si se doreste un esantion sistematic format din 15 student i
atunci:
1) asociem ecarui student un num ar de la 1 la 245;
8
2) se calculeaza k (pasul de numarare) folosind urmatoarea relat ie:
k =
_
num arul de elemente din cadrul esantionului
num arul de elemente din esantion
_
=
_
245
15
_
= 16
3) se alege punctul de plecare ntre 1 si numarul k cu ajutorul unui tabel de numere
aleatoare.
Daca acest num ar este 10, atunci obt inem esantionul:
10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.
Deoarece k =
245
15
= 16, 33, nu este un numar ntreg, pasul de num arare poate si 17.

In
acest caz esantionul sistematic obt inut este de numai 14 elemente.
Remarca 3.8. Este o procedura buna pentru a esantiona un procentaj n cazul
populat iilor mari. Pentru a selecta un esantion sistematic de x% dintr-o populat ie, un
element din 100/x va selectat (daca 100/x nu este ntreg se ia partea ntreaga).
Remarca 3.9. Folosirea esantionului sistematic nu este potrivita daca populat ia este
repetitiva sau ciclica n natura.(din perspectiva variabilei de raspuns)
Exemplul 3.4. Daca se doreste estimarea numarului student ilor admisi la Facultatea de
Matematica si Informatica care au depasit varsta de 20 de ani si se foloseste esantionarea
sistematica extragand din lista candidat ilor admisi numai pe cei de pe pozit iile care sunt
multiplu de 5, exista posibilitatea ca tot i candidat ii admisi pe pozit iile respective sa aiba
sub 20 de ani. Un asemenea esantion spune ca nu au fost admisi candidat i peste 20 de
ani, ceea ce nu poate sust inut.
Cand se esantioneaz a populat ii foarte mari, atunci cand este posibil se mparte populat ia
n doua subpopulat ii pe baza unor caracteristici. Aceste subpopulat ii se numesc straturi,
iar straturile sunt esantionate separat.
Denit ia 3.9. Un esantion obt inut n urma straticarii cadrului esantionului si prin
selectarea unui num ar dat de elemente din ecare strat se numeste esantion straticat.
Remarca 3.10. Cand se proiecteaza un esantion straticat, cadrul semparten doua sau
mai multe straturi si n ecare strat se proiecteaza un subesantion. Aceste subesantioane
pot aleatoare, sistematice sau de alt gen. Dupa aceea subesantioanele sunt asamblate
ntr-un singur esantion pentru a colecta un set de date.
Exemplul 3.5. Pentru studierea unei caracteristici a populat iei student ilor din Facul-
tatea de Matematica si Informatica, aceasta populat ie poate mp art ita:
- pe domenii: informatica, matematica
- pe ani de studiu.
Denit ia 3.10. Esantion cota (sau esantion proport ional) este un
esantion straticat care se construieste prin selectarea unui numar de elemente din ecare
strat dupa o anumita cota sau proport ional cu marimea stratului.
9
Exemplul 3.6. Daca se doreste construirea unui esantion de 150 de student i din populat ia
student ilor Facult at ii de Matematica si Informatica putem face straticarea dupa anii de
studiu.

In acest caz, num arul de student i ce va selectat din ecare an ce va selectat
va proport ional cu num arul total de student i din anul respectiv:
Anul de studiu Numar student i Cota Nr. student i
selectat n esantion:
Anul I 431 36.49% 54
Anul II 303 25.65% 40
Anul III 206 17.44% 26
Anul IV 240 20.40% 30
Esantionul va format din 54 de student i din anul I, 40 de student i din anul II, 26 de
student i din anul III si 30 de student i din anul IV.
O alta metoda de esantionare care pleaca de la straticarea populat iei este esantionul
ciorchine.
Denit ia 3.11. Esantionul ciorchine este un esantion straticat care se construieste
prin selectarea de esantioane din anumite straturi (nu din toate).
Exemplul 3.7. Daca se doreste realizarea unui esantion ciorchine format din student ii
Universit at ii de Vest din Timisoara, aceasta populat ie poate starticata n funct ie
de specializarea pe care au ales-o student ii select ion and esantioane doar de la cateva
specializari (nu de la toate).
Remarca 3.11. Esantionul ciorchine se obt ine folosind numere aleatoare sau o metoda
sistematica pentru identicarea straturilor (ciorchine) care trebuiesc esantionate, dupa
care ecare din aceste straturi este esantionat. Subesantioanele asamblate formeaza un
esantion ciorchine.

Intr-un caz concret procedeul de esantionare care se foloseste depinde de populat ie de


variabila de dicultatea esantion arii si de cost. Dupa determinarea esantionului se poate
trece la colectarea setului de date.
10
4 Determinarea frecvent ei si gruparea datelor
Dupa colectarea unui set de date urmeaza prelucrarea primara a datelor. Determinarea
frecvent ei si gruparea datelor este un procedeu de prelucrae primara a datelor si este
utilizat atunci cand numarul datelor este mare.
Pentru a prezenta conceptul de frecvent a sa consideram urmatorul set de date:
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
Valoarea 0 apare n acest set o singura data prin urmare frecvent a pentru 0 este unu.
Valoarea 1 apare n acest set de trei ori prin urmare frecvent a pentru 1 este trei.
Valoarea 2 apare n acest set de opt ori prin urmare frecvent a pentru 2 este opt.
Valoarea 3 apare n acest set cinci ori prin urmare frecvent a pentru 3 este cinci.
Valoarea 4 apare n acest set de doua ori prin urmare frecvent a pentru 4 este doi.
Frecvent a datelor 0,1,2,3,4 care apar n setul de date este redata n tabelul urmator:
x f
0 1
1 3
2 8
3 5
4 3
Denit ia 4.1. Frecvent a f (din coloana a doua) arata de cate ori apare valoarea variabilei
x n setul de date.
Atunci candntr-un set de date multe sunt distincte (n loc de cateva can cazul precedent)
se grupeaza datele n clase si apoi se construiesc frecvent e pentru clase.
Pentru a ilustra acest procedeu consideram urmatorul set de date:
82 74 88 66 58
62 68 72 92 86
74 78 84 96 76
76 52 76 82 78
Vom pune n aceeasi clasa toate datele la care prima cifra este aceeasi si obt inem
urmatoarele cinci clase:
50 59; 60 69; 70 79; 80 89; 90 99
(50 59 este clasa formata cu toate datele la care prima cifra este 5, s.a.m.d.).
Aceste clase nu se intersecteaz a (nu exista date care sa apart in a la doua clase) si oricare
din date apart ine unei clase.
Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.
Datele care apart in unei clase sunt mai mari decat limita inferioara a clasei si mai mici
decat limita superioara a clasei.
11
Denit ia 4.2. Lat imea unei clase denita ca diferent a dintre limita inferioara a clasei
urmatoare si limita inferioara a clasei (este egala cu 10 si este aceeasi pentru toate clasele
n exemplul de mai sus) lat imea clasei nu este egala cu diferent a dintre limita superioara
si limita inferioara a clasei.
Denit ia 4.3. Frontierele unei clase denite ca media aritmetica dintre limita superioara
a clasei si limita inferioara a clasei urmatoare sunt:
49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.
Denit ia 4.4. Marca unei clase denita ca media aritmetica dintre limita superioara si
limita inferioara a clasei, n acest caz este:
54.5 =
50 + 59
2
n cazul clasei 50 59
64.5 =
60 + 69
2
n cazul clasei 60 69
74.5 =
70 + 79
2
n cazul clasei 70 79
84.5 =
80 + 89
2
n cazul clasei 80 89
94.5 =
90 + 99
2
n cazul clasei 90 99
Frecvent a n acest caz este numarul de date dintr-o clasa. Frecvent a datelor pe clase este:
n cazul clasei 50 59 2 date
n cazul clasei 60 69 3 date
n cazul clasei 70 79 8 date
n cazul clasei 80 89 5 date
n cazul clasei 90 99 2 date

In general, n cazul gruparii datelor pe clase si a determinarii frecvent ei trebuiesc


respectate urmatoarele reguli:
1) Clasele nu trebuie sa se intersecteze si ecare data din setul de date trebuie sa
apart ina la o clasa;
2) Fiecare clasa trebuie sa aibe aceeasi lat ime.
Procedeul concret de grupare este urmatorul:
12
i) Se identic a cea mai mare data H si cea mai mica data L si se determina plaja:
R = H L.
ii) Se alege num arul de clase m si lat imea clasei c (daca se poate numar impar) astfel
ca produsul m c sa e put in mai mare ca plaja R.
iii) Se alege un punct de plecare I care este put in mai mic decat cea mai mica data L.
Adaug am la I multiplii lui c (c este lat imea clasei) si obt inem numerele:
I, I + c, I + 2c, I + 3c, ..., I + (m1)c
Aceste numere sunt limitele inferioare ale claselor.
iv) Limitele superioare se stabilesc astfel ncat sa e respectate condit iile 1) si 2).
v) Se determina frecvent a ecarei clase num arand elementele din ecare clasa.
13
5 Prezentarea datelor
Prezentarea unui set de date poate facuta sub diferite forme si face parte din prelucrarea
primara a datelor.
Prezentarea datelor sub forma de serii
Denit ia 5.1. Seria de distribut ie este un ansamblu de doua siruri nite dintre care
primul este sirul elementelor distincte din setul de date statistice sau sirul claselor obt inute
prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este sirul de
frecvent e corespunzatoare.
Exemplul 5.1.

In cazul setului de date statistice:
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
seria de distribut ie este:
X
_
0 1 2 3 4
1 3 8 5 3
_
Exemplul 5.2.

In cazul claselor 50 59; 60 69; 70 79; 80 89; 90 99 obt inute prin
gruparea datelor din setul de date:
82 74 88 66 58 74 78 84 96 76
62 68 72 92 86 76 52 76 82 78
seria de distribut ie este:
X
_
50 59 60 69 70 79 80 89 90 99
2 3 8 5 2
_

In general, o serie de distribut ie arata n felul urmator:


X
_
x
1
x
2
x
3
x
n
f
1
f
2
f
3
f
n
_
si oricare ar nivelul de grupare al datelor, x
i
av and frecvent a f
i
, se numeste termenul
seriei de distribut ie.
Remarca 5.1. Adesea n prezentarea seriilor de distribut ie n locul frecvent ei f
i
se
foloseste frecvent a relativa:
f

i
=
f
i
n

j=1
f
j
sau sub forma procentuala:
f

i
= f

i
100
14
Denit ia 5.2. Valoarea datei care apare cu cea mai mare frecvent a ntr-o serie de
distribut ie de date statistice se numeste mod.
Denit ia 5.3. Clasa cu cea mai mare frecvent a ntr-o serie de distribut ie de date grupate
se numeste clasa modala.
Denit ia 5.4. Serie bimodala este o serie de distribut ie de date grupate n care apar
doua clase modale, separate de clase cu frecvent a mai joasa.
Denit ia 5.5. Frecvent a cumulata a unei clase este suma frecvent elor tutror claselor
cu valori mai mici (marca mai mica).
Denit ia 5.6. Seria dinamica (temporala, cronologica) este un sir dublu dintre
care primul este sirul de valori ale variabilei de raspuns, iar cel de-al doilea sir este sirul
de momente de timp la care variabila are aceste valori.

In general, o serie dinamica
(temporala) se noteaza astfel:
X
_
x
1
x
2
x
3
x
n
t
1
t
2
t
3
t
n
_
Prezentarea datelor sub forma de tabele statistice
Tabelele statistice sunt foarte variate si se folosesc pentru ordonarea datelor statistice
dintr-un set de date n vederea aplicarii metodelor de calcul si de interpretare statistica.

In funct ie de num arul de caracteristici prezentate n tabel exista tabele simple, tabele cu
dubla intrare, tabele pe grupe, etc.
Prezentarea datelor sub forma graca
Exista mai multe metode de prezentare graca a unui set de date statistice. Metoda
de prezentare graca este determinata de tipul de date si de ideea de prezentare. De
la nceput trebuie sa e clar ca exista mai multe cai de a dispune grac anumite date
statistice. Judecata analistului si circumstant ele din jurul problemei joaca un rol major
n alegerea modului de dispunere graca a datelor statistice.
Denit ia 5.7. Gracele de reprezentare a seriilor statistice fara grupare se numesc
diagrame.
Denit ia 5.8. Diagrama cerc a seriei de distribut ie (far a grupare)
X
_
x
1
x
2
x
3
x
n
f
1
f
2
f
3
f
n
_
este un cerc mpart it n n sectoare de cerc S
1
, S
2
, ..., S
n
astfel ncat aria sectorului S
i
este
egala cu
f

i
=
f
i
n

j=1
f
j
100
procente din aria cercului.
15
Exemplul 5.3.

In cazul seriei de distribut ie din exemplul 5.1
X
_
0 1 2 3 4
1 3 8 5 3
_
cercul se mparte n cinci sectoare av and ariile egale cu 5%, , 15%, 40%, 25%, 15% din
aria cercului
Denit ia 5.9. Diagrama coloana a seriei de distribut ie (fara grupare):
X
_
x
1
x
2
x
3
x
n
f
1
f
2
f
3
f
n
_
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate pe
axa Ox, iar nalt imile lor sunt f
1
, f
2
, ..., f
n
Exemplul 5.4.

In cazul seriei de distribut ie din exemplul 5.1:
X
_
0 1 2 3 4
1 3 8 5 3
_
diagrama coloana este:
16
Denit ia 5.10. Diagrama linie (ramura-frunza) a seriei de distribut ie (far a grupare)
X
_
x
1
x
2
x
3
x
n
f
1
f
2
f
3
f
n
_
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate pe
axa Oy, iar lungimile lor sunt f
1
, f
2
, ..., f
n
.
Exemplul 5.5.

In cazul seriei de distribut ie din exemplul 5.1:
X
_
0 1 2 3 4
1 3 8 5 3
_
diagrama linie este:
Denit ia 5.11. Histograma seriei de distribut ie cu grupare
X
_
x
1
x
2
x
3
x
n
f
1
f
2
f
3
f
n
_
este un set de n dreptunghiuri care reprezint a clasele. Bazele acestor dreptunghiuri
sunt egale (clasele au aceeasi lat ime) si sunt asezate pe axa Ox, iar n alt imile lor sunt
f
1
, f
2
, ..., f
n
.
Exemplul 5.6.

In cazul seriei de distribut ie din exemplul 5.2:
X
_
50 59 60 69 70 79 80 89 90 99
2 3 8 5 2
_
histograma este:
17
Remarca 5.2.

In cazul histogramei o coloana reprezinta un num ar de date diferite spre
deosebire de diagrama coloana.
Remarca 5.3. O histograma are urmatoarele componente:
i) Un titlu care identic a populat ia la care se refera;
ii) O scara orizontal a pe care se identic a variabila X, valorile limitelor claselor,
frontierele claselor, marcile claselor.
iii) O scara vertical a pe care se identic a frecvent ele pentru ecare clasa.
Denit ia 5.12. O histograma de frecvent e relative este o histograma obt inut a dintr-
o histograma nlocuind frecvent ele cu frecvent e relative.
Frecvent a relativa (este o masura proport ional a cu frecvent a n cauza) se obt ine prin
mpart irea frecvent ei clasei la numarul total de elemente din setul de date.
Denit ia 5.13. Ogiva unei serii de distribut ie de clase cu frecvent e relative cumulate
este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale si asezate pe axa Ox, iar
n at imile lor sunt frecvent ele relative cumulate.
Ogiva are urmatoarele componente:
1. Un titlu care identic a populat ia.
2. O scara orizontal a pe care sunt marcate frontierele superioare ale claselor.
3. O scara verticala pe care sunt marcate frecvent ele relative cumulate pentru ecare
clasa.
18
6 Parametrii si statistici ai tendint ei centrale
O categorie de caracteristici numerici asociat i unui set de date statistice sunt: parametrii
tendint ei centrale n cazul populat iilor si statistici ale tendint ei centrale n cazul
esantioanelor.

Intruc at acestia au denit ii analoage vom prezenta doar statistici ale
tendint ei centrale.
Denit ia 6.1. Statistici ale tendint ei centrale sunt valori numerice asociate unui set
de date statistice care localizeaza ntr-un anumit sens mijlocul mult imii de date statistice.
Denit ia 6.2. Media aritmetica a setului de date statistice x
1
, x
2
, ..., x
n
este prin
denit ie suma acestor date mp art it a la num arul datelor
x =
n

i=1
x
i
n
Remarca 6.1. Atunci cand datele sunt prezentate sub forma unei serii de distribut ie
(fara grupare n clase), media aritmetica se gaseste cu formula:
x =
m

j=1
x
j
f
j
m

j=1
f
j
Remarca 6.2.

In cazul unei serii de distribut ie (cu grupare n clase) formula de calcul a
mediei este:
x =

x f
x

f
x
n care x reprezint a marca clasei si f
x
frecvent a corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Denit ia 6.3. Media patratica a setului de date statistice x
1
, x
2
, ..., x
n
este prin
denit ie num arul:
x
p
=

_
n

i=1
x
2
i
n
Remarca 6.3. Daca datele sunt prezentate sub forma unei serii de distribut ie (fara
grupare n clase), media patratica se gaseste cu formula:
x
p
=

_
m

j=1
x
2
j
f
j
m

j=1
f
j
19
Remarca 6.4.

In cazul unei serii de distribut ie cu grupare n clase media patratic a este
prin denit ie:
x
p
=

x
2
f
x

f
x
n care x reprezint a marca clasei si f
x
frecvent a corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Denit ia 6.4. Media armonica a setului de date statistice x
1
, x
2
, ..., x
n
este prin
denit ie num arul:
x
h
=
n
n

i=1
1
x
i
Remarca 6.5. Daca datele sunt prezentate sub forma unei serii de distribut ie (fara
grupare n clase), media armonica se gaseste cu formula:
x
h
=
m

j=1
f
j
m

j=1
1
x
j
f
j
Remarca 6.6.

In cazul unei serii de distribut ie cu grupare n clase media armonica este
prin denit ie:
x
h
=
n

i=1
f
x
n

i=1
1
x
f
x
n care x reprezint a marca clasei si f
x
frecvent a corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Denit ia 6.5. Media geometica a setului de date statistice x
1
, x
2
, ..., x
n
este prin
denit ie num arul:
x
p
=
n

_
n

i=1
x
i
Remarca 6.7. Daca datele sunt prezentate sub forma unei serii de distribut ie (fara
grupare n clase), media geometrica se gaseste cu formula:
Remarca 6.8.

In cazul unei serii de distribut ie cu grupare n clase media geometrica este
prin denit ie: n care x reprezinta marca clasei si f
x
frecvent a corespunzatoare, iar suma
se extinde pe ansamblul claselor.
20
Denit ia 6.6. Mediana m
e
a unui set de date statistice distincte ordonate dupa marime
x
1
< x
2
< ... < x
n
este numarul care mparte setul de date n doua grupe egale ca numar:
- daca n = 2 k + 1, atunci m
e
este valoarea de rangul k + 1: m
e
= x
k+1
;
- daca n = 2 k, atunci orice numar ntre valorile x
k
si x
k+1
satisface condit ia din
denit ia lui m
e
.

In acest caz se convine ca m
e
sa e media aritmetica a valorilor
x
k
si x
k+1
: m
e
=
x
k
+ x
k+1
2
.
Exemplul 6.1.

In cazul setului de date statistice:
4 7 12 26 32 38 59
mediana este m
e
= 26.

In cazul setului de date statistice:


4 7 12 26 32 38
mediana este m
e
=
12 + 26
2
= 19.
Remarca 6.9. Mediana m
e
n acest caz are proprietatea ca suma frecvent elor valorilor
mai mari decat m
e
este egala cu suma frecvent elor valorilor mai mici decat m
e
.
Remarca 6.10. Daca datele pot egale, atunci proprietatea din Remarca 6.9 a medianei
poate sa nu e adevarata.

In cazul setului de date statistice:
1 1 1 2 3 3 4
Seria de distribut ie corespunzatoare este:
1 2 3 4
3 1 2 1
Conform denit iei lui m
e
n acest caz m
e
= 2, 5. Aceasta valoare a lui m
e
nu raspunde
cerint ei ca m
e
este o valoare cu proprietatea ca valorile mai mari sau mai mici decat ea
apar cu frecvent e cumulate egale; frecvent a celor mai mici este 4, iar frecven a celor mai
mari este 3.
Remarca 6.11. Cand datele sunt prezentate sub forma unei serii de distribut ie cu sau fara
grupare m
e
se calculeaza prin procedeul interpolarii liniare, bazate pe ipoteza repartit iei
uniforme a frecvent elor n intervalul median.
Denit ia 6.7. Mijlocul plajei este prin denit ie numarul:
M
r
=
L + H
2
unde L este cea mai mica valoare, iar H este cea mai mare valoare a variabilei X
21
7 Parametrii si statistici ai dispersiei
Dupa ce mijlocul unui set de date a fost stabilit urmatoarea ntrebare naturala este:
care sunt parametrii si statisticile care caracterizeaza dispersia (mpr astierea) datelor.
Parametrii si statisticile dispersiei sunt: plaja, deviat ia medie absoluta, variant a, deviat ia
standard si coecientul de variat ie. Aceste valori numerice descriu marimea mprastierii
ori a variabilit at ilor datelor. Datele strans grupate vor avea mpr astiere mica, iar cele
care nu sunt grupate (sunt mpr astiate) vor avea o dispersie mai mare.
Denit ia 7.1. Plaja P este diferent a dintre cea mai mare (H) si cea mai mica (L) valoare
a valorilor x
i
dintr-un set de date:
P = H L
Deviat ia medie absoluta, variant a si deviat ia standard masoara dispersia fat a de media
aritmetica.
Denit ia 7.2. Deviat ia fat a de media aritmetica x a valorii x
i
a variabilei X este
d
i
= x
i
x.
Deviat ia este zero daca si numai daca x
i
= x.
Deviat ia este pozitiva daca si numai daca x
i
> x.
Deviat ia este negativa daca si numai daca x
i
< x.
S-ar putea crede ca suma deviat ilor
n

i=1
(x
i
x) poate servi ca masur a a dispersiei fat a de
media aritmetica. Dar aceasta suma este zero ntotdeauna:
n

i=1
(x
i
x) =
n

i=1
x
i
n x = n x n x = 0
Reducerea deviat iilor poate eliminata prin folosirea valorii absolute a deviat iilor: x
i
x.
Denit ia 7.3. Deviat ia medie absoluta a setului de date statistice distincte x
1
, x
2
, ..., x
n

este prin denit ie:


d =
n

i=1
[x
i
x[
n
Remarca 7.1. Deviat ia medie absoluta, n cazul n care datele sunt prezentate sub forma
unei serii de distribut ie far a grupare de date se calculeaza cu formula:
d =
m

j=1
[x
j
x[ f
j
m

j=1
f
j
22
Remarca 7.2. Deviat ia medie absoluta, n cazul n care datele sunt prezentate sub forma
unei serii de distribut ie cu grupare de date se calculeaza cu formula:
d =

[x x[ f
x

f
x
n care x reprezint a marca clasei si f
x
frecvent a corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Cu toate ca acest parametru al mprastierii nu se foloseste frecvent, el este o masur a a
mpr astierii si arata distant a medie la care se aa o valoare a variabilei X fat a de media
aritmetica.
Mai exista o cale de eliminare a reducerii deviat iilor. Ridicand la patrat deviat iile
individuale acestea devin pozitive (sau zero). Cand aceste patrate sunt adunate rezultatul
este pozitiv. Suma patratelor deviat iilor fat a de media aritmetica
n

i=1
(x
i
x)
2
este folosita
n denirea variant ei.
Denit ia 7.4. Variant a s
2
a setului de date statistice distincte x
1
, x
2
, ..., x
n
este prin
denit ie:
s
2
=
n

i=1
(x
i
x)
2
n
Remarca 7.3. Daca setul de date este prezentat sub forma unei serii de distribut ie far a
grupare de date variant a s
2
se calculeaza cu formula:
s
2
=
m

j=1
(x
j
x)
2
f
j
m

j=1
f
j
Remarca 7.4. Daca setul de date este prezentat sub forma unei serii de distribut ie cu
grupare de date variant a s
2
se calculeaza cu formula:
s
2
=

(x x)
2
f
x

f
x
n care x reprezint a marca clasei si f
x
frecvent a corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Denit ia 7.5. Deviat ia standard (abaterea standard) s a setului de date statistice
distincte x
1
, x
2
, ..., x
n
este prin denit ie:
s =
_

_
n

i=1
(x
i
x)
2
n
_

_
1
2
23
Remarca 7.5. Daca setul de date este prezentat sub forma unei serii de distribut ie far a
grupare de date deviat ia standard s se calculeaza cu formula:
s =
_

_
m

j=1
(x
j
x)
2
f
j
m

j=1
f
j
_

_
1
2
Remarca 7.6. Daca setul de date este prezentat sub forma unei serii de distribut ie cu
grupare de date deviat ia standard s se calculeaza cu formula:
s =
_
_

(x x)
2
f
x

f
x
_
_
1
2
n care x reprezint a marca clasei si f
x
frecvent a corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Remarca 7.7. Deviat ia standard a fost denita cu o formula. Se poate pune ntrebarea
ce reprezinta ea n realitate? Un raspuns la aceasta ntrebare poate dat cu inegalitatea
lui Cebsev din care rezulta ca pentru orice serie de distribut ie fract iunea de date situata
la cel mult k unitat i de deviat ie standard fat a de medie este cel put in 1
1
k
2
, unde k este
un numar pozitiv oarecare mai mare ca 1. Rezulta n particular ca pentru orice serie de
distribut ie fract iunea de date situata la cel mult k = 2 unitat i de deviat ie standard fat a de
medie este de cel put in 75% din totalul de date. Daca k = 3 atunci este 89% din totalul
de date.
Conform regulii empirice daca o serie de repartit ie este normala atunci fract iunea de date
situate la cel mult o unitate de deviat ie standard fat a de medie este aproximativ 68%,
iar fract iunea de date situate la cel mult doua unitat i de deviat ie standard fat a de medie
este aproximativ 95%.
Denit ia 7.6. Coecientul de variat ie V este prin denit ie:
V =
s
x
100
Remarca 7.8. Coecientul de variat ie este o statistica relativa a dispersiei si se foloseste
la compararea dispersiei diferitelor variabile (caracteristici).
Remarca 7.9. V poate lua valori ntre 0 si 100%. Daca V este aproape de zero
(V < 35%), atunci populat ia studiata statistic este omogena si media x este reprezentativa
pentru aceasta populat ie. Daca V este aproape de 100% (V > 75%), atunci populat ia
studiata statistic este eterogena si media x nu este reprezentativ a. De cele mai multe
ori n asemenea cazuri este necesara separarea populat iei statistice n mai multe grupe
omogene, care se studiaza separat.
24
8 Parametrii si statistici factoriali ai variant ei

In analiza variant ei unui set de date statistice se folosesc urmatorii parametrii factoriali
ai variant ei:
- variant a de grupa (part iala) s
2
j
- media variant elor de grupa s
2
- variant a mediilor de grupa fat a de media generala
2
- variant a totala (generala) s
2
.
Denit ia 8.1. Pentru o grupa de m date x
1
, x
2
, ..., x
m
, variant a de grupa este denita
cu formula:
s
2
j
=
m

i=1
(x
i
x
j
)
2
n
ij
m

i=1
n
ij
n care j este indicele grupei, x
j
este media grupei, x
i
sunt datele din grupa j av and
frecvent ele n
ij
Remarca 8.1. Variant ele de grupa sunt mai mici decat variant a si au valori mai mari
sau mai mici n funct ie de eterogenitatea grupei.
Denit ia 8.2. Prin denit ie media variant elor de grupa este:
s
2
=
k

j=1
s
2
j
n
j
k

j=1
n
j
n care k este num arul de grupe, n
j
=
m

i=1
n
ij
este num arul de date din grupa.
Denit ia 8.3. Variant a mediilor de grupa fat a de media generala este prin
denit ie:

2
=
k

j=1
(x
j
x)
2
n
j
k

j=1
n
j
25
9 Parametrii si statistici ale pozit iei
Parametrii si statistici ai pozit iei se folosesc pentru a descrie locat ia unei date n raport
cu celelalte date.
Denit ia 9.1. Quantilele sunt valori numerice care mpart setul de date n q grupe
egale. Constanta q se numeste ordinul quantilei.
Mediana este quantila de ordinul doi.
Quantilele de ordinul patru mpart setul de date n patru grupe egale si se numesc
quartile. Quartilele sunt n num ar de trei, notate de obicei cu Q
1
, Q
2
, Q
3
.
Quartila Q
1
este un numar cu proprietatea ca o patrime din date au valori mai mici decat
Q
1
si trei patrimi din date au valori mai mari decat Q
1
.
Quartila Q
2
este un num ar cu proprietatea ca jumatate din date au valori mai mici decat
Q
2
si jumatate din date au valori mai mari decat Q
2
. Quartila Q
2
este chiar mediana.
Quartila Q
3
este un numar cu proprietatea ca trei patrimi din date au valori mai mici
decat Q
3
si o patrime din date au valori mai mari decat Q
3
.
Alte categorii de quantile folosite sunt:
- decilele care mpart setul de date n 10 grupe egale.
- centilele care mpart setul de date n 100 grupe egale.
- promilele care mpart setul de date n 1000 grupe egale.
Orice set de date are 99 de centile P
k
, k = 1..99. Centila P
k
este o valoare numerica cu
proprietatea ca k% din date are valori mai mici decat P
k
, iar (100 k)% din date au
valori mai mari decat P
k
.
Remarca 9.1. Q
1
= P
25
; Q
3
= P
75
; m
e
= Q
2
= P
50
Remarca 9.2. Procedeul de determinare a centilei P
k
este urmatorul:
1) datele se ordoneaza crescator;
2) trebuie gasita pozit ia i a centilei k. Prima oara se determina num arul
n k
100
, unde
n este num arul de date. Daca
n k
100
nu este un numar ntreg, atunci i este num arul
ntreg urmator (
n k
100
= 17.2 i = 18). Daca
n k
100
este un numar ntreg, atunci i
este
n k
100
+ 0.5 (
n k
100
= 23
i = 23.5).
3) localizarea valorii P
k
: se num ara de la valoarea L (cea mai mica valoare a datelor) i
valori daca i este ntreg. Daca i nu este ntreg atunci este un ntreg plus o jumatate.

In acest caz valoarea P


k
este semisuma datelor de pe locurile
n k
100
si
n k
100
+ 1
O statistica adit ional a a pozit iei este scorul standard sau z-scor.
26
Denit ia 9.2. Scorul standard sau z-scorul este pozit ia valorii x fat a de mediana x
n unitat i de deviat ie standard:
z =
x x
s
27
10 Seria de distribut ie a statisticilor
de esantioane
Pentru a face inferent a (predict ie) asupra parametrilor populat iei, este necesar sa analizam
statisticile de esantioane. Media xn cazul unui esantion nu este neaparat egala cu media
a populat iei. Suntemns a mult umit i daca media x este apropiata de . Daca se considera
media x/ n cazul unui al doilea esantion aceasta poate sa e diferita de x si de . Ceea ce
putem spera este ca aceasta sa e apropiata de valoarea si de x. Valabilitatea acestui
tip de comportament intereseaz a pentru orice populat ie si orice statistica.

Intrebarea care se naste n mod natural este ce nseamn a aproape? Cum se masoar a si se
determina aceasta apropiere? Care este seria de distribut ie a statisticilor de esantioane?
Denit ia 10.1. Seria de distribut ie a statisticilor de esantioane este seria de
distribut ie a statisticilor de un anumit tip obt inute pentru esantioane de aceeasi marime.
Tipul de statistica poate oricare din statisticile prezentate n sect iunile 6 si 7.
Exemplul 10.1. Se considera o populat ie de N elemente de la care se pot obt ine
urmatoarele date statistice distincte: 0, 2, 4, 6, 8.

In cazul acestei populat ii formam
esantioane de marime 2 de la care putem avea urmatoarele date statistice:
(0, 0) (2, 0) (4, 0) (6, 0) (8, 0)
(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)
(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)
(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)
(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)
Pentru aceste esantioane mediile x sunt:
0 1 2 3 4
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
Esantioanele ind aleatoare ecare esantion, are probabilitatea 1/25 sa e ales si seria de
distribut ie a mediilor acestor esantioane este:
x f

(x)
0 0.04
1 0.08
2 0.12
3 0.16
4 0.20
5 0.16
6 0.12
7 0.08
8 0.04
unde f

(x) este frecvent a relativa a mediei x. Diagrama coloana a mediilor esantioanelor


este:
28
Pentru acelasi set de 25 de esantioane putem determina seria de distribut ie a plajelor R
a acestor esantioane.
Plajele R ale esantioanelor sunt date n tabelul urmator:
0 2 4 6 8
2 0 2 4 6
4 2 0 2 4
6 4 2 0 2
8 6 4 2 0
Seria de distribut ie a plajelor acestor esantioane este:
R f

(R)
0 0.20
2 0.32
4 0.24
6 0.16
8 0.08
iar diagrama coloana a plajei esantioanelor este:
29
Exemplul 10.2.

In cazul aruncarii zarului de un num ar de N ori, setul de date statistice
care se refera la num arul de pe fat a care apare este 1, 2, 3, 4, 5, 6.
Formam esantioane care constau din 5 aruncari. Fiecare din aceste esantioane are media
x. Consideram 30 de esantioane de acest fel (nseamna 30 5 = 150 aruncari) si ntr-un
tabel reprezentam rezultatele precum si mediile corespunzatoare:

Incercare Esantion x

Incercare Esantion x
1 1 2 3 2 2 2.0 16 5 2 1 3 5 3.2
2 4 5 5 4 5 4.6 17 6 1 3 3 5 3.6
3 3 1 5 2 4 3.0 18 6 5 5 2 6 4.8
4 5 6 6 4 2 4.6 19 1 3 5 5 6 4.0
5 5 4 1 6 4 4.0 20 3 1 5 3 1 2.6
6 3 5 6 1 5 4.0 21 5 1 1 4 3 2.8
7 2 3 6 3 2 3.2 22 4 6 3 1 2 3.2
8 5 3 4 6 2 4.0 23 1 5 3 4 5 3.6
9 1 5 5 3 4 3.6 24 3 4 1 3 3 2.8
10 4 1 5 2 6 3.6 25 1 2 4 1 4 2.4
11 5 1 3 3 2 2.8 26 5 2 1 6 3 3.4
12 1 5 2 3 1 2.4 27 4 2 5 6 3 4.0
13 2 1 1 5 3 2.4 28 4 3 1 3 4 3.0
14 5 1 4 4 6 4.0 29 2 6 5 3 3 3.8
15 5 5 6 3 3 4.4 30 6 3 5 1 1 3.2
Histograma seriei de distribut ie a mediilor celor 30 de esantioane este reprezentata n
gura urmatoare:
30
Aceasta lege de repartit ie pare sa aibe caracteristicile unei legi de repartit ie normala; este
maxim si este simetric fat a de media proprie 3.5.
31
11 Teorema limita centrala

In sect iunea precedent a am prezentat seria de distribut ie a mediei si plajei unui set de
esantioane. Media este statistica folosita cel mai frecvent n cazul esantioanelor si de aceea
este foarte important a. Teorema limita centrala se refera la seria de distribut ie a mediei
tuturor esantioanelor aleatoare de aceeasi marime n.
Sa formulam ce anume intereseaz a n cazul acestei serii de distribut ie:
1) Unde este centrul datelor?
2) Cat de mare este dispersia datelor?
3) Care este caracterul seriei de distribut ie?
Teorema limita centrala ofera raspuns la aceste trei ntreb ari.
Teorema 11.1. Teorema limita centrala
Fie media si deviat ia standard a unei variabile n cazul unei populat ii. Daca se
considera toate esantioanele aleatoare de marime n din aceasta populat ie, atunci seria de
distribut ie a mediilor acestor esantioane are urmatoarele proprietat i:
a) media
x
a acestei serii de distribut ie este egala cu ;
b) deviat ia standard
x
a acestei serii de distribut ie este

n
.
c) daca seria de distribut ie a variabilei n cazul populat iei este normala, atunci seria
de distribut ie a mediilor esantioanelor este normala; daca seria de distribut iei a
variabilei n cazul populat iei nu este normala, atunci seria de distribut ie a mediilor
esantioanelor este aproximativ normala pentru esantioane de marime mai mare ca
30. Tendint a catre o serie de distribut ie normala creste daca marimea esantionului
creste.
Pe scurt, teorema limita centrala stabileste urmatoarele:
1)
x
= , unde x este media esantionului x;
2)
x
= /

n, deviat ia standard a mediei este egala cu deviat ia standard a populat iei


mp at it a cu rad acina patrat a a marimii esantionului.
3) seria de distribut iei a mediei esantioanelor este aproximativ normala indiferent de
seria de distribut iei a variabilei n cazul populat iei.
Remarca 11.1. Deviat ia standard
x
a seriei de distribut ie a mediilor esantioanelor
este deviat ia standard a mediilor esantioanelor fat a de media seriei de distribut ie a
esantioanelor.
Nu vom face demonstrat ie teoremei limita central a. Vom ilustra ns a validitatea ei
examinand un caz ilustrativ.
32
Consideram o populat ie pentru care seria de distribut ie de date statistice cu frecvent e
relative n cazul variabilei X este:
X :
_
2 4 6
1/3 1/3 1/3
_
Media si deviat ia standard pentru aceasta variabil a sunt:
=
3

j=1
x
j
f

x
j
=

_
3

j=1
x
2
j
f

x
j

_
3

j=1
x
j
f

x
j
_
2
=
12
3
= 4 = 1, 63

In cazul acestei populat ii oricare esantion de marime doi are urmatoarele date posibile:
(2, 2) (2, 4) (2, 6)
(4, 2) (4, 4) (4, 6)
(6, 2) (6, 4) (6, 6)
Esantioanele au urmatoarele medii:
2 3 4
3 4 5
4 5 6
Esantion Media
(2,2) 2
(2,4) 3
(2,6) 4
(4,2) 3
(4,4) 4
(4,6) 5
(6,2) 4
(6,4) 5
(6,6) 6
Esantioanele ind aleatoare ecare esantion are probabilitatea
1
9
sa e ales si seria de
distribut ie a mediilor esantioanelor este:
X
_
2 3 4 5 6
1/9 2/9 3/9 2/9 1/9
_
Media seriei de distribut ie a mediilor esantioanelor
x
este
x
= 36/9 = 4, 0. Prin urmare
=
x
, iar deviat ia standard a repartit iilor mediilor esantioanelor este:

x
=

_
5

j=1
x
2
j
f

x
j

_
5

j=1
x
j
f

x
j
_
2
=

156
9

_
36
9
_
2
= 1, 15

n
=
1, 63

2
=
1, 63
1, 44
= 1, 15 =
x
Reprezent and seria de distribut ie a mediilor esantioanelor obt inem:
33
Aceasta diagrama arata ca seria de distribut ie a mediilor esantioanelor este normala.
34
12 O aplicat ie a teoremei limita centrala
Teorema limita centrala ofera informat ii asupra seriei de distribut ie a mediilor esan-
tioanelor descriind forma repartit iei mediilor tuturor esantioanelor (aproape normala).
Ea stabileste relat ia dintre media a populat iei si media
x
a seriei de distribut ie a
mediilor tuturor esantioanelor si relat ia dintre deviat ia standard a populat iei si deviat ia
standard
x
a seriei de distribut ie a mediilor esantioanelor. Deoarece seria de distribut ie
a mediilor esantioanelor este aproape normala putem stabili legaturi probabiliste dintre
media populat iei si media unui esantion.
Exemplul 12.1. Consideram o populat ie normala cu = 100 si = 20. Daca se alege
un esantion aleator de marime n = 16 care este probabilitatea ca valoarea medie a acestui
esantion sa e ntre 90 si 110? Altfel spus, cat este P(90 < x < 110)?
Solut ie: Conform teoremei limita central a repartit ia valorilor medii ale esantioanelor
este normala. Prin urmare va trebui sa transformam condit ia P(90 < x < 110) ntr-o
condit ie care sa permita folosirea tabelului de distribut ie normala standard. Aceasta se
face scriind:
P(90 < x < 110) =
_
110
x

x
_

_
90
x

x
_
=
=
_
110 100

x
_

_
10

x
_
= 2
_
10

x
_
1 = F
_
10

x
_
unde (X) =
1

2
X
_

1
2
t
2
dt si F(X) = (X)
1
2
.
Deoarece
x
=

n
, avem
x
=
20

16
= 5 si astfel obt inem:
P(90 < x < 110) = 2 (2) 1 = 2F(2) = 0.9544
Efectul cresterii dimensiunii n a esantionului nu afecteaza
x
= si micsoreaz a
x
. Prin
urmare P(90 < x < 110) creste, daca n creste.
Exemplul 12.2.

Inalt imea copiilor la o gradinit a are o distribut ie normala avand o medie
= 100 cm cu o deviat ie standard de 12, 5 cm. Pentru un esantion aleator de 25 de copii
se determina media x. Care este probabilitatea ca aceasta medie sa e ntre 90 cm si 110
cm?
Solut ie:
P(90 < x < 110) = 2
_
10

x
_
1 = 2 (4) 1 = 2 F(4) = 2 0.499968
35
13 Estimarea punctuala a unui parametru; intervalul
de ncredere
Consideram o populat ie a carei medie nu o cunoastem si ne punem problema s-o gasim.
Pentru acest scop consideram un esantion aleator de dimensiune n pentru care determinam
media x. Media x a esantionului este o estimare punctuala a mediei a populat iei.
Denit ia 13.1. O estimare punctuala a parametrului a unei populat ii este o
valoare g a unei statistici corespunzatoare.
Remarca 13.1. Daca x este media esantioanului cu care estimam media necunoscuta
a populat iei, aceasta nu nseamn a ca x = .

In general, x ,= si la ceea ce ne putem
astepta este ca x sa e aproape de . Aceasta apropiere poate xata prin specicarea
unui interval (centrat n ) numit interval de estimare.
Denit ia 13.2. Un interval marginit (a, b) folosit pentru a estima valoarea unui anumit
parametru a populat iei se numeste interval de estimare. Valorile a, b (capetele
intervalului) sunt calculate din esantion care este folosit pentru estimare.
Cum anume se poate specica un interval centrat n care este necunoscut folosind doar
date furnizate de un esantion va lamurit n continuare.
Exemplul 13.1. Consideram o populat ie av and o deviat ie standard cunoscuta, o medie
necunoscuta si un esantion aleator simplu de marime n si medie x cunoscute. Condit ia
x ( 1, + 1) nseamn a ca scorul standard z (pentru mediile esantioanelor) dat de:
z =
x
x

x
=
x

n
sa verice:
z (
1

n
,
1

n
) = (

)
Astfel n termenii scorului standard intervalul de estimare este intervalul (a, b) cu a =

si b =

.
Mai general condit ia x ( , + ), nseamna ca scorul standard z (pentru mediile
esantioanelor) dat de:
z =
x
x

x
=
x

n
sa verice:
z (

)
Intervalul de estimare este (

).
Denit ia 13.3. Nivelul de nencredere este probabilitatea ca statistica esantionului
sa aibe valoarea n afara intervalului de estimare.
36
Conform teoremei de limita centrala, repartit ia lui x este normala sau aproape normala
si avem:
P( 1 < x < + 1) = P
_

< z <

_
=
2 P
_
0 < z <

_
= 2 F
_
n

_
unde F(z) =
1

2
z
_
0
e

1
2
t
2
dt.
Deci nivelul de nencredere este 1 2 F
_
n

_
.
Denit ia 13.4. Nivelul de ncredere (coecient de ncredere) 1 este probabilitatea
ca statistica esantionului sa se ae n intervalul de estimare ales.
Denit ia 13.5. Intervalul de ncredere este un interval de estimare cu un nivel de
ncredere 1 specicat.
Exemplul 13.2.

In cazul exemplului 13.1, intervalul de estimare
_

_
este un
interval de ncredere cu coecientul de ncredere 1 = 2 F
_
n

_
.
Denit ia 13.6. Eroarea maxima de estimare este jumatatea lungimii intervalului de
ncredere cu nivelul de ncredere 1 .

In termen de scor standard aceasta eroare se exprima cu formula:


E = z
_

2
_

n
unde z
_

2
_
este solut ia ecuat iei F(z) =
1
2
, iar intervalul de ncredere 1 pentru
este:
_
x z
_

2
_

n
, x + z
_

2
_

n
_
xz
_

2
_

n
este limita inferioara de ncredere, iar x+z
_

2
_

n
este limita superioara
de ncredere.
37
14 Generalitat i privind ipotezele statistice si proble-
ma vericarii ipotezelor statistice
Pentru a ilustra analiza care precede luarea unei decizii n privint a credibilitat ii unei
asert iuni (numit a vericarea ipotezelor statistice) sa consideram urmatorul exemplu:
Candidatul la admitere Popescu Nicolae trebuie sa completeze un formular test cu zece
ntreb ari. Fiecare ntrebare are cinci raspunsuri dintre care doar unul este corect. Popescu
Nicolae a completat formularul si din cele zece ntreb ari el a raspuns corect la sapte. El
sust ine ca a completat formularul far a sa citeasca ntrebarile si raspunsurile la ele si a
marcat raspunsurile aleator.

Intrebarea esten ce masura putem da crezare spuselor ca el a marcat raspunsurile aleator?


O asemenea ntrebare ne determina sa analizam si sa hotar am: este sau nu este rezona-
bil ca Popescu Nicolae sa obt ina sapte raspunsuri corecte alegand aleator raspunsurile la
ntreb ari? Descriem n cele ce urmeaza o analiza, care se numeste vericarea ipotezelor
statistice si care conduce la formularea unei concluzii.
Vericarea ipotezelor statistice, n general, este un procedeu care are 5 etape. Fiecare din
aceste etape va prezentat a si ilustrata n cazul exemplului considerat.
Etapa 1. Formularea ipotezei nule H
0
Prin ipoteza nt elegem o armat ie care sust ine ca ceva este adevarat.

In
general, ipoteza nula este o armat ie relativa la un parametru al unei
populat ii si arma ca parametrul are o valoare data. Adesea expresia
nu difera este folosita n formularea ei, de aici vine numele de ipoteza
nul a. (diferent a este nul a)
Etapa 2. Formularea ipotezei alternative H
a
Ipoteza alternativa H
a
este o armat ie relativa la acelasi parametru al
populat iei care apare n ipoteza nul a H
0
.

In ipoteza H
a
se arma ca
parametrul are o valoare diferita de cea sust inut a n H
0
.
Ipoteza H
0
si ipoteza H
a
se formuleaz a dupa o analiza a asert iunii care trebuie inves-
tigata.

In cazul exemplului considerat, asert iunea care trebuie analizata este: Popescu a comple-
tat formularul aleator.
Populat ia este o mult ime de 5
10
elemente (distincte). Un element este un sistem ordonat
de 10 raspunsuri (R

i
1
, R

i
2
, . . . , R

i
10
), i
1
, i
1
, . . . , i
10
1, 2, 3, 4, 5; R

i
1
este unul din cele
cinci raspunsuri posibile la prima ntrebare, . . . , R

i
10
este unul din cele cinci raspunsuri
posibile la cea de-a zecea ntrebare.
Pentru o persoana care marcheaz a raspunsurile aleator (far a sa le citeasca), toate
raspunsurile sunt egal posibile. Altfel spus ecare din cele cinci raspunsuri la o ntrebare
are aceeasi sans a ca sa e corect. Din armat ia lui Popescu Nicolae rezulta ca el a marcat
raspunsurile aleator, deci a admis ca probabilitatea (parametrul p) este
1
5
10
pentru ecare
element al populat iei.
Analiza armat iei lui Popescu Nicolae conduce la urmatoarea formulare a ipotezei nule:
H
0
: p(X) =
1
5
10
= p pentru orice Popescu Nicolae a completat
element X al populat iei formularul aleator.
38
Ipoteza alternativa este:
H
a
: exista doua elemente X
1
, X
2
n populat ie Popescu Nicolae nu a completat
pentru care p(X
1
) ,= p(X
2
) formularul aleator
De la acest punct ncep and se admite ca ipoteza nul a este adevarata. Situat ia poate
comparata cu un proces la judecatorie, n care acuzatul este presupus nevinovat pana
cand se dovedeste contrariul.
Doar n etapa a 5-a a vericarii ipotezelor, vom lua una din cele doua decizii posibile:
vom decide n concordant a cu ipoteza nul a H
0
si spunem ca acceptam H
0
sau decidemn
concordant a cu H
a
si spunem ca respingem ipoteza H
0
.

In funct ie de valoarea de adevar a ipotezei H


0
si de respingerea sau nerespingerea ei
deciziile care se iau sunt prezentate n tabelul urmator:
Decizia Ipoteza H
0
este
Adevarat a Fals a
Nu respingem H
0
decizie eroare
(acceptam) corecta
Tip A Tip II
Respingem H
0
eroare decizie
corecta
Tip I Tip B
O decizie corecta de tip A: apare cand H
0
este adevarat a si nu respingem H
0
O decizie corecta de tip B: apare cand H
0
este falsa si respingem H
0
O eroare de tip I: apare cand H
0
este adevarat a si H
0
este respinsa
O eroare tip II: apare cand H
0
este falsa si H
0
nu este respinsa
Ar foarte frumos ca de ecare data cand luam decizii sa luam decizii corecte, dar aceasta
este statistic imposibil pentru ca ne bazam pe informat ii furnizate de esantioane. Cel mai
bun lucru la ce putem spera este sa control am riscul sau probabilitatea de a comite o
eroare.
Probabilitatea asignata limitarii comiterii unei erori de tip I se noteaza cu si cea asignata
comiterii unei erori de tip II cu :
Eroarea Tipul de eroare Probabilitate
Respingerea unei ipoteze adevarate I
Acceptarea unei ipoteze false II
Etapa 3 Metodologia de vericare a ipotezelor: aceasta consta din (1)
identicarea unui test statistic; (2) specicarea valorii lui ; (3) de-
terminarea regiunii critice.
(1) Un test statistic este o variabil a aleatoare folosita pentru a respinge
sau nu ipoteza H
0
. Testul statistic este o statistica de esantioane sau
alte valori rezultate dintr-un esantion. Probabilitat ile care apar n acest
test statistic sunt determinate presupunand ca H
0
este adevarata.
39

In cazul exemplului considerat, variabila aleatoare X= num arul de raspunsuri corecte


este folosit ca test statistic. Probabilitat ile pentru ecare valoare x ale variabilei X n
ipoteza ca H
0
este adevarata sunt date n tabelul urmator:
X 0 1 2 3 4 5
P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264
X 6 7 8 9 10
P(X) 0.0055 7.9210
4
7.3810
5
4.09810
6
1.0210
7
Aceasta repartit ie arata ca probabilitatea sa ghicesti raspunsul corect la 5 sau mai multe
ntreb ari este 0.0327, iar la 4 sau mai put in decat 4 ntrebari este 0.9673. Putem spune
ca aparit ia valorilor 5, 6, 7, 8, 9, 10 nu sust ine ipoteza H
0
. Daca cineva spune ca a ghicit
raspunsul corect la 0, 1, 2, 3, 4ntreb ari, spunem ca este foarte probabil. Daca cineva spune
ca a ghicit raspunsul corect la 5, 6, 7, 8, 9, 10 ntrebari spunem ca este put in probabil.
Nivelul de semnicat ie este probabilitatea de a face o eroare de tip I, adica de a
respinge H
0
adevarat.

In mod curent se da la nceput si acesta determina regiunea
critica.

In cazul exemplului, daca = 0.033, atunci din P(x 5) = 0.0327 rezulta
regiunea critica x = 5, 6, 7, 8, 9, 10.
Regiunea critica: este mult imea de valori (W) pentru care P(X W) si care ne
determina sa respingem ipoteza H
0
. (nu sust in ipoteza H
0
)
Valoarea critica: este prima valoare din regiunea critica.
Daca pentru un esantion valoarea testului statistic X depaseste valoarea critica ipoteza
H
0
este respinsa.
Dupa ce Etapa 3 a fost epuizata, putem trece la Etapa 4.
Etapa 4. Determinarea valorii testului statistic
Dupa ce am parcurs etapele 1,2,3 observam sau calculam valoarea x a
testului statistic.

In cazul exemplului x = 7 (num arul de raspunsuri corecte) este valoarea testului sta-
tistic si este dat. Uzual valoarea testului statistic se calculeaza pe baza informat iilor
oferite de esantion.
Etapa 5. Luarea unei decizii si interpretarea ei
Decizia se ia comparand valoarea testului statistic determinata la Etapa
4 cu regiunea critica gasit a la Etapa 3.
Regula de decizie: Daca valoarea testului statistic este n regiunea
critica respingem ipoteza H
0
, daca nu, atunci acceptam ipoteza H
0
.
Ansamblul de valori ale testului statistic care nu sunt n regiunea critica
formeaza regiunea de acceptabilitate. Testul este terminat prin luarea
si justicarea deciziei luate.

In cazul exemplului: x = 7 este n regiunea critica si respingem ipoteza H


0
.
Remarca 14.1. Cu aceasta nu am demonstrat ca Popescu Nicolae nu a ghicit cele 7
raspunsuri. Am aratat doar ca daca el le-a ghicit este foarte norocos pentru ca acesta
este un eveniment rar si are probabilitatea cel mult 0.033.
40
15 Vericarea ipotezelor statistice:
varianta clasica

In sect iunea precedent a am prezentat generalitat i privind vericarea ipotezelor statis-


tice.

In aceasta sect iune trecem la prezentarea vericarii ipotezelor statistice n cazul
asert iunilor referitoare la media a unei populat ii. Pentru a simplica aceasta prezentare
la nceput presupunem ca deviat ia standard a populat iei este cunoscuta.
Urmatoarele trei exemple se refera la diferite formulari ale ipotezei H
0
si a ipotezei H
a
.
Exemplul 15.1. Un ecologist sust ine ca orasul Timisoara are o problema privind poluarea
aerului. Concret, el sust ine ca nivelul mediu al monoxidului de carbon n aer n centrul
orasului depaseste valoarea 4, 9/10
6
= valoarea medie normala.
Pentru a formula n acest caz, ipotezele H
0
si H
a
, trebuie sa identic am: populat ia,
parametrul populat iei n cauza si valoarea cu care aceasta urmeaza sa e comparata.
Populat ian acest caz poate mult imea locurilor din centrul orasului Timisoara. Variabila
X este concentrat ia monoxidului de carbon ale carei valori x variaza n funct ie de loc,
iar parametrul populat iei este valoarea medie a acestei variabile. Valoarea specica cu
care aceasta medie trebuie comparata este 4, 9/10
6
egala cu valoarea (medie) normala.
Ecologistul face o asert iune privind valorea lui . Aceasta valoare poate : < 4, 9/10
6
sau = 4, 9/10
6
sau > 4, 9/10
6
. Cele trei situat ii pot cuprinse n doua armat ii dintre
care una exprima ceea ce ecologistul sust ine, iar cealalta exprima contrariul.
Inegalitatea > 4, 9/10
6
este armat ia: valoarea medie este mai mare ca 4, 9/10
6
.
Inegalitatea 4, 9/10
6
este echivalent a cu < 4, 9/10
6
sau = 4, 9/10
6
si este
armat ia contrar a: valoarea medie nu este mai mare ca 4, 9/10
6
.
Ecologistul sust ine ca > 4, 9/10
6
. Pentru a formula ipoteza H
0
si ipoteza H
a
reamintim
ca:
1)

In general, ipoteza H
0
sust ine ca media (parametrul n chestiune) are o valoare
specica anume.
2) Inferent a privind media a populat iei se bazeaza pe media unui esantion si mediile
esantioanelor au o distribut ie aproximativ normala. (conform teoremei limita
centrala).
3) O distribut ie normala este complet determinata daca valoarea medie si deviat ia
standard a distribut iei sunt cunoscute.
Cele de mai sus sugereaza ca armat ia = 4, 9/10
6
ar trebui sa e ipoteza nul a si armat ia
> 4, 9/10
6
ar trebui sa e ipoteza alternativa:
H
0
: = 4, 9/10
6
H
a
: > 4, 9/10
6
Reamintim ca dupa ce ipoteza nul a H
0
este formulat a, n testul statistic identicat se
presupune ca H
0
este adevarata. Aceasta nseamn a ca = 4, 9/10
6
este egala cu media
41
distribut iei mediilor esantioanelor
x
si este o rat iune n plus pentru care ipoteza H
0
trebuie scrisa doar cu semnul egal
H
0
: = 4, 9/10
6
.
Daca admitem ca armat ia = 4, 9/10
6
sau < 4, 9/10
6
este ipoteza nul a H
0
, atunci:
H
0
: 4, 9/10
6
H
a
: > 4, 9/10
6
.
Remarca 15.1. Semnul egal trebuie sa e inclus totdeauna n ipoteza nula.

In acest
exemplu asert iunea ecologistului este exprimata de fapt n H
a
si aceasta este analizat.
Exemplul 15.2. Vom considera acum o a doua asert iune; de exemplu al Camerei de
Comert , care sust ine ca nivelul mediu al monoxidului de carbon n centrul orasului
Timisoara este mai mic decat 4, 9/10
6
(valoare normala). Aceasta este o reclama buna
pentru turism.
Si n acest caz parametrul este media a repartit iei monoxidului de carbon. Valoarea
specica este 4, 9/10
6
care este valoare normala.
< 4, 9/10
6
valoarea medie este mai mica decat valoarea medie normala
4, 9/10
6
valoarea medie este mai mare sau egala decat valoarea
medie normala
H
0
, H
a
pot formulate astfel:
H
0
: 4, 9/10
6
H
a
: < 4, 9/10
6
Si de data aceasta asert iunea Camerei de Comert este exprimata n H
a
si aceasta trebuie
analizata.
Exemplul 15.3. O a treia asert iune (mai neutra) sust ine doar ca nivelul mediu al
monoxidului de carbon n aerul din centrul orasului Timisoara este diferit de 4, 9/10
6
(valoarea normala diferita de ).

In acest caz:
H
0
: = 4.9/10
6
si H
a
: ,= 4, 9/10
6
Cele trei exemple arata ca asert iunea care trebuie analizata determinantr-un anumit sens
formularea ipotezelor H
0
, H
a
. Mai exact: n aceste cazuri asert iunea sust ine ca valoarea
parametrului este diferita de cea normala, iar ipoteza nula sust ine ca este aceeasi (nu
difera).

In cazul acestor exemple, cei care si formuleaz a asert iunea se asteapt a la respingerea
ipotezei nule H
0
si la acceptarea ipotezei alternative H
a
care este o armat ie conforma cu
asert iunea lor.
Situat iile de la procesele juridice prezinta o oarecare asemanare cu cele relatate. Daca
procurorul nu crede n vinovat ia inculpatului nu intenteaz a proces (ipoteza H
0
prezumt ia
de nevinovat ie este presupusa adevarat a). Procesul se declanseaz a doar daca procurorul
are suciente probe pentru a face proces.
42
Si n statistica daca experimantatorul crede n ipoteza H
0
nu face test pentru investi-
garea lui H
0
. El testeaza ipoteza nula doar daca doreste sa arate ca H
a
este corecta.
Exemplul care urmeaza ilustreaza toate cele cinci etape de vericare a ipotezelor statistice
n cazul unei asert iuni care se refera la media unei populat ii.
Exemplul 15.4. Un profesor a nregistrat pe mai mult i ani rezultatul elevilor si media
a acestor rezultate este 72 si abaterea standard este = 12. Clasa de 36 de elevi pe
care-i nvat a la momentul actual are o medie x = 75, 2 (mai ridicata decat media = 72)
si profesorul arma ca aceasta clasa este superioara celor de pan a acum.

Intrebarea este
daca media clasei x = 75, 2 este un argument sucient pentru a sust ine armat ia profe-
sorului la nivelul de semnicat ie = 0, 05.
Ment ion am ca pentru ca aceasta clasa sa e superioara trebuie sa aibe o medie mai mare
decat toate clasele dinainte. Daca media ei este egala sau mai mica decat media unei
clase anterioare, atunci ea nu este superioara.
Daca se considera esantioane aleatoare de marime n = 36 dintr-o populat ie cu media
= 72, multe esantioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.
Doar medii x care sunt considerabil mai mari decat 72 vor sust ine armat ia profesorului.
De aceea:
Etapa 1. H
0
:
x
= = 72 clasa nu este superioara
Etapa 2. H
a
:
x
= > 72 clasa este superioara
Etapa 3. - Atunci cand n ipoteza nul a H
0
media populat iei si deviat ia
standard sunt cunoscute scorul standard z este folosit ca si test
statistic.
- Nivelul de semnicat ie = 0, 05 este dat;
- Reamintim ca n baza teoremei limita central a distribut ia
mediilor esantioanelor este aproape normala. Prin urmare,
distribut ia normala va folosita pentru determinarea regiu-
nii critice. Regiunea critica este egala cu mult imea valo-
rilor scorului standard z care determina respingerea ipotezei
H
0
si este situata la extremitatea dreapta a distribut iei nor-
male. Regiunea critica este la dreapta deoarece valori mari
ale mediei esantionului sust in ipoteza H
0
n timp ce valori
apropiate ori sub 72 sust in ipoteza nul a.
Figura 1:
43
Valoarea critica ce desparte zona valorilor nu este superior de zona valorilor este su-
perior este determinata de probabilitatea de a comite o eroare de tip I. = 0, 05 a
fost data. Astfel regiunea critica hasurat a pe Figura 2. are aria 0, 05 si valoarea critica
1, 65 este solut ia ecuat iei:
1

_
z
e

t
2
2
dt = 0, 05.
Figura 2:
Etapa 4. Valoarea testului statistic este dat de:
z

=
x

n
=
75, 2 72
12/6
= 1, 6
Etapa 5. Comparam valoarea gasit a 1, 6 cu valoarea critica 1, 65 si gasim 1, 6 <
1, 65. Decizia este ca nu putem respinge ipoteza H
0
. Testul se ncheie
cu formularea concluziei.
Concluzie: Probele nu sunt suciente pentru a sust ine ca actuala clasa
este superioara claselor anterioare.
Pare aceasta concluzie realista n condit iile n care n mod evident, 75, 2 este mai mare
ca 72. Nu trebuie sa uitam x = 75, 2 este media unui esantion de 36 de indivizi extras
dintr-o populat ie cu media = 72 si deviat ia standard = 12 si analiza arata ca proba-
bilitatea ca media esantionului sa e mai mare decat mediile tuturor esantioanelor este
mai mare decat riscul cu care noi acceptam o eroare de tip I.
Exemplul 15.5. La un colegiu s-a stabilit ca greutatea medie a studentelor este = 54, 4
kg, iar abaterea standard = 5, 4 kg. Profesorul de sport nu crede aceasta armat ie.
Pentru a face un test select ioneaz a un esantion aleator de 100 de studente si gaseste ca
media x = 53, 75 kg. Este aceasta sucient pentru a respinge armat ia la nivelul de
semnicat ie = 0, 05?
Etapa 1. H
0
: = 54, 4 kg
Etapa 2. H
a
: ,= 54, 4 kg
44
Etapa 3. - deoarece folosim o distribut ie de medii de esantioane testul statistic
va scorul standard.
- nivelul = 0, 05 este dat;
- media esantionului este o estimare a mediei populat iei. Ipoteza
alternativa nu este egal este sust inuta de medii de esantioane
considerabil mai mari sau considerabil mai mici ca 54, 4. ipoteza nul a
este sust inut a de medii de esantioane n jurul valorii 54, 4. Regiunea
critica este formata din doua part i egale situate la cele doua extremitat i
ale distribut iei normale. Aria corespunzatoare ecarei port iuni este

2
si probabilitatea ecarei part i a regiunii critice este 0, 025. Rezulta
z
_

2
_
= 1, 96
_
_
_
z
_

2
_
este solut ia ecuat iei:
1

_
z
e

t
2
2
dt =

2
_
_
_
.
Figura 3:
Etapa 4. Se determina valoarea testului statistic:
z

=
x

n
= 1, 204
a carei locat ie este data pe gura urmatoare:
45
Figura 4:
Reamintim: Daca valoarea testului statistic este n regiunea critica respingem ipoteza
H
0
daca nu, nu putem respinge ipoteza H
0
.
Etapa 5. Valoarea testului statistic nu este n regiunea critica.
Decizia: Nu respingem ipoteza H
0
.
Justicarea deciziei: Valoarea testului nu este n dezacord cu H
0
la
nivel de risc = 0, 05. Aceasta nu nseamn a ca H
0
este adevarata.
Concluzie: Media x gasit a de profesor nu contravine ipotezei ca media este 54,4
kg, cand dispersia este 5, 4 kg.
O decizie de respingere a lui H
0
nseamna ca valoarea testului implica ca H
0
este falsa si
indica H
a
.
Rezumat privind vericarea ipotezelor statistice asupra mediei n varianta
clasica:
1. Ipoteza H
0
specica o valoare particulara a mediei populat iei.
2. Ipoteza H
a
are trei forme. Fiecare dintre acestea determina o locat ie specica a
regiunii critice asa cum apare n tabelul de mai jos:
Semne n ipoteza < ,= >
alternativa
Regiunea critica O regiune Doua regiuni O regiune
la stanga de ecare la dreapta
parte cate una
test unilateral test bilateral test unilateral
stanga dreapta
3. Pentru multe cazuri semnul din ipoteza H
a
indica direct ia n care regiunea critica
se gaseste
Valoarea lui se numeste nivel de semnicat ie si reprezinta riscul (probabilitatea)
respingerii lui H
0
atunci cand aceasta estea adevarata. Nu putem determina
46
daca ipoteza H
0
este adevarata sau falsa. Putem doar decide ca o respingem
sau ca o acceptam.
Probabilitatea cu care respingem ipoteza adevarata este , dar nu stim probabilitatea cu
care facem o decizie eronata. O eroare de tip I si o eroare n decizie sunt lucruri diferite.
47
16 Vericarea ipotezelor statistice:
varianta probabilista

In sect iunea precedent a am descris varianta clasica de vericare a ipotezelor statistice


n cazul asert iunilor referitoare la media a unei populat ii. O variant a probabilista
consta n determinarea unei probabilitat i numita p-valoarea (prob-valoare) referitoare
la o statistica observat a, care este comparata cu nivelul de semnicat ie dat.
Denit ia 16.1. P-valoarea unui test statistic este cea mai mica valoare a nivelului
de semnicat ie pentru care informat ia extrasa din esantion este semnicativa (H
0
adevarata se respinge).
Consideram din nou exemplul 15.4 din sect iunea precedent a si-l analizam din acest punct
de vedere.
Exemplul 16.1. Un profesor a nregistrat pe mai mult i ani rezultatul elevilor si media
a acestor rezultate este 72 si dispersia = 12. Clasa de 36 de elevi pe care-i nvat a
la momentul actual are o medie x = 75, 2 . Aceasta medie ind mai ridicata decat 72
profesorul vrea sa arate ca aceasta clasa este superioara celor de pan a acum.

Intrebarea
este daca media clasei x = 75, 2 este un argument sucient pentru a sust ine armat ia
profesorului la nivelul de semnicat ie = 0, 05?
Precizam ca pentru a putea sust ine ca actuala clasa este mai buna decat toate celelalte
clase anterioare trebuie ca media clasei actuale sa e mai mare decat media oricarei clase
dinainte. Daca media clasei actuale este mai mica sau egala cu media unei clase anterioare,
atunci clasa actuala nu este mai buna decat toate celelalte.
Etapa 1. Formularea ipotezei H
0
: H
0
:
x
= = 72.
Aceasta ipoteza corespunde asert iunii ca actuala clasa nu este superioara
celorlalte clase.
Etapa 2. Formularea ipotezei alternative H
a
: H
a
:
x
= > 72.
Aceasta ipoteza corespunde asert iunii ca actuala clasa este superioara
celorlalte clase.
Remarcam faptul ca etapele 1 si 2 sunt aceleasi n variant a probabilista ca si n varianta
clasica de vericare a ipotezelor statistice.
Etapa 3. Specicarea nivelului de semnicat ie , a probabilitat ii erorii de tip I:
= 0, 005.
Etapa 4. Folosind formula scorului standard (z-scorului) si media x = 75, 2 a
esantionului de marime n = 36 se determina valoarea testului statistic:
z

=
x

n
= 1, 60
Remarcam aici ca Etapa 4 n varianta probabilista este aceeasi ca si
varianta clasica de vericare a ipotezelor statistice.
48
Etapa 5. Se reprezint a distribut ia normala a mediilor (testul statistic) n acest
caz si se localizeaza valoarea z

determinata n Etapa 4 (care mparte


distribut ia n doua part i) si se determina care parte a distribut iei
reprezint a pvaloarea.
Dupa care se determina pvaloarea. Ipoteza alternativa H
a
arata ca n
cazul nostru:
p = P(z > z

) = P(z > 1, 6) = 0, 0548


Etapa 6. p-valoarea n cazul nostru este 0, 0548. Prin urmare pentru
orice nivel de semnicat ie 0, 0548 nu putem respinge
ipoteza nul a si concluzia este ca nu avem probe suciente pen-
tru a demonstra superioritatea clasei actuale. Daca nsa nivelul de
semnicat ie xat la nceput este mai mare ca 0, 0548 (de ex. = 0, 1)
atunci decizia noastra va de respingere a ipotezei H
0
si concluzia de
superioritate a clasei actuale.
Figura 5:

Inainte sa trecem la un al doilea exemplu recapitulam cateva detalii privind vericarea


ipotezelor statistice n varianta probabilista:
1. Ipotezele H
0
si H
a
se formuleaza n aceeasi maniera ca si n varianta clasica.
2. Se specica nivelul de semnicat ie care va folosit.
3. Valoarea testului statistic se calculeazan Etapa 4 de aceeasi maniera can varianta
clasica.
4. P-valoarea este aria aatantre curba de densitate de probabilitate axa Oz si z = z

.
Exista trei cazuri posibile: doua unilaterale si unul bilateral. Direct ia (sau semnul)
n ipoteza H
a
este indiciul:
Cazul 1. Daca H
a
este unilaterala la dreapta ( > ) atunci p = P(z > z

) si aria este
n dreapta lui z

.
Cazul 2. Daca H
a
este unilaterala stanga ( < ), atunci p = P(z < z

) este aria din


stanga lui z

.
Cazul 3. Daca H
a
este bilaterala ( ,= ), atunci p = P(z < [z

[) + P(z > [z

[) =
2 P(z > [z

[)
49
5. Decizia se ia comparand P-valoarea cu nivelul de semnicat ie :
a) Daca P atunci H
0
se respinge;
b) Daca P > atunci H
0
se accepta.
6. Concluzia se formuleaza de aceeasi maniera ca si n varianta clasica.
Consideram acum un exemplu n care H
a
este bilateral.
Exemplul 16.2. Companii mari folosesc agent ii specializate pentru a testa candidat ii
care doresc sa e angajat i. Agent ia A foloseste un test de select ie pentru care n decursul
timpului s-a stabilit o medie de 82 si o deviat ie standard de 8. Agent ia B a dezvoltat
o noua metoda de testare care este mai rapida, mai usor de aplicat si costa mai put in.
Agent ia B sust ine ca testul lor da aceleasi rezultate ca si testul agent iei A.
Mai multe companii, pentru a reduce costul, se gandesc sa treaca de la agent ia A la
agent ia B, dar ei nu doresc sa faca aceasta trecere daca media cu teste B difera de cea
cu teste A. O agent ie independenta C a testat cu noul test 36 de indivizi si a obt inut o
medie de 80.
Care este pvaloarea asociata acestui test?
Rezultatul testului agent iei B este acelasi daca = 82 si este diferit daca ,= 82. Prin
urmare:
Etapa 1. H
0
: = 82 (testele au aceeasi medie)
Etapa 2. H
a
: ,= 82 (testele au medii diferite)
Etapa 3. Este omisa daca se cere p-valoarea fara luarea unei decizii.
Etapa 4. Informat ia din esantion: n = 36 si x = 80:
z

=
x

n
=
2
8
6
=
12
8
=
3
2
= 1.5
Etapa 5. Se localizeaza z

pe o distribut ie normala si deoarece H


a
este bilateral
vom considera P(z < [z

[) si P(z > [z

[) si obt inem:
p = P(z < 1, 50) + P(z > 1, 50)
= 0, 5 0, 4332 + 0, 5 0, 4332 = 0, 1336
deci p valoarea este 0, 1336.
50
Figura 6:
Fiecare companie va lua propria decizie: a) continua cu A sau b) schimba si trece la
B. Fiecare va trebui sa stabileasca propriul nivel de semnicat ie si sa ia o decizie n
consecint a.
51
17 Inferent a statistica privind media populat iei daca
nu se cunoaste abaterea standard a populat iei
Pana acum am prezentat doua tipuri de inferent a statistica privind media populat iei:
evaluarea intervalului de ncredere si vericarea ipotezelor statistice.

In cele doua
tipuri de inferent e statistice abaterea standard este considerata cunoscuta.

In general
ns a abaterea standard nu este cunoscuta. Subiectul acestei sect iuni este inferent a
statistica privind media daca abaterea standard nu este cunoscuta.
Daca dimensiunea esantionului este sucient de mare (n general vorbind, esantioane
a caror marimi este mai mare decat n = 30 de date sunt considerate sucient de mari),
deviat ia standard s a esantionului este o estimare buna a deviat iei standard a populat iei si
putem susbstitui cu s n procedura discutata deja. Daca populat ia pe care o investig am
este aproape normala si n 30, atunci procedeul se bazeaza pe distribut ia Student t.
Distribut ia Student t (sau simplu t distribut ia) este distribut ia statisticii t, denita prin:
t =
x
s

In anul 1908 W.S. Gosset un funct ionar la o fabrica de bere n Irlanda a publicat o
lucrare relativa la aceasta distribut ie sub pseudonimul Student.

In lucrarea lui Gosset
se presupune ca populat ia este normala. Aceasta restrict ie s-a dovedit ulterior restrictiva,
ntruc at se obt in rezultate satisfacatoare si pentru multe populat ii care nu sunt normale.
Ecuat ia care deneste distribut ia t nu o dam aici, doar dam cateva proprietat i ale lui t:
1) distribut ia t are media 0;
2) distribut ia t este simetrica fat a de medie;
3) distribut ia t are variant a supraunitara, dar daca dimensiunea esantionului creste,
variant a tinde la 1;
4) distribut ia t n jurul mediei este sub si departe de medie este deasupra distribut iei
normale;
5) ecarei marimi de esantion i corespunde o distribut ie t separata care depinde de
marimea esantionului. Daca marimea esantionului creste atunci t- distribut ia tinde
la distribut ia normala.
52
Figura 7:
Cu toate ca pentru ecare marime de esantion (n=2,3,4,...) avem o distribut ie t separata
completa, n practica doar anumite valori critice ale lui t sunt folosite. Aceste valori critice
aate n dreapta mediei sunt redate n tabelul urmator:
0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6
2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073
16 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015
53
0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922
19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659
z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646
Figura 8:

In acest tabel df are valorile de la 1 la 29 si este num arul gradelor de libertate.


Apropierea valorilor din liniile corespunzatoare lui df = 29 si z se datoreaza faptului
ca daca n 30 distribut ia t este cea normala (teorema limita centrala).
Gradul de libertate df este un parametru statistic care este greu de denit. El este un
indice care se foloseste pentru a identica distribut ia care trebuie folosita.

In considerat iile
noastre df = n 1, unde n este marimea esantionului. Valoarea critica a testului t care
trebuie folosita n estimarea intervalului de ncredere precum si n vericarea ipotezelor
statistice se obt ine din tabelul prezentat. Pentru a obt ine aceasta valoare este nevoie de
a cunoaste:
1) df - numarul gradelor de libertate;
2) aria determinata de curba de repartit ie aata n dreapta valorii critice. Aceasta
valoare este notata t(df, ).
54
Exemplul 17.1. Determinat i t(10, 0.05) din tabel. Avem df = 10 si = 0.05, deci
t(10, 0.05) = 1.81.
Valorile critice ale testului statistic t aate n stanga mediei se obt in cu formula: t(df, ),
t in and seama de simetria distribut iei t.
Figura 9:
Se observa usor ca t(df, ) = t(df, 1 ). Astfel: t(df; 0, 05) = t(df; 0, 95).
Exemplul 17.2. Determinat i t(15; 0, 95). Avem: t(15; 0, 95) = t(15; 0, 05) = 1, 75.
Figura 10:
Statistica t este folosita n vericarea ipotezelor statistice privind asert iuni relative la
media de aceeasi maniera ca si statistica z.
Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere al
ecologistului este: nivelul monoxidului de carbon n aer este mai mare decat 4, 9/10
6
.
Un esantion de 25 de determinari cu media x = 5, 1/10
6
si s = 2, 1/10
6
este un argument
sucient pentru a sust ine armat ia? Se foloseste nivelul de semnicat ie = 0, 05.
Etapa 1. H
0
: = 4, 9/10
6
Etapa 2. H
a
: > 4, 9/10
6
55
Etapa 3. = 0, 05; df = 25 1 = 24 si t(24; 0, 05) = 1, 71 din tabel.
Etapa 4.
t

=
x
s

n
=
5, 1 4, 9
2, 1/

25
=
0, 20
0, 42
= 0, 476 0, 48
Etapa 5. Decizia: Nu putem respinge H
0
(t

nu este n regiunea critica).


Concluzie: Nu avem suciente argumente pentru ca sa respingem
ipoteza ca nivelul monoxidului de carbon este 4, 96/10
6
.
Figura 11:
Remarca 17.1. Daca valoarea df (df = n 1) este mai mare ca 29, atunci valoarea
critica a lui t(df, ) este foarte apropiata de z() (scorul z este listat la capatul tabelului)
si prin urmare n loc de t(df, ) se foloseste z(). Deoarece tabelul considerat cont ine doar
valorile critice ale distribut iei t, p-valoarea nu poate gasita din tabel n cazul vericarii
ipotezei statistice pentru ca aceasta necesita distribut ia t completa. P-valoarea poate
ns a estimata folosind tabelul.
Exemplul 17.4. Sa revenim la exemplul 17.3. Ret inem t

= 0, 48, df = 24 si H
a
: > 49.
Astfel pentru a rezolva problema folosind varianta probabilista pentru Etapa 5 cu p-
valoarea avem:
p = P(t > 0, 48, stiind df = 24)
56
Figura 12:
Randul df = 24 din tabel arata ca p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 din
tabel arata ca P(t > 0, 685) = 0, 25 asa cum arata gura urmatoare:
Figura 13:
Comparand t

= 0, 48, vedem ca p valoarea este mai mare ca 0, 25.


Exemplul 17.5. Sa se determine pvaloarea pentru urmatoarea ipoteza statistica:
H
0
: = 55
H
a
: ,= 55
n condit iile n care df = 15 si t

= 1, 84.
Solut ie: p = P(t < 1, 84) + P(t > 1, 84) = 2 P(t > 1, 84). Randul df = 15 din tabel
arata ca P(t > 1, 84) este ntre 0, 025 si 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.
Media populat iei poate estimata daca este necunoscut de o maniera similara cu cazul
cunoscut. Diferent a este ca se foloseste distribut ia t n loc de distribut ia z si deviat ia
standard s ca estimare a lui . Formula pentru intervalul de ncredere 1 este:
_
x t(df,

2
)
s

n
, x + t(df,

2
)
s

n
_
57
Figura 14:
unde df = n 1.
Exemplul 17.6.

In cazul unui esantion aleator de 20 de noi nascut i, media greutat ii lor
este 3, 4 kg si deviat ia standard este 0, 9 kg. Sa se estimeze cu o ncredere de 95% media
greutat ii noilor nascut i.
Solut ie: x = 3, 4 kg, s = 0, 9 kg si n = 20, iar 1 = 0, 95, implica: = 0, 05; df = 19,
iar din tabel gasim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:
x t(19; 0, 025)
s

n
= 3, 4 2, 09
0, 9

20
3, 4 2, 09
0, 9
4, 472
= 3, 4 0, 46
Intervalul de ncredere de 95% este (2, 94; 3, 86).
58
18 Inferent a relativa la variant a si estimarea variant ei
Adesea se pun probleme care cer sa facem inferent a asupra variant ei. De exemplu, o
companie de produse racoritoare are o masin a de mbuteliat, care umple cu racoritoare
butelii de 0, 32 l= 32 cl. Cantitatea medie pusa n ecare butelie este importanta, dar
cantitatea medie corecta nu asigura ca masina lucreaza corect. Daca variant a este mare,
vor multe butelii care sunt prea umplute si multe butelii care nu sunt bine umplute.
De aceea, compania doreste sa controleze variant a
2
a cantitat ii x de racoritoare pusa n
ecare butelie si sa ment ina variant a la un nivel cat mai scazut posibil.
Vom prezenta n aceasta sect iune o inferent a privind variant a unei populat ii. Adesea n
cazul acestei inferent e se vorbeste despre deviat ia standard n loc de variant a. Trebuie sa
subliniem ca deviat ia standard este rad acina patrata a variant ei; asadar a vorbi despre
variant a este comparabil cu a vorbi despre deviat ie standard.
Sa revenim la exemplul companiei de produse racoritoare. Sa ne imaginam ca aceasta
companie doreste sa detecteze cand variabilitatea cantitat ii de racoritoare pusa n ecare
butelie scapa de sub control. O variant a de 0, 0004 este considerata acceptabila si
compania va regla masina de mbuteliat daca variant a devine mai mare decat aceasta
valoare. Decizia va luata folosind vericarea ipotezelor statistice. Ipoteza H
0
este ca
variant a are valoarea 0, 0004, iar ipoteza H
a
este ca variant a depaseste valoarea 0, 0004:
H
0
:
2
= 0, 0004 (variant a este controlat a)
H
a
:
2
> 0, 0004 (variant a nu este controlata)
Testul statistic care va folosit pentru a lua o decizie asupra ipotezei H
0
este testul
2
.
Valoarea calculata a lui
2
se va obt ine folosind formula:

2
=
n s
2

2
unde s
2
este variant a esantionului, n este marimea esantionului, iar
2
este valoarea
specicata n ipoteza nul a.
Daca se iau esantioane de marime n dintr-o populat ie normala, avand varianta
2
, atunci
cantitatea n s
2
/
2
are o distribut ie care se numeste distribut ia
2
. Formula care deneste
distribut ia
2
nu o vom da aici, dar pentru a folosi distribut ia
2
, prezentam urmatoarele
proprietat i ale acesteia:
1. distribut ia
2
are valori nenegative, este zero sau este pozitiva;
2. distribut ia
2
nu este simetrica, este asimetrica la dreapta;
3. exista mai multe repartit ii
2
. Ca si pentru distribut iile t exista o distribut ie
2
pentru ecare grad de libertate. Inferent a pe care o discutam aici se refera la cazul
df = n 1.
Valorile critice ale lui
2
sunt date n tabelul urmator:
59
df/ 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.005
2 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.6
3 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.9
4 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.9
5 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.8
6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.6
7 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3
8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.0
9 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.6
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2
11 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.8
12 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.3
13 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.8
14 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3
15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8
16 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.3
17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.7
18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.2
19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.6
20 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.0
21 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.4
22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.8
23 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.2
24 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.6
25 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.9
26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.3
27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.7
28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.0
29 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.3
30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.7
40 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.8
50 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.5
60 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.0
70 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.0
80 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.0
90 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0
100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0
60
Figura 15:
Valorile critice vor identicate prin doua valori: grade de libertate si aria situata sub
curba n dreapta valorii critice. Astfel
2
(df, ) este simbolul folosit pentru identicarea
valorii critice
2
cu df grade de libertate si cu aria sub grac si n dreapta, asa cum
este prezentat pe gura urmatoare:
Figura 16:
Exemplul 18.1. Folosind tabelul determinat i
2
(20; 0, 05) si
2
(14; 0, 90).
Din tabel se obt ine:
2
(20; 0, 05) = 31, 4 si
2
(14; 0, 90) = 7, 79.
Remarca 18.1. Daca df > 2 valoarea medie a lui
2
este df. Valoarea medie este
localizata n dreapta modului (locul n care curba atinge valoarea maxima).
61
Figura 17:
Exemplul 18.2. Reluam cazul companiei de produse racoritoare care doresc sa controleze
variant a ca sa nu depaseasc a 0, 0004. Un esantion de marime 28 cu o variant a de 0, 0010
indica oare la nivelul de semnicat ie 0, 05 ca procesul de mbuteliere nu este sub control
(referitor la variant a)?
Solut ie:
Etapa 1. H
0
:
2
= 0, 0004 (procesul este sub control)
Etapa 2. H
0
:
2
> 0, 0004 (procesul nu este sub control)
Etapa 3. = 0, 05, n = 28, df = 27 si obt inem din tabel:

2
(27; 0, 005) = 40, 1.
Etapa 4.

=
n s
2

2
=
28 0, 0010
0, 0004
= 70
Etapa 5. Luarea deciziei.
Figura 18:
62
Concluzia: Procesul de mbuteliere este sub control n ceea ce priveste variant a.
Exemplul 18.3. Specicat iile unui anumit medicament indica ca ecare comprimat
trebuie sa cont in a 2,5 g de substant a activa. 100 de comprimate alese la nt amplare
din product ie sunt analizate. Ele cont in n media 2,6 g de substant a activa cu o deviat ia
standard de s = 0, 4g.
Se poate spune ca medicamentul respecta specicat iile ( = 0, 05)?
Etapa 1. Ipoteza H
0
este ca medicamentul respecta specicat iile:
H
0
: = 2, 5
Etapa 2. Ipoteza H
a
este ca medicamentul nu respecta specicat iile:
H
0
: ,= 2, 5
Etapa 3. Statistica folosita este media x, iar nivelul de semnicat ie este = 0, 05.
Regiunea critica este:
Etapa 4. Testul statistic este:
z =
x
s

n
=
2, 6 2, 5
0, 4
10
=
0, 1
0, 04
= 2, 5
Valoarea lui z n tabel este: z
0,975
= 1, 96 < 2, 5.
Etapa 5. Ipoteza H
0
este respinsa, asadar nu putem spune ca medicamentul
respecta specicat iile.
Abordarea probabilista a inferent ei statistice asupra variant ei, p-valoarea poate estimata
pentru vericarea ipotezelor statistice folosind tabelul statistic
2
de aceeasi maniera ca
si n cazul testului Student.
Exemplul 18.4. Sa se determine p-valoarea n cazul urmatoarelor ipoteze statistice:
H
0
:
2
= 150
H
a
:
2
> 150
Se cunosc: df = 18 si
2

= 32, 7.
Solut ie: p = P(
2
> 32, 7) (0, 010; 0, 025) (date citite din tabel).
Exemplul 18.5. Un parametru folosit n determinarea utilitat ii unui examen ca masura
a abilitat ii student ilor este mpr astierea rezultatelor. Un set de rezultate al unui test
are valoare mica daca plaja notelor este mica. Din contr a daca plaja notelor este mare,
este o diferent a mare ntre rezultatul cel mai bun si rezultatul cel mai slab, atunci testul
are valoare mai mare. La un test la care nota maxima este de 100 de puncte s-a pretins
ca o deviat ie standard de 12 puncte este de dorit. Pentru a vedea daca un anume test
de o ora a fost sau nu un test bun din acest punct de vedere un profesor veric a aceasta
ipoteza statistica la nivelul de semnicat ie = 0, 05 folosind rezultatele obt inute de clasa.
Au fost 28 de rezultate si deviat ia standard gasita a fost 10, 5. Constituie aceasta o proba
la nivelul de semnicat ie = 0, 05 ca examenul nu are deviat ia standard specicata?
Solut ie: n = 28, s = 10, 5 si = 0, 05
Etapa 1. H
0
: = 12
63
Etapa 2. H
0
: ,= 12
Etapa 3. = 0, 05, df = 27 si obt inem valorile critice din tabel:

2
1
(27; 0, 975) = 14, 6 si
2
2
(27; 0, 025) = 43, 2.
Etapa 4.

=
n s
2

2
=
28 (10, 5)
2
(12)
2
=
3087
144
= 21, 43
Etapa 5. Nu se poate respinge H
0
.
Concluzie: Nu avem probe suciente pentru a respinge ipoteza H
0
64
19 Generalitat i despre corelat ie.
Corelat ie liniara

In statistica adesea apar probleme de genul urmator: pentru aceeasi populat ie avem doua
seturi de date corespunzatoare la doua variabile distincte si se pune ntrebarea daca ntre
cele doua variabile exista vreo legatura (relat ie)? Daca da, care este aceasta relat ie? Cum
sunt aceste variabile corelate? Relat iile pe care le discutam aici nu sunt neaparat de tip
cauza-efect. Ele sunt relat ii matematice care permit anticiparea comportamentului unei
variabile n funct ie de comportamentul celeilalte. Iata cateva exemple:
Exemplul 19.1.
-

In general o persoana care crestennalt ime creste si n greutate. Se punentrebarea:
exista vreo relat ie ntre nalt ime si greutate?
- Student ii si petrec timpul la universitate nv at and sau dand examene. Se pune
ntrebarea: studiind mai mult, obt ii note mai mari?
- Doctorii care testeaza un nou medicament prescriu cantitat i diferite si observa
raspunsul pacient ilor; se pune ntrebarea: cantitatea de medicament prescrisa
determina oare timpul de ns anatosire al pacientului?
Problemele din exemplul precedent cer analiza corelat iei dintre doua variabile.

In cazul n care pentru o populat ie avem doua seturi de date corespunzatoare la doua
variabile distincte se formeaza perechile de date (x, y), n care x este valoarea primei
variabile si y este valoarea celei de-a doua variabile. De exemplu, x este nat imea si y este
greutatea.
O pereche ordonata de date (x, y) se numeste data bidimensionala.

In mod tradit ional, variabila X (av and valorile x) se numeste variabila de intrare
(variabila independenta), iar variabila Y (avand valorile y) se numeste variabila de
iesire (variabila dependenta).
Variabila de intrare X este cea masurat a sau controlat a pentru a prezice variabila Y .

In cazul testarii medicamentului doctorii (masoara) controleaz a cantitatea de medicament


prescrisa si deci aceasta cantitate x este valoarea variabilei de intrare (independent a) X.
Timpul de recuperare y este valoarea variabilei de iesire (dependente) Y .

In cazul nalt imii si greutat ii oricare din variabile poate atat variabil a de intrare cat si
variabila de iesire. Rezultatele analizei vor nsa funct ie de alegerea facut a.

In cazul problemelor de analiza a corelat iei dintre doua variabile datele esantionului se
prezint a sub forma unei diagrame de mpr astiere.
Denit ia 19.1. O diagrama de mprastiere sau nor de puncte este reprezentarea
graca a perechilor de datentr-un sistem de coordonate ortogonal. Valorile x ale variabilei
de intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei de iesire Y sunt
reprezentate pe axa Oy.
65
Exemplul 19.2. Pentru un esantion de 15 student i urmatorul tabel de date reprezinta
num arul de ore de studiu x pentru un examen si nota y obt inuta la acel examen:
x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8
y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9
Diagrama de mpr astiere n acest caz este:
Exemplul 19.3. Diagrama de mprastiere n cazul tabelului de date:
x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8
y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9
este:
Analiza de corelat ie are ca obiectiv sa stabileasca legatura dintre cele doua variabile.
Vom prezenta cateva diagrame de mprastiere pentru a ilustra corelat ii posibile dintre
variabila de intrare X si variabila de iesire Y .
Denit ia 19.2. Daca pentru valorile x crescande ale variabilei de intrare X nu exista o
deplasare clara (bine denita) ale valorilor y ale variabilei Y , atunci zicem ca nu avem
corelat ie sau ca nu exista legatura ntre X si Y .
66
Diagrama de mpr astiere n cazul n care nu avem corelat ie este urmatoarea:
Denit ia 19.3. Daca pentru valorile x crescande ale variabilei de intrare X exista o
deplasare clara (bine denita) ale valorilor y ale variabilei Y zicem ca avem o corelat ie.
Zicem ca avem o corelat ie pozitiva daca y tinde sa creasca si avem o corelat ie
negativa daca y tinde sa descreasca odata cu cresterea lui x.
Precizia schimbarii lui y atunci cand x creste determina cat de puternica este corelat ia.
Diagramele de mpr astiere care urmeaza ilustreaza aceste idei:
Figura 19: Diagrama de mpr astiere n cazul unei corelat ii pozitive
67
Figura 20: Diagrama de mprastiere n cazul unei corelat ii pozitive stranse
Figura 21: Diagrama de mpr astiere n cazul unei corelat ii negative
Figura 22: Diagrama de mpr astiere n cazul unei corelat ii negative stranse
Denit ia 19.4. Daca perechile (x, y) tind sa urmeze o dreapta zicem ca avem o corelat ie
liniara.
Denit ia 19.5. Daca toate perechile (x, y) se gasesc pe o dreapta (care nu este nici
orizontal a nici vertical a) atunci zicem ca avem o corelat ie liniara perfecta.
68
Figura 23: Diagrama de mpr astiere n cazul unei corelat ii pozitive liniare perfecte
Remarca 19.1. Daca toate perechile (x, y) se gasesc pe o dreapta orizontala sau verticala
nu exista corelat ie intre cele doua variabile. Aceasta ntruc at schimbarea uneia nu
afecteaza valoarea celeilalte variabile.
Remarca 19.2. Diagramele de mpr astiere nu sunt totdeauna de genul celor prezentate
pana acum si sugereaza corelat ii care sunt de alta natura.
Figura 24: Diagrama de mpr astiere n cazul unei corelat ii neliniare
Denit ia 19.6. Coecientul de corelat ie liniara r masoara cat de puternica este
corelat ia liniara dintre cele doua variabile. Reecta consistent a efectului pe care-l are
schimbarea valorii variabilei independente X asupra variabilei dependente Y .
Remarca 19.3. Valoarea coecientului de corelat ie liniara r permite sa se formuleze
un raspuns la ntrebarea: exista o corelat ie liniara ntre cele doua variabile considerate?
Coecientul de corelat ie liniara r are valoarea ntre 1 si +1. Valoarea r = +1 nseamn a
o corelat ie liniara pozitiva perfecta, iar valoarea r = 1 nseamn a o corelat ie liniara
negativa perfecta.
Daca pentru x crescand rezulta o crestere generala a valorilor lui y, atunci r indica o
corelat ie liniara pozitiva.
De exemplu, n cazul copiilor daca x este varsta si y este n alt imea, atunci ne asteptam ca
r sa e pozitiv, pentru ca n mod natural, n at imea copilului creste o data cu varsta.

In
69
cazul automobilelor de serie, daca x este varsta, iar y este valoarea, atunci ne astept am
ca r sa e negativ pentru ca n mod uzual valoarea automobilului descreste cu varsta lui.
Denit ia 19.7. Coecientul de corelat ie liniara r n cazul unui esantion este prin
denit ie:
r =

(x x) (y y)
n s
x
s
y
n care s
x
, s
y
sunt deviat iile standard ale variabilelor x, y, iar n este numarul de perechi
(x, y).
Remarca 19.4. Pentru a calcula r de obicei se foloseste o formul a alternativa echivalenta:
r =
SS(x, y)
_
SS(x) SS(Y )
unde: SS(x) =

x
2

1
n

_

x
_
2
, SS(y) =

y
2

1
n

_

y
_
2
, SS(x, y) =

x y
1
n

_

y
_
.
Exemplul 19.4. Sa se determine coecientul de corelat ie liniara r n cazul unui esantion
aleator de marime 10, daca tabelul de date este:
x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43
Folosind aceste date avem:
SS(x) = 1396, 9 SS(y) = 858, 0 SS(x, y) = 919, 0
de unde gasim:
r =
919, 0
_
(1396, 9) (858, 0)
= 0, 8394 0, 84.
Remarca 19.5. Daca valoarea calculata r este apropiata de 0, atunci nu exista corelat ie
liniara.
Daca valoarea calculata r este aproape de +1 sau 1, atunci banuim ca ntre cele doua
variabile exista corelat ie liniara.

Intre 0 si 1 exista o valoare numit a punct de decizie care indica daca exista sau nu exista
corelat ie liniara. Un punct simetric exista si ntre 1 si 0. Valoarea punctului de decizie
depinde de marimea esantionului.

In tabelul urmator sunt trecute puncte de decizie pozitive pentru diferite marimi de
esantionare cuprinse ntre 5 si 100.
70
n punct de n punct de n punct de n punct de
decizie decizie decizie decizie
5 0,878 12 0,576 19 0,456 30 0,301
6 0,811 13 0,553 20 0,444 40 0,312
7 0,754 14 0,532 22 0,423 50 0,279
8 0,707 15 0,514 24 0,404 60 0,254
9 0,666 16 0,497 26 0,388 80 0,220
10 0,632 17 0,482 28 0,374 100 0,196
11 0,602 18 0,468
Tabelul 1:Punctele de decizie pozitive pentru corelat ie liniara
Valorile punctelor de decizie descresc daca n creste.
Daca r se gaseste ntre punctul de decizie negativ si cel pozitiv nu avem argumente ca sa
sust inem ca ntre cele doua variabile exista o corelat ie liniara.
Daca r este mai mare decat punctul de decizie pozitiv sau mai mic decat punctul de
decizie negativ atunci ntre cele doua variabile exista o corelat ie liniara.
Existent a unei corelat ii ntre cele doua variabile nunseamna ca exista o relat ie
cauza efect. Astfel, de exemplu, daca X este alocat ia pentru copii n ultimii 10 ani si
Y este consumul de bauturi alcoolice n ultimii 10 ani, un esantion de aceste date arata
o corelat ie pozitiva stransa fara ca alocat ia pentru copii sa e cauza vanzarii bauturilor
alcoolice sau viceversa.
O metoda rapida de estimare a coecientului de corelat ie liniara r n cazul unui esantion
este urmatoarea:
a) Se deseneaza o curba nchisa n jurul valorii mult imii de perechi (x, y):
71
b) Se determina lungimea D a diametrului maxim:
c) Se determina lungimea diametrului minim d:
d) Valoarea r se estimeaza cu
_
1
d
D
_
, n care semnul se alege n funct ie de
orientarea diametrului D:
Trebuie subliniat ca aceasta estimare este grosiera. Este foarte sensibila la mpr astiere.
Cu toate acestea daca plaja de valori a lui X este aproximativ aceeasi ca plaja de valori
a lui Y aproximat ia este utila.
72
20 Analiza de corelat ie liniara

In sect iunea 20 am vazut care este formula coecientului de corelat ie liniara r ntre doua
variabile X, Y menit sa masoare cat de stransa este relat ia de dependent a liniara dintre
cele doua variabile.

In cele ce urmeaza vom prezenta o analiza mai amanunt it a a acestei formule. Consideram
pentru ilustrat ie urmatorul set de date bidimensionale:
x 2 3 6 8 11 12
y 1 5 3 2 6 1
Diagrama de mpr astiere n acest caz este:
Media x a variabilei x este 7: x = 7, iar media variabilei y este 3: y = 3.
Punctul (x, y) este punctul (7, 3) si se numeste centroid al datelor:
73
Daca prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul de
date se mparte n patru submult imi. Fiecare data (x, y) se gaseste la o anumita distant a
de aceste linii; x x este distant a cu semn de la (x, y) la paralela la axa Oy si y y
este distant a cu semn de la (x, y) la paralela Ox. distant ele cu semn sunt pozitive sau
negative n funct ie de pozit ia lui (x, y) fat a de (x, y).
O masur a a dependent ei liniare ar putea covariant a. Covariant a dintre X si Y este
denita ca suma produselor distant elor cu semn xx si yy a tuturor datelor la centroid
mp art ita la n:
covar(x, y) =
n

i=1
(x
i
x) (y
i
y)
n
Covariant a n cazul tabelului de date considerate este 0, 6.
Covariant a pozitiva nseamna ca diagrama de dispersie este dominata de date care se
gasesc deasupra si n dreapta centroidului sau dedesubt si n stanga acestuia. Aceasta
ntruc at produsele (x x) (y y) n puncte din aceste regiuni sunt pozitive.
Daca diagrama de dispersie este dominata de date care se gasesc deasupra si n stanga sau
dedesubt si n dreapta centroidului atunci covariant a este negativa pentru ca produsele
(x x) (y y) pentru puncte din aceste regiuni sunt negative.
Covariant a ns a nu este convenabila pentru a masura cat este de strans a relat ia de
dependent a liniara ntre doua variabile indca depinde de unitat ile de masur a ale datelor.
Covariant a nu are o unitate de masur a standardizata si mprastierea datelor inuent eaza
foarte mult marimea covariant ei.
Astfel de exemplu daca nmult im datele din tabelul considerat anterior cu 10 obt inem
tabelul de date:
x 20 30 60 80 110 120
y 10 50 30 20 60 10
Covariant a n cazul acestui tabel de date este 60, dar aceasta nu nseamna nicidecum ca
relat ia de dependent a liniara ntre X, Y este mai strans a. Relat ia de dependent a liniara
74
este aceeasi si doar datele sunt mai mprastiate. Aceasta este problema cu covariant a
atunci cand vrem sa masur am cu ajutorul ei dependent a liniara ntre doua variabile.
Trebuie sa gasim o cale de eliminare a efectului mprastierii datelor atunci cand masuram
dependent a.
Daca standardizam X si Y mpart ind deviat ia ecareia de la media sa cu deviat ia
standard:
x

=
x x
s
x
si y

=
y y
s
y
si calculam covariant a lui X

si Y

, vom avea o covariant a care nu mai este inuent ata de


mpr astierea datelor. Exact acest lucru este realizat prin introducerea coecientului de
corelat ie liniar r. Astfel coecientul de corelat ie liniar este:
r = covar(X

, Y

) =
covar(X, Y )
s
x
s
y
Coecientul de corelat ie liniara standardizeaza masura dependent ei si ne permite sa com-
param cat de stransa este dependent a liniara a diferitelor seturi de date bidimensionale.
Formula coecientului de corelat ie liniara adesea poarta denumirea de momentul produs
Pearson.
Valoarea coecientului de corelat ie liniara r n cazul setului de date considerat la nceput
este:
r =
0, 6
(4, 099) (2, 098)
= 0, 07
Pentru ca determinarea coecientului de corelat ie liniara cu ajutorul formulei:
r =
covarX, Y
s
x
s
y
este greoaie, n locul ei se foloseste una practica:
r =
SS(X, Y )
_
SS(X) SS(Y )
Aceasta din urma formul a evita calculul separat al lui x, y, s
x
, s
y
precum si calculul
deviat iilor de la medie.
75
21 Inferent a privind coecientul de corelat ie liniara
Dupa ce coecientul de corelat ie liniara r a fost calculat pentru un esantion se pune n
mod natural ntrebarea: valoarea lui r indica oare ca exista o dependent a liniara ntre
cele doua variabile n cazul populat iei din care esantioanele au fost luate?
Pentru a raspunde la aceasta ntrebare facem o vericare a ipotezelor statistice.
Etapa 1. Formularea ipotezei nule H
0
:
Cele doua variabile sunt liniar necorelate.
Aceasta nseamn a = 0, ind coecientul de corelat ie pentru
populat ie.
Etapa 2. Formularea ipotezei alternative.
Aceasta poate unilaterala sau bilaterala. Cel mai frecvent este
bilaterala ,= 0. Cu toate acestea daca suspectam ca avem doar o
singura corelat ie pozitiva ori o singura corelat ie negativa trebuie sa
folosim test unilateral. Ipoteza alternativa n cazul testului unilateral
este: > 0 sau < 0.
Etapa 3. Regiunea critica pentru testul statistic este n partea dreapta daca ne
astept am la o corelat ie pozitiva si este n stanga daca ne astept am la o
corelat ie negativa.
Testul statistic folosit pentru testarea ipotezei nule este scorul standard si valoarea tes-
tului statistic este valoarea lui r calculata din esantion. Valorile critice pentru r se gasesc
n urmatorul tabel la intersect ia coloanei corespunzatoare valorii lui si a liniei core-
spunzatoare gradului de libertate df = n 2:
76
Valorile critice pentru r daca = 0
df[ 0,10 0,05 0,02 0,01
1 0,988 0,997 1,000 1,000
2 0,900 0,950 0,980 0,980
3 0,805 0,878 0,934 0,959
4 0,729 0,811 0,882 0,917
5 0,669 0,754 0,833 0,874
6 0,662 0,707 0,789 0,834
7 0,582 0,666 0,750 0,798
8 0,549 0,632 0,716 0,765
9 0,521 0,602 0,685 0,735
10 0,497 0,576 0,658 0,708
11 0,476 0,553 0,634 0,684
12 0,458 0,532 0,612 0,661
13 0,441 0,514 0,592 0,641
14 0,426 0,497 0,574 0,623
15 0,412 0,482 0,558 0,606
16 0,400 0,468 0,542 0,590
17 0,389 0,456 0,528 0,575
18 0,378 0,444 0,516 0,561
19 0,369 0,433 0,503 0,549
20 0,360 0,423 0,492 0,537
25 0,323 0,381 0,445 0,487
30 0,296 0,349 0,409 0,449
35 0,275 0,325 0,381 0,418
40 0,257 0,304 0,358 0,393
45 0,243 0,288 0,338 0,372
50 0,231 0,273 0,322 0,354
60 0,211 0,250 0,295 0,325
70 0,195 0,232 0,274 0,302
80 0,183 0,217 0,256 0,283
90 0,173 0,205 0,242 0,267
100 0,164 0,195 0,230 0,254
Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral.
Pentru un test unilateral valoarea lui este dublul valorii lui ce se foloseste n veri-
carea ipotezelor statistice.
Etapa 4. Se determina r din esantion.
Etapa 5. Se determina daca r este n regiunea critica sau nu.
Neacceptarea ipotezei nule nseamn a ca exista o proba a dependent ei dintre cele doua
variabile ale populat iei
Ment iune: Aceasta nu nseamna ca am stabilit o relat ie de tip cauza efect ci
doar o relat ie matematica care permite sa se prezica comportamentul variabilei
77
de iesire Y din comportamentul variabilei de intrare X.
Exemplul 21.1.

In cazul tabelului de date:
x 2 3 6 8 11 12
y 1 5 3 2 6 1
avem n = 6, iar r = 0, 07.

Intrebarea este daca aceasta valoare a lui r difera de zero n
mod semnicativ daca nivelul de semnicat ie este = 0, 02?
Etapa 1. H
0
: = 0
Etapa 2. H
0
: ,= 0
Etapa 3. Avem = 0, 02 si df = n 2 = 6 2 = 4. Valorile critice din tabel
sunt: 0, 882 si 0, 882.
Etapa 4. Valoarea calculata a lui r este r

= 0, 07
Etapa 5. Se accepta H
0
.
Concluzie: Nu am putut arata ca X, Y sunt corelate. Daca acceptam ipoteza nula
nseamn a ca independent a liniara dintre cele doua variabile a fost aratata.
Ca si n alte probleme, uneori se cere estimarea unui interval de ncredere pentru
coecientul de corelat ie . Este posibila estimarea coecientului de corelat ie folosind
un tabel care ne da centuri de ncredere. Tabelul urmator reprezinta asemenea centuri
de ncredere pentru intervale de ncredere de 95%: Exemplul urmator arata cum trebuie
citit un asemenea tabel.
Exemplul 21.2. Pentru un esantion de 15 perechi de date o valoare calculata a lui r este
r = 0, 35. Sa se determine intervalul de ncredere 95% pentru coecientul de corelat ie
liniar a populat iei?
1) Se localizeaza 0, 35 pe axa orizontal a (axa coecientului de corelat ie liniara) si se
duce linia verticala.
78
2) Se determina intersect ia liniei verticale cu centurile corespunzatoare marimii
esantionului (aceasta ind 15) si se obt in doua puncte pe linia verticala.
3) Intervalul de ncredere este intervalul determinat de ordonatele acestor puncte
(0, 20, 0, 72) (axa ordonatelor este axa coecientului de corelat ie a populat iei).
79
22 Regresie liniara
Daca valoarea coecientului de corelat ie liniara r indica o corelat ie liniara strans a atunci se
pune problema stabilirii unei relat ii numerice exacte. Aceasta relat ie exacta este obt inuta
prin regresie liniara.

In general statisticianul cauta o ecuat ie care exprima relat ia dintre doua variabile. Ecuat ia
aleasa este cea mai buna tare a diagramei de dispersie. Ecuat iile gasite se numesc ecuat ii
de predict ie, iar n continuare sunt prezentate cateva asemenea ecuat ii:
y = b
0
+ b
1
x - liniara
y = a + b x + c x
2
- patratica
y = a b
x
- exponent ial a
y = a log
b
x - logaritmica.
Obiectivul nal este ca folosind ecuat ii sa se faca predict ii.

In general valoarea exacta a
variabilei Y nu este prezisa. Ne mult umim daca predict ia este sucient de apropiata.
Denit ia 22.1. Regresia liniara stabileste dependent a liniaran medie a lui y n funct ie
de x.
Vom descrie n continuare cum se stabileste cea mai buna dependent a liniara pentru un
set de date (x, y).
Daca relat ia de dependent a liniara pare potrivita, cea mai buna relat ie liniara se stabileste
cu metoda celor mai mici patrate.
Sa presupunem ca y = b
0
+b
1
x este cea mai buna relat ie liniara. Metoda celor mai mici
patrate cere ca b
0
si b
1
sa e astfel ncat

(y y)
2
sa e minima.
Din teorema lui Fermat rezulta ca valorile minime ale funct iei:
F(b
0
, b
1
) =

(y b
0
b
1
x)
2
se obt in pentru
b
1
=

(x x) (y y)

(x x)
2
, b
0
=
1
n

_

y b
1

x
_
b
1
este panta dreptei, iar b
0
este ordonata la origine.
Pentru determinarea pantei b
1
de obicei se foloseste formula echivalenta:
b
1
=
SS(x, y)
SS(x)
unde: SS(x) =

x
2

1
n

_

x
_
2
si SS(x, y) =

x y
1
n

_

y
_
.
Ment ion am aici ca expresiile SS(x, y) si SS(x) apar si n formula de calcul al coecientului
de corelat ie liniara. De aceea n momentul calcularii lui r putem aa si valoarea pantei
b
1
.
80
Exemplul 22.1.

In cazul unui esantion de 10 indivizi consideram urmatorul set de date.
x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43
Pentru a determina cea mai buna relat ie liniara y = b
0
+ b
1
x se calculeaza SS(x, y) si
SS(x) si se obt ine:
SS(x, y) = 919, 0 si SS(x) = 1396, 9
de unde panta b
1
este:
b
1
=
919, 0
1396, 9
= 0, 6599 0, 66.
Pentru a determina ordonata n origine b
0
se foloseste formula de calcul a acesteia si
rezulta:
b
0
=
1
10
[380 0, 65 351] = 14, 9077 14, 9
Astfel cea mai buna relat ie liniara este:
y = 14, 9 + 0, 66 x
Remarca 22.1.
a) Panta b
1
reprezinta schimbarea prezisa a variabilei y corespunzatoare unei cresteri
cu o unitate a variabilei x.
b) Ordonata b
0
reprezint a valoarea lui y n x = 0. Doar daca x = 0 este n domeniul
de date putem spune ca b
0
este valoarea prezisa a lui y pentru x = 0.
c) Cea mai buna relat ie liniara este o dreapta ce trece prin punctul de coordonate
(x, y). Acest fapt poate utilizat ca vericare atunci cand se traseaza gracul celei
mai bune relat ii liniare.
Exemplul 22.2.

In cazul unui esantion aleator de 8 indivizi consideram urmatorul tabel
de date
x 65 65 62 67 69 65 61 67
y 105 125 11 120 140 135 95 130
Diagrama de mpr astiere a acestui set de date sugereaza o corelat ie liniara.
81
Pentru a gasi cea mai buna relat ie de dependent a liniara calculam SS(x, y) si SS(x) si
gasim:
SS(x, y) = 230, 0 si SS(x) = 48, 875
De aici avem:
b
1
=
230, 0
48, 875
= 4, 706 4, 71.
b
0
=
1
n
_

y b
1

x
_
= 186, 478 186, 5
de unde:
y = 186, 5 + 4, 71 x
Remarca 22.2. O estimare grosiera a celei mai bune relat ii de dependent a liniara se
poate face n felul urmator:
- ca si n cazul aproximarii coecientului de corelat ie r se considera o curba nchis a
n jurul mult imii de perechi (x, y);
- diametrul maxim al mult imii este o aproximare a gracului de dependent a liniara;
- se scrie ecuat ia de dependent a liniara ca ecuat ia unei drepte ce trece prin doua
puncte de pe acest diametru;
- ca si n cazul estimarii lui r aceasta estimare este una grosiera si trebuie folosita ca
atare.
82
23 Analiza de regresie liniara
Modelul liniar folosit pentru a explica dependent a liniara a doua variabile referitoare la
aceeasi populat ie este denit de ecuat ia:
y =
0
+
1
x +
Aceasta ecuat ie reprezinta relat ia liniara dintre doua variabile x si y ntr-o populat ie.

In
aceasta relat ie:
-
0
este ordonata la origine;
-
1
este panta;
- y este valoarea observat a la o valoare data a lui x;
-
0
+ x este media lui y pentru valoarea data a lui x
Remarcam ca eroarea depinde de x. Pentru valorile x
1
, x
2
, . . . , x
n
ale lui x modelul liniar
se scrie:
y
i
=
0
+
1
x
i
+
i
, i = 1, 2, . . . , n
- este eroarea aleatoare a valorii observate y la o valoare data a lui x care reprezint a
deviat ia valorii observate y de la medie.
Dreapta de regresie liniara obt inut a y = b
0
+ b
1
x pe baza datelor (x
i
, y
i
), i = 1, 2, . . . , n
ne da b
0
care este o estimare pentru
0
si b
1
care este o estimare pentru
1
. Atunci vom
putea scrie y
i
= b
0
+ b x
i
+ e
i
. Erorile sunt estimate prin y
i
y
i
care este diferent a
dintre valoarea observata y
i
si valoarea prezisa y
i
a lui y la o valoare data a lui x. Fiindca
y
i
= b
0
+ b
1
x
i
avem ca:
e
i
= y
i
y
i
Erorile e
i
sunt cunoscute sub numele de reziduuri.
Variabila aleatoare e are urmatoarele proprietat i:
e > 0 y > y;
e < 0 y < y;
pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;
aceasta este o consecint a a metodei celor mai mici patrate; si astfel media erorilor
experimentale este zero:
n

i=1
e
i
= 0.
Notam cu
2

variant a erorilor aleatoare a datelor observate si ne propunem sa estimam


aceasta variant a.

Inainte nsa sa trecem la estimarea variant ei


2

sa analizam put in ce reprezint a eroarea


? reprezinta diferent a dintre valoarea observat a y si valoarea medie a lui y pentru o
valoare data a lui x.

Intrucat nu cunoastem valoarea medie a lui y, vom folosi ecuat ia de
regresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu y valoarea prezisa
de ecuat ia de regresie a lui y pentru acest x. Astfel estimarea lui este e = y y.
83
Daca pentru o valoare data x avem mai multe valori observate y acestea pot reprezentate
pe verticala n x pe axa Ox.
O distribut ie similara apare la ecare valoare a lui x. Valoarea medie a datelor y observate
depinde de x si se estimeaza cu y.
Altfel spus, deviat ia standard a distribut iei datelor y de la medie este aceeasi pentru orice
x:
84
Reamintim ca variant a s
2
a unui set de date statistice x
1
, x
2
, . . . , x
n
a fost denita cu
formula:
s
2
=
1
n
n

i=1
(x
i
x)
2
Determinarea variant ei setului de date y introduce o complicat ie pentru ca media datelor
y difera de la un x la altul. Pentru ecare x media este estimata prin valoarea prezisa y ce
corespunde la x prin dreapta de regresie. Astfel variant a erorii se estimeaza cu formula:
s
2

=
1
n
n

i=1
(y
i
y
i
)
2
care arata ca variant a erorii este variant a variabilei y n jurul dreptei de regresie.
Variant a erorii s
2

poate scrisa sub forma:


s
2

=
1
n

(y b
0
b
1
x
i
)
2
=
1
n
_

y
2
i
b
0

y b
1
x
i
y
i
_
si este o estimare a lui
2

Exemplul 23.1. O persoana care se muta la Timisoara si se angajeaza la o companie


doreste sa stie n cat timp poate sa ajunga dimineat a cu masina de la locuint a la locul de
munc a. Pentru a gasi un raspuns la aceasta ntrebare el ntreaba un num ar de 15 colegi la
ce distant a stau de locul de munca si n cat timp ajung la serviciu si ntocmeste urmatorul
tabel de date statistice:
coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x - distant a
(n km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20
y - timpul
(n min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45
Pentru a gasi un raspuns la problema persoana n cauza trebuie sa determine dreapta de
regresie si variant a s
2
e
.
Folosind formulele de calcul el gaseste:
SS(x) = 2, 616
(184)
2
15
= 358, 9333
85
SS(x, y) = 5, 623
(184) (403)
15
= 679, 53333
b
1
=
358, 9333
679, 53333
= 1, 893202 1, 89
b
0
=
1
15
[403 (1, 893202) (184)] = 3, 643387 3, 64
y = 3, 64 + 1, 89 x.
Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a
ajunge la serviciu n funct ie de distant a x la care locuieste.
Pentru a gasi abaterea standard de la valoarea estimata el va trebui sa calculeze si variant a
s
2

. Folosind formulele de calcul el gaseste: s


2

= 29, 17.
86
24 Inferent a referitoare la panta unei drepte de re-
gresie liniara
Dupa ce ecuat ia dreptei de regresie liniara a fost determinata ne ntreb am cand putem
folosi aceasta ecuat ie pentru a prezice valorile variabilei y n funct ie de x?
Raspunsul lantrebare l vom da parcurgand procedeul de vericare a ipotezelor statistice.

Inainte de a face inferent a privind dreapta de regresie facem urmatoarele ipoteze:


- pentru ecare x distribut ia datelor y observate este aproximativ normala;
- pentru ecare x variant a distribut iei datelor y observate este aceeasi.

Inainte sa trecem la parcurgerea celor cinci etape (care constituie vericarea ipotezelor
statistice) sa analizam distribut ia pantelor ce se obt in pentru esantioane aleatoare de
marime n. Aceste pante b
1
au o distribut ie aproape normala avand media
1
panta n
cazul populat iei si variant a
2
b
1
data de:

2
b
1
=

2

(x x)
2
Un estimator adecvat s
2
b
1
a lui
2
b
1
se obt ine prin nlocuirea lui
2

cu s
2
e
:
s
2
b
1
=
s
2
e

(x x)
2
Aceasta formula poate scrisa sub forma:
s
2
b
1
=
s
2
e
SS(x)
=
s
2
e

x
_
(

x)
2
/n

Eroarea standard a regresiei (pantei) este


b
1
si este estimata prin s
b
1
.
Putem trece acum la vericarea ipotezelor statistice:
Etapa 1. Formularea ipotezei H
0
. Ipoteza nul a va
1
= 0. Daca
1
= 0
atunci ecuat ia liniara nu poate folosita pentru a prezice valoarea lui
y aceasta nseamn a ca: y = y.
Etapa 2. Ipoteza alternativa poate unilaterala sau bilaterala. Daca banuiala
este ca panta este pozitiva atunci un test unilateral este potrivit:
H
a
:
1
> 0.
Etapa 3. Ca test statistic folosim testul t. Numarul gradelor de libertate pentru
test este df = n 2.

In cazul Exemplului 23.1 care se refera la timpul
necesar pentru a ajunge cu masina la servici df = 152 = 13. La nivelul
de semnicat ie = 0, 05, valoarea critica a lui t este t(13; 0, 05) = 1, 77.
Formula de calcul folosit pentru valoarea testului statistic t pentru
inferent a este:
t

=
b
1

1
s
b
1
87
Etapa 4. Avand n vedere egalitatea s
2
b
1
=
s
2
e
SS(X)
n cazul exemplului considerat
gasim ca valoarea testului statistic este:
t

=
b
1

1
s
b
1
=
1, 89 0

0, 0813
= 6, 629 6, 63
Etapa 5. Decizie: ipoteza H
0
se respinge pentru ca t

este n regiunea critica.


Concluzie: Panta dreptei de cea mai buna aproximat ie este mai mare
ca zero. Probele statistice arata ca exista o relat ie liniara ntre distant a
locuint a-serviciu si perioada de timp necesara pentru a ajunge cu masina
la serviciu si aceasta perioada de timp este predictibila.
Panta
1
a dreptei de regresie liniara a populat iei poate estimata cu ajutorul inter-
valului de ncredere. Capetele acestui interval de ncredere sunt date de formula:
b
1
t(n 2;

2
) s
b
1

In cazul Exemplului 23.1 la nivelul de semnicat ie = 0, 05:


1, 89 2, 16
_
0, 0813 = 1, 89 0, 62
capetele intervalului de ncredere sunt 1, 27 si 2, 51.
Deci intervalul de ncredere pentru
1
este (1, 27; 2, 51) la nivelul de semnicat ie 0, 05.
88
BIBLIOGRAFIE
[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
[2] Andrei Tudorel, Stancu Andrei, Statistica - teorie si aplicat ii, Editura All, 1995,
Bucuresti
[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition,
1991,Paris
[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lect ii de statistica descrip-
tiva, Universitatea de Vest, 1998, Timisoara
[5] Bocsan Gheorghe, Estimarea parametrilor modelelor statistice, Universitatea de Vest,
1995, Timisoara
[6] Yule G. Udny, Kendall, M.G., Introducere n teoria statisticii, Editura Stiint ica,
1969, Bucuresti
89

S-ar putea să vă placă și