Statistic A

Statistic
a - notite de curs
Stefan Balint, Loredana Tanasie
Cuprins
1 Ce este statistica?
2 Notiuni de baz
a
3 Colectarea datelor
4 Determinarea frecventei si gruparea datelor
11
5 Prezentarea datelor
14
6 Parametrii si statistici ai tendintei centrale
19
7 Parametrii si statistici ai dispersiei
22
8 Parametrii si statistici factoriali ai variantei
25
9 Parametrii si statistici ale pozitiei
26
10 Seria de distributie a statisticilor

de esantioane
28
11 Teorema limit
a central
a
32
12 O aplicatie a teoremei limit

a central
a
35
13 Estimarea punctual
a a unui parametru; intervalul de ncredere
36
14 Generalit
ati privind ipotezele statistice si problema verific
arii ipotezelor
statistice
38
15 Verificarea ipotezelor statistice: variant

a clasic
a
41
16 Verificarea ipotezelor statistice: varianta probabilist

a
48
17 Inferent
a statistic
a privind media populatiei dac
a nu se cunoaste
abaterea standard a populatiei
52
18 Inferent
a relativ
a la variant
a si estimarea variantei
59
19 Generalit
ati despre corelatie. Corelatie liniar
a
65
20 Analiz
a de corelatie liniar
a
73
21 Inferent
a privind coeficientul de corelatie liniar
a
76
22 Regresie liniar
a
80
23 Analiza de regresie liniar

a
83
24 Inferent
a referitoare la panta unei drepte de regresie liniar
a
87
Ce este statistica?
Definitia 1.1. Statistica este stiinta colectarii, clasificarii, prezentarii, interpretarii

datelor numerice si a folosirii acestora pentru a formula concluzii si a lua decizii.
Definitia 1.2. Statistica descriptiv
a se ocupa cu colectarea, clasificarea si prezentarea
datelor numerice.
Definitia 1.3. Statistica inferential
a (inferential statistics) se ocupa cu interpretarea
datelor oferite de statistica descriptiva si cu folosirea acestora pentru a formula concluzii
si lua decizii.
Problema 1.1. Universitatea de Vest din Timisoara doreste sa faca un plan de dezvoltare
a facilitatilor de cazare. Pentru a trece la actiune consiliul de administratie hotaraste ca
este necesar sa se raspunda la urmatoarea ntrebare: Cati studenti vor trebui cazati n
urmatorii zece ani?
Pentru a raspunde la aceasta ntrebare trebuie sa cunoastem raspunsul la cel putin
urmatoarele doua ntrebari: Cati absolventi de liceu vor fi? Cati vor sa vina la
universitate? (Si altele poate).
Pentru a raspunde la aceste doua ntrebari e nevoie de date referitoare la numarul de
absolventi de liceu n urmatorii zece ani si de date care indica procentul acelor absolventi
de liceu care doresc sa devina studenti la U.V.T. n urmatorii zece ani.
O cale de a obtine date refritoare la numarul de absolventi de liceu n urmatorii zece ani
este de a vedea care a fost acest numar n ultimii zece ani si a extrapola acest numar.
Trebuie remarcat ca aceasta idee presupune ca exista o legatura dintre trecut si viitor.
Acest lucru nu este ntotdeauna adevarat. O ntrebare suplimentara care se pune n acest
context este daca va trebui sa numaram toti absolventii de liceu din toate scolile din
ultimii zece ani sau ne putem limita sa numaram doar la anumite scoli? Altfel spus, daca
putem considera doar esantioane?
O cale de a obtine date referitoare la procentul acelor absolventi care doresc sa devina
studenti la U.V.T. este aceea de a vedea aceste procente n ultimii zece ani si de a
extrapola.
Alte ntrebari care se pun sunt: Cum interpretam aceste date? Cum formulam o concluzie
pe baza acestor date? Cum se ia o decizie pe baza acestor date?
Nu am terminat cu enumerarea ntrebarilor care pot fi relevante. La acest moment ceea
ce este important este sa ncepem sa ne gandim la asemenea probleme si la ntrebarile
care trebuiesc lamurite pentru a obtine un raspuns.
Remarca 1.1. Relatia dintre statistica si probabilit
ati
Statistica si probabilitatile sunt doua domenii strans legate, dar distincte ale matematicii.
Se spune ca probabilitatile sunt vehiculul statisticii. Aceasta este adevarat n sensul
ca daca nu ar fi legile probabiliste teoria statistica nu ar fi posibila. Pentru a ilustra
nsa diferenta dintre probabilitati si statistica sa consideram doua urne: una probabilista
si una statistica. In cazul urnei probabiliste se stie ca urna contine 5 bile albe, 5 bile
negre si 5 bile rosii; problema de probabilitate este daca scoatem o bila, care este sansa
ca aceasta sa fie alba? In cazul unei urne statistice nu cunoastem care este combinatia
de bile din urna. Extragem un esantion si din acest esantion conjecturam ce credem ca
se gaseste n urna. Trebuie retinuta deosebirea: probabilitatea pune ntrebarea sansei
ca ceva (un eveniment) sa se ntample atunci cand se cunosc posibilitatile (se cunoaste
3
populatia). Statistica ne cere sa facem un esantion, sa analizam esantionul si pe urma sa

facem predictie asupra populatiei pe baza informatiei gasite n esantion.
Remarca 1.2. Folosirea corect
a si folosirea gresit
a a statisticii
Utilizarea statisticii este nelimitata. Este greu de gasit un domeniu n care statistica nu
se foloseste. Iata cateva exemple, unde si cum este folosita statistica:
n educatie; statistica descriptiva este adesea folosita pentru a prezenta rezultatele;
n stiinta; rezultatele experimentale trebuiesc colectate si analizate;
guvernele; aduna diferite date statistice tot timpul.
Multi oameni sunt indiferenti fata de descrierea statistica, altii cred ca statisticile sunt
minciuni. Majoritatea minciunilor statistice sunt inocente si rezulta din folosirea unei
statistici neadecvate sau date obtinute dintr-un esantion nepotrivit. Toate acestea conduc
la o ntelegere gresita a informatiei din partea consumatorului. Folosirea gresita a
statisticii duce uneori la ncurcaturi.
Remarca 1.3. Statistica si calculatorul
In ultimul deceniu calculatorul a avut un rol important n aproape toate aspectele vietii.
Domeniul statististicii nu face exceptie. Statistica foloseste multe tehnici care au o
natura repetitiva; formule pentru a calcula statistici descriptive, proceduri de urmat
pentru a formula predictii. Calculatorul este foarte bun pentru a face asemenea operatii
repetitive. Daca calculatorul are un soft standard statistic este mult mai usoara analiza
unor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (program
biomedical), SAS (Sistem de analiza statistica), IBM Scientific Subroutine Packages si
SPSS (pachet statistic pentru stiinte sociale).
Notiuni de baz
a
Definitia 2.1. Populatia este o colectie (multime) de indivizi, obiecte sau date numerice
obtinute prin masuratori ale carei proprietati trebuiesc analizate.
Remarca 2.1. Populatia este colectia complet
a de indivizi, obiecte sau date numerice
obtinute prin masuratori care prezinta interes (pentru cel care colecteaza esantionul).
Conceptul de populatie este fundamental n statistica. Populatia trebuie definita cu grija
si se considera complet definita daca lista membrilor este specificata. Multimea studentilor
Facultatii de Matematica si Informatica este o populatie bine definita.
Daca auzim cuvantul populatie de obicei ne gandim la o multime de oameni. In statistica
populatia poate fi o multime de animale, de obiecte fabricate sau de date numerice
obtinute prin masuratori. De exemplu multimea naltimilor studentilor facultatii de
Matematica si Informatica este o populatie.
Definitia 2.2. Esantionul este o submultime a unei populatii.
Remarca 2.2. Un esantion consta din indivizi, obiecte sau date masurate selectate din
populatie (de catre colectorul de esantion).
Definitia 2.3. O variabil
a de r
aspuns (simplu variabil
a) este o caracteristica (de
obicei numerica) care prezinta interes n cazul fiecarui element (individ) al unei populatii.
Remarca 2.3. Varsta studentului, media lui, culoarea parului, naltimea, greutatea
s.a.m.d. sunt variabile de raspuns n cazul populatiei: studentii de la Facultatea de
Matematica si Informatica.
Definitia 2.4. O dat
a (la singular) este valoarea unei variabile de raspuns n cazul
unui element al populatiei sau esantionului.
Exemplul 2.1. Popescu Nicolae are vrsta de 19 ani, media 8.50, parul lui este
castaniu, naltimea lui este 1 m si 75 cm, iar greutatea lui este 65 kg. Aceste cinci
valori ale celor cinci variabile de raspuns (Remarca 2.3) n cazul lui Popescu Nicolae
sunt cinci date.
Definitia 2.5. Valorile unei variabile de raspuns n cazul unei populatii sau a unui
esantion constituie un set de date . Intr-un set de date aceeasi data apare de atatea ori
de cate ori variabila are aceasta valoare.
Exemplul 2.2. Cele 25 de naltimi n cazul unui esantion de 25 de studenti este un set
de 25 de date nu neaparat diferite.
Definitia 2.6. O activitate planificata n urma careia se obtine un set de date se numeste
experiment sau sondaj.
Definitia 2.7. Parametru este o caracteristica numerica a unei populatii.
Exemplul 2.3. Procentul de studenti de la Facultatea de Matematica si Informatica care
au promovat toate examenele la sesiunea din iarna este un exemplu de parametru n cazul
populatiei: studentii de la Facultatea de Matematica si Informatica.
Remarca 2.4. Parametrul este o valoare numerica care se refera la ntreaga populatie.
In statistica se obisnuieste ca parametrul sa fie notat cu litera greceasca.
5
Definitia 2.8. O statistic

a este o caracteristica numerica a unui esantion
Exemplul 2.4. Inaltimea medie gasita folosind cele 25 de naltimi n cazul unui esantion
de 25 de studenti este un exemplu de statistica (de esantion).
Remarca 2.5. O statistica este o valoare numerica care se refera la un esantion.
Statisticile (de esantion) se noteaza cu literele alfabetului latin.
Colectarea datelor
Prima problema a statisticianului este colectarea unui set de date. Aceasta presupune
definirea prealabila a obiectivelor sondajului (experimentului) a populatiei si a variabilei.
Exemple de obiective:
a) Compararea eficacitatii unui medicament nou cu eficacitatea unui medicament
standard;
b) Estimarea venitului mediu al unei familii din judet.
Exemple de populatii si variabile corespunz
atoare:
a) pacientii care sufera de o boala care se trateaza cu medicamentul considerat
reprezinta populatia, iar timpul de recuperare reprezinta variabila;
b) familiile din judet reprezinta populatia, iar venitul total al unei familii din judet
reprezinta variabila.
Tot nainte de colectarea setului de date trebuie hotarat daca setul de date se constituie
pentru ntreaga populatie sau doar pentru un esantion. Daca setul de date se constituie
pentru ntreaga populatie atunci se face un recensamant.
am
ant este o enumerare sau o listare a fiecarui element al
Definitia 3.1. Un recens
populatiei mpreuna cu data (valoarea variabilei) corespunzatoare elementului.
In cazul unei populatii mari, constituirea unui set de date la nivelul populatiei este dificil
si costisitor. De aceea, n cazul n care nu este posibila realizarea unui recensamant,
setul de date se constituie doar pentru o parte a populatiei, pentru un esantion. Selectia
elementelor pentru esantion se face dintr-un cadru de esantionare.
Definitia 3.2. Cadrul de esantionare este o lista de elemente care apartin populatiei,
din care va fi extras esantionul.
Remarca 3.1. Deoarece numai elementele din cadrul esantionului au sansa sa fie selectate
pentru esantion, din perspectiva variabilei de raspuns cadrul de esantion trebuie sa fie
reprezentativ pentru populatie.
Remarca 3.2. In cazul unei populatii de indivizi listele de alegatori sau cartile de telefon
sunt folosite adesea drept cadru de esantion. In functie de variabila de raspuns acestea
pot fi cadre de esantion potrivite sau nepotrivite.
Remarca 3.3. Dupa definirea cadrului esantionului se trece la stabilirea modului de
alegere a elementelor esantionului. Acest proces se numeste proiectarea esantionului.
Definitia 3.3. Proiectarea esantionului nseamna stabilirea procedurii de alegere a
elementelor esantionului din cadrul esantionului.
Exista mai multe procedee de alegere a elementelor esantionului. In mare aceste procedee
mpreuna cu esantioanele corespunzatoare se mpart n doua categorii: procedee bazate
pe reprezentativitate si procedee probabiliste.
7
Definitia 3.4. Esantioane bazate pe reprezentativitate sunt acelea pentru care

elementele se aleg astfel ncat din perspectiva variabilei de raspuns, elementul ales sa fie
reprezentativ pentru populatie.
Exemplul 3.1. Din perspectiva variabilei de raspuns: cursul A este util sau nu n
formarea dumneavoastr
a profesional
a?, studentii din cadrul unui esantion care nu au
frecventat cursul nu sunt reprezentativi. Deci nu sunt alesi n esantion.
Definitia 3.5. Un esantion pentru care elementele sunt selectate pe baza probabilista;
oricare element din cadrul esantionului are o anumita sansa nenula sa fie selectat; se
numeste esantion probabilist.
Remarca 3.4. Inferente statistice cer ca esantionul sa fie probabilist. Esantioanele
probabiliste aleatoare sunt cele mai familiare esantioane probabiliste.
Definitia 3.6. Un esantion de marimea n este esantion probabilist aleator daca orice
esantion de marimea n ales din acelasi cadru are aceeasi probabilitate sa fie ales.
Remarca 3.5. Cea mai raspandita metoda de a colecta date foloseste esantion aleator
simplu.
Definitia 3.7. Un esantion probabilist aleator pentru care elementele sunt selectate dintrun cadru n care elementele au aceeasi probabilitate sa fie alese se numeste esantion
aleator simplu.
Remarca 3.6. Atunci cand se construieste un esantion probabilist aleator simplu trebuie
avuta grija ca fiecare element din cadrul esantionului sa aibe aceeasi probabilitate sa fie
selectat. Adesea se fac greseli pentru ca termenul aleator este confundat cu ales
la ntamplare. Un procedeu corect de selectare a unui esantion probabilist aleator
simplu este acela care foloseste un generator de numere aleatoare sau o tabela de numere
aleatoare. Prima oara se numeroteaza elementele din cadrul de esantionare. Dupa aceasta
n tabelul cu numere aleatoare se aleg atatea numere cate sunt necesare pentru esantion.
Fiecare element din cadrul de esantionare, al carui numar coincide cu un numar selectat
din tabelul de numere aleatoare va fi ales pentru esantion.
Exemplul 3.2. Daca cadrul esantionului este o lista de 4265 de studenti atunci ei sunt
numerotati de la 0001; 0002; ...; 4265. Pentru un esantion de 50 de studenti se aleg 50 de
numere aleatoare cu patru cifre si se identifica studentii din cadrul esantionului.
Definitia 3.8. Esantionul sistematic se construieste alegand fiecare al k-lea element
din cadrul esantionului.
Remarca 3.7. In aceasta selectie se foloseste tabela de numere aleatoare o singura data,
pentru a determina punctul de plecare.
Exemplul 3.3. Daca se considera un cadru de esantion de 245 de studenti ai Facultatii
de Matematica si Informatica si se doreste un esantion sistematic format din 15 studenti
atunci:
1) asociem fiecarui student un numar de la 1 la 245;
2) se calculeaza k (pasul de numarare) folosind urmatoarea relatie:
245
numarul de elemente din cadrul esantionului
k=
=
= 16
numarul de elemente din esantion
15
3) se alege punctul de plecare ntre 1 si numarul k cu ajutorul unui tabel de numere
aleatoare.
Daca acest numar este 10, atunci obtinem esantionul:
10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.
245
Deoarece k =
= 16, 33, nu este un numar ntreg, pasul de numarare poate fi si 17. In
15
acest caz esantionul sistematic obtinut este de numai 14 elemente.
Remarca 3.8. Este o procedura buna pentru a esantiona un procentaj n cazul
populatiilor mari. Pentru a selecta un esantion sistematic de x% dintr-o populatie, un
element din 100/x va fi selectat (daca 100/x nu este ntreg se ia partea ntreaga).
Remarca 3.9. Folosirea esantionului sistematic nu este potrivita daca populatia este
repetitiva sau ciclica n natura.(din perspectiva variabilei de raspuns)
Exemplul 3.4. Daca se doreste estimarea numarului studentilor admisi la Facultatea de
Matematica si Informatica care au depasit varsta de 20 de ani si se foloseste esantionarea
sistematica extrag
and din lista candidatilor admisi numai pe cei de pe pozitiile care sunt
multiplu de 5, exista posibilitatea ca toti candidatii admisi pe pozitiile respective sa aiba
sub 20 de ani. Un asemenea esantion spune ca nu au fost admisi candidati peste 20 de
ani, ceea ce nu poate fi sustinut.
Cand se esantioneaza populatii foarte mari, atunci cand este posibil se mparte populatia
n doua subpopulatii pe baza unor caracteristici. Aceste subpopulatii se numesc straturi,
iar straturile sunt esantionate separat.
Definitia 3.9. Un esantion obtinut n urma stratificarii cadrului esantionului si prin
selectarea unui numar dat de elemente din fiecare strat se numeste esantion stratificat.
Remarca 3.10. Cand se proiecteaza un esantion stratificat, cadrul se mparte n doua sau
mai multe straturi si n fiecare strat se proiecteaza un subesantion. Aceste subesantioane
pot fi aleatoare, sistematice sau de alt gen. Dupa aceea subesantioanele sunt asamblate
ntr-un singur esantion pentru a colecta un set de date.
Exemplul 3.5. Pentru studierea unei caracteristici a populatiei studentilor din Facultatea de Matematica si Informatica, aceasta populatie poate fi mpartita:
- pe domenii: informatica, matematica
- pe ani de studiu.
a (sau esantion proportional) este un
Definitia 3.10. Esantion cot
esantion stratificat care se construieste prin selectarea unui numar de elemente din fiecare
strat dupa o anumita cota sau proportional cu marimea stratului.
9
Exemplul 3.6. Daca se doreste construirea unui esantion de 150 de studenti din populatia
studentilor Facultatii de Matematica si Informatica putem face stratificarea dupa anii de
studiu. In acest caz, numarul de studenti ce va fi selectat din fiecare an ce va fi selectat
va fi proportional cu numarul total de studenti din anul respectiv:
Anul de studiu
Numar studenti
Cota
Anul I
Anul II
Anul III
Anul IV
431
303
206
240
36.49%
25.65%
17.44%
20.40%
Nr. studenti
selectat n esantion:
54
40
26
30
Esantionul va fi format din 54 de studenti din anul I, 40 de studenti din anul II, 26 de
studenti din anul III si 30 de studenti din anul IV.
O alta metoda de esantionare care pleaca de la stratificarea populatiei este esantionul
ciorchine.
Definitia 3.11. Esantionul ciorchine este un esantion stratificat care se construieste
prin selectarea de esantioane din anumite straturi (nu din toate).
Exemplul 3.7. Daca se doreste realizarea unui esantion ciorchine format din studentii
Universitatii de Vest din Timisoara, aceasta populatie poate fi startificata n functie
de specializarea pe care au ales-o studentii selectionand esantioane doar de la cateva
specializari (nu de la toate).
Remarca 3.11. Esantionul ciorchine se obtine folosind numere aleatoare sau o metoda
sistematica pentru identificarea straturilor (ciorchine) care trebuiesc esantionate, dupa
care fiecare din aceste straturi este esantionat. Subesantioanele asamblate formeaza un
esantion ciorchine.
Intr-un caz concret procedeul de esantionare care se foloseste depinde de populatie de
variabila de dificultatea esantionarii si de cost. Dupa determinarea esantionului se poate
trece la colectarea setului de date.
10
Determinarea frecventei si gruparea datelor
Dupa colectarea unui set de date urmeaza prelucrarea primara a datelor. Determinarea
frecventei si gruparea datelor este un procedeu de prelucrae primara a datelor si este
utilizat atunci cand numarul datelor este mare.
Pentru a prezenta conceptul de frecventa sa consideram urmatorul set de date:
3
4
4
2
2
4
3
1
2
1
2
3
3
2
0
3
2
2
2
1
Valoarea 0 apare n acest set o singura data prin urmare frecventa pentru 0 este unu.
Valoarea 1 apare n acest set de trei ori prin urmare frecventa pentru 1 este trei.
Valoarea 2 apare n acest set de opt ori prin urmare frecventa pentru 2 este opt.
Valoarea 3 apare n acest set cinci ori prin urmare frecventa pentru 3 este cinci.
Valoarea 4 apare n acest set de doua ori prin urmare frecventa pentru 4 este doi.
Frecventa datelor 0,1,2,3,4 care apar n setul de date este redata n tabelul urmator:
x
0
1
2
3
4
f
1
3
8
5
3
Definitia 4.1. Frecventa f (din coloana a doua) arat

a de cate ori apare valoarea variabilei
x n setul de date.
Atunci cand ntr-un set de date multe sunt distincte (n loc de cateva ca n cazul precedent)
se grupeaza datele n clase si apoi se construiesc frecvente pentru clase.
Pentru a ilustra acest procedeu consideram urmatorul set de date:
82
62
74
76
74
68
78
52
88
72
84
76
66
92
96
82
58
86
76
78
Vom pune n aceeasi clasa toate datele la care prima cifra este aceeasi si obtinem
urmatoarele cinci clase:
50 59; 60 69; 70 79; 80 89; 90 99
(50 59 este clasa formata cu toate datele la care prima cifra este 5, s.a.m.d.).
Aceste clase nu se intersecteaza (nu exista date care sa apartina la doua clase) si oricare
din date apartine unei clase.
Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.
Datele care apartin unei clase sunt mai mari decat limita inferioara a clasei si mai mici
decat limita superioara a clasei.
11
Definitia 4.2. L
atimea unei clase definita ca diferenta dintre limita inferioar
a a clasei
urmatoare si limita inferioar
a a clasei (este egal
a cu 10 si este aceeasi pentru toate clasele
n exemplul de mai sus) latimea clasei nu este egal
a cu diferenta dintre limita superioar
a
si limita inferioar
a a clasei.
a
Definitia 4.3. Frontierele unei clase definite ca media aritmetica dintre limita superioar
a clasei si limita inferioar
a a clasei urmatoare sunt:
49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.
Definitia 4.4. Marca unei clase definita ca media aritmetica dintre limita superioara si
limita inferioar
a a clasei, n acest caz este:
54.5 =
50 + 59
2
n cazul clasei
50 59
64.5 =
60 + 69
2
n cazul clasei
60 69
74.5 =
70 + 79
2
n cazul clasei
70 79
84.5 =
80 + 89
2
n cazul clasei
80 89
90 + 99
n cazul clasei 90 99
2
Frecventa n acest caz este numarul de date dintr-o clasa. Frecventa datelor pe clase este:
94.5 =
n cazul clasei
50 59
2 date
n cazul clasei
60 69
3 date
n cazul clasei
70 79
8 date
n cazul clasei
80 89
5 date
n cazul clasei
90 99
2 date
In general, n cazul gruparii datelor pe clase si a determinarii frecventei trebuiesc

respectate urmatoarele reguli:
1) Clasele nu trebuie sa se intersecteze si fiecare data din setul de date trebuie sa
apartina la o clasa;
2) Fiecare clasa trebuie sa aibe aceeasi latime.
Procedeul concret de grupare este urmatorul:
12
i) Se identifica cea mai mare data H si cea mai mica data L si se determina plaja:
R = H L.
ii) Se alege numarul de clase m si latimea clasei c (daca se poate numar impar) astfel
ca produsul m c sa fie putin mai mare ca plaja R.
iii) Se alege un punct de plecare I care este putin mai mic decat cea mai mica data L.
Adaugam la I multiplii lui c (c este latimea clasei) si obtinem numerele:
I, I + c, I + 2c, I + 3c, ..., I + (m 1)c
Aceste numere sunt limitele inferioare ale claselor.
iv) Limitele superioare se stabilesc astfel ncat sa fie respectate conditiile 1) si 2).
v) Se determina frecventa fiecarei clase numarand elementele din fiecare clasa.
13
Prezentarea datelor
Prezentarea unui set de date poate fi facuta sub diferite forme si face parte din prelucrarea
primara a datelor.
Prezentarea datelor sub forma de serii
Definitia 5.1. Seria de distributie este un ansamblu de doua siruri finite dintre care
primul este sirul elementelor distincte din setul de date statistice sau sirul claselor obtinute
prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este sirul de
frecvente corespunzatoare.
Exemplul 5.1. In cazul setului de date statistice:
3
4
4
2
seria de distributie este:
2
4
3
1
2
1
2
3
3
2
0
3
2
2
2
1
0 1 2 3 4
1 3 8 5 3
Exemplul 5.2. In cazul claselor 50 59; 60 69; 70 79; 80 89; 90 99 obtinute prin
gruparea datelor din setul de date:
82 74 88 66 58 74 78 84 96 76
62 68 72 92 86 76 52 76 82 78
seria de distributie este:
50 59 60 69 70 79 80 89 90 99
X
2
3
8
5
2
In general, o serie de distributie arata n felul urmator:
x1 x2 x3 xn
X
f1 f2 f3 fn
si oricare ar fi nivelul de grupare al datelor, xi avand frecventa fi , se numeste termenul
seriei de distributie.
Remarca 5.1. Adesea n prezentarea seriilor de distributie n locul frecventei fi se
foloseste frecventa relativa:
fi
fi0 = n
X
fj
j=1
sau sub forma procentuala:

fi00 = fi0 100
14
Definitia 5.2. Valoarea datei care apare cu cea mai mare frecventa ntr-o serie de
distributie de date statistice se numeste mod.
Definitia 5.3. Clasa cu cea mai mare frecventa ntr-o serie de distributie de date grupate
se numeste clas
a modal
a.
Definitia 5.4. Serie bimodal
a este o serie de distributie de date grupate n care apar
doua clase modale, separate de clase cu frecventa mai joasa.
Definitia 5.5. Frecventa cumulat
a a unei clase este suma frecventelor tutror claselor
cu valori mai mici (marca mai mica).
Definitia 5.6. Seria dinamic
a (temporal
a, cronologic
a) este un sir dublu dintre
care primul este sirul de valori ale variabilei de raspuns, iar cel de-al doilea sir este sirul
de momente de timp la care variabila are aceste valori. In general, o serie dinamica
(temporala) se noteaza astfel:
x1 x2 x3 xn
X
t1 t2 t3 tn
Prezentarea datelor sub forma de tabele statistice
Tabelele statistice sunt foarte variate si se folosesc pentru ordonarea datelor statistice
dintr-un set de date n vederea aplicarii metodelor de calcul si de interpretare statistica.
In functie de numarul de caracteristici prezentate n tabel exista tabele simple, tabele cu
dubla intrare, tabele pe grupe, etc.
Prezentarea datelor sub forma grafica
Exista mai multe metode de prezentare grafica a unui set de date statistice. Metoda
de prezentare grafica este determinata de tipul de date si de ideea de prezentare. De
la nceput trebuie sa fie clar ca exista mai multe cai de a dispune grafic anumite date
statistice. Judecata analistului si circumstantele din jurul problemei joaca un rol major
n alegerea modului de dispunere grafica a datelor statistice.
Definitia 5.7. Graficele de reprezentare a seriilor statistice fara grupare se numesc
diagrame.
Definitia 5.8. Diagrama cerc a seriei de distributie (fara grupare)
x1 x2 x3 xn
X
f1 f2 f3 fn
este un cerc mpartit n n sectoare de cerc S1 , S2 , ..., Sn astfel ncat aria sectorului Si este
egala cu
fi
fi00 = n
100
X
fj
j=1
procente din aria cercului.

15
Exemplul 5.3. In cazul seriei de distributie din exemplul 5.1
0 1 2 3 4
X
1 3 8 5 3
cercul se mparte n cinci sectoare avand ariile egale cu 5%, , 15%, 40%, 25%, 15% din
aria cercului
Definitia 5.9. Diagrama coloan

a a seriei de distributie (fara grupare):
x1 x2 x3 xn
X
f1 f2 f3 fn
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate pe
axa Ox, iar naltimile lor sunt f1 , f2 , ..., fn
Exemplul 5.4. In cazul seriei de distributie din exemplul 5.1:
0 1 2 3 4
X
1 3 8 5 3
diagrama coloana este:
16
Definitia 5.10. Diagrama linie (ramur

a-frunz
a) a seriei de distributie (fara grupare)
x1 x2 x3 xn
X
f1 f2 f3 fn
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale si sunt asezate pe
axa Oy, iar lungimile lor sunt f1 , f2 , ..., fn .
0 1 2 3 4
X
1 3 8 5 3
diagrama linie este:
Definitia 5.11. Histograma seriei de distributie cu grupare
x1 x2 x3 xn
X
f1 f2 f3 fn
este un set de n dreptunghiuri care reprezinta clasele. Bazele acestor dreptunghiuri
sunt egale (clasele au aceeasi latime) si sunt asezate pe axa Ox, iar naltimile lor sunt
f1 , f2 , ..., fn .
50 59 60 69 70 79 80 89 90 99
X
2
3
8
5
2
histograma este:
17
Remarca 5.2. In cazul histogramei o coloana reprezinta un numar de date diferite spre
deosebire de diagrama coloana.
Remarca 5.3. O histograma are urmatoarele componente:
i) Un titlu care identifica populatia la care se refera;
ii) O scara orizontala pe care se identifica variabila X, valorile limitelor claselor,
frontierele claselor, marcile claselor.
iii) O scara verticala pe care se identifica frecventele pentru fiecare clasa.
Definitia 5.12. O histogram
a de frecvente relative este o histograma obtinuta dintro histograma nlocuind frecventele cu frecvente relative.
Frecventa relativ
a (este o masura proportionala cu frecventa n cauza) se obtine prin
mp
artirea frecventei clasei la num
arul total de elemente din setul de date.
Definitia 5.13. Ogiva unei serii de distributie de clase cu frecvente relative cumulate
este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale si asezate pe axa Ox, iar
natimile lor sunt frecventele relative cumulate.
Ogiva are urmatoarele componente:
1. Un titlu care identifica populatia.
2. O scara orizontala pe care sunt marcate frontierele superioare ale claselor.
3. O scara verticala pe care sunt marcate frecventele relative cumulate pentru fiecare
clasa.
18
Parametrii si statistici ai tendintei centrale
O categorie de caracteristici numerici asociati unui set de date statistice sunt: parametrii
tendintei centrale n cazul populatiilor si statistici ale tendintei centrale n cazul
esantioanelor. Intrucat acestia au definitii analoage vom prezenta doar statistici ale
tendintei centrale.
Definitia 6.1. Statistici ale tendintei centrale sunt valori numerice asociate unui set
de date statistice care localizeaza ntr-un anumit sens mijlocul multimii de date statistice.
Definitia 6.2. Media aritmetic
a a setului de date statistice {x1 , x2 , ..., xn } este prin
definitie suma acestor date mpartita la numarul datelor
n
X
x=
xi
i=1
Remarca 6.1. Atunci cand datele sunt prezentate sub forma unei serii de distributie
(fara grupare n clase), media aritmetica se gaseste cu formula:
m
X
x=
xj f j
j=1
m
X
fj
j=1
Remarca 6.2. In cazul unei serii de distributie (cu grupare n clase) formula de calcul a
mediei este:
X
x fx
x= X
fx
n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe
ansamblul claselor.
Definitia 6.3. Media p
atratic
definitie numarul:
v
n
uX
u
u
x2i
t
i=1
xp =
n
Remarca 6.3. Daca datele sunt prezentate sub forma unei serii de distributie (fara
grupare n clase), media patratica se gaseste cu formula:
v
uX
m
u
u
x2j fj
u
u j=1
xp = u m
u X
t
f
j
j=1
19
Remarca 6.4. In cazul unei serii de distributie cu grupare n clase media patratica este
prin definitie:
v
uX 2
u
x fx
u
xp = t X
fx
ansamblul claselor.
Definitia 6.4. Media armonic
definitie numarul:
n
xh = n
X 1
i=1
xi
grupare n clase), media armonica se gaseste cu formula:
m
X
xh =
fj
j=1
m
X
j=1
1
fj
xj
Remarca 6.6. In cazul unei serii de distributie cu grupare n clase media armonica este
prin definitie:
n
X
fx
xh =
i=1
n
X
1
fx
x
i=1

ansamblul claselor.
Definitia 6.5. Media geometic
definitie numarul:
v
u n
uY
n
xi
xp = t
i=1
grupare n clase), media geometrica se gaseste cu formula:
Remarca 6.8. In cazul unei serii de distributie cu grupare n clase media geometrica este
prin definitie: n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma
se extinde pe ansamblul claselor.
20
Definitia 6.6. Mediana me a unui set de date statistice distincte ordonate dupa marime
x1 < x2 < ... < xn este numarul care mparte setul de date n doua grupe egale ca numar:
- daca n = 2 k + 1, atunci me este valoarea de rangul k + 1: me = xk+1 ;
- daca n = 2 k, atunci orice numar ntre valorile xk si xk+1 satisface conditia din
acest caz se convine ca me sa fie media aritmetica a valorilor
definitia lui me . In
xk + xk+1
xk si xk+1 : me =
.
2
Exemplul 6.1. In cazul setului de date statistice:
4 7 12 26 32 38 59
mediana este me = 26.
In cazul setului de date statistice:
4 7 12 26 32 38
12 + 26
= 19.
2
Remarca 6.9. Mediana me n acest caz are proprietatea ca suma frecventelor valorilor
mai mari dec
at me este egal
a cu suma frecventelor valorilor mai mici dec
at me .
mediana este me =
Remarca 6.10. Daca datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianei
poate sa nu fie adevarata. In cazul setului de date statistice:
1 1 1 2 3 3 4
Seria de distributie corespunzatoare este:
1 2 3 4
3 1 2 1
Conform definitiei lui me n acest caz me = 2, 5. Aceasta valoare a lui me nu raspunde
cerintei ca me este o valoare cu proprietatea ca valorile mai mari sau mai mici decat ea
apar cu frecvente cumulate egale; frecventa celor mai mici este 4, iar frecvena celor mai
mari este 3.
Remarca 6.11. Cand datele sunt prezentate sub forma unei serii de distributie cu sau fara
grupare me se calculeaza prin procedeul interpolarii liniare, bazate pe ipoteza repartitiei
uniforme a frecventelor n intervalul median.
Definitia 6.7. Mijlocul plajei este prin definitie numarul:
Mr =
L+H
2
unde L este cea mai mica valoare, iar H este cea mai mare valoare a variabilei X
21
Parametrii si statistici ai dispersiei
Dupa ce mijlocul unui set de date a fost stabilit urmatoarea ntrebare naturala este:
care sunt parametrii si statisticile care caracterizeaza dispersia (mprastierea) datelor.
Parametrii si statisticile dispersiei sunt: plaja, deviatia medie absoluta, varianta, deviatia
standard si coeficientul de variatie. Aceste valori numerice descriu marimea mprastierii
ori a variabilitatilor datelor. Datele strans grupate vor avea mprastiere mica, iar cele
care nu sunt grupate (sunt mprastiate) vor avea o dispersie mai mare.
Definitia 7.1. Plaja P este diferenta dintre cea mai mare (H) si cea mai mica (L) valoare
a valorilor xi dintr-un set de date:
P =H L
Deviatia medie absoluta, varianta si deviatia standard masoara dispersia fata de media
aritmetica.
Definitia 7.2. Deviatia fat
a de media aritmetic
a x a valorii xi a variabilei X este
di = xi x.
Deviatia este zero daca si numai daca xi = x.
Deviatia este pozitiva daca si numai daca xi > x.
Deviatia este negativa daca si numai daca xi < x.
n
X
S-ar putea crede ca suma deviatilor
(xi x) poate servi ca masura a dispersiei fata de
i=1
media aritmetica. Dar aceasta suma este zero ntotdeauna:

n
X
i=1
(xi x) =
n
X
xi n x = n x n x = 0
i=1
Reducerea deviatiilor poate fi eliminata prin folosirea valorii absolute a deviatiilor: xi x.

Definitia 7.3. Deviatia medie absolut
a a setului de date statistice distincte {x1 , x2 , ..., xn }
este prin definitie:
n
X
|xi x|
d=
i=1
Remarca 7.1. Deviatia medie absoluta, n cazul n care datele sunt prezentate sub forma
unei serii de distributie fara grupare de date se calculeaza cu formula:
m
X
d=
|xj x| fj
j=1
m
X
j=1
22
fj
Remarca 7.2. Deviatia medie absoluta, n cazul n care datele sunt prezentate sub forma
unei serii de distributie cu grupare de date se calculeaza cu formula:
X
|x x| fx
X
d=
fx
ansamblul claselor.
Cu toate ca acest parametru al mprastierii nu se foloseste frecvent, el este o masura a
mprastierii si arata distanta medie la care se afla o valoare a variabilei X fata de media
aritmetica.
Mai exista o cale de eliminare a reducerii deviatiilor. Ridicand la patrat deviatiile
individuale acestea devin pozitive (sau zero). Cand aceste patrate sunt adunate rezultatul
n
X
este pozitiv. Suma patratelor deviatiilor fata de media aritmetica
(xi x)2 este folosita
i=1
n definirea variantei.
Definitia 7.4. Varianta s2 a setului de date statistice distincte {x1 , x2 , ..., xn } este prin
definitie:
n
X
(xi x)2
s2 =
i=1
n
Remarca 7.3. Daca setul de date este prezentat sub forma unei serii de distributie fara
grupare de date varianta s2 se calculeaza cu formula:
m
X
s2 =
(xj x)2 fj
j=1
m
X
fj
j=1
Remarca 7.4. Daca setul de date este prezentat sub forma unei serii de distributie cu
grupare de date varianta s2 se calculeaza cu formula:
X
(x x)2 fx
2
X
s =
fx
ansamblul claselor.
Definitia 7.5. Deviatia standard (abaterea standard) s a setului de date statistice
distincte {x1 , x2 , ..., xn } este prin definitie:
1
n
X
2
(xi x)2
i=1
s=
23
Remarca 7.5. Daca setul de date este prezentat sub forma unei serii de distributie fara
grupare de date deviatia standard s se calculeaza cu formula:
1
X
m
2
(xj x)2 fj
j=1
s=
m
fj
j=1
Remarca 7.6. Daca setul de date este prezentat sub forma unei serii de distributie cu
grupare de date deviatia standard s se calculeaza cu formula:
X
1
2
(x x) fx 2
X
s=
fx
ansamblul claselor.
Remarca 7.7. Deviatia standard a fost definita cu o formula. Se poate pune ntrebarea
ce reprezint
a ea n realitate? Un raspuns la aceast
a ntrebare poate fi dat cu inegalitatea
lui Cebsev din care rezult
a ca pentru orice serie de distributie fractiunea de date situata
la cel mult k unit
ati de deviatie standard fat
a de medie este cel putin 1 k12 , unde k este
un numar pozitiv oarecare mai mare ca 1. Rezult
a n particular ca pentru orice serie de
distributie fractiunea de date situata la cel mult k = 2 unit
ati de deviatie standard fata de
medie este de cel putin 75% din totalul de date. Daca k = 3 atunci este 89% din totalul
de date.
Conform regulii empirice daca o serie de repartitie este normala atunci fractiunea de date
situate la cel mult o unitate de deviatie standard fata de medie este aproximativ 68%,
iar fractiunea de date situate la cel mult doua unitati de deviatie standard fat
a de medie
este aproximativ 95%.
Definitia 7.6. Coeficientul de variatie V este prin definitie:
V =
s
100
x
Remarca 7.8. Coeficientul de variatie este o statistica relativa a dispersiei si se foloseste

la compararea dispersiei diferitelor variabile (caracteristici).
Remarca 7.9. V poate lua valori ntre 0 si 100%. Daca V este aproape de zero
(V < 35%), atunci populatia studiata statistic este omogena si media x este reprezentativa
pentru aceasta populatie. Daca V este aproape de 100% (V > 75%), atunci populatia
studiata statistic este eterogena si media x nu este reprezentativa. De cele mai multe
ori n asemenea cazuri este necesara separarea populatiei statistice n mai multe grupe
omogene, care se studiaza separat.
24
Parametrii si statistici factoriali ai variantei
In analiza variantei unui set de date statistice se folosesc urmatorii parametrii factoriali
ai variantei:
- varianta de grupa (partiala) s2j
- media variantelor de grupa s2
- varianta mediilor de grupa fata de media generala 2
- varianta totala (generala) s2 .
Definitia 8.1. Pentru o grupa de m date x1 , x2 , ..., xm , varianta de grup
a este definita
cu formula:
m
X
(xi xj )2 nij
s2j =
i=1
m
X
nij
i=1
n care j este indicele grupei, xj este media grupei, xi sunt datele din grupa j avand
frecventele nij
Remarca 8.1. Variantele de grupa sunt mai mici decat varianta si au valori mai mari
sau mai mici n functie de eterogenitatea grupei.
Definitia 8.2. Prin definitie media variantelor de grup
a este:
k
X
s2 =
s2j nj
j=1
k
X
nj
j=1
n care k este numarul de grupe, nj =
m
X
nij este numarul de date din grupa.
i=1
a fat
a de media general
a este prin
Definitia 8.3. Varianta mediilor de grup
definitie:
k
X
(xj x)2 nj
2 =
j=1
k
X
j=1
25
nj
Parametrii si statistici ale pozitiei
Parametrii si statistici ai pozitiei se folosesc pentru a descrie locatia unei date n raport
cu celelalte date.
Definitia 9.1. Quantilele sunt valori numerice care mpart setul de date n q grupe
egale. Constanta q se numeste ordinul quantilei.
Mediana este quantila de ordinul doi.
Quantilele de ordinul patru mpart setul de date n patru grupe egale si se numesc
quartile. Quartilele sunt n numar de trei, notate de obicei cu Q1 , Q2 , Q3 .
Quartila Q1 este un numar cu proprietatea ca o patrime din date au valori mai mici decat
Q1 si trei patrimi din date au valori mai mari decat Q1 .
Quartila Q2 este un numar cu proprietatea ca jumatate din date au valori mai mici decat
Q2 si jumatate din date au valori mai mari decat Q2 . Quartila Q2 este chiar mediana.
Quartila Q3 este un numar cu proprietatea ca trei patrimi din date au valori mai mici
decat Q3 si o patrime din date au valori mai mari decat Q3 .
Alte categorii de quantile folosite sunt:
- decilele care mpart setul de date n 10 grupe egale.
- centilele care mpart setul de date n 100 grupe egale.
- promilele care mpart setul de date n 1000 grupe egale.
Orice set de date are 99 de centile Pk , k = 1..99. Centila Pk este o valoare numerica cu
proprietatea ca k% din date are valori mai mici decat Pk , iar (100 k)% din date au
valori mai mari decat Pk .
Remarca 9.1. Q1 = P25 ; Q3 = P75 ; me = Q2 = P50
Remarca 9.2. Procedeul de determinare a centilei Pk este urmatorul:
1) datele se ordoneaza crescator;
nk
2) trebuie gasita pozitia i a centilei k. Prima oara se determina numarul
, unde
100
nk
n este numarul de date. Daca
nu este un numar ntreg, atunci i este numarul
100
nk
nk
ntreg urmator (
= 17.2 i = 18). Daca
este un numar ntreg, atunci i
100
100
nk
nk
+ 0.5 (
= 23
este
100
100
i = 23.5).
3) localizarea valorii Pk : se numara de la valoarea L (cea mai mica valoare a datelor) i
valori daca i este ntreg. Daca i nu este ntreg atunci este un ntreg plus o jumatate.
In acest caz valoarea Pk este semisuma datelor de pe locurile n k si n k + 1
100
100
O statistica aditionala a pozitiei este scorul standard sau z-scor.
26
Definitia 9.2. Scorul standard sau z-scorul este pozitia valorii x fata de mediana x
n unitati de deviatie standard:
xx
z=
s
27
10
Seria de distributie a statisticilor

de esantioane
Pentru a face inferenta (predictie) asupra parametrilor populatiei, este necesar sa analizam
statisticile de esantioane. Media x n cazul unui esantion nu este neaparat egala cu media
a populatiei. Suntem nsa multumiti daca media x este apropiata de . Daca se considera
media x0 n cazul unui al doilea esantion aceasta poate sa fie diferita de x si de . Ceea ce
putem spera este ca aceasta sa fie apropiata de valoarea si de x. Valabilitatea acestui
tip de comportament intereseaza pentru orice populatie si orice statistica.
Intrebarea care se naste n mod natural este ce nseamna aproape? Cum se masoara si se
determina aceasta apropiere? Care este seria de distributie a statisticilor de esantioane?
Definitia 10.1. Seria de distributie a statisticilor de esantioane este seria de
distributie a statisticilor de un anumit tip obtinute pentru esantioane de aceeasi marime.
Tipul de statistica poate fi oricare din statisticile prezentate n sectiunile 6 si 7.
Exemplul 10.1. Se considera o populatie de N elemente de la care se pot obtine
urmatoarele date statistice distincte: {0, 2, 4, 6, 8}. In cazul acestei populatii formam
esantioane de marime 2 de la care putem avea urmatoarele date statistice:
(0, 0)
(0, 2)
(0, 4)
(0, 6)
(0, 8)
(2, 0)
(2, 2)
(2, 4)
(2, 6)
(2, 8)
(4, 0)
(4, 2)
(4, 4)
(4, 6)
(4, 8)
(6, 0)
(6, 2)
(6, 4)
(6, 6)
(6, 8)
(8, 0)
(8, 2)
(8, 4)
(8, 6)
(8, 8)
Pentru aceste esantioane mediile x sunt:

0
1
2
3
4
1
2
3
4
5
2
3
4
5
6
3
4
5
6
7
4
5
6
7
8
Esantioanele fiind aleatoare fiecare esantion, are probabilitatea 1/25 sa fie ales si seria de
distributie a mediilor acestor esantioane este:
x
0
1
2
3
4
5
6
7
8
f 0 (x)
0.04
0.08
0.12
0.16
0.20
0.16
0.12
0.08
0.04
unde f 0 (x) este frecventa relativa a mediei x. Diagrama coloana a mediilor esantioanelor
este:
28
Pentru acelasi set de 25 de esantioane putem determina seria de distributie a plajelor R

a acestor esantioane.
Plajele R ale esantioanelor sunt date n tabelul urmator:
0
2
4
6
8
2
0
2
4
6
4
2
0
2
4
6
4
2
0
2
8
6
4
2
0
Seria de distributie a plajelor acestor esantioane este:

R
0
2
4
6
8
f 0 (R)
0.20
0.32
0.24
0.16
0.08
iar diagrama coloana a plajei esantioanelor este:
29
Exemplul 10.2. In cazul aruncarii zarului de un numar de N ori, setul de date statistice
care se refera la numarul de pe fata care apare este 1, 2, 3, 4, 5, 6.
Formam esantioane care constau din 5 aruncari. Fiecare din aceste esantioane are media
x. Consideram 30 de esantioane de acest fel (nseamna 30 5 = 150 aruncari) si ntr-un
tabel reprezentam rezultatele precum si mediile corespunzatoare:
Incercare
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Esantion
12322
45545
31524
56642
54164
35615
23632
53462
15534
41526
51332
15231
21153
51446
55633
Incercare
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
x
2.0
4.6
3.0
4.6
4.0
4.0
3.2
4.0
3.6
3.6
2.8
2.4
2.4
4.0
4.4
Esantion
52135
61335
65526
13556
31531
51143
46312
15345
34133
12414
52163
42563
43134
26533
63511
x
3.2
3.6
4.8
4.0
2.6
2.8
3.2
3.6
2.8
2.4
3.4
4.0
3.0
3.8
3.2
Histograma seriei de distributie a mediilor celor 30 de esantioane este reprezentata n

figura urmatoare:
30
Aceasta lege de repartitie pare sa aibe caracteristicile unei legi de repartitie normala; este
maxim si este simetric fata de media proprie 3.5.
31
11
Teorema limit
a central
a
In sectiunea precedenta am prezentat seria de distributie a mediei si plajei unui set de

esantioane. Media este statistica folosita cel mai frecvent n cazul esantioanelor si de aceea
este foarte importanta. Teorema limita centrala se refera la seria de distributie a mediei
tuturor esantioanelor aleatoare de aceeasi marime n.
Sa formulam ce anume intereseaza n cazul acestei serii de distributie:
1) Unde este centrul datelor?
2) Cat de mare este dispersia datelor?
3) Care este caracterul seriei de distributie?
Teorema limita centrala ofera raspuns la aceste trei ntrebari.
Teorema 11.1. Teorema limit
a central
a
Fie media si deviatia standard a unei variabile n cazul unei populatii. Daca se
considera toate esantioanele aleatoare de marime n din aceasta populatie, atunci seria de
distributie a mediilor acestor esantioane are urmatoarele proprietati:
a) media x a acestei serii de distributie este egala cu ;
b) deviatia standard x a acestei serii de distributie este .

n
c) daca seria de distributie a variabilei n cazul populatiei este normala, atunci seria
de distributie a mediilor esantioanelor este normala; daca seria de distributiei a
variabilei n cazul populatiei nu este normala, atunci seria de distributie a mediilor
esantioanelor este aproximativ normala pentru esantioane de marime mai mare ca
30. Tendinta catre o serie de distributie normala creste daca marimea esantionului
creste.
Pe scurt, teorema limita centrala stabileste urmatoarele:
1) x = , unde x este media esantionului x;
2) x = / n, deviatia standard a mediei este egala cu deviatia standard a populatiei

mpatita cu radacina patrata a marimii esantionului.
3) seria de distributiei a mediei esantioanelor este aproximativ normala indiferent de
seria de distributiei a variabilei n cazul populatiei.
Remarca 11.1. Deviatia standard x a seriei de distributie a mediilor esantioanelor
este deviatia standard a mediilor esantioanelor fata de media seriei de distributie a
esantioanelor.
Nu vom face demonstratie teoremei limita centrala. Vom ilustra nsa validitatea ei
examinand un caz ilustrativ.
32
Consideram o populatie pentru care seria de distributie de date statistice cu frecvente

relative n cazul variabilei X este:
2
4
6
X:
1/3 1/3 1/3
Media si deviatia standard pentru aceasta variabila sunt:
v
!2
3
u 3
3
X
X
uX
=
xj f 0xj
=t
x2j f 0xj
xj f 0xj
j=1
j=1
12
=4
3
j=1
= 1, 63
In cazul acestei populatii oricare esantion de marime doi are urmatoarele date posibile:
(2, 2) (2, 4) (2, 6)
(4, 2) (4, 4) (4, 6)
(6, 2) (6, 4) (6, 6)
Esantioanele au urmatoarele medii:
2 3 4
3 4 5
4 5 6
Esantion
(2,2)
(2,4)
(2,6)
(4,2)
(4,4)
(4,6)
(6,2)
(6,4)
(6,6)
Media
2
3
4
3
4
5
4
5
6
1
Esantioanele fiind aleatoare fiecare esantion are probabilitatea
sa fie ales si seria de
9
distributie a mediilor esantioanelor este:
2
3
4
5
6
X
1/9 2/9 3/9 2/9 1/9
Media seriei de distributie a mediilor esantioanelor x este x = 36/9 = 4, 0. Prin urmare
= x , iar deviatia standard a repartitiilor mediilor esantioanelor este:
v
5
!2 s
u 5
2
X
uX
156
36
2
0
0
t
xj f xj
= 1, 15
x =
xj f x j
=
9
9
j=1
j=1
1, 63
1, 63
= =
= 1, 15 = x
1, 44
n
2
Reprezentand seria de distributie a mediilor esantioanelor obtinem:
33
Aceasta diagrama arata ca seria de distributie a mediilor esantioanelor este normala.
34
12
O aplicatie a teoremei limit

a central
a
Teorema limita centrala ofera informatii asupra seriei de distributie a mediilor esantioanelor descriind forma repartitiei mediilor tuturor esantioanelor (aproape normala).
Ea stabileste relatia dintre media a populatiei si media x a seriei de distributie a
mediilor tuturor esantioanelor si relatia dintre deviatia standard a populatiei si deviatia
standard x a seriei de distributie a mediilor esantioanelor. Deoarece seria de distributie
a mediilor esantioanelor este aproape normala putem stabili legaturi probabiliste dintre
media populatiei si media unui esantion.
Exemplul 12.1. Consideram o populatie normala cu = 100 si = 20. Daca se alege
un esantion aleator de marime n = 16 care este probabilitatea ca valoarea medie a acestui
esantion sa fie ntre 90 si 110? Altfel spus, cat este P (90 < x < 110)?
Solutie: Conform teoremei limita centrala repartitia valorilor medii ale esantioanelor
este normala. Prin urmare va trebui sa transformam conditia P (90 < x < 110) ntr-o
conditie care sa permita folosirea tabelului de distributie normala standard. Aceasta se
face scriind:
110 x
90 x
P (90 < x < 110) =
=
x
x
10
10
10
110 100
=2
1=F
=
x
x
x
x
1
unde (X) =
2
ZX
1 2
t
1
e 2 dt si F (X) = (X) .
2
20
Deoarece x = , avem x = = 5 si astfel obtinem:
n
16
P (90 < x < 110) = 2 (2) 1 = 2F (2) = 0.9544
Efectul cresterii dimensiunii n a esantionului nu afecteaza x = si micsoreaza x . Prin
urmare P (90 < x < 110) creste, daca n creste.
Exemplul 12.2. Inaltimea copiilor la o gradinita are o distributie normala avand o medie
= 100 cm cu o deviatie standard de 12, 5 cm. Pentru un esantion aleator de 25 de copii
se determina media x. Care este probabilitatea ca aceasta medie sa fie ntre 90 cm si 110
cm?
Solutie:
P (90 < x < 110) = 2
10
x
1 = 2 (4) 1 = 2 F (4) = 2 0.499968
35
13
Estimarea punctual
a a unui parametru; intervalul
de ncredere
Consideram o populatie a carei medie nu o cunoastem si ne punem problema s-o gasim.

Pentru acest scop consideram un esantion aleator de dimensiune n pentru care determinam
media x. Media x a esantionului este o estimare punctuala a mediei a populatiei.
Definitia 13.1. O estimare punctual
a a parametrului a unei populatii este o
valoare g a unei statistici corespunzatoare.
Remarca 13.1. Daca x este media esantioanului cu care estimam media necunoscuta
a populatiei, aceasta nu nseamna ca x = . In general, x 6= si la ceea ce ne putem
astepta este ca x sa fie aproape de . Aceasta apropiere poate fi fixata prin specificarea
unui interval (centrat n ) numit interval de estimare.
Definitia 13.2. Un interval marginit (a, b) folosit pentru a estima valoarea unui anumit
parametru a populatiei se numeste interval de estimare. Valorile a, b (capetele
intervalului) sunt calculate din esantion care este folosit pentru estimare.
Cum anume se poate specifica un interval centrat n care este necunoscut folosind doar
date furnizate de un esantion va fi lamurit n continuare.
Exemplul 13.1. Consideram o populatie avand o deviatie standard cunoscuta, o medie
necunoscuta si un esantion aleator simplu de marime n si medie x cunoscute. Conditia
x ( 1, + 1) nseamna ca scorul standard z (pentru mediile esantioanelor) dat de:
z=
sa verifice:
x x
x
=
x
n
n n
z ( , ) = (
,
)
n
n
1
Astfel
scorului standard intervalul de estimare este intervalul (a, b) cu a =
n termenii
n
n
si b =
.
Mai general conditia x ( , + ), nseamna ca scorul standard z (pentru mediile

esantioanelor) dat de:
x x
x
z=
=
x
n
sa verifice:
n n
z (
,
)
n n
Intervalul de estimare este (
,
).
Definitia 13.3. Nivelul de nencredere este probabilitatea ca statistica esantionului

sa aibe valoarea n afara intervalului de estimare.
36
Conform teoremei de limita centrala, repartitia lui x este normala sau aproape normala
si avem:

n
n
P ( 1 < x < + 1) = P
<z<
=

n
n
2P 0<z <
=2F
1
unde F (z) =
2
Zz
1 2
t
e 2 dt.

n
Deci nivelul de nencredere este 1 2 F
.
Definitia 13.4. Nivelul de ncredere (coeficient de ncredere) 1 este probabilitatea

ca statistica esantionului sa se afle n intervalul de estimare ales.
Definitia 13.5. Intervalul de ncredere este un interval de estimare cu un nivel de
ncredere 1 specificat.

n n
Exemplul 13.2. In cazul exemplului 13.1, intervalul de estimare
,
este un

n
interval de ncredere cu coeficientul de ncredere 1 = 2 F
.
a de estimare este jumatatea lungimii intervalului de

Definitia 13.6. Eroarea maxim
ncredere cu nivelul de ncredere 1 .
In termen de scor standard aceasta eroare se exprima cu formula:

E=z
2
n
1
unde z
este solutia ecuatiei F (z) =
, iar intervalul de ncredere 1 pentru
2
2
este:

xz
,x + z
2
2
n
n

xz
este limita inferioara de ncredere, iar x+z
este limita superioara
2
2
n
n
de ncredere.
37
14
Generalit
ati privind ipotezele statistice si problema verific
arii ipotezelor statistice
Pentru a ilustra analiza care precede luarea unei decizii n privinta credibilitatii unei
asertiuni (numita verificarea ipotezelor statistice) sa consideram urmatorul exemplu:
Candidatul la admitere Popescu Nicolae trebuie sa completeze un formular test cu zece
ntrebari. Fiecare ntrebare are cinci raspunsuri dintre care doar unul este corect. Popescu
Nicolae a completat formularul si din cele zece ntrebari el a raspuns corect la sapte. El
sustine ca a completat formularul fara sa citeasca ntrebarile si raspunsurile la ele si a
marcat raspunsurile aleator.
Intrebarea este n ce masura putem da crezare spuselor ca el a marcat raspunsurile aleator?
O asemenea ntrebare ne determina sa analizam si sa hotaram: este sau nu este rezonabil ca Popescu Nicolae sa obtina sapte raspunsuri corecte alegand aleator raspunsurile la
ntrebari? Descriem n cele ce urmeaza o analiza, care se numeste verificarea ipotezelor
statistice si care conduce la formularea unei concluzii.
Verificarea ipotezelor statistice, n general, este un procedeu care are 5 etape. Fiecare din
aceste etape va fi prezentata si ilustrata n cazul exemplului considerat.
Etapa 1.
Formularea ipotezei nule H0

Prin ipoteza ntelegem o afirmatie care sustine ca ceva este adevarat. In
general, ipoteza nula este o afirmatie relativa la un parametru al unei
populatii si afirma ca parametrul are o valoare data. Adesea expresia
nu difera este folosita n formularea ei, de aici vine numele de ipoteza
nula. (diferenta este nula)
Etapa 2.
Formularea ipotezei alternative Ha

Ipoteza alternativa Ha este o afirmatie relativa la acelasi parametru al
populatiei care apare n ipoteza nula H0 . In ipoteza Ha se afirma ca
parametrul are o valoare diferita de cea sustinuta n H0 .
Ipoteza H0 si ipoteza Ha se formuleaza dupa o analiza a asertiunii care trebuie investigata.
In cazul exemplului considerat, asertiunea care trebuie analizata este: Popescu a completat formularul aleator.
Populatia este o multime de 510 elemente (distincte). Un element este un sistem ordonat
de 10 raspunsuri (R0i1 , R0i2 , . . . , R0i10 ), i1 , i1 , . . . , i10 {1, 2, 3, 4, 5}; R0i1 este unul din cele
cinci raspunsuri posibile la prima ntrebare, . . . , R0i10 este unul din cele cinci raspunsuri
posibile la cea de-a zecea ntrebare.
Pentru o persoana care marcheaza raspunsurile aleator (fara sa le citeasca), toate
raspunsurile sunt egal posibile. Altfel spus fiecare din cele cinci raspunsuri la o ntrebare
are aceeasi sansa ca sa fie corect. Din afirmatia lui Popescu Nicolae rezulta ca el a marcat
1
raspunsurile aleator, deci a admis ca probabilitatea (parametrul p) este 10 pentru fiecare
5
element al populatiei.
Analiza afirmatiei lui Popescu Nicolae conduce la urmatoarea formulare a ipotezei nule:
1
= p pentru orice
510
element X al populatiei
H0 : p(X) =
Popescu Nicolae a completat
38
formularul aleator.
Ipoteza alternativa este:

Ha : exista doua elemente X1 , X2 n populatie
pentru care p(X1 ) 6= p(X2 )
Popescu Nicolae nu a completat

formularul aleator
De la acest punct ncepand se admite ca ipoteza nula este adevarata. Situatia poate fi
comparata cu un proces la judecatorie, n care acuzatul este presupus nevinovat pana
cand se dovedeste contrariul.
Doar n etapa a 5-a a verificarii ipotezelor, vom lua una din cele doua decizii posibile:
vom decide n concordanta cu ipoteza nula H0 si spunem ca acceptam H0 sau decidem n
concordanta cu Ha si spunem ca respingem ipoteza H0 .
In functie de valoarea de adevar a ipotezei H0 si de respingerea sau nerespingerea ei
deciziile care se iau sunt prezentate n tabelul urmator:
Decizia
Nu respingem H0
(acceptam)
Respingem H0
Ipoteza H0 este
Adevarata Falsa
decizie
corecta
Tip A
eroare
eroare
decizie
corecta
Tip B
Tip I
O
O
O
O
decizie corecta de tip A: apare cand

decizie corecta de tip B: apare cand
eroare de tip I:
apare cand
eroare tip II:
apare cand
H0
H0
H0
H0
este
este
este
este
Tip II
adevarata si nu respingem H0
falsa si respingem H0
adevarata si H0 este respinsa
falsa si H0 nu este respinsa
Ar fi foarte frumos ca de fiecare data cand luam decizii sa luam decizii corecte, dar aceasta
este statistic imposibil pentru ca ne bazam pe informatii furnizate de esantioane. Cel mai
bun lucru la ce putem spera este sa controlam riscul sau probabilitatea de a comite o
eroare.
Probabilitatea asignata limitarii comiterii unei erori de tip I se noteaza cu si cea asignata
comiterii unei erori de tip II cu :
Eroarea
Tipul de eroare
Respingerea unei ipoteze adevarate
I
Acceptarea unei ipoteze false
II
Etapa 3
Probabilitate
Metodologia de verificare a ipotezelor: aceasta consta din (1)

identificarea unui test statistic; (2) specificarea valorii lui ; (3) determinarea regiunii critice.
(1) Un test statistic este o variabila aleatoare folosita pentru a respinge
sau nu ipoteza H0 . Testul statistic este o statistica de esantioane sau
alte valori rezultate dintr-un esantion. Probabilitatile care apar n acest
test statistic sunt determinate presupunand ca H0 este adevarata.
39
In cazul exemplului considerat, variabila aleatoare X= numarul de raspunsuri corecte

este folosit ca test statistic. Probabilitatile pentru fiecare valoare x ale variabilei X n
ipoteza ca H0 este adevarata sunt date n tabelul urmator:
X
P(X)
X
P(X)
0
0.1074
6
0.0055
1
0.2684
7
7.92104
2
0.302
8
7.38105
3
0.20133
9
4.098106
4
0.0881
10
1.02107
5
0.0264
Aceasta repartitie arata ca probabilitatea sa ghicesti raspunsul corect la 5 sau mai multe
ntrebari este 0.0327, iar la 4 sau mai putin decat 4 ntrebari este 0.9673. Putem spune
ca aparitia valorilor 5, 6, 7, 8, 9, 10 nu sustine ipoteza H0 . Daca cineva spune ca a ghicit
raspunsul corect la 0, 1, 2, 3, 4 ntrebari, spunem ca este foarte probabil. Daca cineva spune
ca a ghicit raspunsul corect la 5, 6, 7, 8, 9, 10 ntrebari spunem ca este putin probabil.
Nivelul de semnificatie este probabilitatea de a face o eroare de tip I, adica de a
respinge H0 adevarat. In mod curent se da la nceput si acesta determina regiunea
critica. In cazul exemplului, daca = 0.033, atunci din P (x 5) = 0.0327 rezulta
regiunea critica x = 5, 6, 7, 8, 9, 10.
Regiunea critic
a: este multimea de valori (W ) pentru care P (X W ) si care ne
determina sa respingem ipoteza H0 . (nu sustin ipoteza H0 )
Valoarea critic
a: este prima valoare din regiunea critica.
Daca pentru un esantion valoarea testului statistic X depaseste valoarea critica ipoteza
H0 este respinsa.
Dupa ce Etapa 3 a fost epuizata, putem trece la Etapa 4.
Etapa 4.
Determinarea valorii testului statistic

Dupa ce am parcurs etapele 1,2,3 observam sau calculam valoarea x a
testului statistic.
In cazul exemplului x = 7 (numarul de raspunsuri corecte) este valoarea testului statistic si este dat. Uzual valoarea testului statistic se calculeaza pe baza informatiilor
oferite de esantion.
Etapa 5.
Luarea unei decizii si interpretarea ei

Decizia se ia comparand valoarea testului statistic determinata la Etapa
4 cu regiunea critica gasita la Etapa 3.
Regula de decizie: Daca valoarea testului statistic este n regiunea
critica respingem ipoteza H0 , daca nu, atunci acceptam ipoteza H0 .
Ansamblul de valori ale testului statistic care nu sunt n regiunea critica
formeaza regiunea de acceptabilitate. Testul este terminat prin luarea
si justificarea deciziei luate.
In cazul exemplului: x = 7 este n regiunea critica si respingem ipoteza H0 .

Remarca 14.1. Cu aceasta nu am demonstrat ca Popescu Nicolae nu a ghicit cele 7
raspunsuri. Am aratat doar ca daca el le-a ghicit este foarte norocos pentru ca acesta
este un eveniment rar si are probabilitatea cel mult 0.033.
40
15
Verificarea ipotezelor statistice:

variant
a clasic
a
In sectiunea precedenta am prezentat generalitati privind verificarea ipotezelor statistice. In aceasta sectiune trecem la prezentarea verificarii ipotezelor statistice n cazul
asertiunilor referitoare la media a unei populatii. Pentru a simplifica aceasta prezentare
la nceput presupunem ca deviatia standard a populatiei este cunoscuta.
Urmatoarele trei exemple se refera la diferite formulari ale ipotezei H0 si a ipotezei Ha .
Exemplul 15.1. Un ecologist sustine ca orasul Timisoara are o problema privind poluarea
aerului. Concret, el sustine ca nivelul mediu al monoxidului de carbon n aer n centrul
orasului depaseste valoarea 4, 9/106 = valoarea medie normala.
Pentru a formula n acest caz, ipotezele H0 si Ha , trebuie sa identificam: populatia,
parametrul populatiei n cauza si valoarea cu care aceasta urmeaza sa fie comparata.
Populatia n acest caz poate fi multimea locurilor din centrul orasului Timisoara. Variabila
X este concentratia monoxidului de carbon ale carei valori x variaza n functie de loc,
iar parametrul populatiei este valoarea medie a acestei variabile. Valoarea specifica cu
care aceasta medie trebuie comparata este 4, 9/106 egala cu valoarea (medie) normala.
Ecologistul face o asertiune privind valorea lui . Aceasta valoare poate fi: < 4, 9/106
sau = 4, 9/106 sau > 4, 9/106 . Cele trei situatii pot fi cuprinse n doua afirmatii dintre
care una exprima ceea ce ecologistul sustine, iar cealalta exprima contrariul.
Inegalitatea > 4, 9/106 este afirmatia: valoarea medie este mai mare ca 4, 9/106 .
Inegalitatea 4, 9/106 este echivalenta cu < 4, 9/106 sau = 4, 9/106 si este
afirmatia contrara: valoarea medie nu este mai mare ca 4, 9/106 .
Ecologistul sustine ca > 4, 9/106 . Pentru a formula ipoteza H0 si ipoteza Ha reamintim
ca:
1) In general, ipoteza H0 sustine ca media (parametrul n chestiune) are o valoare
specifica anume.
2) Inferenta privind media a populatiei se bazeaza pe media unui esantion si mediile
esantioanelor au o distributie aproximativ normala. (conform teoremei limita
centrala).
3) O distributie normala este complet determinata daca valoarea medie si deviatia
standard a distributiei sunt cunoscute.
Cele de mai sus sugereaza ca afirmatia = 4, 9/106 ar trebui sa fie ipoteza nula si afirmatia
> 4, 9/106 ar trebui sa fie ipoteza alternativa:
H0 : = 4, 9/106
Ha : > 4, 9/106
Reamintim ca dupa ce ipoteza nula H0 este formulata, n testul statistic identificat se
presupune ca H0 este adevarata. Aceasta nseamna ca = 4, 9/106 este egala cu media
41
distributiei mediilor esantioanelor x si este o ratiune n plus pentru care ipoteza H0

trebuie scrisa doar cu semnul egal
H0 : = 4, 9/106 .
Daca admitem ca afirmatia = 4, 9/106 sau < 4, 9/106 este ipoteza nula H0 , atunci:
H0 : 4, 9/106
Ha : > 4, 9/106 .
Remarca 15.1. Semnul egal trebuie sa fie inclus totdeauna n ipoteza nula. In acest
exemplu asertiunea ecologistului este exprimata de fapt n Ha si aceasta este analizat.
Exemplul 15.2. Vom considera acum o a doua asertiune; de exemplu al Camerei de
Comert, care sustine ca nivelul mediu al monoxidului de carbon n centrul orasului
Timisoara este mai mic decat 4, 9/106 (valoare normala). Aceasta este o reclama buna
pentru turism.
Si n acest caz parametrul este media a repartitiei monoxidului de carbon. Valoarea
specifica este 4, 9/106 care este valoare normala.
< 4, 9/106 valoarea medie este mai mica decat valoarea medie normala
4, 9/106 valoarea medie este mai mare sau egala decat valoarea
medie normala
H0 , Ha pot fi formulate astfel:
H0 : 4, 9/106
Ha : < 4, 9/106
Si de data aceasta asertiunea Camerei de Comert este exprimata n Ha si aceasta trebuie
analizata.
Exemplul 15.3. O a treia asertiune (mai neutra) sustine doar ca nivelul mediu al
monoxidului de carbon n aerul din centrul orasului Timisoara este diferit de 4, 9/106
(valoarea normala diferita de ).
In acest caz:
H0 : = 4.9/106 si Ha : 6= 4, 9/106
Cele trei exemple arata ca asertiunea care trebuie analizata determina ntr-un anumit sens
formularea ipotezelor H0 , Ha . Mai exact: n aceste cazuri asertiunea sustine ca valoarea
parametrului este diferita de cea normala, iar ipoteza nula sustine ca este aceeasi (nu
difera).
In cazul acestor exemple, cei care si formuleaza asertiunea se asteapta la respingerea
ipotezei nule H0 si la acceptarea ipotezei alternative Ha care este o afirmatie conforma cu
asertiunea lor.
Situatiile de la procesele juridice prezinta o oarecare asemanare cu cele relatate. Daca
procurorul nu crede n vinovatia inculpatului nu intenteaza proces (ipoteza H0 prezumtia
de nevinovatie este presupusa adevarata). Procesul se declanseaza doar daca procurorul
are suficiente probe pentru a face proces.
42
Si n statistica daca experimantatorul crede n ipoteza H0 nu face test pentru investigarea lui H0 . El testeaza ipoteza nula doar daca doreste sa arate ca Ha este corecta.
Exemplul care urmeaza ilustreaza toate cele cinci etape de verificare a ipotezelor statistice
n cazul unei asertiuni care se refera la media unei populatii.
Exemplul 15.4. Un profesor a nregistrat pe mai multi ani rezultatul elevilor si media
a acestor rezultate este 72 si abaterea standard este = 12. Clasa de 36 de elevi pe
care-i nvata la momentul actual are o medie x = 75, 2 (mai ridicata decat media = 72)
si profesorul afirma ca aceasta clasa este superioara celor de pana acum. Intrebarea este
daca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatia profesorului la nivelul de semnificatie = 0, 05.
Mentionam ca pentru ca aceasta clasa sa fie superioara trebuie sa aibe o medie mai mare
decat toate clasele dinainte. Daca media ei este egala sau mai mica decat media unei
clase anterioare, atunci ea nu este superioara.
Daca se considera esantioane aleatoare de marime n = 36 dintr-o populatie cu media
= 72, multe esantioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.
Doar medii x care sunt considerabil mai mari decat 72 vor sustine afirmatia profesorului.
De aceea:
Etapa 1.
H0 : x = = 72 clasa nu este superioara
Etapa 2.
Ha : x = > 72 clasa este superioara
Etapa 3.
- Atunci cand n ipoteza nula H0 media populatiei si deviatia

standard sunt cunoscute scorul standard z este folosit ca si test
statistic.
- Nivelul de semnificatie = 0, 05 este dat;
- Reamintim ca n baza teoremei limita centrala distributia
mediilor esantioanelor este aproape normala. Prin urmare,
distributia normala va fi folosita pentru determinarea regiunii critice.
Regiunea critica este egala cu multimea valorilor scorului standard z care determina respingerea ipotezei
H0 si este situata la extremitatea dreapta a distributiei normale. Regiunea critica este la dreapta deoarece valori mari
ale mediei esantionului sustin ipoteza H0 n timp ce valori
apropiate ori sub 72 sustin ipoteza nula.
Figura 1:
43
Valoarea critica ce desparte zona valorilor nu este superior de zona valorilor este superior este determinata de probabilitatea de a comite o eroare de tip I. = 0, 05 a
fost data. Astfel regiunea critica hasurata pe Figura 2. are aria 0, 05 si valoarea critica
Z t2
1
1, 65 este solutia ecuatiei:
e 2 dt = 0, 05.
2
z
Figura 2:
Etapa 4.
Valoarea testului statistic este dat de:

z =
x
75, 2 72
= 12/6 = 1, 6
Etapa 5.
Comparam valoarea gasita 1, 6 cu valoarea critica 1, 65 si gasim 1, 6 <

1, 65. Decizia este ca nu putem respinge ipoteza H0 . Testul se ncheie
cu formularea concluziei.
Concluzie: Probele nu sunt suficiente pentru a sustine ca actuala clasa
este superioara claselor anterioare.
Pare aceasta concluzie realista n conditiile n care n mod evident, 75, 2 este mai mare
ca 72. Nu trebuie sa uitam x = 75, 2 este media unui esantion de 36 de indivizi extras
dintr-o populatie cu media = 72 si deviatia standard = 12 si analiza arata ca probabilitatea ca media esantionului sa fie mai mare decat mediile tuturor esantioanelor este
mai mare decat riscul cu care noi acceptam o eroare de tip I.
Exemplul 15.5. La un colegiu s-a stabilit ca greutatea medie a studentelor este = 54, 4
kg, iar abaterea standard = 5, 4 kg. Profesorul de sport nu crede aceasta afirmatie.
Pentru a face un test selectioneaza un esantion aleator de 100 de studente si gaseste ca
media x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmatia la nivelul de
semnificatie = 0, 05?
Etapa 1.
H0 : = 54, 4 kg
Etapa 2.
Ha : 6= 54, 4 kg
44
Etapa 3.
- deoarece folosim o distributie de medii de esantioane testul statistic

va fi scorul standard.
- nivelul = 0, 05 este dat;
- media esantionului este o estimare a mediei populatiei. Ipoteza
alternativa nu este egal este sustinuta de medii de esantioane
considerabil mai mari sau considerabil mai mici ca 54, 4. ipoteza nula
este sustinuta de medii de esantioane n jurul valorii 54, 4. Regiunea
critica este formata din doua parti egale situate la cele doua extremitati
ale distributiei normale. Aria corespunzatoare fiecarei portiuni este
si probabilitatea fiecarei parti a regiunii critice este 0, 025. Rezulta

2
t
Z

z
= 1, 96 z
este solutia ecuatiei:
e 2 dt = .
2
2
2
2
z
Figura 3:
Etapa 4.
Se determina valoarea testului statistic:

z =
x
= 1, 204
a carei locatie este data pe figura urmatoare:
45
Figura 4:
Reamintim: Daca valoarea testului statistic este n regiunea critica respingem ipoteza
H0 daca nu, nu putem respinge ipoteza H0 .
Etapa 5.
Valoarea testului statistic nu este n regiunea critica.

Decizia: Nu respingem ipoteza H0 .
Justificarea deciziei: Valoarea testului nu este n dezacord cu H0 la
nivel de risc = 0, 05. Aceasta nu nseamna ca H0 este adevarata.
Concluzie: Media x gasita de profesor nu contravine ipotezei ca media este 54,4
kg, cand dispersia este 5, 4 kg.
O decizie de respingere a lui H0 nseamna ca valoarea testului implica ca H0 este falsa si
indica Ha .
Rezumat privind verificarea ipotezelor statistice asupra mediei n variant

a
clasic
a:
1. Ipoteza H0 specifica o valoare particulara a mediei populatiei.
2. Ipoteza Ha are trei forme. Fiecare dintre acestea determina o locatie specifica a
regiunii critice asa cum apare n tabelul de mai jos:
Semne n ipoteza
alternativa
Regiunea critica
<
6=
>
O regiune
la stanga
Doua regiuni
O regiune
de fiecare
la dreapta
parte cate una
test unilateral test bilateral test unilateral
st
anga
dreapta
3. Pentru multe cazuri semnul din ipoteza Ha indica directia n care regiunea critica
se gaseste
Valoarea lui se numeste nivel de semnificatie si reprezinta riscul (probabilitatea)
respingerii lui H0 atunci c
and aceasta estea adev
arat
a. Nu putem determina
46
dac
a ipoteza H0 este adev
arat
a sau fals
a. Putem doar decide c
a o respingem
sau c
a o accept
am.
Probabilitatea cu care respingem ipoteza adevarata este , dar nu stim probabilitatea cu
care facem o decizie eronata. O eroare de tip I si o eroare n decizie sunt lucruri diferite.
47
16
Verificarea ipotezelor statistice:

varianta probabilist
a
In sectiunea precedenta am descris varianta clasica de verificare a ipotezelor statistice

n cazul asertiunilor referitoare la media a unei populatii. O varianta probabilista
consta n determinarea unei probabilitati numita p-valoarea (prob-valoare) referitoare
la o statistica observata, care este comparata cu nivelul de semnificatie dat.
Definitia 16.1. P-valoarea unui test statistic este cea mai mica valoare a nivelului
de semnificatie pentru care informatia extras
a din esantion este semnificativ
a (H0
adevarat
a se respinge).
Consideram din nou exemplul 15.4 din sectiunea precedenta si-l analizam din acest punct
de vedere.
Exemplul 16.1. Un profesor a nregistrat pe mai multi ani rezultatul elevilor si media
a acestor rezultate este 72 si dispersia = 12. Clasa de 36 de elevi pe care-i nvata
la momentul actual are o medie x = 75, 2 . Aceasta medie fiind mai ridicata decat 72
profesorul vrea sa arate ca aceasta clasa este superioara celor de pana acum. Intrebarea
este daca media clasei x = 75, 2 este un argument suficient pentru a sustine afirmatia
profesorului la nivelul de semnificatie = 0, 05?
Precizam ca pentru a putea sustine ca actuala clasa este mai buna decat toate celelalte
clase anterioare trebuie ca media clasei actuale sa fie mai mare decat media oricarei clase
dinainte. Daca media clasei actuale este mai mica sau egala cu media unei clase anterioare,
atunci clasa actuala nu este mai buna decat toate celelalte.
Formularea ipotezei H0 : H0 : x = = 72.
Aceasta ipoteza corespunde asertiunii ca actuala clasa nu este superioara
celorlalte clase.
Etapa 2.
Formularea ipotezei alternative Ha : Ha : x = > 72.
Aceasta ipoteza corespunde asertiunii ca actuala clasa este superioara
celorlalte clase.
Remarcam faptul ca etapele 1 si 2 sunt aceleasi n varianta probabilista ca si n varianta
clasica de verificare a ipotezelor statistice.
Etapa 1.
Etapa 3.
Etapa 4.
Specificarea nivelului de semnificatie , a probabilitatii erorii de tip I:

= 0, 005.
Folosind formula scorului standard (z-scorului) si media x = 75, 2 a
esantionului de marime n = 36 se determina valoarea testului statistic:
z =
x
= 1, 60
Remarcam aici ca Etapa 4 n varianta probabilista este aceeasi ca si

varianta clasica de verificare a ipotezelor statistice.
48
Etapa 5.
Se reprezinta distributia normala a mediilor (testul statistic) n acest

caz si se localizeaza valoarea z determinata n Etapa 4 (care mparte
distributia n doua parti) si se determina care parte a distributiei
reprezinta pvaloarea.
Dupa care se determina pvaloarea. Ipoteza alternativa Ha arata ca n
cazul nostru:
p = P (z > z ) = P (z > 1, 6) = 0, 0548
Etapa 6.
p-valoarea n cazul nostru este 0, 0548.

Prin urmare pentru
orice nivel de semnificatie 0, 0548 nu putem respinge
ipoteza nula si concluzia este ca nu avem probe suficiente pentru a demonstra superioritatea clasei actuale. Daca nsa nivelul de
semnificatie fixat la nceput este mai mare ca 0, 0548 (de ex. = 0, 1)
atunci decizia noastra va fi de respingere a ipotezei H0 si concluzia de
superioritate a clasei actuale.
Figura 5:
Inainte sa trecem la un al doilea exemplu recapitulam cateva detalii privind verificarea
ipotezelor statistice n varianta probabilista:
1. Ipotezele H0 si Ha se formuleaza n aceeasi maniera ca si n varianta clasica.
2. Se specifica nivelul de semnificatie care va fi folosit.
3. Valoarea testului statistic se calculeaza n Etapa 4 de aceeasi maniera ca n varianta
clasica.
4. P-valoarea este aria aflata ntre curba de densitate de probabilitate axa Oz si z = z .
Exista trei cazuri posibile: doua unilaterale si unul bilateral. Directia (sau semnul)
n ipoteza Ha este indiciul:
Cazul 1. Daca Ha este unilaterala la dreapta ( > ) atunci p = P (z > z ) si aria este
n dreapta lui z .
Cazul 2. Daca Ha este unilaterala stanga ( < ), atunci p = P (z < z ) este aria din
stanga lui z .
Cazul 3. Daca Ha este bilaterala ( 6= ), atunci p = P (z < |z |) + P (z > |z |) =
2 P (z > |z |)
49
5. Decizia se ia comparand P -valoarea cu nivelul de semnificatie :

a) Daca P atunci H0 se respinge;
b) Daca P > atunci H0 se accepta.
6. Concluzia se formuleaza de aceeasi maniera ca si n varianta clasica.
Consideram acum un exemplu n care Ha este bilateral.
Exemplul 16.2. Companii mari folosesc agentii specializate pentru a testa candidatii
care doresc sa fie angajati. Agentia A foloseste un test de selectie pentru care n decursul
timpului s-a stabilit o medie de 82 si o deviatie standard de 8. Agentia B a dezvoltat
o noua metoda de testare care este mai rapida, mai usor de aplicat si costa mai putin.
Agentia B sustine ca testul lor da aceleasi rezultate ca si testul agentiei A.
Mai multe companii, pentru a reduce costul, se gandesc sa treaca de la agentia A la
agentia B, dar ei nu doresc sa faca aceasta trecere daca media cu teste B difera de cea
cu teste A. O agentie independenta C a testat cu noul test 36 de indivizi si a obtinut o
medie de 80.
Care este pvaloarea asociata acestui test?
Rezultatul testului agentiei B este acelasi daca = 82 si este diferit daca 6= 82. Prin
urmare:
Etapa 1.
H0 : = 82 (testele au aceeasi medie)
Etapa 2.
Ha : 6= 82 (testele au medii diferite)
Etapa 3.
Este omisa daca se cere p-valoarea fara luarea unei decizii.
Etapa 4.
Informatia din esantion: n = 36 si x = 80:

x
2
12
3
= 8 = 8 = 2 = 1.5
n
6
Se localizeaza z pe o distributie normala si deoarece Ha este bilateral

vom considera P (z < |z |) si P (z > |z |) si obtinem:
z =
Etapa 5.
p = P (z < 1, 50) + P (z > 1, 50)

= 0, 5 0, 4332 + 0, 5 0, 4332 = 0, 1336
deci p valoarea este 0, 1336.
50
Figura 6:
Fiecare companie va lua propria decizie: a) continua cu A sau b) schimba si trece la
B. Fiecare va trebui sa stabileasca propriul nivel de semnificatie si sa ia o decizie n
consecinta.
51
17
Inferent
a statistic
a privind media populatiei dac
a
nu se cunoaste abaterea standard a populatiei
Pana acum am prezentat doua tipuri de inferenta statistica privind media populatiei:
evaluarea intervalului de ncredere si verificarea ipotezelor statistice. In cele doua
tipuri de inferente statistice abaterea standard este considerata cunoscuta. In general
nsa abaterea standard nu este cunoscuta. Subiectul acestei sectiuni este inferenta
statistic
a privind media dac
a abaterea standard nu este cunoscut
a.
Daca dimensiunea esantionului este suficient de mare (n general vorbind, esantioane
a caror marimi este mai mare decat n = 30 de date sunt considerate suficient de mari),
deviatia standard s a esantionului este o estimare buna a deviatiei standard a populatiei si
putem susbstitui cu s n procedura discutata deja. Daca populatia pe care o investigam
este aproape normala si n 30, atunci procedeul se bazeaza pe distributia Student t.
Distributia Student t (sau simplu t distributia) este distributia statisticii t, definita prin:
t=
x
s
n
In anul 1908 W.S. Gosset un functionar la o fabrica de bere n Irlanda a publicat o

lucrare relativa la aceasta distributie sub pseudonimul Student. In lucrarea lui Gosset
se presupune ca populatia este normala. Aceasta restrictie s-a dovedit ulterior restrictiva,
ntrucat se obtin rezultate satisfacatoare si pentru multe populatii care nu sunt normale.
Ecuatia care defineste distributia t nu o dam aici, doar dam cateva proprietati ale lui t:
1) distributia t are media 0;
2) distributia t este simetrica fata de medie;
3) distributia t are varianta supraunitara, dar daca dimensiunea esantionului creste,
varianta tinde la 1;
4) distributia t n jurul mediei este sub si departe de medie este deasupra distributiei
normale;
5) fiecarei marimi de esantion i corespunde o distributie t separata care depinde de
marimea esantionului. Daca marimea esantionului creste atunci t- distributia tinde
la distributia normala.
52
Figura 7:
Cu toate ca pentru fiecare marime de esantion (n=2,3,4,...) avem o distributie t separata
completa, n practica doar anumite valori critice ale lui t sunt folosite. Aceste valori critice
aflate n dreapta mediei sunt redate n tabelul urmator:
df
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
0,40
0,30
0.25
0,20
0,10
0,05
0,025
0,010
0,005
0,001
0,0005
0,325
0,289
0,277
0,271
0,267
0,265
0,263
0,262
0,261
0,260
0,260
0,259
0,259
0,258
0,258
0,258
0,727
0,617
0,584
0,569
0,559
0,553
0,549
0,546
0,543
0,542
0,540
0,539
0,538
0,537
0,536
0,535
1,000
0,816
0,765
0,741
0,727
0,718
0,711
0,706
0,703
0,700
0,697
0,695
0,694
0,692
0,691
0,690
1,376
1,061
0,978
0,941
0,920
0,906
0,896
0,889
0,883
0,879
0,876
0,873
0,870
0,868
0,866
0,865
3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
l,337
6,314
2,920
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
12,71
4,303
3,182
2,776
2,571
2,447
2,365
2,306
2,262
2,228
2,201
2,179
2,160
2,145
2,131
2,120
31,82
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
63,66
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,055
3,012
2,977
2,947
2,921
318,3
22,33
10,22
7,173
5,893
5,208
4,785
4,501
4,297
4,144
4,025
3,930
3,852
3,787
3,733
3,686
636,6
31,60
12,94
8,610
6,859
5,959
5,405
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
53

df
17
18
19
20
21
22
23
24
25
26
27
28
29
z
0,40
0,30
0,25
0,20
0,10
0,05
0,025
0,010
0,005
0,001
0,0005
0,257
0,257
0,257
0,257
0,257
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,256
0,534
0,534
0,533
0,533
0,532
0,532
0,532
0,531
0,531
0,531
0,531
0,530
0,530
0,530
0,689
0,688
0,688
0,687
0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,674
0,863
0,862
0,861
0,860
0,859
0,858
0,858
0,857
0,856
0,856
0,855
0,855
0,854
0,854
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
2,110
2,101
2,093
2,086
2,080
2,074
2,069
2,064
2,060
2,056
2,052
2,048
2,045
2,042
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,473
2,467
2,462
2,457
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
3,646
3,611
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646
Figura 8:
In acest tabel df are valorile de la 1 la 29 si este numarul gradelor de libertate.
Apropierea valorilor din liniile corespunzatoare lui df = 29 si z se datoreaza faptului
ca daca n 30 distributia t este cea normala (teorema limita centrala).
Gradul de libertate df este un parametru statistic care este greu de definit. El este un
indice care se foloseste pentru a identifica distributia care trebuie folosita. In consideratiile
noastre df = n 1, unde n este marimea esantionului. Valoarea critica a testului t care
trebuie folosita n estimarea intervalului de ncredere precum si n verificarea ipotezelor
statistice se obtine din tabelul prezentat. Pentru a obtine aceasta valoare este nevoie de
a cunoaste:
1) df - numarul gradelor de libertate;
2) aria determinata de curba de repartitie aflata n dreapta valorii critice. Aceasta
valoare este notata t(df, ).
54
Exemplul 17.1. Determinati t(10, 0.05) din tabel. Avem df = 10 si = 0.05, deci
t(10, 0.05) = 1.81.
Valorile critice ale testului statistic t aflate n stanga mediei se obtin cu formula: t(df, ),
tinand seama de simetria distributiei t.
Figura 9:
Se observa usor ca t(df, ) = t(df, 1 ). Astfel: t(df ; 0, 05) = t(df ; 0, 95).
Exemplul 17.2. Determinati t(15; 0, 95). Avem: t(15; 0, 95) = t(15; 0, 05) = 1, 75.
Figura 10:
Statistica t este folosita n verificarea ipotezelor statistice privind asertiuni relative la
media de aceeasi maniera ca si statistica z.
Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere al
ecologistului este: nivelul monoxidului de carbon n aer este mai mare decat 4, 9/106 .
Un esantion de 25 de determinari cu media x = 5, 1/106 si s = 2, 1/106 este un argument
suficient pentru a sustine afirmatia? Se foloseste nivelul de semnificatie = 0, 05.
Etapa 1.
H0 : = 4, 9/106
Etapa 2.
Ha : > 4, 9/106
55
Etapa 3.
Etapa 4.
= 0, 05; df = 25 1 = 24 si t(24; 0, 05) = 1, 71 din tabel.

0, 20
x
5, 1 4, 9
s = 2, 1/25 = 0, 42 = 0, 476 ' 0, 48
n
Decizia: Nu putem respinge H0 (t nu este n regiunea critica).
Concluzie: Nu avem suficiente argumente pentru ca sa respingem
ipoteza ca nivelul monoxidului de carbon este 4, 96/106 .
t =
Etapa 5.
Figura 11:
Remarca 17.1. Daca valoarea df (df = n 1) este mai mare ca 29, atunci valoarea
critica a lui t(df, ) este foarte apropiata de z() (scorul z este listat la capatul tabelului)
si prin urmare n loc de t(df, ) se foloseste z(). Deoarece tabelul considerat contine doar
valorile critice ale distributiei t, p-valoarea nu poate fi gasita din tabel n cazul verificarii
ipotezei statistice pentru ca aceasta necesita distributia t completa. P-valoarea poate fi
nsa estimata folosind tabelul.
Exemplul 17.4. Sa revenim la exemplul 17.3. Retinem t = 0, 48, df = 24 si Ha : > 49.
Astfel pentru a rezolva problema folosind varianta probabilista pentru Etapa 5 cu pvaloarea avem:
p = P (t > 0, 48, stiind df = 24)
56
Figura 12:
Randul df = 24 din tabel arata ca p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 din
tabel arata ca P (t > 0, 685) = 0, 25 asa cum arata figura urmatoare:
Figura 13:
Comparand t = 0, 48, vedem ca p valoarea este mai mare ca 0, 25.
Exemplul 17.5. Sa se determine pvaloarea pentru urmatoarea ipoteza statistica:
H0 : = 55
Ha : 6= 55
n conditiile n care df = 15 si t = 1, 84.
Solutie: p = P (t < 1, 84) + P (t > 1, 84) = 2 P (t > 1, 84). Randul df = 15 din tabel
arata ca P (t > 1, 84) este ntre 0, 025 si 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.
Media populatiei poate fi estimata daca este necunoscut de o maniera similara cu cazul
cunoscut. Diferenta este ca se foloseste distributia t n loc de distributia z si deviatia
standard s ca estimare a lui . Formula pentru intervalul de ncredere 1 este:
s
x t(df, ) , x + t(df, )
2
2
n
n
57
Figura 14:
unde df = n 1.
Exemplul 17.6. In cazul unui esantion aleator de 20 de noi nascuti, media greutatii lor
este 3, 4 kg si deviatia standard este 0, 9 kg. Sa se estimeze cu o ncredere de 95% media
greutatii noilor nascuti.
Solutie: x = 3, 4 kg, s = 0, 9 kg si n = 20, iar 1 = 0, 95, implica: = 0, 05; df = 19,
iar din tabel gasim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:
s
0, 9
x t(19; 0, 025) = 3, 4 2, 09
n
20
3, 4 2, 09
0, 9
= 3, 4 0, 46
4, 472
Intervalul de ncredere de 95% este (2, 94; 3, 86).
58
18
Inferent
a relativ
a la variant
a si estimarea variantei
Adesea se pun probleme care cer sa facem inferenta asupra variantei. De exemplu, o
companie de produse racoritoare are o masina de mbuteliat, care umple cu racoritoare
butelii de 0, 32 l= 32 cl. Cantitatea medie pusa n fiecare butelie este importanta, dar
cantitatea medie corecta nu asigura ca masina lucreaza corect. Daca varianta este mare,
vor fi multe butelii care sunt prea umplute si multe butelii care nu sunt bine umplute.
De aceea, compania doreste sa controleze varianta 2 a cantitatii x de racoritoare pusa n
fiecare butelie si sa mentina varianta la un nivel cat mai scazut posibil.
Vom prezenta n aceasta sectiune o inferenta privind varianta unei populatii. Adesea n
cazul acestei inferente se vorbeste despre deviatia standard n loc de varianta. Trebuie sa
subliniem ca deviatia standard este radacina patrata a variantei; asadar a vorbi despre
varianta este comparabil cu a vorbi despre deviatie standard.
Sa revenim la exemplul companiei de produse racoritoare. Sa ne imaginam ca aceasta
companie doreste sa detecteze cand variabilitatea cantitatii de racoritoare pusa n fiecare
butelie scapa de sub control. O varianta de 0, 0004 este considerata acceptabila si
compania va regla masina de mbuteliat daca varianta devine mai mare decat aceasta
valoare. Decizia va fi luata folosind verificarea ipotezelor statistice. Ipoteza H0 este ca
varianta are valoarea 0, 0004, iar ipoteza Ha este ca varianta depaseste valoarea 0, 0004:
H0 : 2 = 0, 0004
Ha : 2 > 0, 0004
(varianta este controlata)

(varianta nu este controlata)
Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H0 este testul 2 .
Valoarea calculata a lui 2 se va obtine folosind formula:
2 =
n s2
2
unde s2 este varianta esantionului, n este marimea esantionului, iar 2 este valoarea
specificata n ipoteza nula.
Daca se iau esantioane de marime n dintr-o populatie normala, avand varianta 2 , atunci
cantitatea ns2 / 2 are o distributie care se numeste distributia 2 . Formula care defineste
distributia 2 nu o vom da aici, dar pentru a folosi distributia 2 , prezentam urmatoarele
proprietati ale acesteia:
1. distributia 2 are valori nenegative, este zero sau este pozitiva;
2. distributia 2 nu este simetrica, este asimetrica la dreapta;
3. exista mai multe repartitii 2 . Ca si pentru distributiile t exista o distributie 2
pentru fiecare grad de libertate. Inferenta pe care o discutam aici se refera la cazul
df = n 1.
Valorile critice ale lui 2 sunt date n tabelul urmator:
59
df/
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
40
50
60
70
80
90
100
0.995
0.01
0.071
0.207
0.412
0.676
0.990
1.34
1.73
2.16
2.60
3.07
3.57
4.07
4.60
5.14
5.70
6.26
6.84
7.43
8.03
8.64
9.26
9.89
10.5
11.2
11.8
12.5
13.1
13.8
20.7
28.0
5.5
43.3
51.2
59.2
67.3
0.990
0.020
0.115
0.297
0.554
0.872
1.24
1.65
2.09
2.56
3.05
3.57
4.11
4.66
5.23
5.81
6.41
7.01
7.63
8.26
8.90
9.54
10.2
10.9
11.5
12.2
12.9
13.6
14.3
15.0
22.2
29.7
37.5
45.4
53.5
61.8
70.1
0.975
0.050
0.216
0.484
0.831
1.24
1.69
2.18
2.70
3.25
3.82
4.40
5.01
5.63
6.26
6.91
7.56
8.23
8.91
9.59
10.3
11.0
11.0
12.4
13.1
13.8
14.6
15.3
16.1
16.8
24.4
32.4
40.5
48.8
57.2
65.7
74.2
0.950
0.103
0.352
0.711
1.15
1.64
2.17
2.73
3.33
3.94
4.58
5.23
5.90
6.57
7.26
7.96
8.67
9.39
10.1
10.9
11.6
12.3
13.1
13.9
14.6
15.4
16.2
16.9
17.7
18.5
26.5
34.8
43.2
51.8
60.4
69.1
77.9
0.900
0.211
0.584
1.06
1.61
2.20
2.83
3.49
4.17
4.87
5.58
6.30
7.04
7.79
8.55
9.31
10.1
10.9
11.7
12.4
13.2
14.0
14.9
15.7
16.5
17.3
18.1
18.9
19.8
20.6
29.1
37.7
46.5
55.3
64.3
73.3
82.4
60
0.10
4.61
6.25
7.78
9.24
10.6
12.0
13.4
14.7
16.0
17.2
18.6
19.8
21.1
22.3
23.5
24.8
26.0
27.2
28.4
29.6
30.8
32.0
33.2
34.4
35.6
36.7
37.9
39.1
40.3
51.8
63.2
74.4
85.5
96.6
108.0
114.0
0.05
6.0
7.82
9.50
11.1
12.6
14.1
15.5
17.0
18.3
19.7
21.0
22.4
23.7
25.0
26.3
27.6
28.9
30.1
31.41
32.7
33.9
35.2
36.4
37.7
38.9
40.1
41.3
42.6
43.8
55.8
67.5
79.1
90.5
102.0
113.0
124.0
0.025
7.38
9.35
11.1
12.8
14.5
16.0
17.5
19.0
20.5
21.9
23.3
24.7
26.1
27.5
28.9
30.2
31.5
32.9
34.2
35.5
36.8
38.1
39.4
40.7
41.9
43.2
44.5
45.7
47.0
59.3
71.4
83.3
95.0
107.0
118.0
130.0
0.01
9.21
11.4
13.3
15.1
16.8
18.5
20.1
21.7
23.2
24.7
26.2
27.7
29.1
30.6
32.0
33.4
34.8
36.2
37.6
39.0
40.3
41.6
43.0
44.3
45.6
47.0
48.3
49.6
50.9
63.7
76.2
88.4
100.0
112.0
124.0
136.0
0.005
10.6
12.9
14.9
16.8
18.6
20.3
22.0
23.6
25.2
26.8
28.3
29.8
31.3
32.8
34.3
35.7
37.2
38.6
40.0
41.4
42.8
44.2
45.6
46.9
48.3
49.7
51.0
52.3
53.7
66.8
79.5
92.0
104.0
116.0
128.0
140.0
Figura 15:
Valorile critice vor fi identificate prin doua valori: grade de libertate si aria situata sub
curba n dreapta valorii critice. Astfel 2 (df, ) este simbolul folosit pentru identificarea
valorii critice 2 cu df grade de libertate si cu aria sub grafic si n dreapta, asa cum
este prezentat pe figura urmatoare:
Figura 16:
Exemplul 18.1. Folosind tabelul determinati 2 (20; 0, 05) si 2 (14; 0, 90).
Din tabel se obtine: 2 (20; 0, 05) = 31, 4 si 2 (14; 0, 90) = 7, 79.
Remarca 18.1. Daca df > 2 valoarea medie a lui 2 este df . Valoarea medie este
localizata n dreapta modului (locul n care curba atinge valoarea maxima).
61
Figura 17:
Exemplul 18.2. Reluam cazul companiei de produse racoritoare care doresc sa controleze
varianta ca sa nu depaseasca 0, 0004. Un esantion de marime 28 cu o varianta de 0, 0010
indica oare la nivelul de semnificatie 0, 05 ca procesul de mbuteliere nu este sub control
(referitor la varianta)?
Solutie:
Etapa 1.
H0 : 2 = 0, 0004 (procesul este sub control)
Etapa 2.
H0 : 2 > 0, 0004 (procesul nu este sub control)
Etapa 3.
= 0, 05, n = 28, df = 27 si obtinem din tabel:

2 (27; 0, 005) = 40, 1.
Etapa 4.
2 =
Etapa 5.
Luarea deciziei.
n s2
28 0, 0010
=
= 70
2
0, 0004
Figura 18:
62
Concluzia: Procesul de mbuteliere este sub control n ceea ce priveste varianta.

Exemplul 18.3. Specificatiile unui anumit medicament indica ca fiecare comprimat
trebuie sa contina 2,5 g de substanta activa. 100 de comprimate alese la ntamplare
din productie sunt analizate. Ele contin n media 2,6 g de substanta activa cu o deviatia
standard de s = 0, 4g.
Se poate spune ca medicamentul respecta specificatiile ( = 0, 05)?
Etapa 1.
Ipoteza H0 este ca medicamentul respecta specificatiile:
Etapa 2.
H0 : = 2, 5
Ipoteza Ha este ca medicamentul nu respecta specificatiile:
Etapa 3.
Etapa 4.
H0 : 6= 2, 5
Statistica folosita este media x, iar nivelul de semnificatie este = 0, 05.
Regiunea critica este:
Testul statistic este:
z=
x
2, 6 2, 5
0, 1
=
= 2, 5
s =
0, 4
0, 04
n
10
Valoarea lui z n tabel este: z0,975 = 1, 96 < 2, 5.

Ipoteza H0 este respinsa, asadar nu putem spune ca medicamentul
respecta specificatiile.
Abordarea probabilista a inferentei statistice asupra variantei, p-valoarea poate fi estimata
pentru verificarea ipotezelor statistice folosind tabelul statistic 2 de aceeasi maniera ca
si n cazul testului Student.
Etapa 5.
Exemplul 18.4. Sa se determine p-valoarea n cazul urmatoarelor ipoteze statistice:

H0 : 2 = 150
Ha : 2 > 150
Se cunosc: df = 18 si 2 = 32, 7.
Solutie: p = P (2 > 32, 7) (0, 010; 0, 025) (date citite din tabel).
Exemplul 18.5. Un parametru folosit n determinarea utilitatii unui examen ca masura
a abilitatii studentilor este mprastierea rezultatelor. Un set de rezultate al unui test
are valoare mica daca plaja notelor este mica. Din contra daca plaja notelor este mare,
este o diferenta mare ntre rezultatul cel mai bun si rezultatul cel mai slab, atunci testul
are valoare mai mare. La un test la care nota maxima este de 100 de puncte s-a pretins
ca o deviatie standard de 12 puncte este de dorit. Pentru a vedea daca un anume test
de o ora a fost sau nu un test bun din acest punct de vedere un profesor verifica aceasta
ipoteza statistica la nivelul de semnificatie = 0, 05 folosind rezultatele obtinute de clasa.
Au fost 28 de rezultate si deviatia standard gasita a fost 10, 5. Constituie aceasta o proba
la nivelul de semnificatie = 0, 05 ca examenul nu are deviatia standard specificata?
Solutie: n = 28, s = 10, 5 si = 0, 05
Etapa 1.
H0 : = 12
63
Etapa 2.
H0 : 6= 12
Etapa 3.
= 0, 05, df = 27 si obtinem valorile critice din tabel:

21 (27; 0, 975) = 14, 6 si 22 (27; 0, 025) = 43, 2.
Etapa 4.
2 =
n s2
28 (10, 5)2
3087
=
=
= 21, 43
2
2
(12)
144
Etapa 5.
Nu se poate respinge H0 .
Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H0
64
19
Generalit
ati despre corelatie.
Corelatie liniar
a
In statistica adesea apar probleme de genul urmator: pentru aceeasi populatie avem doua
seturi de date corespunzatoare la doua variabile distincte si se pune ntrebarea daca ntre
cele doua variabile exista vreo legatura (relatie)? Daca da, care este aceasta relatie? Cum
sunt aceste variabile corelate? Relatiile pe care le discutam aici nu sunt neaparat de tip
cauza-efect. Ele sunt relatii matematice care permit anticiparea comportamentului unei
variabile n functie de comportamentul celeilalte. Iata cateva exemple:
Exemplul 19.1.
- In general o persoana care creste n naltime creste si n greutate. Se pune ntrebarea:
exista vreo relatie ntre naltime si greutate?
- Studentii si petrec timpul la universitate nvatand sau dand examene. Se pune
ntrebarea: studiind mai mult, obtii note mai mari?
- Doctorii care testeaza un nou medicament prescriu cantitati diferite si observa
raspunsul pacientilor; se pune ntrebarea: cantitatea de medicament prescrisa
determina oare timpul de nsanatosire al pacientului?
Problemele din exemplul precedent cer analiza corelatiei dintre doua variabile.
In cazul n care pentru o populatie avem doua seturi de date corespunzatoare la doua
variabile distincte se formeaza perechile de date (x, y), n care x este valoarea primei
variabile si y este valoarea celei de-a doua variabile. De exemplu, x este natimea si y este
greutatea.
O pereche ordonata de date (x, y) se numeste dat
a bidimensional
a.
In mod traditional, variabila X (avand valorile x) se numeste variabil
a de intrare
(variabil
a independent
a), iar variabila Y (avand valorile y) se numeste variabil
a de
iesire (variabil
a dependent
a).
Variabila de intrare X este cea masurata sau controlata pentru a prezice variabila Y .
In cazul testarii medicamentului doctorii (masoara) controleaza cantitatea de medicament
prescrisa si deci aceasta cantitate x este valoarea variabilei de intrare (independenta) X.
Timpul de recuperare y este valoarea variabilei de iesire (dependente) Y .
In cazul naltimii si greutatii oricare din variabile poate fi atat variabila de intrare cat si
variabila de iesire. Rezultatele analizei vor fi nsa functie de alegerea facuta.
In cazul problemelor de analiza a corelatiei dintre doua variabile datele esantionului se
prezinta sub forma unei diagrame de mprastiere.
Definitia 19.1. O diagram
a de mpr
astiere sau nor de puncte este reprezentarea
grafica a perechilor de date ntr-un sistem de coordonate ortogonal. Valorile x ale variabilei
de intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei de iesire Y sunt
reprezentate pe axa Oy.
65
Exemplul 19.2. Pentru un esantion de 15 studenti urmatorul tabel de date reprezinta

numarul de ore de studiu x pentru un examen si nota y obtinuta la acel examen:
x
y
2
5
3
5
3 4 4 5
7 5 7 7
5 6 6
8 6 9
6
8
7
7
7
9
7 8 8
10 8 9
Diagrama de mprastiere n acest caz este:
Exemplul 19.3. Diagrama de mprastiere n cazul tabelului de date:

x
y
2 12
4 8
4 6 9 4 11 3 10 11
10 9 10 8 8 5 10 9
3 1 13
8 3 9
12
8
14
8
7 2 8
11 6 9
este:
Analiza de corelatie are ca obiectiv sa stabileasca legatura dintre cele doua variabile.
Vom prezenta cateva diagrame de mprastiere pentru a ilustra corelatii posibile dintre
variabila de intrare X si variabila de iesire Y .
Definitia 19.2. Daca pentru valorile x crescande ale variabilei de intrare X nu exista o
deplasare clara (bine definita) ale valorilor y ale variabilei Y , atunci zicem ca nu avem
corelatie sau ca nu exist
a leg
atur
a ntre X si Y .
66
Diagrama de mprastiere n cazul n care nu avem corelatie este urmatoarea:
Definitia 19.3. Daca pentru valorile x crescande ale variabilei de intrare X exista o
deplasare clara (bine definita) ale valorilor y ale variabilei Y zicem ca avem o corelatie.
Zicem ca avem o corelatie pozitiv
a daca y tinde sa creasca si avem o corelatie
negativ
a daca y tinde sa descreasca odata cu cresterea lui x.
Precizia schimbarii lui y atunci cand x creste determina cat de puternica este corelatia.
Diagramele de mprastiere care urmeaza ilustreaza aceste idei:
Figura 19: Diagrama de mprastiere n cazul unei corelatii pozitive
67
Figura 20: Diagrama de mprastiere n cazul unei corelatii pozitive stranse
Figura 21: Diagrama de mprastiere n cazul unei corelatii negative
Figura 22: Diagrama de mprastiere n cazul unei corelatii negative stranse

Definitia 19.4. Daca perechile (x, y) tind sa urmeze o dreapta zicem ca avem o corelatie
liniar
a.
Definitia 19.5. Daca toate perechile (x, y) se gasesc pe o dreapta (care nu este nici
orizontala nici verticala) atunci zicem ca avem o corelatie liniar
a perfect
a.
68
Figura 23: Diagrama de mprastiere n cazul unei corelatii pozitive liniare perfecte
Remarca 19.1. Daca toate perechile (x, y) se gasesc pe o dreapta orizontala sau verticala
nu exista corelatie intre cele doua variabile. Aceasta ntrucat schimbarea uneia nu
afecteaza valoarea celeilalte variabile.
Remarca 19.2. Diagramele de mprastiere nu sunt totdeauna de genul celor prezentate
pana acum si sugereaza corelatii care sunt de alta natura.
Figura 24: Diagrama de mprastiere n cazul unei corelatii neliniare

Definitia 19.6. Coeficientul de corelatie liniar
a r masoara cat de puternica este
corelatia liniara dintre cele doua variabile. Reflecta consistenta efectului pe care-l are
schimbarea valorii variabilei independente X asupra variabilei dependente Y .
Remarca 19.3. Valoarea coeficientului de corelatie liniara r permite sa se formuleze
un raspuns la ntrebarea: exista o corelatie liniara ntre cele doua variabile considerate?
Coeficientul de corelatie liniara r are valoarea ntre 1 si +1. Valoarea r = +1 nseamna
o corelatie liniara pozitiva perfecta, iar valoarea r = 1 nseamna o corelatie liniara
negativa perfecta.
Daca pentru x crescand rezulta o crestere generala a valorilor lui y, atunci r indica o
corelatie liniara pozitiva.
De exemplu, n cazul copiilor daca x este varsta si y este naltimea, atunci ne asteptam ca
r sa fie pozitiv, pentru ca n mod natural, natimea copilului creste o data cu varsta. In
69
cazul automobilelor de serie, daca x este varsta, iar y este valoarea, atunci ne asteptam
ca r sa fie negativ pentru ca n mod uzual valoarea automobilului descreste cu varsta lui.
Definitia 19.7. Coeficientul de corelatie liniar
a r n cazul unui esantion este prin
definitie:
P
(x x) (y y)
r=
n sx sy
n care sx , sy sunt deviatiile standard ale variabilelor x, y, iar n este numarul de perechi
(x, y).
Remarca 19.4. Pentru a calcula r de obicei se foloseste o formula alternativa echivalenta:
SS(x, y)
r=p
SS(x) SS(Y )
P 2
P 2
1 X 2
1 X 2
unde: SS(x) =
x
x , SS(y) =
y
y , SS(x, y) =
n
n
X
X
P
1
x
y .
xy
n
Exemplul 19.4. Sa se determine coeficientul de corelatie liniara r n cazul unui esantion
aleator de marime 10, daca tabelul de date este:
x
y
27 22 15 35 30
30 26 25 42 38
52
40
35
32
55
54
40
50
40
43
Folosind aceste date avem:

SS(x) = 1396, 9 SS(y) = 858, 0 SS(x, y) = 919, 0
de unde gasim:
919, 0
r=p
(1396, 9) (858, 0)
= 0, 8394 0, 84.
Remarca 19.5. Daca valoarea calculata r este apropiata de 0, atunci nu exista corelatie
liniara.
Daca valoarea calculata r este aproape de +1 sau 1, atunci banuim ca ntre cele doua
variabile exista corelatie liniara.
Intre 0 si 1 exista o valoare numita punct de decizie care indica daca exista sau nu exista
corelatie liniara. Un punct simetric exista si ntre 1 si 0. Valoarea punctului de decizie
depinde de marimea esantionului.
In tabelul urmator sunt trecute puncte de decizie pozitive pentru diferite marimi de
esantionare cuprinse ntre 5 si 100.
70
punct de n punct de
decizie
decizie
5
0,878
12
0,576
6
0,811
13
0,553
7
0,754
14
0,532
8
0,707
15
0,514
9
0,666
16
0,497
10
0,632
17
0,482
11
0,602
18
0,468
Tabelul 1:Punctele de decizie
n
19
20
22
24
26
28
punct de
decizie
0,456
0,444
0,423
0,404
0,388
0,374
n
30
40
50
60
80
100
punct de
decizie
0,301
0,312
0,279
0,254
0,220
0,196
pozitive pentru corelatie liniara
Valorile punctelor de decizie descresc daca n creste.

Daca r se gaseste ntre punctul de decizie negativ si cel pozitiv nu avem argumente ca sa
sustinem ca ntre cele doua variabile exista o corelatie liniara.
Daca r este mai mare decat punctul de decizie pozitiv sau mai mic decat punctul de
decizie negativ atunci ntre cele doua variabile exista o corelatie liniara.
Existenta unei corelatii ntre cele dou
a variabile nu nseamn
a c
a exist
a o relatie
cauz
a efect. Astfel, de exemplu, daca X este alocatia pentru copii n ultimii 10 ani si
Y este consumul de bauturi alcoolice n ultimii 10 ani, un esantion de aceste date arata
o corelatie pozitiva stransa fara ca alocatia pentru copii sa fie cauza vanzarii bauturilor
alcoolice sau viceversa.
O metoda rapida de estimare a coeficientului de corelatie liniara r n cazul unui esantion
este urmatoarea:
a) Se deseneaza o curba nchisa n jurul valorii multimii de perechi (x, y):
71
b) Se determina lungimea D a diametrului maxim:
c) Se determina lungimea diametrului minim d:
d
d) Valoarea r se estimeaza cu 1
, n care semnul se alege n functie de
D
orientarea diametrului D:
Trebuie subliniat ca aceasta estimare este grosiera. Este foarte sensibila la mprastiere.
Cu toate acestea daca plaja de valori a lui X este aproximativ aceeasi ca plaja de valori
a lui Y aproximatia este utila.
72
20
Analiz
a de corelatie liniar
a
In sectiunea 20 am vazut care este formula coeficientului de corelatie liniara r ntre doua
variabile X, Y menit sa masoare cat de stransa este relatia de dependenta liniara dintre
cele doua variabile.
In cele ce urmeaza vom prezenta o analiza mai amanuntita a acestei formule. Consideram
pentru ilustratie urmatorul set de date bidimensionale:
x
y
2 3
1 5
6
3
8
2
11 12
6 1
Diagrama de mprastiere n acest caz este:
Media x a variabilei x este 7: x = 7, iar media variabilei y este 3: y = 3.

Punctul (x, y) este punctul (7, 3) si se numeste centroid al datelor:
73
Daca prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul de
date se mparte n patru submultimi. Fiecare data (x, y) se gaseste la o anumita distanta
de aceste linii; x x este distanta cu semn de la (x, y) la paralela la axa Oy si y y
este distanta cu semn de la (x, y) la paralela Ox. distantele cu semn sunt pozitive sau
negative n functie de pozitia lui (x, y) fata de (x, y).
O masura a dependentei liniare ar putea fi covarianta. Covarianta dintre X si Y este

definita ca suma produselor distantelor cu semn x x si y y a tuturor datelor la centroid
mpartita la n:
n
X
(xi x) (yi y)
covar(x, y) =
i=1
n
Covarianta n cazul tabelului de date considerate este 0, 6.
Covarianta pozitiva nseamna ca diagrama de dispersie este dominata de date care se
gasesc deasupra si n dreapta centroidului sau dedesubt si n stanga acestuia. Aceasta
ntrucat produsele (x x) (y y) n puncte din aceste regiuni sunt pozitive.
Daca diagrama de dispersie este dominata de date care se gasesc deasupra si n stanga sau
dedesubt si n dreapta centroidului atunci covarianta este negativa pentru ca produsele
(x x) (y y) pentru puncte din aceste regiuni sunt negative.
Covarianta nsa nu este convenabila pentru a masura cat este de stransa relatia de
dependenta liniara ntre doua variabile fiindca depinde de unitatile de masura ale datelor.
Covarianta nu are o unitate de masura standardizata si mprastierea datelor influenteaza
foarte mult marimea covariantei.
Astfel de exemplu daca nmultim datele din tabelul considerat anterior cu 10 obtinem
tabelul de date:
x
y
20 30 60 80
10 50 30 20
110
60
120
10
Covarianta n cazul acestui tabel de date este 60, dar aceasta nu nseamna nicidecum ca
relatia de dependenta liniara ntre X, Y este mai stransa. Relatia de dependenta liniara
74
este aceeasi si doar datele sunt mai mprastiate. Aceasta este problema cu covarianta
atunci cand vrem sa masuram cu ajutorul ei dependenta liniara ntre doua variabile.
Trebuie sa gasim o cale de eliminare a efectului mprastierii datelor atunci cand masuram
dependenta.
Daca standardizam X si Y mpartind deviatia fiecareia de la media sa cu deviatia
standard:
xx
yy
x0 =
si y 0 =
sx
sy
si calculam covarianta lui X 0 si Y 0 , vom avea o covarianta care nu mai este influentata de
mprastierea datelor. Exact acest lucru este realizat prin introducerea coeficientului de
corelatie liniar r. Astfel coeficientul de corelatie liniar este:
r = covar(X 0 , Y 0 ) =
covar(X, Y )
sx sy
Coeficientul de corelatie liniara standardizeaza masura dependentei si ne permite sa comparam cat de stransa este dependenta liniara a diferitelor seturi de date bidimensionale.
Formula coeficientului de corelatie liniara adesea poarta denumirea de momentul produs
Pearson.
Valoarea coeficientului de corelatie liniara r n cazul setului de date considerat la nceput
este:
0, 6
r=
= 0, 07
(4, 099) (2, 098)
Pentru ca determinarea coeficientului de corelatie liniara cu ajutorul formulei:
r=
covarX, Y
sx sy
este greoaie, n locul ei se foloseste una practica:

SS(X, Y )
r=p
SS(X) SS(Y )
Aceasta din urma formula evita calculul separat al lui x, y, sx , sy precum si calculul
deviatiilor de la medie.
75
21
Inferent
a privind coeficientul de corelatie liniar
a
Dupa ce coeficientul de corelatie liniara r a fost calculat pentru un esantion se pune n

mod natural ntrebarea: valoarea lui r indica oare ca exista o dependenta liniara ntre
cele doua variabile n cazul populatiei din care esantioanele au fost luate?
Pentru a raspunde la aceasta ntrebare facem o verificare a ipotezelor statistice.
Etapa 1.
Formularea ipotezei nule H0 :
Cele doua variabile sunt liniar necorelate.
Etapa 2.
Etapa 3.
Aceasta nseamna = 0, fiind coeficientul de corelatie pentru

populatie.
Formularea ipotezei alternative.
Aceasta poate fi unilaterala sau bilaterala. Cel mai frecvent este
bilaterala 6= 0. Cu toate acestea daca suspectam ca avem doar o
singura corelatie pozitiva ori o singura corelatie negativa trebuie sa
folosim test unilateral. Ipoteza alternativa n cazul testului unilateral
este: > 0 sau < 0.
Regiunea critica pentru testul statistic este n partea dreapta daca ne
asteptam la o corelatie pozitiva si este n stanga daca ne asteptam la o
corelatie negativa.
Testul statistic folosit pentru testarea ipotezei nule este scorul standard si valoarea testului statistic este valoarea lui r calculata din esantion. Valorile critice pentru r se gasesc
n urmatorul tabel la intersectia coloanei corespunzatoare valorii lui si a liniei corespunzatoare gradului de libertate df = n 2:
76
Valorile critice pentru r daca = 0

df|
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
25
30
35
40
45
50
60
70
80
90
100
0,10
0,988
0,900
0,805
0,729
0,669
0,662
0,582
0,549
0,521
0,497
0,476
0,458
0,441
0,426
0,412
0,400
0,389
0,378
0,369
0,360
0,323
0,296
0,275
0,257
0,243
0,231
0,211
0,195
0,183
0,173
0,164
0,05
0,997
0,950
0,878
0,811
0,754
0,707
0,666
0,632
0,602
0,576
0,553
0,532
0,514
0,497
0,482
0,468
0,456
0,444
0,433
0,423
0,381
0,349
0,325
0,304
0,288
0,273
0,250
0,232
0,217
0,205
0,195
0,02
1,000
0,980
0,934
0,882
0,833
0,789
0,750
0,716
0,685
0,658
0,634
0,612
0,592
0,574
0,558
0,542
0,528
0,516
0,503
0,492
0,445
0,409
0,381
0,358
0,338
0,322
0,295
0,274
0,256
0,242
0,230
0,01
1,000
0,980
0,959
0,917
0,874
0,834
0,798
0,765
0,735
0,708
0,684
0,661
0,641
0,623
0,606
0,590
0,575
0,561
0,549
0,537
0,487
0,449
0,418
0,393
0,372
0,354
0,325
0,302
0,283
0,267
0,254
Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral.
Pentru un test unilateral valoarea lui este dublul valorii lui ce se foloseste n verificarea ipotezelor statistice.
Etapa 4.
Se determina r din esantion.
Etapa 5.
Se determina daca r este n regiunea critica sau nu.
Neacceptarea ipotezei nule nseamna ca exista o proba a dependentei dintre cele doua
variabile ale populatiei
Mentiune: Aceasta nu nseamn
a c
a am stabilit o relatie de tip cauz
a efect ci
doar o relatie matematic
a care permite s
a se prezic
a comportamentul variabilei
77
de iesire Y din comportamentul variabilei de intrare X.

Exemplul 21.1. In cazul tabelului de date:
x
y
2 3
1 5
6
3
8
2
11 12
6 1
avem n = 6, iar r = 0, 07. Intrebarea este daca aceasta valoare a lui r difera de zero n
mod semnificativ daca nivelul de semnificatie este = 0, 02?
Etapa 1.
H0 : = 0
Etapa 2.
H0 : 6= 0
Etapa 3.
Etapa 4.
Avem = 0, 02 si df = n 2 = 6 2 = 4. Valorile critice din tabel

sunt: 0, 882 si 0, 882.
Valoarea calculata a lui r este r = 0, 07
Etapa 5.
Se accepta H0 .
Concluzie: Nu am putut arata ca X, Y sunt corelate. Daca acceptam ipoteza nula

nseamna ca independenta liniara dintre cele doua variabile a fost aratata.
Ca si n alte probleme, uneori se cere estimarea unui interval de ncredere pentru
coeficientul de corelatie . Este posibila estimarea coeficientului de corelatie folosind
un tabel care ne da centuri de ncredere. Tabelul urmator reprezinta asemenea centuri
de ncredere pentru intervale de ncredere de 95%: Exemplul urmator arata cum trebuie
citit un asemenea tabel.
Exemplul 21.2. Pentru un esantion de 15 perechi de date o valoare calculata a lui r este
r = 0, 35. Sa se determine intervalul de ncredere 95% pentru coeficientul de corelatie
liniar a populatiei?
1) Se localizeaza 0, 35 pe axa orizontala (axa coeficientului de corelatie liniara) si se
duce linia verticala.
78
2) Se determina intersectia liniei verticale cu centurile corespunzatoare marimii

esantionului (aceasta fiind 15) si se obtin doua puncte pe linia verticala.
3) Intervalul de ncredere este intervalul determinat de ordonatele acestor puncte
(0, 20, 0, 72) (axa ordonatelor este axa coeficientului de corelatie a populatiei).
79
22
Regresie liniar
a
Daca valoarea coeficientului de corelatie liniara r indica o corelatie liniara stransa atunci se
pune problema stabilirii unei relatii numerice exacte. Aceasta relatie exacta este obtinuta
prin regresie liniara.
In general statisticianul cauta o ecuatie care exprima relatia dintre doua variabile. Ecuatia
aleasa este cea mai buna fitare a diagramei de dispersie. Ecuatiile gasite se numesc ecuatii
de predictie, iar n continuare sunt prezentate cateva asemenea ecuatii:
y = b0 + b1 x - liniara
y = a + b x + c x2 - patratica
y = a bx - exponentiala
y = a logb x - logaritmica.
Obiectivul final este ca folosind ecuatii sa se faca predictii. In general valoarea exacta a
variabilei Y nu este prezisa. Ne multumim daca predictia este suficient de apropiata.
Definitia 22.1. Regresia liniar
a stabileste dependenta liniara n medie a lui y n functie
de x.
Vom descrie n continuare cum se stabileste cea mai buna dependenta liniara pentru un
set de date (x, y).
Daca relatia de dependenta liniara pare potrivita, cea mai buna relatie liniara se stabileste
cu metoda celor mai mici patrate.
Sa presupunem ca y = b0 + b1 x este cea P
mai buna relatie liniara. Metoda celor mai mici
patrate cere ca b0 si b1 sa fie astfel ncat (y y)2 sa fie minima.
Din teorema lui Fermat rezulta ca valorile minime ale functiei:
X
F (b0 , b1 ) =
(y b0 b1 x)2
se obtin pentru
P
(x x) (y y)
P
,
b1 =
(x x)2
b0 =
X
1 X
y b1
x
n
b1 este panta dreptei, iar b0 este ordonata la origine.

Pentru determinarea pantei b1 de obicei se foloseste formula echivalenta:
b1 =
SS(x, y)
SS(x)
P
1 X X
1 X 2
x si SS(x, y) =
xy
x
y .
n
n
Mentionam aici ca expresiile SS(x, y) si SS(x) apar si n formula de calcul al coeficientului
de corelatie liniara. De aceea n momentul calcularii lui r putem afla si valoarea pantei
b1 .
unde: SS(x) =
x2
80
Exemplul 22.1. In cazul unui esantion de 10 indivizi consideram urmatorul set de date.
x
y
27 22 15 35 30
30 26 25 42 38
52
40
35
32
55
54
40
50
40
43
Pentru a determina cea mai buna relatie liniara y = b0 + b1 x se calculeaza SS(x, y) si

SS(x) si se obtine:
SS(x, y) = 919, 0 si SS(x) = 1396, 9
de unde panta b1 este:
b1 =
919, 0
= 0, 6599 0, 66.
1396, 9
Pentru a determina ordonata n origine b0 se foloseste formula de calcul a acesteia si

rezulta:
1
b0 = [380 0, 65 351] = 14, 9077 14, 9
10
Astfel cea mai buna relatie liniara este:
y = 14, 9 + 0, 66 x
Remarca 22.1.
a) Panta b1 reprezinta schimbarea prezisa a variabilei y corespunzatoare unei cresteri
cu o unitate a variabilei x.
b) Ordonata b0 reprezinta valoarea lui y n x = 0. Doar daca x = 0 este n domeniul
de date putem spune ca b0 este valoarea prezisa a lui y pentru x = 0.
c) Cea mai buna relatie liniara este o dreapta ce trece prin punctul de coordonate
(x, y). Acest fapt poate fi utilizat ca verificare atunci cand se traseaza graficul celei
mai bune relatii liniare.
Exemplul 22.2. In cazul unui esantion aleator de 8 indivizi consideram urmatorul tabel
de date
x
y
65 65 62
105 125 11
67
120
69
140
65 61
135 95
67
130
Diagrama de mprastiere a acestui set de date sugereaza o corelatie liniara.
81
Pentru a gasi cea mai buna relatie de dependenta liniara calculam SS(x, y) si SS(x) si
gasim:
SS(x, y) = 230, 0 si SS(x) = 48, 875
De aici avem:
230, 0
= 4, 706 4, 71.
48, 875
X i
1 hX
b0 =
y b1
x = 186, 478 186, 5
n
b1 =
de unde:
y = 186, 5 + 4, 71 x
Remarca 22.2. O estimare grosiera a celei mai bune relatii de dependenta liniara se
poate face n felul urmator:
- ca si n cazul aproximarii coeficientului de corelatie r se considera o curba nchisa
n jurul multimii de perechi (x, y);
- diametrul maxim al multimii este o aproximare a graficului de dependenta liniara;
- se scrie ecuatia de dependenta liniara ca ecuatia unei drepte ce trece prin doua
puncte de pe acest diametru;
- ca si n cazul estimarii lui r aceasta estimare este una grosiera si trebuie folosita ca
atare.
82
23
Analiz
a de regresie liniar
a
Modelul liniar folosit pentru a explica dependenta liniara a doua variabile referitoare la
aceeasi populatie este definit de ecuatia:
y = 0 + 1 x +
Aceasta ecuatie reprezinta relatia liniara dintre doua variabile x si y ntr-o populatie. In
aceasta relatie:
- 0 este ordonata la origine;
- 1 este panta;
- y este valoarea observata la o valoare data a lui x;
- 0 + x este media lui y pentru valoarea data a lui x
Remarcam ca eroarea depinde de x. Pentru valorile x1 , x2 , . . . , xn ale lui x modelul liniar
se scrie:
yi = 0 + 1 xi + i , i = 1, 2, . . . , n
- este eroarea aleatoare a valorii observate y la o valoare data a lui x care reprezinta
deviatia valorii observate y de la medie.
Dreapta de regresie liniara obtinuta y = b0 + b1 x pe baza datelor (xi , yi ), i = 1, 2, . . . , n
ne da b0 care este o estimare pentru 0 si b1 care este o estimare pentru 1 . Atunci vom
putea scrie yi = b0 + b xi + ei . Erorile sunt estimate prin yi yi care este diferenta
dintre valoarea observata yi si valoarea prezisa yi a lui y la o valoare data a lui x. Fiindca
yi = b0 + b1 xi avem ca:
ei = yi yi
Erorile ei sunt cunoscute sub numele de reziduuri.
Variabila aleatoare e are urmatoarele proprietati:
e > 0 y > y;
e < 0 y < y;
pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;
aceasta este o consecinta a metodei celor mai mici patrate; si astfel media erorilor
n
X
experimentale este zero:
ei = 0.
i=1
Notam cu 2 varianta erorilor aleatoare a datelor observate si ne propunem sa estimam

aceasta varianta.
Inainte nsa sa trecem la estimarea variantei 2 sa analizam putin ce reprezinta eroarea
? reprezinta diferenta dintre valoarea observata y si valoarea medie a lui y pentru o
valoare data a lui x. Intrucat nu cunoastem valoarea medie a lui y, vom folosi ecuatia de
regresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu y valoarea prezisa
de ecuatia de regresie a lui y pentru acest x. Astfel estimarea lui este e = y y.
83
Daca pentru o valoare data x avem mai multe valori observate y acestea pot fi reprezentate
pe verticala n x pe axa Ox.
O distributie similara apare la fiecare valoare a lui x. Valoarea medie a datelor y observate
depinde de x si se estimeaza cu y.
Altfel spus, deviatia standard a distributiei datelor y de la medie este aceeasi pentru orice
x:
84
Reamintim ca varianta s2 a unui set de date statistice x1 , x2 , . . . , xn a fost definita cu

formula:
n
1X
s2 =
(xi x)2
n i=1
Determinarea variantei setului de date y introduce o complicatie pentru ca media datelor
y difera de la un x la altul. Pentru fiecare x media este estimata prin valoarea prezisa y ce
corespunde la x prin dreapta de regresie. Astfel varianta erorii se estimeaza cu formula:
n
s2
1X
=
(yi yi )2
n i=1
care arata ca varianta erorii este varianta variabilei y n jurul dreptei de regresie.
Varianta erorii s2 poate fi scrisa sub forma:
i
X
1X
1 hX 2
s2 =
(y b0 b1 xi )2 =
yi b0
y b 1 xi y i
n
n
si este o estimare a lui 2
Exemplul 23.1. O persoana care se muta la Timisoara si se angajeaza la o companie
doreste sa stie n cat timp poate sa ajunga dimineata cu masina de la locuinta la locul de
munca. Pentru a gasi un raspuns la aceasta ntrebare el ntreaba un numar de 15 colegi la
ce distanta stau de locul de munca si n cat timp ajung la serviciu si ntocmeste urmatorul
tabel de date statistice:
coleg
x - distanta
(n km)
y - timpul
(n min)
10
11
12
13
14
15
10
11
12
12
13
15
15
16
18
19
20
20
20 15
25
17
20
35
26
25
35
32
44
37
45
Pentru a gasi un raspuns la problema persoana n cauza trebuie sa determine dreapta de

regresie si varianta s2e .
Folosind formulele de calcul el gaseste:
SS(x) = 2, 616
(184)2
= 358, 9333
15
85
SS(x, y) = 5, 623
b1 =
b0 =
(184) (403)
= 679, 53333
15
358, 9333
= 1, 893202 1, 89
679, 53333
1
[403 (1, 893202) (184)] = 3, 643387 3, 64
15
y = 3, 64 + 1, 89 x.
Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a
ajunge la serviciu n functie de distanta x la care locuieste.
Pentru a gasi abaterea standard de la valoarea estimata el va trebui sa calculeze si varianta
s2 . Folosind formulele de calcul el gaseste: s2 = 29, 17.
86
24
Inferent
a referitoare la panta unei drepte de regresie liniar
a
Dupa ce ecuatia dreptei de regresie liniara a fost determinata ne ntrebam cand putem
folosi aceasta ecuatie pentru a prezice valorile variabilei y n functie de x?
Raspunsul la ntrebare l vom da parcurgand procedeul de verificare a ipotezelor statistice.
Inainte de a face inferenta privind dreapta de regresie facem urmatoarele ipoteze:
- pentru fiecare x distributia datelor y observate este aproximativ normala;
- pentru fiecare x varianta distributiei datelor y observate este aceeasi.
Inainte sa trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor
statistice) sa analizam distributia pantelor ce se obtin pentru esantioane aleatoare de
marime n. Aceste pante b1 au o distributie aproape normala avand media 1 panta n
cazul populatiei si varianta b21 data de:
b21
2
=P
(x x)2
Un estimator adecvat s2b1 a lui b21 se obtine prin nlocuirea lui 2 cu s2e :
s2b1 = P
s2e
(x x)2
Aceasta formula poate fi scrisa sub forma:

s2b1 =
s2e
s2e
P
=P
SS(x)
x ( x)2 /n
Eroarea standard a regresiei (pantei) este b1 si este estimata prin sb1 .

Putem trece acum la verificarea ipotezelor statistice:
Etapa 1.
Etapa 2.
Etapa 3.
Formularea ipotezei H0 . Ipoteza nula va fi 1 = 0. Daca 1 = 0

atunci ecuatia liniara nu poate fi folosita pentru a prezice valoarea lui
y aceasta nseamna ca: y = y.
Ipoteza alternativa poate fi unilaterala sau bilaterala. Daca banuiala
este ca panta este pozitiva atunci un test unilateral este potrivit:
Ha : 1 > 0.
Ca test statistic folosim testul t. Numarul gradelor de libertate pentru
test este df = n 2. In cazul Exemplului 23.1 care se refera la timpul
necesar pentru a ajunge cu masina la servici df = 152 = 13. La nivelul
de semnificatie = 0, 05, valoarea critica a lui t este t(13; 0, 05) = 1, 77.
Formula de calcul folosit pentru valoarea testului statistic t pentru

inferenta este:
b1 1
t =
sb1
87
Etapa 4.
s2e
n cazul exemplului considerat
SS(X)
gasim ca valoarea testului statistic este:
Avand n vedere egalitatea s2b1 =
t =
b1 1
1, 89 0
= 6, 629 6, 63
=
sb1
0, 0813
Decizie: ipoteza H0 se respinge pentru ca t este n regiunea critica.

Concluzie: Panta dreptei de cea mai buna aproximatie este mai mare
ca zero. Probele statistice arata ca exista o relatie liniara ntre distanta
locuinta-serviciu si perioada de timp necesara pentru a ajunge cu masina
la serviciu si aceasta perioada de timp este predictibila.
Panta 1 a dreptei de regresie liniara a populatiei poate fi estimata cu ajutorul intervalului de ncredere. Capetele acestui interval de ncredere sunt date de formula:
Etapa 5.
b1 t(n 2; ) sb1
2
In cazul Exemplului 23.1 la nivelul de semnificatie = 0, 05:
p
1, 89 2, 16 0, 0813 = 1, 89 0, 62
capetele intervalului de ncredere sunt 1, 27 si 2, 51.
Deci intervalul de ncredere pentru 1 este (1, 27; 2, 51) la nivelul de semnificatie 0, 05.
88
BIBLIOGRAFIE
[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
[2] Andrei Tudorel, Stancu Andrei, Statistica - teorie si aplicatii, Editura All, 1995,
Bucuresti
[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition,
1991,Paris
[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lectii de statistica descriptiva, Universitatea de Vest, 1998, Timisoara
[5] Bocsan Gheorghe, Estimarea parametrilor modelelor statistice, Universitatea de Vest,
1995, Timisoara
[6] Yule G. Udny, Kendall, M.G., Introducere n teoria statisticii, Editura Stiintifica,
1969, Bucuresti
89

Statistic A

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Statistic A

Încărcat de

Drepturi de autor:

Formate disponibile

Statistic

4 Determinarea frecventei si gruparea datelor

6 Parametrii si statistici ai tendintei centrale

7 Parametrii si statistici ai dispersiei

8 Parametrii si statistici factoriali ai variantei

9 Parametrii si statistici ale pozitiei

10 Seria de distributie a statisticilor

12 O aplicatie a teoremei limit

15 Verificarea ipotezelor statistice: variant

16 Verificarea ipotezelor statistice: varianta probabilist

23 Analiza de regresie liniar

Definitia 1.1. Statistica este stiinta colectarii, clasificarii, prezentarii, interpretarii

populatia). Statistica ne cere sa facem un esantion, sa analizam esantionul si pe urma sa

Definitia 2.8. O statistic

Definitia 3.4. Esantioane bazate pe reprezentativitate sunt acelea pentru care

2) se calculeaza k (pasul de numarare) folosind urmatoarea relatie:

Determinarea frecventei si gruparea datelor

Definitia 4.1. Frecventa f (din coloana a doua) arat

In general, n cazul gruparii datelor pe clase si a determinarii frecventei trebuiesc

sau sub forma procentuala:

procente din aria cercului.

Exemplul 5.3. In cazul seriei de distributie din exemplul 5.1

Definitia 5.9. Diagrama coloan

Definitia 5.10. Diagrama linie (ramur

Definitia 5.11. Histograma seriei de distributie cu grupare

Parametrii si statistici ai tendintei centrale

n care x reprezinta marca clasei si fx frecventa corespunzatoare, iar suma se extinde pe

Parametrii si statistici ai dispersiei

media aritmetica. Dar aceasta suma este zero ntotdeauna:

Reducerea deviatiilor poate fi eliminata prin folosirea valorii absolute a deviatiilor: xi x.

Remarca 7.8. Coeficientul de variatie este o statistica relativa a dispersiei si se foloseste

Parametrii si statistici factoriali ai variantei

n care k este numarul de grupe, nj =

nij este numarul de date din grupa.

Parametrii si statistici ale pozitiei

Seria de distributie a statisticilor

Pentru aceste esantioane mediile x sunt:

Pentru acelasi set de 25 de esantioane putem determina seria de distributie a plajelor R

Seria de distributie a plajelor acestor esantioane este:

iar diagrama coloana a plajei esantioanelor este:

Histograma seriei de distributie a mediilor celor 30 de esantioane este reprezentata n

In sectiunea precedenta am prezentat seria de distributie a mediei si plajei unui set de

b) deviatia standard x a acestei serii de distributie este .

2) x = / n, deviatia standard a mediei este egala cu deviatia standard a populatiei

Consideram o populatie pentru care seria de distributie de date statistice cu frecvente

Aceasta diagrama arata ca seria de distributie a mediilor esantioanelor este normala.

O aplicatie a teoremei limit

P (90 < x < 110) = 2

1 = 2 (4) 1 = 2 F (4) = 2 0.499968

Consideram o populatie a carei medie nu o cunoastem si ne punem problema s-o gasim.

Mai general conditia x ( , + ), nseamna ca scorul standard z (pentru mediile

Definitia 13.3. Nivelul de nencredere este probabilitatea ca statistica esantionului

Definitia 13.4. Nivelul de ncredere (coeficient de ncredere) 1 este probabilitatea

a de estimare este jumatatea lungimii intervalului de

Formularea ipotezei nule H0

Formularea ipotezei alternative Ha

Popescu Nicolae a completat

Ipoteza alternativa este:

Popescu Nicolae nu a completat

decizie corecta de tip A: apare cand

Metodologia de verificare a ipotezelor: aceasta consta din (1)

In cazul exemplului considerat, variabila aleatoare X= numarul de raspunsuri corecte

Determinarea valorii testului statistic

Luarea unei decizii si interpretarea ei