Statistica

Statisticǎ - notiţe de curs
Ştefan Balint, Loredana Tǎnasie
Cuprins
1 Ce este statistica? 3
2 Noţiuni de bazǎ 5
3 Colectarea datelor 7
4 Determinarea frecvenţei şi gruparea datelor 11
5 Prezentarea datelor 14
6 Parametrii şi statistici ai tendinţei centrale 19
7 Parametrii şi statistici ai dispersiei 22
8 Parametrii şi statistici factoriali ai varianţei 25
9 Parametrii şi statistici ale poziţiei 26
10 Seria de distribuţie a statisticilor

de eşantioane 28
11 Teorema limitǎ centralǎ 32
12 O aplicaţie a teoremei limitǎ centralǎ 35
13 Estimarea punctualǎ a unui parametru; intervalul de ı̂ncredere 36
14 Generalitǎţi privind ipotezele statistice şi problema verificǎrii ipotezelor

statistice 38
1
15 Verificarea ipotezelor statistice: variantǎ clasicǎ 41
16 Verificarea ipotezelor statistice: varianta probabilistǎ 48
17 Inferenţǎ statisticǎ privind media populaţiei dacǎ nu se cunoaşte

abaterea standard a populaţiei 52
18 Inferenţǎ relativǎ la varianţǎ şi estimarea varianţei 59
19 Generalitǎţi despre corelaţie. Corelaţie liniarǎ 65
20 Analizǎ de corelaţie liniarǎ 73
21 Inferenţǎ privind coeficientul de corelaţie liniarǎ 76
22 Regresie liniarǎ 80
23 Analiza de regresie liniarǎ 83
24 Inferenţǎ referitoare la panta unei drepte de regresie liniarǎ 87
2
1 Ce este statistica?
Definiţia 1.1. Statistica este ştiinţa colectǎrii, clasificǎrii, prezentǎrii, interpretǎrii

datelor numerice şi a folosirii acestora pentru a formula concluzii şi a lua decizii.
Definiţia 1.2. Statistica descriptivǎ se ocupǎ cu colectarea, clasificarea şi prezentarea

datelor numerice.
Definiţia 1.3. Statistica inferenţialǎ (inferential statistics) se ocupǎ cu interpretarea

datelor oferite de statistica descriptivǎ şi cu folosirea acestora pentru a formula concluzii
şi lua decizii.
Problema 1.1. Universitatea de Vest din Timişoara doreşte sǎ facǎ un plan de dezvoltare
a facilitǎţilor de cazare. Pentru a trece la acţiune consiliul de administraţie hotǎrǎşte cǎ
este necesar sǎ se rǎspundǎ la urmǎtoarea ı̂ntrebare: Câţi studenţi vor trebui cazaţi ı̂n
urmǎtorii zece ani?
Pentru a rǎspunde la aceastǎ ı̂ntrebare trebuie sǎ cunoaştem rǎspunsul la cel puţin
urmǎtoarele douǎ ı̂ntrebǎri: Câţi absolvenţi de liceu vor fi? Câţi vor sǎ vinǎ la
universitate? (Şi altele poate).
Pentru a rǎspunde la aceste douǎ ı̂ntrebǎri e nevoie de date referitoare la numǎrul de
absolvenţi de liceu ı̂n urmǎtorii zece ani şi de date care indicǎ procentul acelor absolvenţi
de liceu care doresc sǎ devinǎ studenţi la U.V.T. ı̂n urmǎtorii zece ani.
O cale de a obţine date refritoare la numǎrul de absolvenţi de liceu ı̂n urmǎtorii zece ani
este de a vedea care a fost acest numǎr ı̂n ultimii zece ani şi a extrapola acest numǎr.
Trebuie remarcat cǎ aceastǎ idee presupune cǎ existǎ o legǎturǎ dintre trecut şi viitor.
Acest lucru nu este ı̂ntotdeauna adevǎrat. O ı̂ntrebare suplimentarǎ care se pune ı̂n acest
context este dacǎ va trebui sǎ numǎrǎm toţi absolvenţii de liceu din toate şcolile din
ultimii zece ani sau ne putem limita sǎ numǎrǎm doar la anumite şcoli? Altfel spus, dacǎ
putem considera doar eşantioane?
O cale de a obţine date referitoare la procentul acelor absolvenţi care doresc sǎ devinǎ
studenţi la U.V.T. este aceea de a vedea aceste procente ı̂n ultimii zece ani şi de a
extrapola.
Alte ı̂ntrebǎri care se pun sunt: Cum interpretǎm aceste date? Cum formulǎm o concluzie
pe baza acestor date? Cum se ia o decizie pe baza acestor date?
Nu am terminat cu enumerarea ı̂ntrebǎrilor care pot fi relevante. La acest moment ceea
ce este important este sǎ ı̂ncepem sǎ ne gândim la asemenea probleme şi la ı̂ntrebǎrile
care trebuiesc lǎmurite pentru a obţine un rǎspuns.
Remarca 1.1. Relaţia dintre statisticǎ şi probabilitǎţi

Statistica şi probabilitǎţile sunt douǎ domenii strâns legate, dar distincte ale matematicii.
Se spune cǎ ”probabilitǎţile sunt vehiculul statisticii”. Aceasta este adevǎrat ı̂n sensul
cǎ dacǎ nu ar fi legile probabiliste teoria statisticǎ nu ar fi posibilǎ. Pentru a ilustra
ı̂nsǎ diferenţa dintre probabilitǎţi şi statisticǎ sǎ considerǎm douǎ urne: una probabilistǎ
şi una statisticǎ. În cazul urnei probabiliste se ştie cǎ urna conţine 5 bile albe, 5 bile
negre şi 5 bile roşii; problema de probabilitate este dacǎ scoatem o bilǎ, care este şansa
ca aceasta sǎ fie albǎ? În cazul unei urne statistice nu cunoaştem care este combinaţia
de bile din urnǎ. Extragem un eşantion şi din acest eşantion conjecturǎm ce credem cǎ
se gǎseşte ı̂n urnǎ. Trebuie reţinutǎ deosebirea: probabilitatea pune ı̂ntrebarea şansei
ca ceva (un eveniment) sǎ se ı̂ntâmple atunci când se cunosc posibilitǎţile (se cunoaşte
3
populaţia). Statistica ne cere sǎ facem un eşantion, sǎ analizǎm eşantionul şi pe urmǎ sǎ
facem predicţie asupra populaţiei pe baza informaţiei gǎsite ı̂n eşantion.
Remarca 1.2. Folosirea corectǎ şi folosirea greşitǎ a statisticii

Utilizarea statisticii este nelimitatǎ. Este greu de gǎsit un domeniu ı̂n care statistica nu
se foloseşte. Iatǎ câteva exemple, unde şi cum este folositǎ statistica:
• ı̂n educaţie; statistica descriptivǎ este adesea folositǎ pentru a prezenta rezultatele;
• ı̂n ştiinţǎ; rezultatele experimentale trebuiesc colectate şi analizate;
• guvernele; adunǎ diferite date statistice tot timpul.
Mulţi oameni sunt indiferenţi faţǎ de descrierea statisticǎ, alţii cred cǎ statisticile sunt
minciuni. Majoritatea minciunilor statistice sunt inocente şi rezultǎ din folosirea unei
statistici neadecvate sau date obţinute dintr-un eşantion nepotrivit. Toate acestea conduc
la o ı̂nţelegere greşitǎ a informaţiei din partea consumatorului. Folosirea greşitǎ a
statisticii duce uneori la ı̂ncurcǎturi.
Remarca 1.3. Statistica şi calculatorul

În ultimul deceniu calculatorul a avut un rol important ı̂n aproape toate aspectele vieţii.
Domeniul statististicii nu face excepţie. Statistica foloseşte multe tehnici care au o
naturǎ repetitivǎ; formule pentru a calcula statistici descriptive, proceduri de urmat
pentru a formula predicţii. Calculatorul este foarte bun pentru a face asemenea operaţii
repetitive. Dacǎ calculatorul are un soft standard statistic este mult mai uşoarǎ analiza
unor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (program
biomedical), SAS (Sistem de analizǎ statisticǎ), IBM Scientific Subroutine Packages şi
SPSS (pachet statistic pentru ştiinţe sociale).
4
2 Noţiuni de bazǎ
Definiţia 2.1. Populaţia este o colecţie (mulţime) de indivizi, obiecte sau date numerice
obţinute prin mǎsurǎtori ale cǎrei proprietǎţi trebuiesc analizate.
Remarca 2.1. Populaţia este colecţia completǎ de indivizi, obiecte sau date numerice
obţinute prin mǎsurǎtori care prezintǎ interes (pentru cel care colecteazǎ eşantionul).
Conceptul de populaţie este fundamental ı̂n statisticǎ. Populaţia trebuie definitǎ cu grijǎ
şi se considerǎ complet definitǎ dacǎ lista membrilor este specificatǎ. Mulţimea studenţilor
Facultǎţii de Matematicǎ şi Informaticǎ este o populaţie bine definitǎ.
Dacǎ auzim cuvântul populaţie de obicei ne gândim la o mulţime de oameni. În statisticǎ
populaţia poate fi o mulţime de animale, de obiecte fabricate sau de date numerice
obţinute prin mǎsurǎtori. De exemplu mulţimea ”ı̂nǎlţimilor” studenţilor facultǎţii de
Matematicǎ şi Informaticǎ este o populaţie.
Definiţia 2.2. Eşantionul este o submulţime a unei populaţii.
Remarca 2.2. Un eşantion constǎ din indivizi, obiecte sau date mǎsurate selectate din
populaţie (de cǎtre colectorul de eşantion).
Definiţia 2.3. O variabilǎ de rǎspuns (simplu variabilǎ) este o caracteristicǎ (de
obicei numericǎ) care prezintǎ interes ı̂n cazul fiecǎrui element (individ) al unei populaţii.
Remarca 2.3. Vârsta studentului, media lui, culoarea pǎrului, ı̂nǎlţimea, greutatea
ş.a.m.d. sunt variabile de rǎspuns ı̂n cazul populaţiei: studenţii de la Facultatea de
Matematicǎ şi Informaticǎ.
Definiţia 2.4. O datǎ (la singular) este ”valoarea” unei variabile de rǎspuns ı̂n cazul
unui element al populaţiei sau eşantionului.
Exemplul 2.1. Popescu Nicolae are vı̂rsta de ”19 ani”, media 8.50, pǎrul lui este
”castaniu”, ı̂nǎlţimea lui este ”1 m şi 75 cm”, iar greutatea lui este ”65 kg”. Aceste cinci
”valori” ale celor cinci variabile de rǎspuns (Remarca 2.3) ı̂n cazul lui Popescu Nicolae
sunt ”cinci” date.
Definiţia 2.5. ”Valorile” unei variabile de rǎspuns ı̂n cazul unei populaţii sau a unui
eşantion constituie un set de date . Într-un set de date aceeaşi datǎ apare de atâtea ori
de câte ori variabila are aceastǎ ”valoare”.
Exemplul 2.2. Cele 25 de ı̂nǎlţimi ı̂n cazul unui eşantion de 25 de studenţi este un set
de 25 de date nu neapǎrat diferite.
Definiţia 2.6. O activitate planificatǎ ı̂n urma cǎreia se obţine un set de date se numeşte
experiment sau sondaj.
Definiţia 2.7. Parametru este o caracteristicǎ numericǎ a unei populaţii.
Exemplul 2.3. Procentul de studenţi de la Facultatea de Matematicǎ şi Informaticǎ care
au promovat toate examenele la sesiunea din iarnǎ este un exemplu de parametru ı̂n cazul
populaţiei: studenţii de la Facultatea de Matematicǎ şi Informaticǎ.
Remarca 2.4. Parametrul este o valoare numericǎ care se referǎ la ı̂ntreaga populaţie.
În statisticǎ se obişnuieşte ca parametrul sǎ fie notat cu literǎ greceascǎ.
5
Definiţia 2.8. O statisticǎ este o caracteristicǎ numericǎ a unui eşantion
Exemplul 2.4. Înǎlţimea medie gǎsitǎ folosind cele 25 de ı̂nǎlţimi ı̂n cazul unui eşantion
de 25 de studenţi este un exemplu de statisticǎ (de eşantion).
Remarca 2.5. O statisticǎ este o valoare numericǎ care se referǎ la un eşantion.

Statisticile (de eşantion) se noteazǎ cu literele alfabetului latin.
6
3 Colectarea datelor
Prima problemǎ a statisticianului este colectarea unui set de date. Aceasta presupune
definirea prealabilǎ a obiectivelor sondajului (experimentului) a populaţiei şi a variabilei.
Exemple de obiective:
a) Compararea eficacitǎţii unui medicament nou cu eficacitatea unui medicament

standard;
b) Estimarea venitului mediu al unei familii din judeţ.
Exemple de populaţii şi variabile corespunzǎtoare:
a) pacienţii care suferǎ de o boalǎ care se trateazǎ cu medicamentul considerat

reprezintǎ populaţia, iar timpul de recuperare reprezintǎ variabila;
b) familiile din judeţ reprezintǎ populaţia, iar venitul total al unei familii din judeţ
reprezintǎ variabila.
Tot ı̂nainte de colectarea setului de date trebuie hotǎrât dacǎ setul de date se constituie
pentru ı̂ntreaga populaţie sau doar pentru un eşantion. Dacǎ setul de date se constituie
pentru ı̂ntreaga populaţie atunci se face un recensǎmânt.
Definiţia 3.1. Un recensǎmânt este o enumerare sau o listare a fiecǎrui element al
populaţiei ı̂mpreunǎ cu data (valoarea variabilei) corespunzǎtoare elementului.
În cazul unei populaţii mari, constituirea unui set de date la nivelul populaţiei este dificil
şi costisitor. De aceea, ı̂n cazul ı̂n care nu este posibilǎ realizarea unui recensǎmânt,
setul de date se constituie doar pentru o parte a populaţiei, pentru un eşantion. Selecţia
elementelor pentru eşantion se face dintr-un cadru de eşantionare.
Definiţia 3.2. Cadrul de eşantionare este o listǎ de elemente care aparţin populaţiei,
din care va fi extras eşantionul.
Remarca 3.1. Deoarece numai elementele din cadrul eşantionului au şansa sǎ fie selectate
pentru eşantion, din perspectiva variabilei de rǎspuns cadrul de eşantion trebuie sǎ fie
reprezentativ pentru populaţie.
Remarca 3.2. În cazul unei populaţii de indivizi listele de alegǎtori sau cǎrţile de telefon
sunt folosite adesea drept cadru de eşantion. În funcţie de variabila de rǎspuns acestea
pot fi cadre de eşantion potrivite sau nepotrivite.
Remarca 3.3. Dupǎ definirea cadrului eşantionului se trece la stabilirea modului de
alegere a elementelor eşantionului. Acest proces se numeşte proiectarea eşantionului.
Definiţia 3.3. Proiectarea eşantionului ı̂nseamnǎ stabilirea procedurii de alegere a
elementelor eşantionului din cadrul eşantionului.
Existǎ mai multe procedee de alegere a elementelor eşantionului. În mare aceste procedee
ı̂mpreunǎ cu eşantioanele corespunzǎtoare se ı̂mpart ı̂n douǎ categorii: procedee bazate
pe reprezentativitate şi procedee probabiliste.
7
Definiţia 3.4. Eşantioane bazate pe reprezentativitate sunt acelea pentru care
elementele se aleg astfel ı̂ncât din perspectiva variabilei de rǎspuns, elementul ales sǎ fie
reprezentativ pentru populaţie.
Exemplul 3.1. Din perspectiva variabilei de rǎspuns: ”cursul A este util sau nu ı̂n
formarea dumneavoastrǎ profesionalǎ?”, studenţii din cadrul unui eşantion care nu au
frecventat cursul nu sunt reprezentativi. Deci nu sunt aleşi ı̂n eşantion.
Definiţia 3.5. Un eşantion pentru care elementele sunt selectate pe bazǎ probabilistǎ;
oricare element din cadrul eşantionului are o anumitǎ şansǎ nenulǎ sǎ fie selectat; se
numeşte eşantion probabilist.
Remarca 3.4. Inferenţe statistice cer ca eşantionul sǎ fie probabilist. Eşantioanele
probabiliste aleatoare sunt cele mai familiare eşantioane probabiliste.
Definiţia 3.6. Un eşantion de mǎrimea n este eşantion probabilist aleator dacǎ orice
eşantion de mǎrimea n ales din acelaşi cadru are aceeaşi probabilitate sǎ fie ales.
Remarca 3.5. Cea mai rǎspânditǎ metodǎ de a colecta date foloseşte eşantion aleator
simplu.
Definiţia 3.7. Un eşantion probabilist aleator pentru care elementele sunt selectate dintr-
un cadru ı̂n care elementele au aceeaşi probabilitate sǎ fie alese se numeşte eşantion
aleator simplu.
Remarca 3.6. Atunci când se construieşte un eşantion probabilist aleator simplu trebuie
avutǎ grijǎ ca fiecare element din cadrul eşantionului sǎ aibe aceeaşi probabilitate sǎ fie
selectat. Adesea se fac greşeli pentru cǎ termenul ”aleator” este confundat cu ”ales
la ı̂ntâmplare”. Un procedeu corect de selectare a unui eşantion probabilist aleator
simplu este acela care foloseşte un generator de numere aleatoare sau o tabelǎ de numere
aleatoare. Prima oarǎ se numeroteazǎ elementele din cadrul de eşantionare. Dupǎ aceasta
ı̂n tabelul cu numere aleatoare se aleg atâtea numere câte sunt necesare pentru eşantion.
Fiecare element din cadrul de eşantionare, al cǎrui numǎr coincide cu un numǎr selectat
din tabelul de numere aleatoare va fi ales pentru eşantion.
Exemplul 3.2. Dacǎ cadrul eşantionului este o listǎ de 4265 de studenţi atunci ei sunt
numerotaţi de la 0001; 0002; ...; 4265. Pentru un eşantion de 50 de studenţi se aleg 50 de
numere aleatoare cu patru cifre şi se identificǎ studenţii din cadrul eşantionului.
Definiţia 3.8. Eşantionul sistematic se construieşte alegând fiecare al k-lea element

din cadrul eşantionului.
Remarca 3.7. În aceastǎ selecţie se foloseşte tabela de numere aleatoare o singurǎ datǎ,
pentru a determina punctul de plecare.
Exemplul 3.3. Dacǎ se considerǎ un cadru de eşantion de 245 de studenţi ai Facultǎţii

de Matematicǎ şi Informaticǎ şi se doreşte un eşantion sistematic format din 15 studenţi
atunci:
1) asociem fiecǎrui student un numǎr de la 1 la 245;
8
2) se calculeazǎ k (pasul de numǎrare) folosind urmǎtoarea relaţie:
· ¸ · ¸
numǎrul de elemente din cadrul eşantionului 245
k= = = 16
numǎrul de elemente din eşantion 15
3) se alege punctul de plecare ı̂ntre 1 şi numǎrul k cu ajutorul unui tabel de numere
aleatoare.
Dacǎ acest numǎr este 10, atunci obţinem eşantionul:
10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.
245
Deoarece k = = 16, 33, nu este un numǎr ı̂ntreg, pasul de numǎrare poate fi şi 17. În
15
acest caz eşantionul sistematic obţinut este de numai 14 elemente.
Remarca 3.8. Este o procedurǎ bunǎ pentru a eşantiona un procentaj ı̂n cazul
populaţiilor mari. Pentru a selecta un eşantion sistematic de x% dintr-o populaţie, un
element din 100/x va fi selectat (dacǎ 100/x nu este ı̂ntreg se ia partea ı̂ntreagǎ).
Remarca 3.9. Folosirea eşantionului sistematic nu este potrivitǎ dacǎ populaţia este
repetitivǎ sau ciclicǎ ı̂n naturǎ.(din perspectiva variabilei de rǎspuns)
Exemplul 3.4. Dacǎ se doreşte estimarea numǎrului studenţilor admişi la Facultatea de

Matematicǎ şi Informaticǎ care au depǎşit vârsta de 20 de ani şi se foloseşte eşantionarea
sistematicǎ extrǎgând din lista candidaţilor admişi numai pe cei de pe poziţiile care sunt
multiplu de 5, existǎ posibilitatea ca toţi candidaţii admişi pe poziţiile respective sǎ aibǎ
sub 20 de ani. Un asemenea eşantion spune ca nu au fost admişi candidaţi peste 20 de
ani, ceea ce nu poate fi susţinut.
Când se eşantioneazǎ populaţii foarte mari, atunci când este posibil se ı̂mparte populaţia
ı̂n douǎ subpopulaţii pe baza unor caracteristici. Aceste subpopulaţii se numesc straturi,
iar straturile sunt eşantionate separat.
Definiţia 3.9. Un eşantion obţinut ı̂n urma stratificǎrii cadrului eşantionului şi prin
selectarea unui numǎr dat de elemente din fiecare strat se numeşte eşantion stratificat.
Remarca 3.10. Când se proiecteazǎ un eşantion stratificat, cadrul se ı̂mparte ı̂n douǎ sau
mai multe straturi şi ı̂n fiecare strat se proiecteazǎ un subeşantion. Aceste subeşantioane
pot fi aleatoare, sistematice sau de alt gen. Dupǎ aceea subeşantioanele sunt asamblate
ı̂ntr-un singur eşantion pentru a colecta un set de date.
Exemplul 3.5. Pentru studierea unei caracteristici a populaţiei studenţilor din Facul-
tatea de Matematicǎ şi Informaticǎ, aceastǎ populaţie poate fi ı̂mpǎrţitǎ:
- pe domenii: informaticǎ, matematicǎ
- pe ani de studiu.
Definiţia 3.10. Eşantion cotǎ (sau eşantion proporţional) este un

eşantion stratificat care se construieşte prin selectarea unui numǎr de elemente din fiecare
strat dupǎ o anumitǎ cotǎ sau proporţional cu mǎrimea stratului.
9
Exemplul 3.6. Dacǎ se doreşte construirea unui eşantion de 150 de studenţi din populaţia
studenţilor Facultǎţii de Matematicǎ şi Informaticǎ putem face stratificarea dupǎ anii de
studiu. În acest caz, numǎrul de studenţi ce va fi selectat din fiecare an ce va fi selectat
va fi proporţional cu numǎrul total de studenţi din anul respectiv:
Anul de studiu Numǎr studenţi Cota Nr. studenţi

selectat ı̂n eşantion:
Anul I 431 36.49% 54
Anul II 303 25.65% 40
Anul III 206 17.44% 26
Anul IV 240 20.40% 30
Eşantionul va fi format din 54 de studenţi din anul I, 40 de studenţi din anul II, 26 de
studenţi din anul III şi 30 de studenţi din anul IV.
O altǎ metodǎ de eşantionare care pleacǎ de la stratificarea populaţiei este eşantionul

ciorchine.
Definiţia 3.11. Eşantionul ciorchine este un eşantion stratificat care se construieşte

prin selectarea de eşantioane din anumite straturi (nu din toate).
Exemplul 3.7. Dacǎ se doreşte realizarea unui eşantion ciorchine format din studenţii
Universitǎţii de Vest din Timişoara, aceastǎ populaţie poate fi startificatǎ ı̂n funcţie
de specializarea pe care au ales-o studenţii selecţionând eşantioane doar de la câteva
specializǎri (nu de la toate).
Remarca 3.11. Eşantionul ciorchine se obţine folosind numere aleatoare sau o metodǎ
sistematicǎ pentru identificarea straturilor (ciorchine) care trebuiesc eşantionate, dupǎ
care fiecare din aceste straturi este eşantionat. Subeşantioanele asamblate formeazǎ un
eşantion ciorchine.
Într-un caz concret procedeul de eşantionare care se foloseşte depinde de populaţie de

variabilǎ de dificultatea eşantionǎrii şi de cost. Dupǎ determinarea eşantionului se poate
trece la colectarea setului de date.
10
4 Determinarea frecvenţei şi gruparea datelor
Dupǎ colectarea unui set de date urmeazǎ prelucrarea primarǎ a datelor. Determinarea
frecvenţei şi gruparea datelor este un procedeu de prelucrae primarǎ a datelor şi este
utilizat atunci când numǎrul datelor este mare.
Pentru a prezenta conceptul de frecvenţǎ sǎ considerǎm urmǎtorul set de date:
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
Valoarea 0 apare ı̂n acest set o singurǎ datǎ prin urmare frecvenţa pentru 0 este unu.
Valoarea 1 apare ı̂n acest set de trei ori prin urmare frecvenţa pentru 1 este trei.
Valoarea 2 apare ı̂n acest set de opt ori prin urmare frecvenţa pentru 2 este opt.
Valoarea 3 apare ı̂n acest set cinci ori prin urmare frecvenţa pentru 3 este cinci.
Valoarea 4 apare ı̂n acest set de douǎ ori prin urmare frecvenţa pentru 4 este doi.
Frecvenţa datelor 0,1,2,3,4 care apar ı̂n setul de date este redatǎ ı̂n tabelul urmǎtor:
x f
0 1
1 3
2 8
3 5
4 3
Definiţia 4.1. Frecvenţa f (din coloana a doua) aratǎ de câte ori apare valoarea variabilei
x ı̂n setul de date.
Atunci când ı̂ntr-un set de date multe sunt distincte (ı̂n loc de câteva ca ı̂n cazul precedent)
se grupeazǎ datele ı̂n clase şi apoi se construiesc frecvenţe pentru clase.
Pentru a ilustra acest procedeu considerǎm urmǎtorul set de date:
82 74 88 66 58
62 68 72 92 86
74 78 84 96 76
76 52 76 82 78
Vom pune ı̂n aceeaşi clasǎ toate datele la care prima cifrǎ este aceeaşi şi obţinem
urmǎtoarele cinci clase:
50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99
(50 − 59 este clasa formatǎ cu toate datele la care prima cifrǎ este 5, ş.a.m.d.).
Aceste clase nu se intersecteazǎ (nu existǎ date care sǎ aparţinǎ la douǎ clase) şi oricare
din date aparţine unei clase.
Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.
Datele care aparţin unei clase sunt mai mari decât limita inferioarǎ a clasei şi mai mici
decât limita superioarǎ a clasei.
11
Definiţia 4.2. Lǎţimea unei clase definitǎ ca diferenţa dintre limita inferioarǎ a clasei
urmǎtoare şi limita inferioarǎ a clasei (este egalǎ cu 10 şi este aceeaşi pentru toate clasele
ı̂n exemplul de mai sus) lǎţimea clasei nu este egalǎ cu diferenţa dintre limita superioarǎ
şi limita inferioarǎ a clasei.
Definiţia 4.3. Frontierele unei clase definite ca media aritmeticǎ dintre limita superioarǎ
a clasei şi limita inferioarǎ a clasei urmǎtoare sunt:
49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.
Definiţia 4.4. Marca unei clase definitǎ ca media aritmeticǎ dintre limita superioarǎ şi
limita inferioarǎ a clasei, ı̂n acest caz este:
50 + 59
54.5 = ı̂n cazul clasei 50 − 59
2
60 + 69
2
70 + 79
2
80 + 89
2
90 + 99
2
Frecvenţa ı̂n acest caz este numǎrul de date dintr-o clasǎ. Frecvenţa datelor pe clase este:
ı̂n cazul clasei 50 − 59 2 date
În general, ı̂n cazul grupǎrii datelor pe clase şi a determinǎrii frecvenţei trebuiesc
respectate urmǎtoarele reguli:
1) Clasele nu trebuie sǎ se intersecteze şi fiecare datǎ din setul de date trebuie sǎ
aparţinǎ la o clasǎ;
2) Fiecare clasǎ trebuie sǎ aibe aceeaşi lǎţime.
Procedeul concret de grupare este urmǎtorul:
12
i) Se identificǎ cea mai mare datǎ H şi cea mai micǎ datǎ L şi se determinǎ plaja:
R = H − L.
ii) Se alege numǎrul de clase m şi lǎţimea clasei c (dacǎ se poate numǎr impar) astfel
ca produsul m · c sǎ fie puţin mai mare ca plaja R.
iii) Se alege un punct de plecare I care este puţin mai mic decât cea mai micǎ datǎ L.
Adǎugǎm la I multiplii lui c (c este lǎţimea clasei) şi obţinem numerele:
I, I + c, I + 2c, I + 3c, ..., I + (m − 1)c
Aceste numere sunt limitele inferioare ale claselor.
iv) Limitele superioare se stabilesc astfel ı̂ncât sǎ fie respectate condiţiile 1) şi 2).
v) Se determinǎ frecvenţa fiecǎrei clase numǎrând elementele din fiecare clasǎ.
13
5 Prezentarea datelor
Prezentarea unui set de date poate fi fǎcutǎ sub diferite forme şi face parte din prelucrarea
primarǎ a datelor.
Prezentarea datelor sub formǎ de serii
Definiţia 5.1. Seria de distribuţie este un ansamblu de douǎ şiruri finite dintre care
primul este şirul elementelor distincte din setul de date statistice sau şirul claselor obţinute
prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este şirul de
frecvenţe corespunzǎtoare.
Exemplul 5.1. În cazul setului de date statistice:
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
seria de distribuţie este: µ ¶

0 1 2 3 4
X
1 3 8 5 3
Exemplul 5.2. În cazul claselor 50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99 obţinute prin
gruparea datelor din setul de date:
82 74 88 66 58 74 78 84 96 76
62 68 72 92 86 76 52 76 82 78
seria de distribuţie este:

µ ¶
50 − 59 60 − 69 70 − 79 80 − 89 90 − 99
X
2 3 8 5 2
În general, o serie de distribuţie aratǎ ı̂n felul urmǎtor:

µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn
şi oricare ar fi nivelul de grupare al datelor, xi având frecvenţa fi , se numeşte termenul

seriei de distribuţie.
Remarca 5.1. Adesea ı̂n prezentarea seriilor de distribuţie ı̂n locul frecvenţei fi se
foloseşte frecvenţa relativǎ:
fi
fi0 = n
X
fj
j=1
sau sub formǎ procentualǎ:

fi00 = fi0 · 100
14
Definiţia 5.2. Valoarea datei care apare cu cea mai mare frecvenţǎ ı̂ntr-o serie de
distribuţie de date statistice se numeşte mod.
Definiţia 5.3. Clasa cu cea mai mare frecvenţǎ ı̂ntr-o serie de distribuţie de date grupate
se numeşte clasǎ modalǎ.
Definiţia 5.4. Serie bimodalǎ este o serie de distribuţie de date grupate ı̂n care apar
douǎ clase modale, separate de clase cu frecvenţǎ mai joasǎ.
Definiţia 5.5. Frecvenţa cumulatǎ a unei clase este suma frecvenţelor tutror claselor
cu valori mai mici (marca mai micǎ).
Definiţia 5.6. Seria dinamicǎ (temporalǎ, cronologicǎ) este un şir dublu dintre
care primul este şirul de valori ale variabilei de rǎspuns, iar cel de-al doilea şir este şirul
de momente de timp la care variabila are aceste valori. În general, o serie dinamicǎ
(temporalǎ) se noteazǎ astfel:
µ ¶
x1 x2 x3 · · · xn
X
t1 t2 t3 · · · tn
Prezentarea datelor sub formǎ de tabele statistice

Tabelele statistice sunt foarte variate şi se folosesc pentru ordonarea datelor statistice
dintr-un set de date ı̂n vederea aplicǎrii metodelor de calcul şi de interpretare statisticǎ.
În funcţie de numǎrul de caracteristici prezentate ı̂n tabel existǎ tabele simple, tabele cu
dublǎ intrare, tabele pe grupe, etc.
Prezentarea datelor sub formǎ graficǎ

Existǎ mai multe metode de prezentare graficǎ a unui set de date statistice. Metoda
de prezentare graficǎ este determinatǎ de tipul de date şi de ideea de prezentare. De
la ı̂nceput trebuie sǎ fie clar cǎ existǎ mai multe cǎi de a dispune grafic anumite date
statistice. Judecata analistului şi circumstanţele din jurul problemei joacǎ un rol major
ı̂n alegerea modului de dispunere graficǎ a datelor statistice.
Definiţia 5.7. Graficele de reprezentare a seriilor statistice fǎrǎ grupare se numesc

diagrame.
Definiţia 5.8. Diagrama cerc a seriei de distribuţie (fǎrǎ grupare)

µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn
este un cerc ı̂mpǎrţit ı̂n n sectoare de cerc S1 , S2 , ..., Sn astfel ı̂ncât aria sectorului Si este
egalǎ cu
fi
fi00 = n · 100
X
fj
j=1
procente din aria cercului.
15
Exemplul 5.3. În cazul seriei de distribuţie din exemplul 5.1
µ ¶
0 1 2 3 4
X
1 3 8 5 3
cercul se ı̂mparte ı̂n cinci sectoare având ariile egale cu 5%, , 15%, 40%, 25%, 15% din
aria cercului
Definiţia 5.9. Diagrama coloanǎ a seriei de distribuţie (fǎrǎ grupare):

µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale şi sunt aşezate pe
axa Ox, iar ı̂nǎlţimile lor sunt f1 , f2 , ..., fn
Exemplul 5.4. În cazul seriei de distribuţie din exemplul 5.1:

µ ¶
0 1 2 3 4
X
1 3 8 5 3
diagrama coloanǎ este:
16
Definiţia 5.10. Diagrama linie (ramurǎ-frunzǎ) a seriei de distribuţie (fǎrǎ grupare)
µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale şi sunt aşezate pe
axa Oy, iar lungimile lor sunt f1 , f2 , ..., fn .

µ ¶
0 1 2 3 4
X
1 3 8 5 3
diagrama linie este:
Definiţia 5.11. Histograma seriei de distribuţie cu grupare

µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn
este un set de n dreptunghiuri care reprezintǎ clasele. Bazele acestor dreptunghiuri

sunt egale (clasele au aceeaşi lǎţime) şi sunt aşezate pe axa Ox, iar ı̂nǎlţimile lor sunt
f1 , f2 , ..., fn .

µ ¶
50 − 59 60 − 69 70 − 79 80 − 89 90 − 99
X
2 3 8 5 2
histograma este:
17
Remarca 5.2. În cazul histogramei o coloanǎ reprezintǎ un numǎr de date diferite spre
deosebire de diagrama coloanǎ.
Remarca 5.3. O histogramǎ are urmǎtoarele componente:
i) Un titlu care identificǎ populaţia la care se referǎ;
ii) O scarǎ orizontalǎ pe care se identificǎ variabila X, valorile limitelor claselor,

frontierele claselor, mǎrcile claselor.
iii) O scarǎ verticalǎ pe care se identificǎ frecvenţele pentru fiecare clasǎ.
Definiţia 5.12. O histogramǎ de frecvenţe relative este o histogramǎ obţinutǎ dintr-

o histogramǎ ı̂nlocuind frecvenţele cu frecvenţe relative.
Frecvenţa relativǎ (este o mǎsurǎ proporţionalǎ cu frecvenţa ı̂n cauzǎ) se obţine prin
ı̂mpǎrţirea frecvenţei clasei la numǎrul total de elemente din setul de date.
Definiţia 5.13. Ogiva unei serii de distribuţie de clase cu frecvenţe relative cumulate
este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale şi aşezate pe axa Ox, iar
ı̂nǎţimile lor sunt frecvenţele relative cumulate.
Ogiva are urmǎtoarele componente:
1. Un titlu care identificǎ populaţia.
2. O scarǎ orizontalǎ pe care sunt marcate frontierele superioare ale claselor.
3. O scarǎ verticalǎ pe care sunt marcate frecvenţele relative cumulate pentru fiecare
clasǎ.
18
6 Parametrii şi statistici ai tendinţei centrale
O categorie de caracteristici numerici asociaţi unui set de date statistice sunt: parametrii
tendinţei centrale ı̂n cazul populaţiilor şi statistici ale tendinţei centrale ı̂n cazul
eşantioanelor. Întrucât aceştia au definiţii analoage vom prezenta doar statistici ale
tendinţei centrale.
Definiţia 6.1. Statistici ale tendinţei centrale sunt valori numerice asociate unui set
de date statistice care localizeazǎ ı̂ntr-un anumit sens mijlocul mulţimii de date statistice.
Definiţia 6.2. Media aritmeticǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie suma acestor date ı̂mpǎrţitǎ la numǎrul datelor
n
X
xi
i=1
x=
n
Remarca 6.1. Atunci când datele sunt prezentate sub forma unei serii de distribuţie
(fǎrǎ grupare ı̂n clase), media aritmeticǎ se gǎseşte cu formula:
m
X
xj · f j
j=1
x= m
X
fj
j=1
Remarca 6.2. În cazul unei serii de distribuţie (cu grupare ı̂n clase) formula de calcul a
mediei este: X
x · fx
x= X
fx
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.
Definiţia 6.3. Media pǎtraticǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie numǎrul: v
uX n
u
u x2i
t
i=1
xp =
n
Remarca 6.3. Dacǎ datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ
grupare ı̂n clase), media pǎtraticǎ se gǎseşte cu formula:
v
uX m
u
u x2j · fj
u
u j=1
xp = u m
u X
t f j
j=1
19
Remarca 6.4. În cazul unei serii de distribuţie cu grupare ı̂n clase media pǎtraticǎ este
prin definiţie: v
uX 2
u x · fx
u
xp = t X
fx
ansamblul claselor.
Definiţia 6.4. Media armonicǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie numǎrul:
n
xh = n
X 1
i=1
xi
grupare ı̂n clase), media armonicǎ se gǎseşte cu formula:
m
X
fj
j=1
xh = m
X 1
· fj
j=1
xj
Remarca 6.6. În cazul unei serii de distribuţie cu grupare ı̂n clase media armonicǎ este
prin definiţie:
Xn
fx
i=1
xh = n
X 1
· fx
i=1
x
ansamblul claselor.
Definiţia 6.5. Media geometicǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie numǎrul: v
u n
uY
xp = tn
xi
i=1
grupare ı̂n clase), media geometricǎ se gǎseşte cu formula:
Remarca 6.8. În cazul unei serii de distribuţie cu grupare ı̂n clase media geometricǎ este
prin definiţie: ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma
se extinde pe ansamblul claselor.
20
Definiţia 6.6. Mediana me a unui set de date statistice distincte ordonate dupǎ mǎrime
x1 < x2 < ... < xn este numǎrul care ı̂mparte setul de date ı̂n douǎ grupe egale ca numǎr:
- dacǎ n = 2 · k + 1, atunci me este valoarea de rangul k + 1: me = xk+1 ;

- dacǎ n = 2 · k, atunci orice numǎr ı̂ntre valorile xk şi xk+1 satisface condiţia din
definiţia lui me . În acest caz se convine ca me sǎ fie media aritmeticǎ a valorilor
xk + xk+1
xk şi xk+1 : me = .
2
Exemplul 6.1. În cazul setului de date statistice:
4 7 12 26 32 38 59
mediana este me = 26.

În cazul setului de date statistice:
4 7 12 26 32 38
12 + 26
mediana este me = = 19.
2
Remarca 6.9. Mediana me ı̂n acest caz are proprietatea cǎ suma frecvenţelor valorilor
mai mari decât me este egalǎ cu suma frecvenţelor valorilor mai mici decât me .
Remarca 6.10. Dacǎ datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianei
poate sǎ nu fie adevǎratǎ. În cazul setului de date statistice:
1 1 1 2 3 3 4
Seria de distribuţie corespunzǎtoare este:

1 2 3 4
3 1 2 1
Conform definiţiei lui me ı̂n acest caz me = 2, 5. Aceastǎ valoare a lui me nu rǎspunde
cerinţei cǎ me este o valoare cu proprietatea cǎ valorile mai mari sau mai mici decât ea
apar cu frecvenţe cumulate egale; frecvenţa celor mai mici este 4, iar frecvenǎ celor mai
mari este 3.
Remarca 6.11. Când datele sunt prezentate sub forma unei serii de distribuţie cu sau fǎrǎ
grupare me se calculeazǎ prin procedeul interpolǎrii liniare, bazate pe ipoteza repartiţiei
uniforme a frecvenţelor ı̂n intervalul median.
Definiţia 6.7. Mijlocul plajei este prin definiţie numǎrul:
L+H
Mr =
2
unde L este cea mai micǎ valoare, iar H este cea mai mare valoare a variabilei X
21
7 Parametrii şi statistici ai dispersiei
Dupǎ ce ”mijlocul” unui set de date a fost stabilit urmǎtoarea ı̂ntrebare naturalǎ este:
care sunt parametrii şi statisticile care caracterizeazǎ dispersia (ı̂mprǎştierea) datelor.
Parametrii şi statisticile dispersiei sunt: plaja, deviaţia medie absolutǎ, varianţa, deviaţia
standard şi coeficientul de variaţie. Aceste valori numerice descriu mǎrimea ı̂mprǎştierii
ori a variabilitǎţilor datelor. Datele strâns grupate vor avea ı̂mprǎştiere micǎ, iar cele
care nu sunt grupate (sunt ı̂mprǎştiate) vor avea o dispersie mai mare.
Definiţia 7.1. Plaja P este diferenţa dintre cea mai mare (H) şi cea mai micǎ (L) valoare
a valorilor xi dintr-un set de date:
P =H −L
Deviaţia medie absolutǎ, varianţa şi deviaţia standard mǎsoarǎ dispersia faţǎ de media
aritmeticǎ.
Definiţia 7.2. Deviaţia faţǎ de media aritmeticǎ x a valorii xi a variabilei X este

di = xi − x.
Deviaţia este zero dacǎ şi numai dacǎ xi = x.

Deviaţia este pozitivǎ dacǎ şi numai dacǎ xi > x.
Deviaţia este negativǎ dacǎ şi numai dacǎ xi < x.
n
X
S-ar putea crede cǎ suma deviaţilor (xi − x) poate servi ca mǎsurǎ a dispersiei faţǎ de
i=1
media aritmeticǎ. Dar aceastǎ sumǎ este zero ı̂ntotdeauna:
n
X n
X
(xi − x) = xi − n · x = n · x − n · x = 0
i=1 i=1
Reducerea deviaţiilor poate fi eliminatǎ prin folosirea valorii absolute a deviaţiilor: xi − x.
Definiţia 7.3. Deviaţia medie absolutǎ a setului de date statistice distincte {x1 , x2 , ..., xn }
este prin definiţie:
Xn
|xi − x|
i=1
d=
n
Remarca 7.1. Deviaţia medie absolutǎ, ı̂n cazul ı̂n care datele sunt prezentate sub forma
unei serii de distribuţie fǎrǎ grupare de date se calculeazǎ cu formula:
m
X
|xj − x| · fj
j=1
d= m
X
fj
j=1
22
Remarca 7.2. Deviaţia medie absolutǎ, ı̂n cazul ı̂n care datele sunt prezentate sub forma
unei serii de distribuţie cu grupare de date se calculeazǎ cu formula:
X
|x − x| · fx
d= X
fx
ansamblul claselor.
Cu toate cǎ acest parametru al ı̂mprǎştierii nu se foloseşte frecvent, el este o mǎsurǎ a

ı̂mprǎştierii şi aratǎ distanţa medie la care se aflǎ o valoare a variabilei X faţǎ de media
aritmeticǎ.
Mai existǎ o cale de eliminare a reducerii deviaţiilor. Ridicând la pǎtrat deviaţiile
individuale acestea devin pozitive (sau zero). Când aceste pǎtrate sunt adunate rezultatul
Xn
este pozitiv. Suma pǎtratelor deviaţiilor faţǎ de media aritmeticǎ (xi −x)2 este folositǎ
i=1
ı̂n definirea varianţei.
Definiţia 7.4. Varianţa s2 a setului de date statistice distincte {x1 , x2 , ..., xn } este prin
definiţie:
X n
(xi − x)2
i=1
s2 =
n
Remarca 7.3. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie fǎrǎ
grupare de date varianţa s2 se calculeazǎ cu formula:
m
X
(xj − x)2 · fj
j=1
s2 = m
X
fj
j=1
Remarca 7.4. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie cu
grupare de date varianţa s2 se calculeazǎ cu formula:
X
(x − x)2 · fx
2
s = X
fx
ansamblul claselor.
Definiţia 7.5. Deviaţia standard (abaterea standard) s a setului de date statistice
distincte {x1 , x2 , ..., xn } este prin definiţie:
n 1
X 2
 (xi − x)2 
 i=1 
s=



 n 
23
Remarca 7.5. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie fǎrǎ
grupare de date deviaţia standard s se calculeazǎ cu formula:
1
X m 
2
 (xj − x)2 · fj 
 j=1 
s=
 m


 X 
fj
j=1
Remarca 7.6. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie cu
grupare de date deviaţia standard s se calculeazǎ cu formula:
X 1
(x − x) · fx 2
2
s= X 
fx
ansamblul claselor.
Remarca 7.7. Deviaţia standard a fost definitǎ cu o formulǎ. Se poate pune ı̂ntrebarea
ce reprezintǎ ea ı̂n realitate? Un rǎspuns la aceastǎ ı̂ntrebare poate fi dat cu inegalitatea
lui Cebı̂şev din care rezultǎ cǎ pentru orice serie de distribuţie fracţiunea de date situatǎ
la cel mult k unitǎţi de deviaţie standard faţǎ de medie este cel puţin 1 − k12 , unde k este
un numǎr pozitiv oarecare mai mare ca 1. Rezultǎ ı̂n particular cǎ pentru orice serie de
distribuţie fracţiunea de date situatǎ la cel mult k = 2 unitǎţi de deviaţie standard faţǎ de
medie este de cel puţin 75% din totalul de date. Dacǎ k = 3 atunci este 89% din totalul
de date.
Conform regulii empirice dacǎ o serie de repartiţie este normalǎ atunci fracţiunea de date
situate la cel mult o unitate de deviaţie standard σ faţa de medie este aproximativ 68%,
iar fracţiunea de date situate la cel mult douǎ unitǎţi de deviaţie standard σ faţǎ de medie
este aproximativ 95%.
Definiţia 7.6. Coeficientul de variaţie V este prin definiţie:

s
V = · 100
x
Remarca 7.8. Coeficientul de variaţie este o statisticǎ relativǎ a dispersiei şi se foloseşte
la compararea dispersiei diferitelor variabile (caracteristici).
Remarca 7.9. V poate lua valori ı̂ntre 0 şi 100%. Dacǎ V este aproape de zero
(V < 35%), atunci populaţia studiatǎ statistic este omogenǎ şi media x este reprezentativǎ
pentru aceastǎ populaţie. Dacǎ V este aproape de 100% (V > 75%), atunci populaţia
studiatǎ statistic este eterogenǎ şi media x nu este reprezentativǎ. De cele mai multe
ori ı̂n asemenea cazuri este necesarǎ separarea populaţiei statistice ı̂n mai multe grupe
omogene, care se studiazǎ separat.
24
8 Parametrii şi statistici factoriali ai varianţei
În analiza varianţei unui set de date statistice se folosesc urmǎtorii parametrii factoriali
ai varianţei:
- varianţa de grupǎ (parţialǎ) s2j
- media varianţelor de grupǎ s2
- varianţa mediilor de grupǎ faţǎ de media generalǎ δ 2
- varianţa totalǎ (generalǎ) s2 .
Definiţia 8.1. Pentru o grupǎ de m date x1 , x2 , ..., xm , varianţa de grupǎ este definitǎ
cu formula: m
X
(xi − xj )2 · nij
i=1
s2j = m
X
nij
i=1
ı̂n care j este indicele grupei, xj este media grupei, xi sunt datele din grupa j având
frecvenţele nij
Remarca 8.1. Varianţele de grupǎ sunt mai mici decât varianţa şi au valori mai mari
sau mai mici ı̂n funcţie de eterogenitatea grupei.
Definiţia 8.2. Prin definiţie media varianţelor de grupǎ este:

k
X
s2j · nj
j=1
s2 = k
X
nj
j=1
m
X
ı̂n care k este numǎrul de grupe, nj = nij este numǎrul de date din grupǎ.
i=1
Definiţia 8.3. Varianţa mediilor de grupǎ faţǎ de media generalǎ este prin
definiţie:
Xk
(xj − x)2 · nj
j=1
δ2 = k
X
nj
j=1
25
9 Parametrii şi statistici ale poziţiei
Parametrii şi statistici ai poziţiei se folosesc pentru a descrie locaţia unei date ı̂n raport
cu celelalte date.
Definiţia 9.1. Quantilele sunt valori numerice care ı̂mpart setul de date ı̂n q grupe
egale. Constanta q se numeşte ordinul quantilei.
Mediana este quantila de ordinul doi.

Quantilele de ordinul patru ı̂mpart setul de date ı̂n patru grupe egale şi se numesc
quartile. Quartilele sunt ı̂n numǎr de trei, notate de obicei cu Q1 , Q2 , Q3 .
Quartila Q1 este un numǎr cu proprietatea cǎ o pǎtrime din date au valori mai mici decât
Q1 şi trei pǎtrimi din date au valori mai mari decât Q1 .
Quartila Q2 este un numǎr cu proprietatea cǎ jumǎtate din date au valori mai mici decât
Q2 şi jumǎtate din date au valori mai mari decât Q2 . Quartila Q2 este chiar mediana.
Quartila Q3 este un numǎr cu proprietatea cǎ trei pǎtrimi din date au valori mai mici
decât Q3 şi o pǎtrime din date au valori mai mari decât Q3 .
Alte categorii de quantile folosite sunt:
- decilele care ı̂mpart setul de date ı̂n 10 grupe egale.
- centilele care ı̂mpart setul de date ı̂n 100 grupe egale.
- promilele care ı̂mpart setul de date ı̂n 1000 grupe egale.
Orice set de date are 99 de centile Pk , k = 1..99. Centila Pk este o valoare numericǎ cu
proprietatea cǎ k% din date are valori mai mici decât Pk , iar (100 − k)% din date au
valori mai mari decât Pk .
Remarca 9.1. Q1 = P25 ; Q3 = P75 ; me = Q2 = P50
Remarca 9.2. Procedeul de determinare a centilei Pk este urmǎtorul:
1) datele se ordoneazǎ crescǎtor;

n·k
2) trebuie gǎsitǎ poziţia i a centilei k. Prima oarǎ se determinǎ numǎrul , unde
100
n·k
n este numǎrul de date. Dacǎ nu este un numǎr ı̂ntreg, atunci i este numǎrul
100
n·k n·k
ı̂ntreg urmǎtor ( = 17.2 → i = 18). Dacǎ este un numǎr ı̂ntreg, atunci i
100 100
n·k n·k
este + 0.5 ( = 23 →
100 100
i = 23.5).
3) localizarea valorii Pk : se numǎrǎ de la valoarea L (cea mai micǎ valoare a datelor) i

valori dacǎ i este ı̂ntreg. Dacǎ i nu este ı̂ntreg atunci este un ı̂ntreg plus o jumǎtate.
n·k n·k
În acest caz valoarea Pk este semisuma datelor de pe locurile şi +1
100 100
O statisticǎ adiţionalǎ a poziţiei este scorul standard sau z-scor.
26
Definiţia 9.2. Scorul standard sau z-scorul este poziţia valorii x faţǎ de mediana x
ı̂n unitǎţi de deviaţie standard:
x−x
z=
s
27
10 Seria de distribuţie a statisticilor
de eşantioane
Pentru a face inferenţǎ (predicţie) asupra parametrilor populaţiei, este necesar sǎ analizǎm
statisticile de eşantioane. Media x ı̂n cazul unui eşantion nu este neaparat egalǎ cu media µ
a populaţiei. Suntem ı̂nsǎ mulţumiţi dacǎ media x este apropiatǎ de µ. Dacǎ se considerǎ
media x0 ı̂n cazul unui al doilea eşantion aceasta poate sǎ fie diferitǎ de x şi de µ. Ceea ce
putem spera este ca aceasta sǎ fie apropiatǎ de valoarea µ şi de x. Valabilitatea acestui
tip de comportament intereseazǎ pentru orice populaţie şi orice statisticǎ.
Întrebarea care se naşte ı̂n mod natural este ce ı̂nseamnǎ aproape? Cum se mǎsoarǎ şi se
determinǎ aceastǎ apropiere? Care este seria de distribuţie a statisticilor de eşantioane?
Definiţia 10.1. Seria de distribuţie a statisticilor de eşantioane este seria de
distribuţie a statisticilor de un anumit tip obţinute pentru eşantioane de aceeaşi mǎrime.
Tipul de statisticǎ poate fi oricare din statisticile prezentate ı̂n secţiunile 6 şi 7.
Exemplul 10.1. Se considerǎ o populaţie de N elemente de la care se pot obţine
urmǎtoarele date statistice distincte: {0, 2, 4, 6, 8}. În cazul acestei populaţii formǎm
eşantioane de mǎrime 2 de la care putem avea urmǎtoarele date statistice:
(0, 0) (2, 0) (4, 0) (6, 0) (8, 0)
(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)
(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)
(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)
(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)
Pentru aceste eşantioane mediile x sunt:
0 1 2 3 4
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
Eşantioanele fiind aleatoare fiecare eşantion, are probabilitatea 1/25 sǎ fie ales şi seria de
distribuţie a mediilor acestor eşantioane este:
x f 0 (x)
0 0.04
1 0.08
2 0.12
3 0.16
4 0.20
5 0.16
6 0.12
7 0.08
8 0.04
unde f 0 (x) este frecvenţa relativǎ a mediei x. Diagrama coloanǎ a mediilor eşantioanelor
este:
28
Pentru acelaşi set de 25 de eşantioane putem determina seria de distribuţie a plajelor R
a acestor eşantioane.
Plajele R ale eşantioanelor sunt date ı̂n tabelul urmǎtor:
0 2 4 6 8
2 0 2 4 6
4 2 0 2 4
6 4 2 0 2
8 6 4 2 0
Seria de distribuţie a plajelor acestor eşantioane este:
R f 0 (R)
0 0.20
2 0.32
4 0.24
6 0.16
8 0.08
iar diagrama coloanǎ a plajei eşantioanelor este:
29
Exemplul 10.2. În cazul aruncǎrii zarului de un numǎr de N ori, setul de date statistice
care se referǎ la numǎrul de pe faţǎ care apare este 1, 2, 3, 4, 5, 6.
Formǎm eşantioane care constau din 5 aruncǎri. Fiecare din aceste eşantioane are media
x. Considerǎm 30 de eşantioane de acest fel (ı̂nseamnǎ 30 × 5 = 150 aruncǎri) şi ı̂ntr-un
tabel reprezentǎm rezultatele precum şi mediile corespunzǎtoare:
Încercare Eşantion x Încercare Eşantion x

1 12322 2.0 16 52135 3.2
2 45545 4.6 17 61335 3.6
3 31524 3.0 18 65526 4.8
4 56642 4.6 19 13556 4.0
5 54164 4.0 20 31531 2.6
6 35615 4.0 21 51143 2.8
7 23632 3.2 22 46312 3.2
8 53462 4.0 23 15345 3.6
9 15534 3.6 24 34133 2.8
10 41526 3.6 25 12414 2.4
11 51332 2.8 26 52163 3.4
12 15231 2.4 27 42563 4.0
13 21153 2.4 28 43134 3.0
14 51446 4.0 29 26533 3.8
15 55633 4.4 30 63511 3.2
Histograma seriei de distribuţie a mediilor celor 30 de eşantioane este reprezentatǎ ı̂n

figura urmǎtoare:
30
Aceastǎ lege de repartiţie pare sǎ aibe caracteristicile unei legi de repartiţie normalǎ; este
maxim şi este simetric faţǎ de media proprie 3.5.
31
11 Teorema limitǎ centralǎ
În secţiunea precedentǎ am prezentat seria de distribuţie a mediei şi plajei unui set de
eşantioane. Media este statistica folositǎ cel mai frecvent ı̂n cazul eşantioanelor şi de aceea
este foarte importantǎ. Teorema limitǎ centralǎ se referǎ la seria de distribuţie a mediei
tuturor eşantioanelor aleatoare de aceeaşi mǎrime n.
Sǎ formulǎm ce anume intereseazǎ ı̂n cazul acestei serii de distribuţie:
1) Unde este centrul datelor?
2) Cât de mare este dispersia datelor?
3) Care este caracterul seriei de distribuţie?
Teorema limitǎ centralǎ oferǎ rǎspuns la aceste trei ı̂ntrebǎri.
Teorema 11.1. Teorema limitǎ centralǎ

Fie µ media şi σ deviaţia standard a unei variabile ı̂n cazul unei populaţii. Dacǎ se
considerǎ toate eşantioanele aleatoare de mǎrime n din aceastǎ populaţie, atunci seria de
distribuţie a mediilor acestor eşantioane are urmǎtoarele proprietǎţi:
a) media µx a acestei serii de distribuţie este egalǎ cu µ;

σ
b) deviaţia standard σx a acestei serii de distribuţie este √ .
n
c) dacǎ seria de distribuţie a variabilei ı̂n cazul populaţiei este normalǎ, atunci seria
de distribuţie a mediilor eşantioanelor este normalǎ; dacǎ seria de distribuţiei a
variabilei ı̂n cazul populaţiei nu este normalǎ, atunci seria de distribuţie a mediilor
eşantioanelor este aproximativ normalǎ pentru eşantioane de mǎrime mai mare ca
30. Tendinţa cǎtre o serie de distribuţie normalǎ creşte dacǎ mǎrimea eşantionului
creşte.
Pe scurt, teorema limitǎ centralǎ stabileşte urmǎtoarele:
1) µx = µ, unde x este media eşantionului x;

√
2) σx = σ/ n, deviaţia standard a mediei este egalǎ cu deviaţia standard a populaţiei
ı̂mpǎţitǎ cu rǎdǎcina pǎtratǎ a mǎrimii eşantionului.
3) seria de distribuţiei a mediei eşantioanelor este aproximativ normalǎ indiferent de

seria de distribuţiei a variabilei ı̂n cazul populaţiei.
Remarca 11.1. Deviaţia standard σx a seriei de distribuţie a mediilor eşantioanelor

este deviaţia standard a mediilor eşantioanelor faţǎ de media seriei de distribuţie a
eşantioanelor.
Nu vom face demonstraţie teoremei limitǎ centralǎ. Vom ilustra ı̂nsǎ validitatea ei
examinând un caz ilustrativ.
32
Considerǎm o populaţie pentru care seria de distribuţie de date statistice cu frecvenţe
relative ı̂n cazul variabilei X este:
µ ¶
2 4 6
X:
1/3 1/3 1/3
Media µ şi deviaţia standard σ pentru aceastǎ variabilǎ sunt:
v Ã 3 !2
3 u 3
X uX X
µ= xj · f 0xj σ=t x2j · f 0xj − xj · f 0xj
j=1 j=1 j=1
12
µ= =4 σ = 1, 63
3
În cazul acestei populaţii oricare eşantion de mǎrime doi are urmǎtoarele date posibile:
(2, 2) (2, 4) (2, 6)
(4, 2) (4, 4) (4, 6)
(6, 2) (6, 4) (6, 6)
Eşantioanele au urmǎtoarele medii:
2 3 4
3 4 5
4 5 6
Eşantion Media
(2,2) 2
(2,4) 3
(2,6) 4
(4,2) 3
(4,4) 4
(4,6) 5
(6,2) 4
(6,4) 5
(6,6) 6
1
Eşantioanele fiind aleatoare fiecare eşantion are probabilitatea sǎ fie ales şi seria de
9
distribuţie a mediilor eşantioanelor este:
µ ¶
2 3 4 5 6
X
1/9 2/9 3/9 2/9 1/9
Media seriei de distribuţie a mediilor eşantioanelor µx este µx = 36/9 = 4, 0. Prin urmare
µ = µx , iar deviaţia standard a repartiţiilor mediilor eşantioanelor este:
v Ã 5 !2 s
u 5 µ ¶2
uX X 156 36
σx = t 2 0
xj · f xj − 0
xj · f x j = − = 1, 15
j=1 j=1
9 9
σ 1, 63 1, 63
√ = √ = = 1, 15 = σx
n 2 1, 44
Reprezentând seria de distribuţie a mediilor eşantioanelor obţinem:
33
Aceastǎ diagramǎ aratǎ cǎ seria de distribuţie a mediilor eşantioanelor este normalǎ.
34
12 O aplicaţie a teoremei limitǎ centralǎ
Teorema limitǎ centralǎ oferǎ informaţii asupra seriei de distribuţie a mediilor eşan-
tioanelor descriind forma repartiţiei mediilor tuturor eşantioanelor (aproape normalǎ).
Ea stabileşte relaţia dintre media µ a populaţiei şi media µx a seriei de distribuţie a
mediilor tuturor eşantioanelor şi relaţia dintre deviaţia standard σ a populaţiei şi deviaţia
standard σx a seriei de distribuţie a mediilor eşantioanelor. Deoarece seria de distribuţie
a mediilor eşantioanelor este aproape normalǎ putem stabili legǎturi probabiliste dintre
media populaţiei şi media unui eşantion.
Exemplul 12.1. Considerǎm o populaţie normalǎ cu µ = 100 şi σ = 20. Dacǎ se alege
un eşantion aleator de mǎrime n = 16 care este probabilitatea ca valoarea medie a acestui
eşantion sǎ fie ı̂ntre 90 şi 110? Altfel spus, cât este P (90 < x < 110)?
Soluţie: Conform teoremei limitǎ centralǎ repartiţia valorilor medii ale eşantioanelor
este normalǎ. Prin urmare va trebui sǎ transformǎm condiţia P (90 < x < 110) ı̂ntr-o
condiţie care sǎ permitǎ folosirea tabelului de distribuţie normalǎ standard. Aceasta se
face scriind: µ ¶ µ ¶
110 − µx 90 − µx
P (90 < x < 110) = Φ −Φ =
σx σx
µ ¶ µ ¶ µ ¶ µ ¶
110 − 100 −10 10 10
=Φ −Φ =2·Φ −1=F
σx σx σx σx
ZX 1 2
1 − t 1
unde Φ(X) = √ e 2 dt şi F (X) = Φ(X) − .
2π 2
−∞
σ 20
Deoarece σx = √ , avem σx = √ = 5 şi astfel obţinem:
n 16
P (90 < x < 110) = 2 · Φ(2) − 1 = 2F (2) = 0.9544
Efectul creşterii dimensiunii n a eşantionului nu afecteazǎ µx = µ şi micşoreazǎ σx . Prin

urmare P (90 < x < 110) creşte, dacǎ n creşte.
Exemplul 12.2. Înǎlţimea copiilor la o grǎdiniţǎ are o distribuţie normalǎ având o medie
µ = 100 cm cu o deviaţie standard de 12, 5 cm. Pentru un eşantion aleator de 25 de copii
se determinǎ media x. Care este probabilitatea ca aceastǎ medie sǎ fie ı̂ntre 90 cm şi 110
cm?
Soluţie:
µ ¶
10
P (90 < x < 110) = 2 · Φ − 1 = 2 · Φ(4) − 1 = 2 · F (4) = 2 · 0.499968
σx
35
13 Estimarea punctualǎ a unui parametru; intervalul
de ı̂ncredere
Considerǎm o populaţie a cǎrei medie µ nu o cunoaştem şi ne punem problema s-o gǎsim.
Pentru acest scop considerǎm un eşantion aleator de dimensiune n pentru care determinǎm
media x. Media x a eşantionului este o estimare punctualǎ a mediei µ a populaţiei.
Definiţia 13.1. O estimare punctualǎ a parametrului γ a unei populaţii este o

valoare g a unei statistici corespunzǎtoare.
Remarca 13.1. Dacǎ x este media eşantioanului cu care estimǎm media necunoscutǎ µ
a populaţiei, aceasta nu ı̂nseamnǎ cǎ x = µ. În general, x 6= µ şi la ceea ce ne putem
aştepta este ca x sǎ fie aproape de µ. Aceastǎ apropiere poate fi fixatǎ prin specificarea
unui interval (centrat ı̂n µ) numit interval de estimare.
Definiţia 13.2. Un interval mǎrginit (a, b) folosit pentru a estima valoarea unui anumit
parametru γ a populaţiei se numeşte interval de estimare. Valorile a, b (capetele
intervalului) sunt calculate din eşantion care este folosit pentru estimare.
Cum anume se poate specifica un interval centrat ı̂n µ care este necunoscut folosind doar
date furnizate de un eşantion va fi lǎmurit ı̂n continuare.
Exemplul 13.1. Considerǎm o populaţie având o deviaţie standard σ cunoscutǎ, o medie

µ necunoscutǎ şi un eşantion aleator simplu de mǎrime n şi medie x cunoscute. Condiţia
x ∈ (µ − 1, µ + 1) ı̂nseamnǎ cǎ scorul standard z (pentru mediile eşantioanelor) dat de:
x − µx x−µ
z= = σ
σx √
n
sǎ verifice: √
√
1 1 n n
z ∈ (− σ , σ ) = (− , )
√
n
√
n
σ σ
Astfel
√ ı̂n termenii
√ scorului standard intervalul de estimare este intervalul (a, b) cu a =
n n
− şi b = .
σ σ
Mai general condiţia x ∈ (µ − δ, µ + δ), ı̂nseamnǎ cǎ scorul standard z (pentru mediile
eşantioanelor) dat de:
x − µx x−µ
z= = σ
σx √
n
sǎ verifice: √√
δ·
n δ· n
z ∈ (− , )
σ σ
√ √
δ· n δ· n
Intervalul de estimare este (− , ).
σ σ
Definiţia 13.3. Nivelul de neı̂ncredere α este probabilitatea ca statistica eşantionului
sǎ aibe valoarea ı̂n afara intervalului de estimare.
36
Conform teoremei de limitǎ centralǎ, repartiţia lui x este normalǎ sau aproape normalǎ
şi avem: µ √ √ ¶
n n
P (µ − 1 < x < µ + 1) = P − <z< =
σ σ
µ √ ¶ µ√ ¶
n n
2·P 0<z < =2·F
σ σ
Zz 1 2
1 − t
unde F (z) = √ e 2 dt.
2·π
0 µ√ ¶
n
Deci nivelul de neı̂ncredere α este 1 − 2 · F .
σ
Definiţia 13.4. Nivelul de ı̂ncredere (coeficient de ı̂ncredere) 1 − α este probabilitatea
ca statistica eşantionului sǎ se afle ı̂n intervalul de estimare ales.
Definiţia 13.5. Intervalul de ı̂ncredere este un interval de estimare cu un nivel de

ı̂ncredere 1 − α specificat.
µ √ √ ¶
n n
Exemplul 13.2. În cazul exemplului 13.1, intervalul de estimare − , este un
µ√ ¶ σ σ
n
interval de ı̂ncredere cu coeficientul de ı̂ncredere 1 − α = 2 · F .
σ
Definiţia 13.6. Eroarea maximǎ de estimare este jumǎtatea lungimii intervalului de
ı̂ncredere cu nivelul de ı̂ncredere 1 − α.
În termen de scor standard aceastǎ eroare se exprimǎ cu formula:

³α´ σ
E=z ·√
2 n
³α´ 1−α
unde z este soluţia ecuaţiei F (z) = , iar intervalul de ı̂ncredere 1 − α pentru µ
2 2
este: µ ³α´ σ ³α´ σ ¶
x−z · √ ,x + z ·√
2 n 2 n
³α´ σ ³α´ σ
x−z · √ este limita inferioarǎ de ı̂ncredere, iar x+z · √ este limita superioarǎ
2 n 2 n
de ı̂ncredere.
37
14 Generalitǎţi privind ipotezele statistice şi proble-
ma verificǎrii ipotezelor statistice
Pentru a ilustra analiza care precede luarea unei decizii ı̂n privinţa credibilitǎţii unei
aserţiuni (numitǎ verificarea ipotezelor statistice) sǎ considerǎm urmǎtorul exemplu:
Candidatul la admitere Popescu Nicolae trebuie sǎ completeze un formular test cu zece
ı̂ntrebǎri. Fiecare ı̂ntrebare are cinci rǎspunsuri dintre care doar unul este corect. Popescu
Nicolae a completat formularul şi din cele zece ı̂ntrebǎri el a rǎspuns corect la şapte. El
susţine cǎ a completat formularul fǎrǎ sǎ citeascǎ ı̂ntrebǎrile şi rǎspunsurile la ele şi a
marcat rǎspunsurile aleator.
Întrebarea este ı̂n ce mǎsurǎ putem da crezare spuselor cǎ el a marcat rǎspunsurile aleator?
O asemenea ı̂ntrebare ne determinǎ sǎ analizǎm şi sǎ hotǎrâm: este sau nu este rezona-
bil ca Popescu Nicolae sǎ obţinǎ şapte rǎspunsuri corecte alegând aleator rǎspunsurile la
ı̂ntrebǎri? Descriem ı̂n cele ce urmeazǎ o analizǎ, care se numeşte verificarea ipotezelor
statistice şi care conduce la formularea unei concluzii.
Verificarea ipotezelor statistice, ı̂n general, este un procedeu care are 5 etape. Fiecare din
aceste etape va fi prezentatǎ şi ilustratǎ ı̂n cazul exemplului considerat.
Etapa 1. Formularea ipotezei nule H0

Prin ipotezǎ ı̂nţelegem o afirmaţie care susţine cǎ ceva este adevǎrat. În
general, ipoteza nulǎ este o afirmaţie relativǎ la un parametru al unei
populaţii şi afirmǎ cǎ parametrul are o valoare datǎ. Adesea expresia
”nu diferǎ” este folositǎ ı̂n formularea ei, de aici vine numele de ipotezǎ
nulǎ. (diferenţa este nulǎ)
Etapa 2. Formularea ipotezei alternative Ha
Ipoteza alternativǎ Ha este o afirmaţie relativǎ la acelaşi parametru al
populaţiei care apare ı̂n ipoteza nulǎ H0 . În ipoteza Ha se afirmǎ cǎ
parametrul are o valoare diferitǎ de cea susţinutǎ ı̂n H0 .
Ipoteza H0 şi ipoteza Ha se formuleazǎ dupǎ o analizǎ a aserţiunii care trebuie inves-
tigatǎ.
În cazul exemplului considerat, aserţiunea care trebuie analizatǎ este: Popescu a comple-
tat formularul aleator.
Populaţia este o mulţime de 510 elemente (distincte). Un element este un sistem ordonat
de 10 rǎspunsuri (R0i1 , R0i2 , . . . , R0i10 ), i1 , i1 , . . . , i10 ∈ {1, 2, 3, 4, 5}; R0i1 este unul din cele
cinci rǎspunsuri posibile la prima ı̂ntrebare, . . . , R0i10 este unul din cele cinci rǎspunsuri
posibile la cea de-a zecea ı̂ntrebare.
Pentru o persoanǎ care marcheazǎ rǎspunsurile aleator (fǎrǎ sǎ le citeascǎ), toate
rǎspunsurile sunt egal posibile. Altfel spus fiecare din cele cinci rǎspunsuri la o ı̂ntrebare
are aceeaşi şansǎ ca sǎ fie corect. Din afirmaţia lui Popescu Nicolae rezultǎ cǎ el a marcat
1
rǎspunsurile aleator, deci a admis cǎ probabilitatea (parametrul p) este 10 pentru fiecare
5
element al populaţiei.
Analiza afirmaţiei lui Popescu Nicolae conduce la urmǎtoarea formulare a ipotezei nule:
1
H0 : p(X) = = p pentru orice Popescu Nicolae a completat
510
element X al populaţiei ⇔ formularul aleator.
38
Ipoteza alternativǎ este:
Ha : existǎ douǎ elemente X1 , X2 ı̂n populaţie Popescu Nicolae nu a completat

pentru care p(X1 ) 6= p(X2 ) ⇔ formularul aleator
De la acest punct ı̂ncepând se admite cǎ ipoteza nulǎ este adevǎratǎ. Situaţia poate fi
comparatǎ cu un proces la judecǎtorie, ı̂n care acuzatul este presupus nevinovat pânǎ
când se dovedeşte contrariul.
Doar ı̂n etapa a 5-a a verificǎrii ipotezelor, vom lua una din cele douǎ decizii posibile:
vom decide ı̂n concordanţǎ cu ipoteza nulǎ H0 şi spunem cǎ acceptǎm H0 sau decidem ı̂n
concordanţǎ cu Ha şi spunem cǎ respingem ipoteza H0 .
În funcţie de valoarea de adevǎr a ipotezei H0 şi de respingerea sau nerespingerea ei
deciziile care se iau sunt prezentate ı̂n tabelul urmǎtor:
Decizia Ipoteza H0 este

Adevǎratǎ Falsǎ
Nu respingem H0 decizie eroare

(acceptǎm) corectǎ
Tip A Tip II
Respingem H0 eroare decizie

corectǎ
Tip I Tip B
O decizie corectǎ de tip A: apare când H0 este adevǎratǎ şi nu respingem H0

O decizie corectǎ de tip B: apare când H0 este falsǎ şi respingem H0
O eroare de tip I: apare când H0 este adevǎratǎ şi H0 este respinsǎ
O eroare tip II: apare când H0 este falsǎ şi H0 nu este respinsǎ
Ar fi foarte frumos ca de fiecare datǎ când luǎm decizii sǎ luǎm decizii corecte, dar aceasta
este statistic imposibil pentru cǎ ne bazǎm pe informaţii furnizate de eşantioane. Cel mai
bun lucru la ce putem spera este sǎ controlǎm riscul sau probabilitatea de a comite o
eroare.
Probabilitatea asignatǎ limitǎrii comiterii unei erori de tip I se noteazǎ cu α şi cea asignatǎ
comiterii unei erori de tip II cu β:
Eroarea Tipul de eroare Probabilitate

Respingerea unei ipoteze adevǎrate I α
Acceptarea unei ipoteze false II β
Etapa 3 Metodologia de verificare a ipotezelor: aceasta constǎ din (1)

identificarea unui test statistic; (2) specificarea valorii lui α; (3) de-
terminarea regiunii critice.
(1) Un test statistic este o variabilǎ aleatoare folositǎ pentru a respinge
sau nu ipoteza H0 . Testul statistic este o statisticǎ de eşantioane sau
alte valori rezultate dintr-un eşantion. Probabilitǎţile care apar ı̂n acest
test statistic sunt determinate presupunând cǎ H0 este adevǎratǎ.
39
În cazul exemplului considerat, variabila aleatoare ”X= numǎrul de rǎspunsuri corecte”
este folosit ca test statistic. Probabilitǎţile pentru fiecare valoare x ale variabilei X ı̂n
ipoteza cǎ H0 este adevǎratǎ sunt date ı̂n tabelul urmǎtor:
X 0 1 2 3 4 5
P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264
X 6 7 8 9 10
P(X) 0.0055 7.92·10−4 7.38·10−5 4.098·10−6 1.02·10−7
Aceastǎ repartiţie aratǎ cǎ probabilitatea sǎ ghiceşti rǎspunsul corect la 5 sau mai multe
ı̂ntrebǎri este 0.0327, iar la 4 sau mai puţin decât 4 ı̂ntrebǎri este 0.9673. Putem spune
cǎ apariţia valorilor 5, 6, 7, 8, 9, 10 nu susţine ipoteza H0 . Dacǎ cineva spune cǎ a ghicit
rǎspunsul corect la 0, 1, 2, 3, 4 ı̂ntrebǎri, spunem cǎ este foarte probabil. Dacǎ cineva spune
cǎ a ghicit rǎspunsul corect la 5, 6, 7, 8, 9, 10 ı̂ntrebǎri spunem cǎ este puţin probabil.
Nivelul de semnificaţie este probabilitatea α de a face o eroare de tip I, adicǎ de a
respinge H0 adevǎrat. În mod curent α se dǎ la ı̂nceput şi acesta determinǎ regiunea
criticǎ. În cazul exemplului, dacǎ α = 0.033, atunci din P (x ≥ 5) = 0.0327 rezultǎ
regiunea criticǎ x = 5, 6, 7, 8, 9, 10.
Regiunea criticǎ: este mulţimea de valori (W ) pentru care P (X ∈ W ) ≤ α şi care ne
determinǎ sǎ respingem ipoteza H0 . (nu susţin ipoteza H0 )
Valoarea criticǎ: este prima valoare din regiunea criticǎ.
Dacǎ pentru un eşantion valoarea testului statistic X depǎşeşte valoarea criticǎ ipoteza
H0 este respinsǎ.
Dupǎ ce Etapa 3 a fost epuizatǎ, putem trece la Etapa 4.
Etapa 4. Determinarea valorii testului statistic

Dupǎ ce am parcurs etapele 1,2,3 observǎm sau calculǎm valoarea x a
testului statistic.
În cazul exemplului x = 7 (numǎrul de rǎspunsuri corecte) este valoarea testului sta-
tistic şi este dat. Uzual valoarea testului statistic se calculeazǎ pe baza informaţiilor
oferite de eşantion.
Etapa 5. Luarea unei decizii şi interpretarea ei

Decizia se ia comparând valoarea testului statistic determinatǎ la Etapa
4 cu regiunea criticǎ gǎsitǎ la Etapa 3.
Regula de decizie: Dacǎ valoarea testului statistic este ı̂n regiunea
criticǎ respingem ipoteza H0 , dacǎ nu, atunci acceptǎm ipoteza H0 .
Ansamblul de valori ale testului statistic care nu sunt ı̂n regiunea criticǎ
formeazǎ regiunea de acceptabilitate. Testul este terminat prin luarea
şi justificarea deciziei luate.
În cazul exemplului: x = 7 este ı̂n regiunea criticǎ şi respingem ipoteza H0 .
Remarca 14.1. Cu aceasta nu am demonstrat cǎ Popescu Nicolae nu a ghicit cele 7

rǎspunsuri. Am arǎtat doar cǎ dacǎ el le-a ghicit este foarte norocos pentru cǎ acesta
este un eveniment rar şi are probabilitatea cel mult 0.033.
40
15 Verificarea ipotezelor statistice:
variantǎ clasicǎ
În secţiunea precedentǎ am prezentat generalitǎţi privind verificarea ipotezelor statis-

tice. În aceastǎ secţiune trecem la prezentarea verificǎrii ipotezelor statistice ı̂n cazul
aserţiunilor referitoare la media µ a unei populaţii. Pentru a simplifica aceastǎ prezentare
la ı̂nceput presupunem cǎ deviaţia standard σ a populaţiei este cunoscutǎ.
Urmǎtoarele trei exemple se referǎ la diferite formulǎri ale ipotezei H0 şi a ipotezei Ha .
Exemplul 15.1. Un ecologist susţine cǎ oraşul Timişoara are o problemǎ privind poluarea
aerului. Concret, el susţine ca nivelul mediu al monoxidului de carbon ı̂n aer ı̂n centrul
oraşului depǎşeşte valoarea 4, 9/106 = valoarea medie normalǎ.
Pentru a formula ı̂n acest caz, ipotezele H0 şi Ha , trebuie sǎ identificǎm: populaţia,
parametrul populaţiei ı̂n cauzǎ şi valoarea cu care aceasta urmeazǎ sǎ fie comparatǎ.
Populaţia ı̂n acest caz poate fi mulţimea locurilor din centrul oraşului Timişoara. Variabila
X este concentraţia monoxidului de carbon ale cǎrei valori x variazǎ ı̂n funcţie de loc,
iar parametrul populaţiei este valoarea medie µ a acestei variabile. Valoarea specificǎ cu
care aceastǎ medie trebuie comparatǎ este 4, 9/106 egalǎ cu valoarea (medie) normalǎ.
Ecologistul face o aserţiune privind valorea lui µ. Aceastǎ valoare poate fi: µ < 4, 9/106
sau µ = 4, 9/106 sau µ > 4, 9/106 . Cele trei situaţii pot fi cuprinse ı̂n douǎ afirmaţii dintre
care una exprimǎ ceea ce ecologistul susţine, iar cealaltǎ exprimǎ contrariul.
Inegalitatea µ > 4, 9/106 este afirmaţia: ”valoarea medie este mai mare ca 4, 9/106 ”.
Inegalitatea µ ≤ 4, 9/106 este echivalentǎ cu ”µ < 4, 9/106 sau µ = 4, 9/106 ” şi este
afirmaţia contrarǎ: ”valoarea medie nu este mai mare ca 4, 9/106 ”.
Ecologistul susţine cǎ µ > 4, 9/106 . Pentru a formula ipoteza H0 şi ipoteza Ha reamintim
cǎ:
1) În general, ipoteza H0 susţine cǎ media µ (parametrul ı̂n chestiune) are o valoare
specificǎ anume.
2) Inferenţa privind media µ a populaţiei se bazeazǎ pe media unui eşantion şi mediile
eşantioanelor au o distribuţie aproximativ normalǎ. (conform teoremei limitǎ
centralǎ).
3) O distribuţie normalǎ este complet determinatǎ dacǎ valoarea medie şi deviaţia
standard a distribuţiei sunt cunoscute.
Cele de mai sus sugereazǎ cǎ afirmaţia µ = 4, 9/106 ar trebui sǎ fie ipoteza nulǎ şi afirmaţia
µ > 4, 9/106 ar trebui sǎ fie ipoteza alternativǎ:
H0 : µ = 4, 9/106
Ha : µ > 4, 9/106
Reamintim cǎ dupǎ ce ipoteza nulǎ H0 este formulatǎ, ı̂n testul statistic identificat se
presupune cǎ H0 este adevǎratǎ. Aceasta ı̂nseamnǎ cǎ µ = 4, 9/106 este egalǎ cu media
41
distribuţiei mediilor eşantioanelor µx şi este o raţiune ı̂n plus pentru care ipoteza H0
trebuie scrisǎ doar cu semnul egal
H0 : µ = 4, 9/106 .
Dacǎ admitem cǎ afirmaţia ”µ = 4, 9/106 sau µ < 4, 9/106 ” este ipoteza nulǎ H0 , atunci:
H0 : µ ≤ 4, 9/106
Ha : µ > 4, 9/106 .
Remarca 15.1. Semnul egal trebuie sǎ fie inclus totdeauna ı̂n ipoteza nulǎ. În acest
exemplu aserţiunea ecologistului este exprimatǎ de fapt ı̂n Ha şi aceasta este analizat.
Exemplul 15.2. Vom considera acum o a doua aserţiune; de exemplu al Camerei de
Comerţ, care susţine cǎ nivelul mediu al monoxidului de carbon ı̂n centrul oraşului
Timişoara este mai mic decât 4, 9/106 (valoare normalǎ). Aceasta este o reclamǎ bunǎ
pentru turism.
Şi ı̂n acest caz parametrul este media µ a repartiţiei monoxidului de carbon. Valoarea
specificǎ este 4, 9/106 care este valoare normalǎ.
”µ < 4, 9/106 ” ⇔ ”valoarea medie este mai micǎ decât valoarea medie normalǎ”
”µ ≥ 4, 9/106 ” ⇔ ”valoarea medie este mai mare sau egalǎ decât valoarea
medie normalǎ”
H0 , Ha pot fi formulate astfel:

H0 : µ ≥ 4, 9/106
Ha : µ < 4, 9/106
Şi de data aceasta aserţiunea Camerei de Comerţ este exprimatǎ ı̂n Ha şi aceasta trebuie
analizatǎ.
Exemplul 15.3. O a treia aserţiune (mai neutrǎ) susţine doar cǎ nivelul mediu µ al
monoxidului de carbon ı̂n aerul din centrul oraşului Timişoara este diferit de 4, 9/106
(valoarea normalǎ diferitǎ de µ).
În acest caz:
H0 : µ = 4.9/106 şi Ha : µ 6= 4, 9/106
Cele trei exemple aratǎ cǎ aserţiunea care trebuie analizatǎ determinǎ ı̂ntr-un anumit sens
formularea ipotezelor H0 , Ha . Mai exact: ı̂n aceste cazuri aserţiunea susţine cǎ valoarea
parametrului µ este diferitǎ de cea normalǎ, iar ipoteza nulǎ susţine cǎ este aceeaşi (nu
diferǎ).
În cazul acestor exemple, cei care ı̂şi formuleazǎ aserţiunea se aşteaptǎ la respingerea
ipotezei nule H0 şi la acceptarea ipotezei alternative Ha care este o afirmaţie conformǎ cu
aserţiunea lor.
Situaţiile de la procesele juridice prezintǎ o oarecare asemǎnare cu cele relatate. Dacǎ
procurorul nu crede ı̂n vinovǎţia inculpatului nu intenteazǎ proces (ipoteza H0 prezumţia
de nevinovǎţie este presupusǎ adevǎratǎ). Procesul se declanşeazǎ doar dacǎ procurorul
are suficiente probe pentru a face proces.
42
Şi ı̂n statisticǎ dacǎ ”experimantatorul” crede ı̂n ipoteza H0 nu face test pentru investi-
garea lui H0 . El testeazǎ ipoteza nulǎ doar dacǎ doreşte sǎ arate cǎ Ha este corectǎ.
Exemplul care urmeazǎ ilustreazǎ toate cele cinci etape de verificare a ipotezelor statistice
ı̂n cazul unei aserţiuni care se referǎ la media unei populaţii.
Exemplul 15.4. Un profesor a ı̂nregistrat pe mai mulţi ani rezultatul elevilor şi media
µ a acestor rezultate este 72 şi abaterea standard este σ = 12. Clasa de 36 de elevi pe
care-i ı̂nvaţǎ la momentul actual are o medie x = 75, 2 (mai ridicatǎ decât media µ = 72)
şi profesorul afirmǎ cǎ aceastǎ clasǎ este superioarǎ celor de pânǎ acum. Întrebarea este
dacǎ media clasei x = 75, 2 este un argument suficient pentru a susţine afirmaţia profe-
sorului la nivelul de semnificaţie α = 0, 05.
Menţionǎm cǎ pentru ca aceastǎ clasǎ sǎ fie superioarǎ trebuie sǎ aibe o medie mai mare
decât toate clasele dinainte. Dacǎ media ei este egalǎ sau mai micǎ decât media unei
clase anterioare, atunci ea nu este superioarǎ.
Dacǎ se considerǎ eşantioane aleatoare de mǎrime n = 36 dintr-o populaţie cu media
µ = 72, multe eşantioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.
Doar medii x care sunt considerabil mai mari decât 72 vor susţine afirmaţia profesorului.
De aceea:
Etapa 1. H0 : µx = µ = 72 ⇔ clasa nu este superioarǎ
Etapa 2. Ha : µx = µ > 72 ⇔ clasa este superioarǎ
Etapa 3. - Atunci când ı̂n ipoteza nulǎ H0 media populaţiei şi deviaţia
standard sunt cunoscute scorul standard z este folosit ca şi test
statistic.
- Nivelul de semnificaţie α = 0, 05 este dat;
- Reamintim cǎ ı̂n baza teoremei limitǎ centralǎ distribuţia

mediilor eşantioanelor este aproape normalǎ. Prin urmare,
distribuţia normalǎ va fi folositǎ pentru determinarea regiu-
nii critice. Regiunea criticǎ este egalǎ cu mulţimea valo-
rilor scorului standard z care determinǎ respingerea ipotezei
H0 şi este situatǎ la extremitatea dreaptǎ a distribuţiei nor-
male. Regiunea criticǎ este la dreapta deoarece valori mari
ale mediei eşantionului susţin ipoteza H0 ı̂n timp ce valori
apropiate ori sub 72 susţin ipoteza nulǎ.
Figura 1:
43
Valoarea criticǎ ce desparte zona valorilor ”nu este superior” de zona valorilor ”este su-
perior” este determinatǎ de probabilitatea α de a comite o eroare de tip I. α = 0, 05 a
fost datǎ. Astfel regiunea criticǎ haşuratǎ pe Figura 2. are aria 0, 05 şi valoarea criticǎ
Z∞ t2
1 −
1, 65 este soluţia ecuaţiei: √ e 2 dt = 0, 05.
2·π
z
Figura 2:
Etapa 4. Valoarea testului statistic este dat de:

x−µ 75, 2 − 72
z∗ = σ = 12/6 = 1, 6
√
n
Etapa 5. Comparǎm valoarea gǎsitǎ 1, 6 cu valoarea criticǎ 1, 65 şi gǎsim 1, 6 <
1, 65. Decizia este cǎ nu putem respinge ipoteza H0 . Testul se ı̂ncheie
cu formularea concluziei.
Concluzie: Probele nu sunt suficiente pentru a susţine cǎ actuala clasǎ
este superioarǎ claselor anterioare.
Pare aceastǎ concluzie realistǎ ı̂n condiţiile ı̂n care ı̂n mod evident, 75, 2 este mai mare
ca 72. Nu trebuie sǎ uitǎm x = 75, 2 este media unui eşantion de 36 de indivizi extras
dintr-o populaţie cu media µ = 72 şi deviaţia standard σ = 12 şi analiza aratǎ cǎ proba-
bilitatea ca media eşantionului sǎ fie mai mare decât mediile tuturor eşantioanelor este
mai mare decât riscul α cu care noi acceptǎm o eroare de tip I.
Exemplul 15.5. La un colegiu s-a stabilit cǎ greutatea medie a studentelor este µ = 54, 4
kg, iar abaterea standard σ = 5, 4 kg. Profesorul de sport nu crede aceastǎ afirmaţie.
Pentru a face un test selecţioneazǎ un eşantion aleator de 100 de studente şi gǎseşte cǎ
media x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmaţia la nivelul de
semnificaţie α = 0, 05?
Etapa 1. H0 : µ = 54, 4 kg
Etapa 2. Ha : µ 6= 54, 4 kg
44
Etapa 3. - deoarece folosim o distribuţie de medii de eşantioane testul statistic
va fi scorul standard.
- nivelul α = 0, 05 este dat;
- media eşantionului este o estimare a mediei populaţiei. Ipoteza

alternativǎ ”nu este egal” este susţinutǎ de medii de eşantioane
considerabil mai mari sau considerabil mai mici ca 54, 4. ipoteza nulǎ
este susţinutǎ de medii de eşantioane ı̂n jurul valorii 54, 4. Regiunea
criticǎ este formatǎ din douǎ pǎrţi egale situate la cele douǎ extremitǎţi
ale distribuţiei normale. Aria corespunzǎtoare fiecǎrei porţiuni este
α
şi probabilitatea fiecǎrei pǎrţi a regiunii critice este 0, 025. Rezultǎ
2  
2
³α´ ³ ´ Z∞ t
 α 1 − α
z = 1, 96 z este soluţia ecuaţiei: √ e 2 dt = .
2 2 2·π 2
z
Figura 3:
Etapa 4. Se determinǎ valoarea testului statistic:

x−µ
z∗ = σ = −1, 204
√
n
a cǎrei locaţie este datǎ pe figura urmǎtoare:
45
Figura 4:
Reamintim: Dacǎ valoarea testului statistic este ı̂n regiunea criticǎ respingem ipoteza
H0 dacǎ nu, nu putem respinge ipoteza H0 .
Etapa 5. Valoarea testului statistic nu este ı̂n regiunea criticǎ.

Decizia: Nu respingem ipoteza H0 .
Justificarea deciziei: Valoarea testului nu este ı̂n dezacord cu H0 la
nivel de risc α = 0, 05. Aceasta nu ı̂nseamnǎ cǎ H0 este adevǎratǎ.
Concluzie: Media x gǎsitǎ de profesor nu contravine ipotezei cǎ media µ este 54,4
kg, când dispersia σ este 5, 4 kg.
O decizie de respingere a lui H0 ı̂nseamnǎ cǎ valoarea testului implicǎ cǎ H0 este falsǎ şi
indicǎ Ha .
Rezumat privind verificarea ipotezelor statistice asupra mediei ı̂n variantǎ

clasicǎ:
1. Ipoteza H0 specificǎ o valoare particularǎ a mediei populaţiei.

2. Ipoteza Ha are trei forme. Fiecare dintre acestea determinǎ o locaţie specificǎ a
regiunii critice aşa cum apare ı̂n tabelul de mai jos:
Semne ı̂n ipoteza < 6= >

alternativǎ
Regiunea criticǎ O regiune Douǎ regiuni O regiune
la stânga de fiecare la dreapta
parte câte una
test unilateral test bilateral test unilateral
stânga dreapta
3. Pentru multe cazuri semnul din ipoteza Ha indicǎ direcţia ı̂n care regiunea criticǎ
se gǎseşte
Valoarea lui α se numeşte nivel de semnificaţie şi reprezintǎ riscul (probabilitatea)

respingerii lui H0 atunci când aceasta estea adevǎratǎ. Nu putem determina
46
dacǎ ipoteza H0 este adevǎratǎ sau falsǎ. Putem doar decide cǎ o respingem
sau cǎ o acceptǎm.
Probabilitatea cu care respingem ipoteza adevǎratǎ este α, dar nu ştim probabilitatea cu
care facem o decizie eronatǎ. O eroare de tip I şi o eroare ı̂n decizie sunt lucruri diferite.
47
16 Verificarea ipotezelor statistice:
varianta probabilistǎ
În secţiunea precedentǎ am descris varianta clasicǎ de verificare a ipotezelor statistice

ı̂n cazul aserţiunilor referitoare la media µ a unei populaţii. O variantǎ probabilistǎ
constǎ ı̂n determinarea unei probabilitǎţi numitǎ p-valoarea (prob-valoare) referitoare
la o statisticǎ observatǎ, care este comparatǎ cu nivelul de semnificaţie α dat.
Definiţia 16.1. P-valoarea unui test statistic este cea mai micǎ valoare a nivelului
de semnificaţie α pentru care informaţia extrasǎ din eşantion este semnificativǎ (H0
adevǎratǎ se respinge).
Considerǎm din nou exemplul 15.4 din secţiunea precedentǎ şi-l analizǎm din acest punct
de vedere.
Exemplul 16.1. Un profesor a ı̂nregistrat pe mai mulţi ani rezultatul elevilor şi media
µ a acestor rezultate este 72 şi dispersia σ = 12. Clasa de 36 de elevi pe care-i ı̂nvaţǎ
la momentul actual are o medie x = 75, 2 . Aceastǎ medie fiind mai ridicatǎ decât 72
profesorul vrea sǎ arate cǎ aceastǎ clasǎ este superioarǎ celor de pânǎ acum. Întrebarea
este dacǎ media clasei x = 75, 2 este un argument suficient pentru a susţine afirmaţia
profesorului la nivelul de semnificaţie α = 0, 05?
Precizǎm cǎ pentru a putea susţine cǎ actuala clasǎ este mai bunǎ decât toate celelalte
clase anterioare trebuie ca media clasei actuale sǎ fie mai mare decât media oricǎrei clase
dinainte. Dacǎ media clasei actuale este mai micǎ sau egalǎ cu media unei clase anterioare,
atunci clasa actualǎ nu este mai bunǎ decât toate celelalte.
Etapa 1. Formularea ipotezei H0 : H0 : µx = µ = 72.

Aceastǎ ipotezǎ corespunde aserţiunii cǎ actuala clasǎ nu este superioarǎ
celorlalte clase.
Etapa 2. Formularea ipotezei alternative Ha : Ha : µx = µ > 72.
Aceastǎ ipotezǎ corespunde aserţiunii cǎ actuala clasǎ este superioarǎ
celorlalte clase.
Remarcǎm faptul cǎ etapele 1 şi 2 sunt aceleaşi ı̂n variantǎ probabilistǎ ca şi ı̂n variantǎ
clasicǎ de verificare a ipotezelor statistice.
Etapa 3. Specificarea nivelului de semnificaţie α, a probabilitǎţii erorii de tip I:

α = 0, 005.
Etapa 4. Folosind formula scorului standard (z-scorului) şi media x = 75, 2 a
eşantionului de mǎrime n = 36 se determinǎ valoarea testului statistic:
x−µ
z∗ = σ = 1, 60
√
n
Remarcǎm aici cǎ Etapa 4 ı̂n varianta probabilistǎ este aceeaşi ca şi
varianta clasicǎ de verificare a ipotezelor statistice.
48
Etapa 5. Se reprezintǎ distribuţia normalǎ a mediilor (testul statistic) ı̂n acest
caz şi se localizeazǎ valoarea z ∗ determinatǎ ı̂n Etapa 4 (care ı̂mparte
distribuţia ı̂n douǎ pǎrţi) şi se determinǎ care parte a distribuţiei
reprezintǎ p−valoarea.
Dupǎ care se determinǎ p−valoarea. Ipoteza alternativǎ Ha aratǎ cǎ ı̂n
cazul nostru:
p = P (z > z ∗ ) = P (z > 1, 6) = 0, 0548

Etapa 6. p-valoarea ı̂n cazul nostru este 0, 0548. Prin urmare pentru
orice nivel de semnificaţie α ≤ 0, 0548 nu putem respinge
ipoteza nulǎ şi concluzia este cǎ nu avem probe suficiente pen-
tru a demonstra superioritatea clasei actuale. Dacǎ ı̂nsǎ nivelul de
semnificaţie α fixat la ı̂nceput este mai mare ca 0, 0548 (de ex. α = 0, 1)
atunci decizia noastrǎ va fi de respingere a ipotezei H0 şi concluzia de
superioritate a clasei actuale.
Figura 5:
Înainte sǎ trecem la un al doilea exemplu recapitulǎm câteva detalii privind verificarea
ipotezelor statistice ı̂n varianta probabilistǎ:
1. Ipotezele H0 şi Ha se formuleazǎ ı̂n aceeaşi manierǎ ca şi ı̂n varianta clasicǎ.
2. Se specificǎ nivelul de semnificaţie α care va fi folosit.
3. Valoarea testului statistic se calculeazǎ ı̂n Etapa 4 de aceeaşi manierǎ ca ı̂n varianta
clasicǎ.
4. P-valoarea este aria aflatǎ ı̂ntre curba de densitate de probabilitate axa Oz şi z = z ∗ .
Existǎ trei cazuri posibile: douǎ unilaterale şi unul bilateral. Direcţia (sau semnul)
ı̂n ipoteza Ha este indiciul:
Cazul 1. Dacǎ Ha este unilateralǎ la dreapta (” > ”) atunci p = P (z > z ∗ ) şi aria este
ı̂n dreapta lui z ∗ .
Cazul 2. Dacǎ Ha este unilateralǎ stânga (” < ”), atunci p = P (z < z ∗ ) este aria din
stânga lui z ∗ .
Cazul 3. Dacǎ Ha este bilateralǎ (” 6= ”), atunci p = P (z < −|z ∗ |) + P (z > |z ∗ |) =
2 · P (z > |z ∗ |)
49
5. Decizia se ia comparând P -valoarea cu nivelul de semnificaţie α:
a) Dacǎ P ≤ α atunci H0 se respinge;

b) Dacǎ P > α atunci H0 se acceptǎ.
6. Concluzia se formuleazǎ de aceeaşi manierǎ ca şi ı̂n varianta clasicǎ.
Considerǎm acum un exemplu ı̂n care Ha este bilateral.
Exemplul 16.2. Companii mari folosesc agenţii specializate pentru a testa candidaţii
care doresc sǎ fie angajaţi. Agenţia A foloseşte un test de selecţie pentru care ı̂n decursul
timpului s-a stabilit o medie de 82 şi o deviaţie standard de 8. Agenţia B a dezvoltat
o nouǎ metodǎ de testare care este mai rapidǎ, mai uşor de aplicat şi costǎ mai puţin.
Agenţia B susţine cǎ testul lor dǎ aceleaşi rezultate ca şi testul agenţiei A.
Mai multe companii, pentru a reduce costul, se gândesc sǎ treacǎ de la agenţia A la
agenţia B, dar ei nu doresc sǎ facǎ aceastǎ trecere dacǎ media cu teste B diferǎ de cea
cu teste A. O agenţie independentǎ C a testat cu noul test 36 de indivizi şi a obţinut o
medie de 80.
Care este p−valoarea asociatǎ acestui test?
Rezultatul testului agenţiei B este acelaşi dacǎ µ = 82 şi este diferit dacǎ µ 6= 82. Prin
urmare:
Etapa 1. H0 : µ = 82 (testele au aceeaşi medie)
Etapa 2. Ha : µ 6= 82 (testele au medii diferite)
Etapa 3. Este omisǎ dacǎ se cere p-valoarea fǎrǎ luarea unei decizii.
Etapa 4. Informaţia din eşantion: n = 36 şi x = 80:

x−µ −2 12 3
z∗ = σ = 8 = − 8 = − 2 = −1.5
√
n 6
∗
Etapa 5. Se localizeazǎ z pe o distribuţie normalǎ şi deoarece Ha este bilateral
vom considera P (z < −|z ∗ |) şi P (z > |z ∗ |) şi obţinem:
p = P (z < −1, 50) + P (z > 1, 50)

= 0, 5 − 0, 4332 + 0, 5 − 0, 4332 = 0, 1336
deci p− valoarea este 0, 1336.
50
Figura 6:
Fiecare companie va lua propria decizie: a) continuǎ cu A sau b) schimbǎ şi trece la
B. Fiecare va trebui sǎ stabileascǎ propriul nivel de semnificaţie şi sǎ ia o decizie ı̂n
consecinţǎ.
51
17 Inferenţǎ statisticǎ privind media populaţiei dacǎ
nu se cunoaşte abaterea standard a populaţiei
Pânǎ acum am prezentat douǎ tipuri de inferenţǎ statisticǎ privind media populaţiei:
evaluarea intervalului de ı̂ncredere şi verificarea ipotezelor statistice. În cele douǎ
tipuri de inferenţe statistice abaterea standard σ este consideratǎ cunoscutǎ. În general
ı̂nsǎ abaterea standard σ nu este cunoscutǎ. Subiectul acestei secţiuni este inferenţa
statisticǎ privind media µ dacǎ abaterea standard σ nu este cunoscutǎ.
Dacǎ dimensiunea eşantionului este suficient de mare (ı̂n general vorbind, eşantioane
a cǎror mǎrimi este mai mare decât n = 30 de date sunt considerate suficient de mari),
deviaţia standard s a eşantionului este o estimare bunǎ a deviaţiei standard a populaţiei şi
putem susbstitui σ cu s ı̂n procedura discutatǎ deja. Dacǎ populaţia pe care o investigǎm
este aproape normalǎ şi n ≤ 30, atunci procedeul se bazeazǎ pe distribuţia Student t.
Distribuţia Student t (sau simplu t distribuţia) este distribuţia statisticii t, definitǎ prin:
x−µ
t=
√s
n
În anul 1908 W.S. Gosset un funcţionar la o fabricǎ de bere ı̂n Irlanda a publicat o
lucrare relativǎ la aceastǎ distribuţie sub pseudonimul ”Student”. În lucrarea lui Gosset
se presupune cǎ populaţia este normalǎ. Aceastǎ restricţie s-a dovedit ulterior restrictivǎ,
ı̂ntrucât se obţin rezultate satisfǎcǎtoare şi pentru multe populaţii care nu sunt normale.
Ecuaţia care defineşte distribuţia t nu o dǎm aici, doar dǎm câteva proprietǎţi ale lui t:
1) distribuţia t are media 0;
2) distribuţia t este simetricǎ faţǎ de medie;
3) distribuţia t are varianţa supraunitarǎ, dar dacǎ dimensiunea eşantionului creşte,

varianţa tinde la 1;
4) distribuţia t ı̂n jurul mediei este sub şi departe de medie este deasupra distribuţiei
normale;
5) fiecǎrei mǎrimi de eşantion ı̂i corespunde o distribuţie t separatǎ care depinde de

mǎrimea eşantionului. Dacǎ mǎrimea eşantionului creşte atunci t- distribuţia tinde
la distribuţia normalǎ.
52
Figura 7:
Cu toate cǎ pentru fiecare mǎrime de eşantion (n=2,3,4,...) avem o distribuţie t separatǎ
completǎ, ı̂n practicǎ doar anumite valori critice ale lui t sunt folosite. Aceste valori critice
aflate ı̂n dreapta mediei sunt redate ı̂n tabelul urmǎtor:
α 0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6
2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073
16 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015
53
α 0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922
19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659
z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646
Figura 8:
În acest tabel df are valorile de la 1 la 29 şi este numǎrul gradelor de libertate.
Apropierea valorilor din liniile corespunzǎtoare lui df = 29 şi z se datoreazǎ faptului
cǎ dacǎ n ≥ 30 distribuţia t este cea normalǎ (teorema limitǎ centralǎ).
Gradul de libertate df este un parametru statistic care este greu de definit. El este un
indice care se foloseşte pentru a identifica distribuţia care trebuie folositǎ. În consideraţiile
noastre df = n − 1, unde n este mǎrimea eşantionului. Valoarea criticǎ a testului t care
trebuie folositǎ ı̂n estimarea intervalului de ı̂ncredere precum şi ı̂n verificarea ipotezelor
statistice se obţine din tabelul prezentat. Pentru a obţine aceastǎ valoare este nevoie de
a cunoaşte:
1) df - numǎrul gradelor de libertate;

2) α aria determinatǎ de curba de repartiţie aflatǎ ı̂n dreapta valorii critice. Aceastǎ
valoare este notatǎ t(df, α).
54
Exemplul 17.1. Determinaţi t(10, 0.05) din tabel. Avem df = 10 şi α = 0.05, deci
t(10, 0.05) = 1.81.
Valorile critice ale testului statistic t aflate ı̂n stânga mediei se obţin cu formula: −t(df, α),
ţinând seama de simetria distribuţiei t.
Figura 9:
Se observǎ uşor cǎ −t(df, α) = t(df, 1 − α). Astfel: −t(df ; 0, 05) = t(df ; 0, 95).
Exemplul 17.2. Determinaţi t(15; 0, 95). Avem: t(15; 0, 95) = −t(15; 0, 05) = −1, 75.
Figura 10:
Statistica t este folositǎ ı̂n verificarea ipotezelor statistice privind aserţiuni relative la
media µ de aceeaşi manierǎ ca şi statistica z.
Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere al
ecologistului este: ”nivelul monoxidului de carbon ı̂n aer este mai mare decât 4, 9/106 ”.
Un eşantion de 25 de determinǎri cu media x = 5, 1/106 şi s = 2, 1/106 este un argument
suficient pentru a susţine afirmaţia? Se foloseşte nivelul de semnificaţie α = 0, 05.
Etapa 1. H0 : µ = 4, 9/106
Etapa 2. Ha : µ > 4, 9/106
55
Etapa 3. α = 0, 05; df = 25 − 1 = 24 şi t(24; 0, 05) = 1, 71 din tabel.
Etapa 4.
x−µ 5, 1 − 4, 9 0, 20
t∗ = s = 2, 1/√25 = 0, 42 = 0, 476 ' 0, 48
√
n
Etapa 5. Decizia: Nu putem respinge H0 (t∗ nu este ı̂n regiunea criticǎ).
Concluzie: Nu avem suficiente argumente pentru ca sǎ respingem
ipoteza cǎ nivelul monoxidului de carbon este 4, 96/106 .
Figura 11:
Remarca 17.1. Dacǎ valoarea df (df = n − 1) este mai mare ca 29, atunci valoarea
criticǎ a lui t(df, α) este foarte apropiatǎ de z(α) (scorul z este listat la capǎtul tabelului)
şi prin urmare ı̂n loc de t(df, α) se foloseşte z(α). Deoarece tabelul considerat conţine doar
valorile critice ale distribuţiei t, p-valoarea nu poate fi gǎsitǎ din tabel ı̂n cazul verificǎrii
ipotezei statistice pentru cǎ aceasta necesitǎ distribuţia t completǎ. P-valoarea poate fi
ı̂nsǎ estimatǎ folosind tabelul.
Exemplul 17.4. Sǎ revenim la exemplul 17.3. Reţinem t∗ = 0, 48, df = 24 şi Ha : µ > 49.
Astfel pentru a rezolva problema folosind varianta probabilistǎ pentru Etapa 5 cu p-
valoarea avem:
p = P (t > 0, 48, ştiind df = 24)
56
Figura 12:
Rândul df = 24 din tabel aratǎ cǎ p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 din
tabel aratǎ cǎ P (t > 0, 685) = 0, 25 aşa cum aratǎ figura urmǎtoare:
Figura 13:
Comparând t∗ = 0, 48, vedem cǎ p− valoarea este mai mare ca 0, 25.

Exemplul 17.5. Sǎ se determine p−valoarea pentru urmǎtoarea ipotezǎ statisticǎ:
H0 : µ = 55
Ha : µ 6= 55
ı̂n condiţiile ı̂n care df = 15 şi t∗ = −1, 84.
Soluţie: p = P (t < −1, 84) + P (t > 1, 84) = 2 · P (t > 1, 84). Rândul df = 15 din tabel
aratǎ cǎ P (t > 1, 84) este ı̂ntre 0, 025 şi 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.
Media populaţiei poate fi estimatǎ dacǎ σ este necunoscut de o manierǎ similarǎ cu cazul
σ cunoscut. Diferenţa este cǎ se foloseşte distribuţia t ı̂n loc de distribuţia z şi deviaţia
standard s ca estimare a lui σ. Formula pentru intervalul de ı̂ncredere 1 − α este:
µ ¶
α s α s
x − t(df, ) · √ , x + t(df, ) · √
2 n 2 n
57
Figura 14:
unde df = n − 1.
Exemplul 17.6. În cazul unui eşantion aleator de 20 de noi nǎscuţi, media greutǎţii lor
este 3, 4 kg şi deviaţia standard este 0, 9 kg. Sǎ se estimeze cu o ı̂ncredere de 95% media
greutǎţii noilor nǎscuţi.
Soluţie: x = 3, 4 kg, s = 0, 9 kg şi n = 20, iar 1 − α = 0, 95, implicǎ: α = 0, 05; df = 19,

iar din tabel gǎsim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:
s 0, 9
x ± t(19; 0, 025) · √ = 3, 4 ± 2, 09 · √
n 20
0, 9
3, 4 ± 2, 09 · = 3, 4 ± 0, 46
4, 472
Intervalul de ı̂ncredere de 95% este (2, 94; 3, 86).
58
18 Inferenţǎ relativǎ la varianţǎ şi estimarea varianţei
Adesea se pun probleme care cer sǎ facem inferenţǎ asupra varianţei. De exemplu, o
companie de produse rǎcoritoare are o maşinǎ de ı̂mbuteliat, care umple cu rǎcoritoare
butelii de 0, 32 l= 32 cl. Cantitatea medie pusǎ ı̂n fiecare butelie este importantǎ, dar
cantitatea medie corectǎ nu asigurǎ cǎ maşina lucreazǎ corect. Dacǎ varianţa este mare,
vor fi multe butelii care sunt prea umplute şi multe butelii care nu sunt bine umplute.
De aceea, compania doreşte sǎ controleze varianţa σ 2 a cantitǎţii x de rǎcoritoare pusǎ ı̂n
fiecare butelie şi sǎ menţinǎ varianţa la un nivel cât mai scǎzut posibil.
Vom prezenta ı̂n aceastǎ secţiune o inferenţǎ privind varianţa unei populaţii. Adesea ı̂n
cazul acestei inferenţe se vorbeşte despre deviaţia standard ı̂n loc de varianţǎ. Trebuie sǎ
subliniem cǎ deviaţia standard este rǎdǎcinǎ pǎtratǎ a varianţei; aşadar a vorbi despre
varianţǎ este comparabil cu a vorbi despre deviaţie standard.
Sǎ revenim la exemplul companiei de produse rǎcoritoare. Sǎ ne imaginǎm cǎ aceastǎ
companie doreşte sǎ detecteze când variabilitatea cantitǎţii de rǎcoritoare pusǎ ı̂n fiecare
butelie scapǎ de sub control. O varianţǎ de 0, 0004 este consideratǎ acceptabilǎ şi
compania va regla maşina de ı̂mbuteliat dacǎ varianţa devine mai mare decât aceastǎ
valoare. Decizia va fi luatǎ folosind verificarea ipotezelor statistice. Ipoteza H0 este cǎ
varianţa are valoarea 0, 0004, iar ipoteza Ha este cǎ varianţa depǎşeşte valoarea 0, 0004:
H0 : σ 2 = 0, 0004 (varianţa este controlatǎ)

Ha : σ 2 > 0, 0004 (varianţa nu este controlatǎ)
Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H0 este testul χ2 .
Valoarea calculatǎ a lui χ2 se va obţine folosind formula:
n · s2
χ2 =
σ2
unde s2 este varianţa eşantionului, n este mǎrimea eşantionului, iar σ 2 este valoarea
specificatǎ ı̂n ipoteza nulǎ.
Dacǎ se iau eşantioane de mǎrime n dintr-o populaţie normalǎ, având variantǎ σ 2 , atunci
cantitatea n·s2 /σ 2 are o distribuţie care se numeşte distribuţia χ2 . Formula care defineşte
distribuţia χ2 nu o vom da aici, dar pentru a folosi distribuţia χ2 , prezentǎm urmǎtoarele
proprietǎţi ale acesteia:
1. distribuţia χ2 are valori nenegative, este zero sau este pozitivǎ;
2. distribuţia χ2 nu este simetricǎ, este asimetricǎ la dreapta;
3. existǎ mai multe repartiţii χ2 . Ca şi pentru distribuţiile t existǎ o distribuţie χ2

pentru fiecare grad de libertate. Inferenţa pe care o discutǎm aici se referǎ la cazul
df = n − 1.
Valorile critice ale lui χ2 sunt date ı̂n tabelul urmǎtor:
59
df/α 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.005
2 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.6
3 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.9
4 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.9
5 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.8
6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.6
7 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3
8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.0
9 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.6
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2
11 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.8
12 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.3
13 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.8
14 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3
15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8
16 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.3
17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.7
18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.2
19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.6
20 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.0
21 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.4
22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.8
23 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.2
24 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.6
25 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.9
26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.3
27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.7
28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.0
29 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.3
30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.7
40 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.8
50 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.5
60 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.0
70 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.0
80 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.0
90 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0
100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0
60
Figura 15:
Valorile critice vor fi identificate prin douǎ valori: grade de libertate şi aria situatǎ sub
curbǎ ı̂n dreapta valorii critice. Astfel χ2 (df, α) este simbolul folosit pentru identificarea
valorii critice χ2 cu df grade de libertate şi cu aria α sub grafic şi ı̂n dreapta, aşa cum
este prezentat pe figura urmǎtoare:
Figura 16:
Exemplul 18.1. Folosind tabelul determinaţi χ2 (20; 0, 05) şi χ2 (14; 0, 90).
Din tabel se obţine: χ2 (20; 0, 05) = 31, 4 şi χ2 (14; 0, 90) = 7, 79.
Remarca 18.1. Dacǎ df > 2 valoarea medie a lui χ2 este df . Valoarea medie este
localizatǎ ı̂n dreapta modului (locul ı̂n care curba atinge valoarea maximǎ).
61
Figura 17:
Exemplul 18.2. Reluǎm cazul companiei de produse rǎcoritoare care doresc sǎ controleze
varianţa ca sǎ nu depǎşeascǎ 0, 0004. Un eşantion de mǎrime 28 cu o varianţǎ de 0, 0010
indicǎ oare la nivelul de semnificaţie 0, 05 cǎ procesul de ı̂mbuteliere nu este sub control
(referitor la varianţǎ)?
Soluţie:
Etapa 1. H0 : σ 2 = 0, 0004 (procesul este sub control)
Etapa 2. H0 : σ 2 > 0, 0004 (procesul nu este sub control)
Etapa 3. α = 0, 05, n = 28, df = 27 şi obţinem din tabel:
χ2 (27; 0, 005) = 40, 1.

Etapa 4.
n · s2 28 · 0, 0010
χ2∗ = 2
= = 70
σ 0, 0004
Etapa 5. Luarea deciziei.
Figura 18:
62
Concluzia: Procesul de ı̂mbuteliere este sub control ı̂n ceea ce priveşte varianţa.
Exemplul 18.3. Specificaţiile unui anumit medicament indicǎ cǎ fiecare comprimat
trebuie sǎ conţinǎ 2,5 g de substanţǎ activǎ. 100 de comprimate alese la ı̂ntâmplare
din producţie sunt analizate. Ele conţin ı̂n media 2,6 g de substanţǎ activǎ cu o deviaţia
standard de s = 0, 4g.
Se poate spune cǎ medicamentul respectǎ specificaţiile (α = 0, 05)?
Etapa 1. Ipoteza H0 este ca medicamentul respectǎ specificaţiile:
H0 : µ = 2, 5
Etapa 2. Ipoteza Ha este ca medicamentul nu respectǎ specificaţiile:
H0 : µ 6= 2, 5
Etapa 3. Statistica folositǎ este media x, iar nivelul de semnificaţie este α = 0, 05.
Regiunea criticǎ este:
Etapa 4. Testul statistic este:
x−µ 2, 6 − 2, 5 0, 1
z= s = = = 2, 5
√ 0, 4 0, 04
n 10
Valoarea lui z ı̂n tabel este: z0,975 = 1, 96 < 2, 5.
Etapa 5. Ipoteza H0 este respinsǎ, aşadar nu putem spune cǎ medicamentul
respectǎ specificaţiile.
Abordarea probabilistǎ a inferenţei statistice asupra varianţei, p-valoarea poate fi estimatǎ
pentru verificarea ipotezelor statistice folosind tabelul statistic χ2 de aceeaşi manierǎ ca
şi ı̂n cazul testului Student.
Exemplul 18.4. Sǎ se determine p-valoarea ı̂n cazul urmǎtoarelor ipoteze statistice:
H0 : σ 2 = 150
Ha : σ 2 > 150
Se cunosc: df = 18 şi χ2∗ = 32, 7.
Soluţie: p = P (χ2 > 32, 7) ∈ (0, 010; 0, 025) (date citite din tabel).
Exemplul 18.5. Un parametru folosit ı̂n determinarea utilitǎţii unui examen ca mǎsurǎ
a abilitǎţii studenţilor este ”ı̂mprǎştierea” rezultatelor. Un set de rezultate al unui test
are valoare micǎ dacǎ plaja notelor este micǎ. Din contrǎ dacǎ plaja notelor este mare,
este o diferenţǎ mare ı̂ntre rezultatul cel mai bun şi rezultatul cel mai slab, atunci testul
are valoare mai mare. La un test la care nota maximǎ este de 100 de puncte s-a pretins
cǎ o deviaţie standard de 12 puncte este de dorit. Pentru a vedea dacǎ un anume test
de o orǎ a fost sau nu un test bun din acest punct de vedere un profesor verificǎ aceastǎ
ipotezǎ statisticǎ la nivelul de semnificaţie α = 0, 05 folosind rezultatele obţinute de clasǎ.
Au fost 28 de rezultate şi deviaţia standard gǎsitǎ a fost 10, 5. Constituie aceasta o probǎ
la nivelul de semnificaţie α = 0, 05 cǎ examenul nu are deviaţia standard specificatǎ?
Soluţie: n = 28, s = 10, 5 şi α = 0, 05

Etapa 1. H0 : σ = 12
63
Etapa 2. H0 : σ 6= 12
Etapa 3. α = 0, 05, df = 27 şi obţinem valorile critice din tabel:
χ21 (27; 0, 975) = 14, 6 şi χ22 (27; 0, 025) = 43, 2.

Etapa 4.
n · s2 28 · (10, 5)2 3087
χ2∗ = 2
= 2
= = 21, 43
σ (12) 144
Etapa 5. Nu se poate respinge H0 .
Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H0
64
19 Generalitǎţi despre corelaţie.
Corelaţie liniarǎ
În statisticǎ adesea apar probleme de genul urmǎtor: pentru aceeaşi populaţie avem douǎ
seturi de date corespunzǎtoare la douǎ variabile distincte şi se pune ı̂ntrebarea dacǎ ı̂ntre
cele douǎ variabile existǎ vreo legǎturǎ (relaţie)? Dacǎ da, care este aceastǎ relaţie? Cum
sunt aceste variabile corelate? Relaţiile pe care le discutǎm aici nu sunt neapǎrat de tip
cauzǎ-efect. Ele sunt relaţii matematice care permit anticiparea comportamentului unei
variabile ı̂n funcţie de comportamentul celeilalte. Iatǎ câteva exemple:
Exemplul 19.1.
- În general o persoanǎ care creşte ı̂n ı̂nalţime creşte şi ı̂n greutate. Se pune ı̂ntrebarea:
existǎ vreo relaţie ı̂ntre ı̂nalţime şi greutate?
- Studenţii ı̂şi petrec timpul la universitate ı̂nvǎţând sau dând examene. Se pune
ı̂ntrebarea: studiind mai mult, obţii note mai mari?
- Doctorii care testeazǎ un nou medicament prescriu cantitǎţi diferite şi observǎ
rǎspunsul pacienţilor; se pune ı̂ntrebarea: cantitatea de medicament prescrisǎ
determinǎ oare timpul de ı̂nsǎnǎtoşire al pacientului?
Problemele din exemplul precedent cer analiza corelaţiei dintre douǎ variabile.
În cazul ı̂n care pentru o populaţie avem douǎ seturi de date corespunzǎtoare la douǎ
variabile distincte se formeazǎ perechile de date (x, y), ı̂n care x este valoarea primei
variabile şi y este valoarea celei de-a doua variabile. De exemplu, x este ı̂nǎţimea şi y este
greutatea.
O pereche ordonatǎ de date (x, y) se numeşte datǎ bidimensionalǎ.
În mod tradiţional, variabila X (având valorile x) se numeşte variabilǎ de intrare
(variabilǎ independentǎ), iar variabila Y (având valorile y) se numeşte variabilǎ de
ieşire (variabilǎ dependentǎ).
Variabila de intrare X este cea mǎsuratǎ sau controlatǎ pentru a prezice variabila Y .
În cazul testǎrii medicamentului doctorii (mǎsoarǎ) controleazǎ cantitatea de medicament
prescrisǎ şi deci aceastǎ cantitate x este valoarea variabilei de intrare (independentǎ) X.
Timpul de recuperare y este valoarea variabilei de ieşire (dependente) Y .
În cazul ı̂nǎlţimii şi greutǎţii oricare din variabile poate fi atât variabilǎ de intrare cât şi
variabilǎ de ieşire. Rezultatele analizei vor fi ı̂nsǎ funcţie de alegerea fǎcutǎ.
În cazul problemelor de analizǎ a corelaţiei dintre douǎ variabile datele eşantionului se
prezintǎ sub forma unei diagrame de ı̂mprǎştiere.
Definiţia 19.1. O diagramǎ de ı̂mprǎştiere sau nor de puncte este reprezentarea

graficǎ a perechilor de date ı̂ntr-un sistem de coordonate ortogonal. Valorile x ale variabilei
de intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei de ieşire Y sunt
reprezentate pe axa Oy.
65
Exemplul 19.2. Pentru un eşantion de 15 studenţi urmǎtorul tabel de date reprezintǎ
numǎrul de ore de studiu x pentru un examen şi nota y obţinutǎ la acel examen:
x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8
y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9
Diagrama de ı̂mprǎştiere ı̂n acest caz este:
Exemplul 19.3. Diagrama de ı̂mprǎştiere ı̂n cazul tabelului de date:
x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8
y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9
este:
Analiza de corelaţie are ca obiectiv sǎ stabileascǎ legǎtura dintre cele douǎ variabile.
Vom prezenta câteva diagrame de ı̂mprǎştiere pentru a ilustra corelaţii posibile dintre
variabila de intrare X şi variabila de ieşire Y .
Definiţia 19.2. Dacǎ pentru valorile x crescânde ale variabilei de intrare X nu existǎ o
deplasare clarǎ (bine definitǎ) ale valorilor y ale variabilei Y , atunci zicem cǎ nu avem
corelaţie sau cǎ nu existǎ legǎturǎ ı̂ntre X şi Y .
66
Diagrama de ı̂mprǎştiere ı̂n cazul ı̂n care nu avem corelaţie este urmǎtoarea:
Definiţia 19.3. Dacǎ pentru valorile x crescânde ale variabilei de intrare X existǎ o
deplasare clarǎ (bine definitǎ) ale valorilor y ale variabilei Y zicem cǎ avem o corelaţie.
Zicem cǎ avem o corelaţie pozitivǎ dacǎ y tinde sǎ creascǎ şi avem o corelaţie
negativǎ dacǎ y tinde sǎ descreascǎ odatǎ cu creşterea lui x.
Precizia schimbǎrii lui y atunci când x creşte determinǎ cât de puternicǎ este corelaţia.
Diagramele de ı̂mprǎştiere care urmeazǎ ilustreazǎ aceste idei:
Figura 19: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii pozitive
67
Figura 20: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii pozitive strânse
Figura 21: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii negative
Figura 22: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii negative strânse
Definiţia 19.4. Dacǎ perechile (x, y) tind sǎ urmeze o dreaptǎ zicem cǎ avem o corelaţie
liniarǎ.
Definiţia 19.5. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ (care nu este nici
orizontalǎ nici verticalǎ) atunci zicem cǎ avem o corelaţie liniarǎ perfectǎ.
68
Figura 23: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii pozitive liniare perfecte
Remarca 19.1. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ orizontalǎ sau verticalǎ
nu existǎ corelaţie intre cele douǎ variabile. Aceasta ı̂ntrucât schimbarea uneia nu
afecteazǎ valoarea celeilalte variabile.
Remarca 19.2. Diagramele de ı̂mprǎştiere nu sunt totdeauna de genul celor prezentate
pânǎ acum şi sugereazǎ corelaţii care sunt de altǎ naturǎ.
Figura 24: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii neliniare
Definiţia 19.6. Coeficientul de corelaţie liniarǎ r mǎsoarǎ cât de puternicǎ este

corelaţia liniarǎ dintre cele douǎ variabile. Reflectǎ consistenţa efectului pe care-l are
schimbarea valorii variabilei independente X asupra variabilei dependente Y .
Remarca 19.3. Valoarea coeficientului de corelaţie liniarǎ r permite sǎ se formuleze
un rǎspuns la ı̂ntrebarea: existǎ o corelaţie liniarǎ ı̂ntre cele douǎ variabile considerate?
Coeficientul de corelaţie liniarǎ r are valoarea ı̂ntre −1 şi +1. Valoarea r = +1 ı̂nseamnǎ
o corelaţie liniarǎ pozitivǎ perfectǎ, iar valoarea r = −1 ı̂nseamnǎ o corelaţie liniarǎ
negativǎ perfectǎ.
Dacǎ pentru x crescând rezultǎ o creştere generalǎ a valorilor lui y, atunci r indicǎ o
corelaţie liniarǎ pozitivǎ.
De exemplu, ı̂n cazul copiilor dacǎ x este vârsta şi y este ı̂nǎlţimea, atunci ne aşteptǎm ca
r sǎ fie pozitiv, pentru cǎ ı̂n mod natural, ı̂nǎţimea copilului creşte o datǎ cu vârsta. În
69
cazul automobilelor de serie, dacǎ x este vârsta, iar y este valoarea, atunci ne aşteptǎm
ca r sǎ fie negativ pentru cǎ ı̂n mod uzual valoarea automobilului descreşte cu vârsta lui.
Definiţia 19.7. Coeficientul de corelaţie liniarǎ r ı̂n cazul unui eşantion este prin
definiţie: P
(x − x) · (y − y)
r=
n · sx · sy
ı̂n care sx , sy sunt deviaţiile standard ale variabilelor x, y, iar n este numǎrul de perechi
(x, y).
Remarca 19.4. Pentru a calcula r de obicei se foloseşte o formulǎ alternativǎ echivalentǎ:
SS(x, y)
r=p
SS(x) · SS(Y )
P 2 1 ³X ´2 P 2 1 ³X ´2
unde: SS(x) = x − · x , SS(y) = y − · y , SS(x, y) =
³ X X ´n n
P 1
x·y− · x· y .
n
Exemplul 19.4. Sǎ se determine coeficientul de corelaţie liniarǎ r ı̂n cazul unui eşantion
aleator de mǎrime 10, dacǎ tabelul de date este:
x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43
Folosind aceste date avem:
SS(x) = 1396, 9 SS(y) = 858, 0 SS(x, y) = 919, 0
de unde gǎsim:
919, 0
r=p = 0, 8394 ≈ 0, 84.
(1396, 9) · (858, 0)
Remarca 19.5. Dacǎ valoarea calculatǎ r este apropiatǎ de 0, atunci nu existǎ corelaţie
liniarǎ.
Dacǎ valoarea calculatǎ r este aproape de +1 sau −1, atunci bǎnuim cǎ ı̂ntre cele douǎ
variabile exista corelaţie liniarǎ.
Între 0 şi 1 existǎ o valoare numitǎ punct de decizie care indicǎ dacǎ existǎ sau nu existǎ
corelaţie liniarǎ. Un punct simetric existǎ şi ı̂ntre −1 şi 0. Valoarea punctului de decizie
depinde de mǎrimea eşantionului.
În tabelul urmǎtor sunt trecute puncte de decizie pozitive pentru diferite mǎrimi de
eşantionare cuprinse ı̂ntre 5 şi 100.
70
n punct de n punct de n punct de n punct de
decizie decizie decizie decizie
5 0,878 12 0,576 19 0,456 30 0,301
6 0,811 13 0,553 20 0,444 40 0,312
7 0,754 14 0,532 22 0,423 50 0,279
8 0,707 15 0,514 24 0,404 60 0,254
9 0,666 16 0,497 26 0,388 80 0,220
10 0,632 17 0,482 28 0,374 100 0,196
11 0,602 18 0,468
Tabelul 1:Punctele de decizie pozitive pentru corelaţie liniarǎ
Valorile punctelor de decizie descresc dacǎ n creşte.
Dacǎ r se gǎseşte ı̂ntre punctul de decizie negativ şi cel pozitiv nu avem argumente ca sǎ
susţinem cǎ ı̂ntre cele douǎ variabile existǎ o corelaţie liniarǎ.
Dacǎ r este mai mare decât punctul de decizie pozitiv sau mai mic decât punctul de
decizie negativ atunci ı̂ntre cele douǎ variabile existǎ o corelaţie liniarǎ.
Existenţa unei corelaţii ı̂ntre cele douǎ variabile nu ı̂nseamnǎ cǎ existǎ o relaţie
cauzǎ efect. Astfel, de exemplu, dacǎ X este alocaţia pentru copii ı̂n ultimii 10 ani şi
Y este consumul de bǎuturi alcoolice ı̂n ultimii 10 ani, un eşantion de aceste date aratǎ
o corelaţie pozitivǎ strânsǎ fǎrǎ ca alocaţia pentru copii sǎ fie cauza vânzǎrii bǎuturilor
alcoolice sau viceversa.
O metodǎ rapidǎ de estimare a coeficientului de corelaţie liniarǎ r ı̂n cazul unui eşantion
este urmǎtoarea:
a) Se deseneazǎ o curbǎ ı̂nchisǎ ı̂n jurul valorii mulţimii de perechi (x, y):
71
b) Se determinǎ lungimea D a diametrului maxim:
c) Se determinǎ lungimea diametrului minim d:
µ
¶
d
d) Valoarea r se estimeazǎ cu ± 1 − , ı̂n care semnul se alege ı̂n funcţie de
D
orientarea diametrului D:
Trebuie subliniat cǎ aceastǎ estimare este grosierǎ. Este foarte sensibilǎ la ı̂mprǎştiere.
Cu toate acestea dacǎ plaja de valori a lui X este aproximativ aceeaşi ca plaja de valori
a lui Y aproximaţia este utilǎ.
72
20 Analizǎ de corelaţie liniarǎ
În secţiunea 20 am vǎzut care este formula coeficientului de corelaţie liniarǎ r ı̂ntre douǎ
variabile X, Y menit sǎ mǎsoare cât de strânsǎ este relaţia de dependenţǎ liniarǎ dintre
cele douǎ variabile.
În cele ce urmeazǎ vom prezenta o analizǎ mai amǎnunţitǎ a acestei formule. Considerǎm
pentru ilustraţie urmǎtorul set de date bidimensionale:
x 2 3 6 8 11 12
y 1 5 3 2 6 1
Diagrama de ı̂mprǎştiere ı̂n acest caz este:
Media x a variabilei x este 7: x = 7, iar media variabilei y este 3: y = 3.

Punctul (x, y) este punctul (7, 3) şi se numeşte centroid al datelor:
73
Dacǎ prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul de
date se ı̂mparte ı̂n patru submulţimi. Fiecare datǎ (x, y) se gǎseşte la o anumitǎ distanţǎ
de aceste linii; x − x este distanţa cu semn de la (x, y) la paralela la axa Oy şi y − y
este distanţǎ cu semn de la (x, y) la paralela Ox. distanţele cu semn sunt pozitive sau
negative ı̂n funcţie de poziţia lui (x, y) faţǎ de (x, y).
O mǎsurǎ a dependenţei liniare ar putea fi covarianţa. Covarianţa dintre X şi Y este

definitǎ ca suma produselor distanţelor cu semn x − x şi y − y a tuturor datelor la centroid
ı̂mpǎrţitǎ la n:
Xn
(xi − x) · (yi − y)
i=1
covar(x, y) =
n
Covarianţa ı̂n cazul tabelului de date considerate este 0, 6.
Covarianţa pozitivǎ ı̂nseamnǎ cǎ diagrama de dispersie este dominatǎ de date care se
gǎsesc deasupra şi ı̂n dreapta centroidului sau dedesubt şi ı̂n stânga acestuia. Aceasta
ı̂ntrucât produsele (x − x) · (y − y) ı̂n puncte din aceste regiuni sunt pozitive.
Dacǎ diagrama de dispersie este dominatǎ de date care se gǎsesc deasupra şi ı̂n stânga sau
dedesubt şi ı̂n dreapta centroidului atunci covarianţa este negativǎ pentru cǎ produsele
(x − x) · (y − y) pentru puncte din aceste regiuni sunt negative.
Covarianţa ı̂nsǎ nu este convenabilǎ pentru a mǎsura cât este de strânsǎ relaţia de
dependenţǎ liniarǎ ı̂ntre douǎ variabile fiindcǎ depinde de unitǎţile de mǎsurǎ ale datelor.
Covarianţa nu are o unitate de mǎsurǎ standardizatǎ şi ı̂mprǎştierea datelor influenţeazǎ
foarte mult mǎrimea covarianţei.
Astfel de exemplu dacǎ ı̂nmulţim datele din tabelul considerat anterior cu 10 obţinem
tabelul de date:
x 20 30 60 80 110 120
y 10 50 30 20 60 10
Covarianţa ı̂n cazul acestui tabel de date este 60, dar aceasta nu ı̂nseamnǎ nicidecum cǎ
relaţia de dependenţǎ liniarǎ ı̂ntre X, Y este mai strânsǎ. Relaţia de dependenţǎ liniarǎ
74
este aceeaşi şi doar datele sunt mai ı̂mprǎştiate. Aceasta este problema cu covarianţa
atunci când vrem sǎ mǎsurǎm cu ajutorul ei dependenţa liniarǎ ı̂ntre douǎ variabile.
Trebuie sǎ gǎsim o cale de eliminare a efectului ı̂mprǎştierii datelor atunci când mǎsurǎm
dependenţa.
Dacǎ standardizǎm X şi Y ı̂mpǎrţind deviaţia fiecǎreia de la media sa cu deviaţia
standard:
x−x y−y
x0 = şi y 0 =
sx sy
şi calculǎm covarianţa lui X 0 şi Y 0 , vom avea o covarianţǎ care nu mai este influenţatǎ de
ı̂mprǎştierea datelor. Exact acest lucru este realizat prin introducerea coeficientului de
corelaţie liniar r. Astfel coeficientul de corelaţie liniar este:
covar(X, Y )
r = covar(X 0 , Y 0 ) =
sx · sy
Coeficientul de corelaţie liniarǎ standardizeazǎ mǎsura dependenţei şi ne permite sǎ com-
parǎm cât de strânsǎ este dependenţa liniarǎ a diferitelor seturi de date bidimensionale.
Formula coeficientului de corelaţie liniarǎ adesea poartǎ denumirea de momentul produs
Pearson.
Valoarea coeficientului de corelaţie liniarǎ r ı̂n cazul setului de date considerat la ı̂nceput
este:
0, 6
r= = 0, 07
(4, 099) · (2, 098)
Pentru cǎ determinarea coeficientului de corelaţie liniarǎ cu ajutorul formulei:
covarX, Y
r=
sx · sy
este greoaie, ı̂n locul ei se foloseşte una practicǎ:
SS(X, Y )
r=p
SS(X) · SS(Y )
Aceasta din urmǎ formulǎ evitǎ calculul separat al lui x, y, sx , sy precum şi calculul
deviaţiilor de la medie.
75
21 Inferenţǎ privind coeficientul de corelaţie liniarǎ
Dupǎ ce coeficientul de corelaţie liniarǎ r a fost calculat pentru un eşantion se pune ı̂n
mod natural ı̂ntrebarea: valoarea lui r indicǎ oare cǎ existǎ o dependenţǎ liniarǎ ı̂ntre
cele douǎ variabile ı̂n cazul populaţiei din care eşantioanele au fost luate?
Pentru a rǎspunde la aceastǎ ı̂ntrebare facem o verificare a ipotezelor statistice.
Etapa 1. Formularea ipotezei nule H0 :
”Cele douǎ variabile sunt liniar necorelate.”
Aceasta ı̂nseamnǎ ρ = 0, ρ fiind coeficientul de corelaţie pentru

populaţie.
Etapa 2. Formularea ipotezei alternative.
Aceasta poate fi unilateralǎ sau bilateralǎ. Cel mai frecvent este
bilateralǎ ρ 6= 0. Cu toate acestea dacǎ suspectǎm cǎ avem doar o
singurǎ corelaţie pozitivǎ ori o singurǎ corelaţie negativǎ trebuie sǎ
folosim test unilateral. Ipoteza alternativǎ ı̂n cazul testului unilateral
este: ρ > 0 sau ρ < 0.
Etapa 3. Regiunea criticǎ pentru testul statistic este ı̂n partea dreaptǎ dacǎ ne
aşteptǎm la o corelaţie pozitivǎ şi este ı̂n stânga dacǎ ne aşteptǎm la o
corelaţie negativǎ.
Testul statistic folosit pentru testarea ipotezei nule este scorul standard şi valoarea tes-
tului statistic este valoarea lui r calculatǎ din eşantion. Valorile critice pentru r se gǎsesc
ı̂n urmǎtorul tabel la intersecţia coloanei corespunzǎtoare valorii lui α şi a liniei core-
spunzǎtoare gradului de libertate df = n − 2:
76
Valorile critice pentru r dacǎ ρ = 0
df|α 0,10 0,05 0,02 0,01

1 0,988 0,997 1,000 1,000
2 0,900 0,950 0,980 0,980
3 0,805 0,878 0,934 0,959
4 0,729 0,811 0,882 0,917
5 0,669 0,754 0,833 0,874
6 0,662 0,707 0,789 0,834
7 0,582 0,666 0,750 0,798
8 0,549 0,632 0,716 0,765
9 0,521 0,602 0,685 0,735
10 0,497 0,576 0,658 0,708
11 0,476 0,553 0,634 0,684
12 0,458 0,532 0,612 0,661
13 0,441 0,514 0,592 0,641
14 0,426 0,497 0,574 0,623
15 0,412 0,482 0,558 0,606
16 0,400 0,468 0,542 0,590
17 0,389 0,456 0,528 0,575
18 0,378 0,444 0,516 0,561
19 0,369 0,433 0,503 0,549
20 0,360 0,423 0,492 0,537
25 0,323 0,381 0,445 0,487
30 0,296 0,349 0,409 0,449
35 0,275 0,325 0,381 0,418
40 0,257 0,304 0,358 0,393
45 0,243 0,288 0,338 0,372
50 0,231 0,273 0,322 0,354
60 0,211 0,250 0,295 0,325
70 0,195 0,232 0,274 0,302
80 0,183 0,217 0,256 0,283
90 0,173 0,205 0,242 0,267
100 0,164 0,195 0,230 0,254
Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral.
Pentru un test unilateral valoarea lui α este dublul valorii lui α ce se foloseşte ı̂n verifi-
carea ipotezelor statistice.
Etapa 4. Se determinǎ r din eşantion.
Etapa 5. Se determinǎ dacǎ r este ı̂n regiunea criticǎ sau nu.
Neacceptarea ipotezei nule ı̂nseamnǎ cǎ existǎ o probǎ a dependenţei dintre cele douǎ
variabile ale populaţiei
Menţiune: Aceasta nu ı̂nseamnǎ cǎ am stabilit o relaţie de tip cauzǎ efect ci
doar o relaţie matematicǎ care permite sǎ se prezicǎ comportamentul variabilei
77
de ieşire Y din comportamentul variabilei de intrare X.
Exemplul 21.1. În cazul tabelului de date:
x 2 3 6 8 11 12
y 1 5 3 2 6 1
avem n = 6, iar r = 0, 07. Întrebarea este dacǎ aceastǎ valoare a lui r diferǎ de zero ı̂n
mod semnificativ dacǎ nivelul de semnificaţie este α = 0, 02?
Etapa 1. H0 : ρ = 0
Etapa 2. H0 : ρ 6= 0
Etapa 3. Avem α = 0, 02 şi df = n − 2 = 6 − 2 = 4. Valorile critice din tabel

sunt: −0, 882 şi 0, 882.
Etapa 4. Valoarea calculatǎ a lui r este r∗ = 0, 07
Etapa 5. Se acceptǎ H0 .
Concluzie: Nu am putut arǎta cǎ X, Y sunt corelate. Dacǎ acceptǎm ipoteza nulǎ
ı̂nseamnǎ cǎ independenţa liniarǎ dintre cele douǎ variabile a fost arǎtatǎ.
Ca şi ı̂n alte probleme, uneori se cere estimarea unui interval de ı̂ncredere pentru
coeficientul de corelaţie ρ. Este posibilǎ estimarea coeficientului de corelaţie ρ folosind
un tabel care ne dǎ centuri de ı̂ncredere. Tabelul urmǎtor reprezintǎ asemenea centuri
de ı̂ncredere pentru intervale de ı̂ncredere de 95%: Exemplul urmǎtor aratǎ cum trebuie
citit un asemenea tabel.
Exemplul 21.2. Pentru un eşantion de 15 perechi de date o valoare calculatǎ a lui r este
r = 0, 35. Sǎ se determine intervalul de ı̂ncredere 95% pentru coeficientul de corelaţie
liniar ρ a populaţiei?
1) Se localizeazǎ 0, 35 pe axa orizontalǎ (axa coeficientului de corelaţie liniarǎ) şi se

duce linia verticalǎ.
78
2) Se determinǎ intersecţia liniei verticale cu centurile corespunzǎtoare mǎrimii
eşantionului (aceasta fiind 15) şi se obţin douǎ puncte pe linia verticalǎ.
3) Intervalul de ı̂ncredere este intervalul determinat de ordonatele acestor puncte

(−0, 20, −0, 72) (axa ordonatelor este axa coeficientului de corelaţie a populaţiei).
79
22 Regresie liniarǎ
Dacǎ valoarea coeficientului de corelaţie liniarǎ r indicǎ o corelaţie liniarǎ strânsǎ atunci se
pune problema stabilirii unei relaţii numerice exacte. Aceastǎ relaţie exactǎ este obţinutǎ
prin regresie liniarǎ.
În general statisticianul cautǎ o ecuaţie care exprimǎ relaţia dintre douǎ variabile. Ecuaţia
aleasǎ este cea mai bunǎ fitare a diagramei de dispersie. Ecuaţiile gǎsite se numesc ecuaţii
de predicţie, iar ı̂n continuare sunt prezentate câteva asemenea ecuaţii:
y = b0 + b1 · x - liniarǎ
y = a + b · x + c · x2 - pǎtraticǎ
y = a · bx - exponenţialǎ
y = a · logb x - logaritmicǎ.
Obiectivul final este ca folosind ecuaţii sǎ se facǎ predicţii. În general valoarea exactǎ a
variabilei Y nu este prezisǎ. Ne mulţumim dacǎ predicţia este suficient de apropiatǎ.
Definiţia 22.1. Regresia liniarǎ stabileşte dependenţa liniarǎ ı̂n medie a lui y ı̂n funcţie
de x.
Vom descrie ı̂n continuare cum se stabileşte cea mai bunǎ dependenţǎ liniarǎ pentru un
set de date (x, y).
Dacǎ relaţia de dependenţǎ liniarǎ pare potrivitǎ, cea mai bunǎ relaţie liniarǎ se stabileşte
cu metoda celor mai mici pǎtrate.
Sǎ presupunem cǎ ŷ = b0 + b1 · x este cea P mai bunǎ relaţie liniarǎ. Metoda celor mai mici
pǎtrate cere ca b0 şi b1 sǎ fie astfel ı̂ncât (y − ŷ)2 sǎ fie minimǎ.
Din teorema lui Fermat rezultǎ cǎ valorile minime ale funcţiei:
X
F (b0 , b1 ) = (y − b0 − b1 · x)2
se obţin pentru
P
(x − x) · (y − y) 1 ³X X ´
b1 = P , b0 = · y − b1 · x
(x − x)2 n
b1 este panta dreptei, iar b0 este ordonata la origine.
Pentru determinarea pantei b1 de obicei se foloseşte formula echivalentǎ:
SS(x, y)
b1 =
SS(x)
P 1 ³X ´2 P 1 ³X X ´
unde: SS(x) = x2 − · x şi SS(x, y) = x·y− · x· y .
n n
Menţionǎm aici cǎ expresiile SS(x, y) şi SS(x) apar şi ı̂n formula de calcul al coeficientului
de corelaţie liniarǎ. De aceea ı̂n momentul calculǎrii lui r putem afla şi valoarea pantei
b1 .
80
Exemplul 22.1. În cazul unui eşantion de 10 indivizi considerǎm urmǎtorul set de date.
x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43
Pentru a determina cea mai bunǎ relaţie liniarǎ ŷ = b0 + b1 · x se calculeazǎ SS(x, y) şi
SS(x) şi se obţine:
SS(x, y) = 919, 0 şi SS(x) = 1396, 9
de unde panta b1 este:
919, 0
b1 = = 0, 6599 ≈ 0, 66.
1396, 9
Pentru a determina ordonata ı̂n origine b0 se foloseşte formula de calcul a acesteia şi
rezultǎ:
1
b0 = [380 − 0, 65 · 351] = 14, 9077 ≈ 14, 9
10
Astfel cea mai bunǎ relaţie liniarǎ este:
ŷ = 14, 9 + 0, 66 · x
Remarca 22.1.
a) Panta b1 reprezintǎ schimbarea prezisǎ a variabilei y corespunzǎtoare unei creşteri

cu o unitate a variabilei x.
b) Ordonata b0 reprezintǎ valoarea lui y ı̂n x = 0. Doar dacǎ x = 0 este ı̂n domeniul
de date putem spune cǎ b0 este valoarea prezisǎ a lui y pentru x = 0.
c) Cea mai bunǎ relaţie liniarǎ este o dreaptǎ ce trece prin punctul de coordonate
(x, y). Acest fapt poate fi utilizat ca verificare atunci când se traseazǎ graficul celei
mai bune relaţii liniare.
Exemplul 22.2. În cazul unui eşantion aleator de 8 indivizi considerǎm urmǎtorul tabel
de date
x 65 65 62 67 69 65 61 67
y 105 125 11 120 140 135 95 130
Diagrama de ı̂mprǎştiere a acestui set de date sugereazǎ o corelaţie liniarǎ.
81
Pentru a gǎsi cea mai bunǎ relaţie de dependenţǎ liniarǎ calculǎm SS(x, y) şi SS(x) şi
gǎsim:
SS(x, y) = 230, 0 şi SS(x) = 48, 875
De aici avem:
230, 0
b1 = = 4, 706 ≈ 4, 71.
48, 875
1 hX X i
b0 = y − b1 · x = −186, 478 ≈ 186, 5
n
de unde:
ŷ = −186, 5 + 4, 71 · x
Remarca 22.2. O estimare ”grosierǎ” a celei mai bune relaţii de dependenţǎ liniarǎ se
poate face ı̂n felul urmǎtor:
- ca şi ı̂n cazul aproximǎrii coeficientului de corelaţie r se considerǎ o curbǎ ı̂nchisǎ

ı̂n jurul mulţimii de perechi (x, y);
- diametrul maxim al mulţimii este o aproximare a graficului de dependenţǎ liniarǎ;
- se scrie ecuaţia de dependenţǎ liniarǎ ca ecuaţia unei drepte ce trece prin douǎ
puncte de pe acest diametru;
- ca şi ı̂n cazul estimǎrii lui r aceastǎ estimare este una grosierǎ şi trebuie folositǎ ca
atare.
82
23 Analizǎ de regresie liniarǎ
Modelul liniar folosit pentru a explica dependenţa liniarǎ a douǎ variabile referitoare la
aceeaşi populaţie este definit de ecuaţia:
y = β0 + β1 · x + ε
Aceastǎ ecuaţie reprezintǎ relaţia liniarǎ dintre douǎ variabile x şi y ı̂ntr-o populaţie. În
aceastǎ relaţie:
- β0 este ordonata la origine;
- β1 este panta;
- y este valoarea observatǎ la o valoare datǎ a lui x;
- β0 + β · x este media lui y pentru valoarea datǎ a lui x
Remarcǎm cǎ eroarea ε depinde de x. Pentru valorile x1 , x2 , . . . , xn ale lui x modelul liniar
se scrie:
yi = β0 + β1 · xi + εi , i = 1, 2, . . . , n
- ε este eroarea aleatoare a valorii observate y la o valoare datǎ a lui x care reprezintǎ
deviaţia valorii observate y de la medie.
Dreapta de regresie liniarǎ obţinutǎ ŷ = b0 + b1 · x pe baza datelor (xi , yi ), i = 1, 2, . . . , n
ne dǎ b0 care este o estimare pentru β0 şi b1 care este o estimare pentru β1 . Atunci vom
putea scrie yi = b0 + b · xi + ei . Erorile sunt estimate prin yi − ŷi care este diferenţa
dintre valoarea observatǎ yi şi valoarea prezisǎ ŷi a lui y la o valoare datǎ a lui x. Fiindcǎ
ŷi = b0 + b1 · xi avem cǎ:
ei = yi − ŷi
Erorile ei sunt cunoscute sub numele de reziduuri.
Variabila aleatoare e are urmǎtoarele proprietǎţi:
• e > 0 ⇐⇒ y > ŷ;
• e < 0 ⇐⇒ y < ŷ;
• pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;
aceasta este o consecinţǎ a metodei celor mai mici pǎtrate; şi astfel media erorilor
Xn
experimentale este zero: ei = 0.
i=1
Notǎm cu σε2 varianţa erorilor aleatoare a datelor observate şi ne propunem sǎ estimǎm
aceastǎ varianţǎ.
Înainte ı̂nsǎ sǎ trecem la estimarea varianţei σε2 sǎ analizǎm puţin ce reprezintǎ eroarea
ε? ε reprezintǎ diferenţa dintre valoarea observatǎ y şi valoarea medie a lui y pentru o
valoare datǎ a lui x. Întrucât nu cunoaştem valoarea medie a lui y, vom folosi ecuaţia de
regresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu ŷ valoarea prezisǎ
de ecuaţia de regresie a lui y pentru acest x. Astfel estimarea lui ε este e = y − ŷ.
83
Dacǎ pentru o valoare datǎ x avem mai multe valori observate y acestea pot fi reprezentate
pe verticala ı̂n x pe axa Ox.
O distribuţie similarǎ apare la fiecare valoare a lui x. Valoarea medie a datelor y observate
depinde de x şi se estimeazǎ cu ŷ.
Altfel spus, deviaţia standard a distribuţiei datelor y de la medie este aceeaşi pentru orice
x:
84
Reamintim cǎ varianţa s2 a unui set de date statistice x1 , x2 , . . . , xn a fost definitǎ cu
formula: n
1X
s2 = (xi − x)2
n i=1
Determinarea varianţei setului de date y introduce o complicaţie pentru cǎ media datelor
y diferǎ de la un x la altul. Pentru fiecare x media este estimatǎ prin valoarea prezisǎ ŷ ce
corespunde la x prin dreapta de regresie. Astfel varianţa erorii ε se estimeazǎ cu formula:
n
1X
s2ε = (yi − ŷi )2
n i=1
care aratǎ cǎ varianţa erorii ε este varianţa variabilei y ı̂n jurul dreptei de regresie.
Varianţa erorii s2ε poate fi scrisǎ sub forma:
1X 1 hX 2 X i
s2ε = (y − b0 − b1 · xi )2 = yi − b0 · y − b 1 · xi · y i
n n
şi este o estimare a lui σε2
Exemplul 23.1. O persoanǎ care se mutǎ la Timişoara şi se angajeazǎ la o companie
doreşte sǎ ştie ı̂n cât timp poate sǎ ajungǎ dimineaţa cu maşina de la locuinţǎ la locul de
muncǎ. Pentru a gǎsi un rǎspuns la aceastǎ ı̂ntrebare el ı̂ntreabǎ un numǎr de 15 colegi la
ce distanţǎ stau de locul de muncǎ şi ı̂n cât timp ajung la serviciu şi ı̂ntocmeşte urmǎtorul
tabel de date statistice:
coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x - distanţa
(ı̂n km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20
y - timpul
(ı̂n min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45
Pentru a gǎsi un rǎspuns la problemǎ persoana ı̂n cauzǎ trebuie sǎ determine dreapta de
regresie şi varianţa s2e .
Folosind formulele de calcul el gǎseşte:
(184)2
SS(x) = 2, 616 − = 358, 9333
15
85
(184) · (403)
SS(x, y) = 5, 623 − = 679, 53333
15
358, 9333
b1 = = 1, 893202 ≈ 1, 89
679, 53333
1
b0 = [403 − (1, 893202) · (184)] = 3, 643387 ≈ 3, 64
15
ŷ = 3, 64 + 1, 89 · x.
Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a
ajunge la serviciu ı̂n funcţie de distanţa x la care locuieşte.
Pentru a gǎsi abaterea standard de la valoarea estimatǎ el va trebui sǎ calculeze şi varianţa
s2ε . Folosind formulele de calcul el gǎseşte: s2ε = 29, 17.
86
24 Inferenţǎ referitoare la panta unei drepte de re-
gresie liniarǎ
Dupǎ ce ecuaţia dreptei de regresie liniarǎ a fost determinatǎ ne ı̂ntrebǎm când putem
folosi aceastǎ ecuaţie pentru a prezice valorile variabilei y ı̂n funcţie de x?
Rǎspunsul la ı̂ntrebare ı̂l vom da parcurgând procedeul de verificare a ipotezelor statistice.
Înainte de a face inferenţǎ privind dreapta de regresie facem urmǎtoarele ipoteze:
- pentru fiecare x distribuţia datelor y observate este aproximativ normalǎ;
- pentru fiecare x varianţa distribuţiei datelor y observate este aceeaşi.
Înainte sǎ trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor
statistice) sǎ analizǎm distribuţia pantelor ce se obţin pentru eşantioane aleatoare de
mǎrime n. Aceste pante b1 au o distribuţie aproape normalǎ având media β1 panta ı̂n
cazul populaţiei şi varianţa σb21 datǎ de:
σε2
σb21 =P
(x − x)2
Un estimator adecvat s2b1 a lui σb21 se obţine prin ı̂nlocuirea lui σε2 cu s2e :
s2e
s2b1 = P
(x − x)2
Aceastǎ formulǎ poate fi scrisǎ sub forma:
s2e s2e
s2b1 = =P £P ¤
SS(x) x − ( x)2 /n
Eroarea standard a regresiei (pantei) este σb1 şi este estimatǎ prin sb1 .
Putem trece acum la verificarea ipotezelor statistice:
Etapa 1. Formularea ipotezei H0 . Ipoteza nulǎ va fi β1 = 0. Dacǎ β1 = 0

atunci ecuaţia liniarǎ nu poate fi folositǎ pentru a prezice valoarea lui
y aceasta ı̂nseamnǎ cǎ: ŷ = y.
Etapa 2. Ipoteza alternativǎ poate fi unilateralǎ sau bilateralǎ. Dacǎ bǎnuiala
este cǎ panta este pozitivǎ atunci un test unilateral este potrivit:
Ha : β1 > 0.
Etapa 3. Ca test statistic folosim testul t. Numǎrul gradelor de libertate pentru
test este df = n − 2. În cazul Exemplului 23.1 care se referǎ la timpul
necesar pentru a ajunge cu maşina la servici df = 15−2 = 13. La nivelul
de semnificaţie α = 0, 05, valoarea criticǎ a lui t este t(13; 0, 05) = 1, 77.
Formula de calcul folosit pentru valoarea testului statistic t pentru
inferenţǎ este:
b1 − β1
t∗ =
sb1
87
s2e
Etapa 4. Având ı̂n vedere egalitatea s2b1 = ı̂n cazul exemplului considerat
SS(X)
gǎsim cǎ valoarea testului statistic este:
b1 − β1 1, 89 − 0
t∗ = =√ = 6, 629 ≈ 6, 63
sb1 0, 0813
Etapa 5. Decizie: ipoteza H0 se respinge pentru cǎ t∗ este ı̂n regiunea criticǎ.
Concluzie: Panta dreptei de cea mai bunǎ aproximaţie este mai mare
ca zero. Probele statistice aratǎ cǎ existǎ o relaţie liniarǎ ı̂ntre distanţa
locuinţǎ-serviciu şi perioada de timp necesarǎ pentru a ajunge cu maşina
la serviciu şi aceastǎ perioadǎ de timp este predictibilǎ.
Panta β1 a dreptei de regresie liniarǎ a populaţiei poate fi estimatǎ cu ajutorul inter-
valului de ı̂ncredere. Capetele acestui interval de ı̂ncredere sunt date de formula:
α
b1 ± t(n − 2; ) · sb1
2
În cazul Exemplului 23.1 la nivelul de semnificaţie α = 0, 05:

p
1, 89 ± 2, 16 · 0, 0813 = 1, 89 ± 0, 62
capetele intervalului de ı̂ncredere sunt 1, 27 şi 2, 51.

Deci intervalul de ı̂ncredere pentru β1 este (1, 27; 2, 51) la nivelul de semnificaţie 0, 05.
88
BIBLIOGRAFIE
[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
[2] Andrei Tudorel, Stancu Andrei, Statisticǎ - teorie şi aplicaţii, Editura All, 1995,
Bucureşti
[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition,

1991,Paris
[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lecţii de statisticǎ descrip-
tivǎ, Universitatea de Vest, 1998, Timişoara
[5] Bocşan Gheorghe, Estimarea parametrilor modelelor statistice, Universitatea de Vest,

1995, Timişoara
[6] Yule G. Udny, Kendall, M.G., Introducere ı̂n teoria statisticii, Editura Ştiinţificǎ,
1969, Bucureşti
89

Statistica

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Statistica

Încărcat de

Drepturi de autor:

Formate disponibile

Statisticǎ - notiţe de curs

Ştefan Balint, Loredana Tǎnasie

4 Determinarea frecvenţei şi gruparea datelor 11

6 Parametrii şi statistici ai tendinţei centrale 19

7 Parametrii şi statistici ai dispersiei 22

8 Parametrii şi statistici factoriali ai varianţei 25

9 Parametrii şi statistici ale poziţiei 26

10 Seria de distribuţie a statisticilor

11 Teorema limitǎ centralǎ 32

12 O aplicaţie a teoremei limitǎ centralǎ 35

13 Estimarea punctualǎ a unui parametru; intervalul de ı̂ncredere 36

14 Generalitǎţi privind ipotezele statistice şi problema verificǎrii ipotezelor

16 Verificarea ipotezelor statistice: varianta probabilistǎ 48

17 Inferenţǎ statisticǎ privind media populaţiei dacǎ nu se cunoaşte

18 Inferenţǎ relativǎ la varianţǎ şi estimarea varianţei 59

19 Generalitǎţi despre corelaţie. Corelaţie liniarǎ 65

20 Analizǎ de corelaţie liniarǎ 73

21 Inferenţǎ privind coeficientul de corelaţie liniarǎ 76

23 Analiza de regresie liniarǎ 83

24 Inferenţǎ referitoare la panta unei drepte de regresie liniarǎ 87

Definiţia 1.1. Statistica este ştiinţa colectǎrii, clasificǎrii, prezentǎrii, interpretǎrii

Definiţia 1.2. Statistica descriptivǎ se ocupǎ cu colectarea, clasificarea şi prezentarea

Definiţia 1.3. Statistica inferenţialǎ (inferential statistics) se ocupǎ cu interpretarea

Remarca 1.1. Relaţia dintre statisticǎ şi probabilitǎţi

Remarca 1.2. Folosirea corectǎ şi folosirea greşitǎ a statisticii

• ı̂n ştiinţǎ; rezultatele experimentale trebuiesc colectate şi analizate;

• guvernele; adunǎ diferite date statistice tot timpul.

Remarca 1.3. Statistica şi calculatorul

Remarca 2.5. O statisticǎ este o valoare numericǎ care se referǎ la un eşantion.

a) Compararea eficacitǎţii unui medicament nou cu eficacitatea unui medicament

Exemple de populaţii şi variabile corespunzǎtoare:

a) pacienţii care suferǎ de o boalǎ care se trateazǎ cu medicamentul considerat

Definiţia 3.8. Eşantionul sistematic se construieşte alegând fiecare al k-lea element

Exemplul 3.3. Dacǎ se considerǎ un cadru de eşantion de 245 de studenţi ai Facultǎţii

1) asociem fiecǎrui student un numǎr de la 1 la 245;

Dacǎ acest numǎr este 10, atunci obţinem eşantionul:

Exemplul 3.4. Dacǎ se doreşte estimarea numǎrului studenţilor admişi la Facultatea de

Definiţia 3.10. Eşantion cotǎ (sau eşantion proporţional) este un

Anul de studiu Numǎr studenţi Cota Nr. studenţi

O altǎ metodǎ de eşantionare care pleacǎ de la stratificarea populaţiei este eşantionul

Definiţia 3.11. Eşantionul ciorchine este un eşantion stratificat care se construieşte

Într-un caz concret procedeul de eşantionare care se foloseşte depinde de populaţie de

50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99

49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.

ı̂n cazul clasei 50 − 59 2 date

ı̂n cazul clasei 60 − 69 3 date

ı̂n cazul clasei 70 − 79 8 date

ı̂n cazul clasei 80 − 89 5 date

ı̂n cazul clasei 90 − 99 2 date

2) Fiecare clasǎ trebuie sǎ aibe aceeaşi lǎţime.

Procedeul concret de grupare este urmǎtorul:

I, I + c, I + 2c, I + 3c, ..., I + (m − 1)c

Aceste numere sunt limitele inferioare ale claselor.

v) Se determinǎ frecvenţa fiecǎrei clase numǎrând elementele din fiecare clasǎ.

Prezentarea datelor sub formǎ de serii

Exemplul 5.1. În cazul setului de date statistice:

seria de distribuţie este: µ ¶

seria de distribuţie este:

În general, o serie de distribuţie aratǎ ı̂n felul urmǎtor:

şi oricare ar fi nivelul de grupare al datelor, xi având frecvenţa fi , se numeşte termenul

sau sub formǎ procentualǎ:

Prezentarea datelor sub formǎ de tabele statistice

Prezentarea datelor sub formǎ graficǎ