Sunteți pe pagina 1din 89

Statisticǎ - notiţe de curs

Ştefan Balint, Loredana Tǎnasie

Cuprins

1 Ce este statistica? 3

2 Noţiuni de bazǎ 5

3 Colectarea datelor 7

4 Determinarea frecvenţei şi gruparea datelor 11

5 Prezentarea datelor 14

6 Parametrii şi statistici ai tendinţei centrale 19

7 Parametrii şi statistici ai dispersiei 22

8 Parametrii şi statistici factoriali ai varianţei 25

9 Parametrii şi statistici ale poziţiei 26

10 Seria de distribuţie a statisticilor


de eşantioane 28

11 Teorema limitǎ centralǎ 32

12 O aplicaţie a teoremei limitǎ centralǎ 35

13 Estimarea punctualǎ a unui parametru; intervalul de ı̂ncredere 36

14 Generalitǎţi privind ipotezele statistice şi problema verificǎrii ipotezelor


statistice 38

1
15 Verificarea ipotezelor statistice: variantǎ clasicǎ 41

16 Verificarea ipotezelor statistice: varianta probabilistǎ 48

17 Inferenţǎ statisticǎ privind media populaţiei dacǎ nu se cunoaşte


abaterea standard a populaţiei 52

18 Inferenţǎ relativǎ la varianţǎ şi estimarea varianţei 59

19 Generalitǎţi despre corelaţie. Corelaţie liniarǎ 65

20 Analizǎ de corelaţie liniarǎ 73

21 Inferenţǎ privind coeficientul de corelaţie liniarǎ 76

22 Regresie liniarǎ 80

23 Analiza de regresie liniarǎ 83

24 Inferenţǎ referitoare la panta unei drepte de regresie liniarǎ 87

2
1 Ce este statistica?

Definiţia 1.1. Statistica este ştiinţa colectǎrii, clasificǎrii, prezentǎrii, interpretǎrii


datelor numerice şi a folosirii acestora pentru a formula concluzii şi a lua decizii.

Definiţia 1.2. Statistica descriptivǎ se ocupǎ cu colectarea, clasificarea şi prezentarea


datelor numerice.

Definiţia 1.3. Statistica inferenţialǎ (inferential statistics) se ocupǎ cu interpretarea


datelor oferite de statistica descriptivǎ şi cu folosirea acestora pentru a formula concluzii
şi lua decizii.

Problema 1.1. Universitatea de Vest din Timişoara doreşte sǎ facǎ un plan de dezvoltare
a facilitǎţilor de cazare. Pentru a trece la acţiune consiliul de administraţie hotǎrǎşte cǎ
este necesar sǎ se rǎspundǎ la urmǎtoarea ı̂ntrebare: Câţi studenţi vor trebui cazaţi ı̂n
urmǎtorii zece ani?
Pentru a rǎspunde la aceastǎ ı̂ntrebare trebuie sǎ cunoaştem rǎspunsul la cel puţin
urmǎtoarele douǎ ı̂ntrebǎri: Câţi absolvenţi de liceu vor fi? Câţi vor sǎ vinǎ la
universitate? (Şi altele poate).
Pentru a rǎspunde la aceste douǎ ı̂ntrebǎri e nevoie de date referitoare la numǎrul de
absolvenţi de liceu ı̂n urmǎtorii zece ani şi de date care indicǎ procentul acelor absolvenţi
de liceu care doresc sǎ devinǎ studenţi la U.V.T. ı̂n urmǎtorii zece ani.
O cale de a obţine date refritoare la numǎrul de absolvenţi de liceu ı̂n urmǎtorii zece ani
este de a vedea care a fost acest numǎr ı̂n ultimii zece ani şi a extrapola acest numǎr.
Trebuie remarcat cǎ aceastǎ idee presupune cǎ existǎ o legǎturǎ dintre trecut şi viitor.
Acest lucru nu este ı̂ntotdeauna adevǎrat. O ı̂ntrebare suplimentarǎ care se pune ı̂n acest
context este dacǎ va trebui sǎ numǎrǎm toţi absolvenţii de liceu din toate şcolile din
ultimii zece ani sau ne putem limita sǎ numǎrǎm doar la anumite şcoli? Altfel spus, dacǎ
putem considera doar eşantioane?
O cale de a obţine date referitoare la procentul acelor absolvenţi care doresc sǎ devinǎ
studenţi la U.V.T. este aceea de a vedea aceste procente ı̂n ultimii zece ani şi de a
extrapola.
Alte ı̂ntrebǎri care se pun sunt: Cum interpretǎm aceste date? Cum formulǎm o concluzie
pe baza acestor date? Cum se ia o decizie pe baza acestor date?
Nu am terminat cu enumerarea ı̂ntrebǎrilor care pot fi relevante. La acest moment ceea
ce este important este sǎ ı̂ncepem sǎ ne gândim la asemenea probleme şi la ı̂ntrebǎrile
care trebuiesc lǎmurite pentru a obţine un rǎspuns.

Remarca 1.1. Relaţia dintre statisticǎ şi probabilitǎţi


Statistica şi probabilitǎţile sunt douǎ domenii strâns legate, dar distincte ale matematicii.
Se spune cǎ ”probabilitǎţile sunt vehiculul statisticii”. Aceasta este adevǎrat ı̂n sensul
cǎ dacǎ nu ar fi legile probabiliste teoria statisticǎ nu ar fi posibilǎ. Pentru a ilustra
ı̂nsǎ diferenţa dintre probabilitǎţi şi statisticǎ sǎ considerǎm douǎ urne: una probabilistǎ
şi una statisticǎ. În cazul urnei probabiliste se ştie cǎ urna conţine 5 bile albe, 5 bile
negre şi 5 bile roşii; problema de probabilitate este dacǎ scoatem o bilǎ, care este şansa
ca aceasta sǎ fie albǎ? În cazul unei urne statistice nu cunoaştem care este combinaţia
de bile din urnǎ. Extragem un eşantion şi din acest eşantion conjecturǎm ce credem cǎ
se gǎseşte ı̂n urnǎ. Trebuie reţinutǎ deosebirea: probabilitatea pune ı̂ntrebarea şansei
ca ceva (un eveniment) sǎ se ı̂ntâmple atunci când se cunosc posibilitǎţile (se cunoaşte

3
populaţia). Statistica ne cere sǎ facem un eşantion, sǎ analizǎm eşantionul şi pe urmǎ sǎ
facem predicţie asupra populaţiei pe baza informaţiei gǎsite ı̂n eşantion.

Remarca 1.2. Folosirea corectǎ şi folosirea greşitǎ a statisticii


Utilizarea statisticii este nelimitatǎ. Este greu de gǎsit un domeniu ı̂n care statistica nu
se foloseşte. Iatǎ câteva exemple, unde şi cum este folositǎ statistica:

• ı̂n educaţie; statistica descriptivǎ este adesea folositǎ pentru a prezenta rezultatele;

• ı̂n ştiinţǎ; rezultatele experimentale trebuiesc colectate şi analizate;

• guvernele; adunǎ diferite date statistice tot timpul.

Mulţi oameni sunt indiferenţi faţǎ de descrierea statisticǎ, alţii cred cǎ statisticile sunt
minciuni. Majoritatea minciunilor statistice sunt inocente şi rezultǎ din folosirea unei
statistici neadecvate sau date obţinute dintr-un eşantion nepotrivit. Toate acestea conduc
la o ı̂nţelegere greşitǎ a informaţiei din partea consumatorului. Folosirea greşitǎ a
statisticii duce uneori la ı̂ncurcǎturi.

Remarca 1.3. Statistica şi calculatorul


În ultimul deceniu calculatorul a avut un rol important ı̂n aproape toate aspectele vieţii.
Domeniul statististicii nu face excepţie. Statistica foloseşte multe tehnici care au o
naturǎ repetitivǎ; formule pentru a calcula statistici descriptive, proceduri de urmat
pentru a formula predicţii. Calculatorul este foarte bun pentru a face asemenea operaţii
repetitive. Dacǎ calculatorul are un soft standard statistic este mult mai uşoarǎ analiza
unor date statistice. Cele mai cunoscute softuri statistice sunt: Minitab, Biomed (program
biomedical), SAS (Sistem de analizǎ statisticǎ), IBM Scientific Subroutine Packages şi
SPSS (pachet statistic pentru ştiinţe sociale).

4
2 Noţiuni de bazǎ

Definiţia 2.1. Populaţia este o colecţie (mulţime) de indivizi, obiecte sau date numerice
obţinute prin mǎsurǎtori ale cǎrei proprietǎţi trebuiesc analizate.
Remarca 2.1. Populaţia este colecţia completǎ de indivizi, obiecte sau date numerice
obţinute prin mǎsurǎtori care prezintǎ interes (pentru cel care colecteazǎ eşantionul).
Conceptul de populaţie este fundamental ı̂n statisticǎ. Populaţia trebuie definitǎ cu grijǎ
şi se considerǎ complet definitǎ dacǎ lista membrilor este specificatǎ. Mulţimea studenţilor
Facultǎţii de Matematicǎ şi Informaticǎ este o populaţie bine definitǎ.
Dacǎ auzim cuvântul populaţie de obicei ne gândim la o mulţime de oameni. În statisticǎ
populaţia poate fi o mulţime de animale, de obiecte fabricate sau de date numerice
obţinute prin mǎsurǎtori. De exemplu mulţimea ”ı̂nǎlţimilor” studenţilor facultǎţii de
Matematicǎ şi Informaticǎ este o populaţie.
Definiţia 2.2. Eşantionul este o submulţime a unei populaţii.
Remarca 2.2. Un eşantion constǎ din indivizi, obiecte sau date mǎsurate selectate din
populaţie (de cǎtre colectorul de eşantion).
Definiţia 2.3. O variabilǎ de rǎspuns (simplu variabilǎ) este o caracteristicǎ (de
obicei numericǎ) care prezintǎ interes ı̂n cazul fiecǎrui element (individ) al unei populaţii.
Remarca 2.3. Vârsta studentului, media lui, culoarea pǎrului, ı̂nǎlţimea, greutatea
ş.a.m.d. sunt variabile de rǎspuns ı̂n cazul populaţiei: studenţii de la Facultatea de
Matematicǎ şi Informaticǎ.
Definiţia 2.4. O datǎ (la singular) este ”valoarea” unei variabile de rǎspuns ı̂n cazul
unui element al populaţiei sau eşantionului.
Exemplul 2.1. Popescu Nicolae are vı̂rsta de ”19 ani”, media 8.50, pǎrul lui este
”castaniu”, ı̂nǎlţimea lui este ”1 m şi 75 cm”, iar greutatea lui este ”65 kg”. Aceste cinci
”valori” ale celor cinci variabile de rǎspuns (Remarca 2.3) ı̂n cazul lui Popescu Nicolae
sunt ”cinci” date.
Definiţia 2.5. ”Valorile” unei variabile de rǎspuns ı̂n cazul unei populaţii sau a unui
eşantion constituie un set de date . Într-un set de date aceeaşi datǎ apare de atâtea ori
de câte ori variabila are aceastǎ ”valoare”.
Exemplul 2.2. Cele 25 de ı̂nǎlţimi ı̂n cazul unui eşantion de 25 de studenţi este un set
de 25 de date nu neapǎrat diferite.
Definiţia 2.6. O activitate planificatǎ ı̂n urma cǎreia se obţine un set de date se numeşte
experiment sau sondaj.
Definiţia 2.7. Parametru este o caracteristicǎ numericǎ a unei populaţii.
Exemplul 2.3. Procentul de studenţi de la Facultatea de Matematicǎ şi Informaticǎ care
au promovat toate examenele la sesiunea din iarnǎ este un exemplu de parametru ı̂n cazul
populaţiei: studenţii de la Facultatea de Matematicǎ şi Informaticǎ.
Remarca 2.4. Parametrul este o valoare numericǎ care se referǎ la ı̂ntreaga populaţie.
În statisticǎ se obişnuieşte ca parametrul sǎ fie notat cu literǎ greceascǎ.

5
Definiţia 2.8. O statisticǎ este o caracteristicǎ numericǎ a unui eşantion

Exemplul 2.4. Înǎlţimea medie gǎsitǎ folosind cele 25 de ı̂nǎlţimi ı̂n cazul unui eşantion
de 25 de studenţi este un exemplu de statisticǎ (de eşantion).

Remarca 2.5. O statisticǎ este o valoare numericǎ care se referǎ la un eşantion.


Statisticile (de eşantion) se noteazǎ cu literele alfabetului latin.

6
3 Colectarea datelor

Prima problemǎ a statisticianului este colectarea unui set de date. Aceasta presupune
definirea prealabilǎ a obiectivelor sondajului (experimentului) a populaţiei şi a variabilei.
Exemple de obiective:

a) Compararea eficacitǎţii unui medicament nou cu eficacitatea unui medicament


standard;
b) Estimarea venitului mediu al unei familii din judeţ.

Exemple de populaţii şi variabile corespunzǎtoare:

a) pacienţii care suferǎ de o boalǎ care se trateazǎ cu medicamentul considerat


reprezintǎ populaţia, iar timpul de recuperare reprezintǎ variabila;
b) familiile din judeţ reprezintǎ populaţia, iar venitul total al unei familii din judeţ
reprezintǎ variabila.

Tot ı̂nainte de colectarea setului de date trebuie hotǎrât dacǎ setul de date se constituie
pentru ı̂ntreaga populaţie sau doar pentru un eşantion. Dacǎ setul de date se constituie
pentru ı̂ntreaga populaţie atunci se face un recensǎmânt.
Definiţia 3.1. Un recensǎmânt este o enumerare sau o listare a fiecǎrui element al
populaţiei ı̂mpreunǎ cu data (valoarea variabilei) corespunzǎtoare elementului.

În cazul unei populaţii mari, constituirea unui set de date la nivelul populaţiei este dificil
şi costisitor. De aceea, ı̂n cazul ı̂n care nu este posibilǎ realizarea unui recensǎmânt,
setul de date se constituie doar pentru o parte a populaţiei, pentru un eşantion. Selecţia
elementelor pentru eşantion se face dintr-un cadru de eşantionare.
Definiţia 3.2. Cadrul de eşantionare este o listǎ de elemente care aparţin populaţiei,
din care va fi extras eşantionul.
Remarca 3.1. Deoarece numai elementele din cadrul eşantionului au şansa sǎ fie selectate
pentru eşantion, din perspectiva variabilei de rǎspuns cadrul de eşantion trebuie sǎ fie
reprezentativ pentru populaţie.
Remarca 3.2. În cazul unei populaţii de indivizi listele de alegǎtori sau cǎrţile de telefon
sunt folosite adesea drept cadru de eşantion. În funcţie de variabila de rǎspuns acestea
pot fi cadre de eşantion potrivite sau nepotrivite.
Remarca 3.3. Dupǎ definirea cadrului eşantionului se trece la stabilirea modului de
alegere a elementelor eşantionului. Acest proces se numeşte proiectarea eşantionului.
Definiţia 3.3. Proiectarea eşantionului ı̂nseamnǎ stabilirea procedurii de alegere a
elementelor eşantionului din cadrul eşantionului.

Existǎ mai multe procedee de alegere a elementelor eşantionului. În mare aceste procedee
ı̂mpreunǎ cu eşantioanele corespunzǎtoare se ı̂mpart ı̂n douǎ categorii: procedee bazate
pe reprezentativitate şi procedee probabiliste.

7
Definiţia 3.4. Eşantioane bazate pe reprezentativitate sunt acelea pentru care
elementele se aleg astfel ı̂ncât din perspectiva variabilei de rǎspuns, elementul ales sǎ fie
reprezentativ pentru populaţie.

Exemplul 3.1. Din perspectiva variabilei de rǎspuns: ”cursul A este util sau nu ı̂n
formarea dumneavoastrǎ profesionalǎ?”, studenţii din cadrul unui eşantion care nu au
frecventat cursul nu sunt reprezentativi. Deci nu sunt aleşi ı̂n eşantion.

Definiţia 3.5. Un eşantion pentru care elementele sunt selectate pe bazǎ probabilistǎ;
oricare element din cadrul eşantionului are o anumitǎ şansǎ nenulǎ sǎ fie selectat; se
numeşte eşantion probabilist.

Remarca 3.4. Inferenţe statistice cer ca eşantionul sǎ fie probabilist. Eşantioanele
probabiliste aleatoare sunt cele mai familiare eşantioane probabiliste.

Definiţia 3.6. Un eşantion de mǎrimea n este eşantion probabilist aleator dacǎ orice
eşantion de mǎrimea n ales din acelaşi cadru are aceeaşi probabilitate sǎ fie ales.

Remarca 3.5. Cea mai rǎspânditǎ metodǎ de a colecta date foloseşte eşantion aleator
simplu.

Definiţia 3.7. Un eşantion probabilist aleator pentru care elementele sunt selectate dintr-
un cadru ı̂n care elementele au aceeaşi probabilitate sǎ fie alese se numeşte eşantion
aleator simplu.

Remarca 3.6. Atunci când se construieşte un eşantion probabilist aleator simplu trebuie
avutǎ grijǎ ca fiecare element din cadrul eşantionului sǎ aibe aceeaşi probabilitate sǎ fie
selectat. Adesea se fac greşeli pentru cǎ termenul ”aleator” este confundat cu ”ales
la ı̂ntâmplare”. Un procedeu corect de selectare a unui eşantion probabilist aleator
simplu este acela care foloseşte un generator de numere aleatoare sau o tabelǎ de numere
aleatoare. Prima oarǎ se numeroteazǎ elementele din cadrul de eşantionare. Dupǎ aceasta
ı̂n tabelul cu numere aleatoare se aleg atâtea numere câte sunt necesare pentru eşantion.
Fiecare element din cadrul de eşantionare, al cǎrui numǎr coincide cu un numǎr selectat
din tabelul de numere aleatoare va fi ales pentru eşantion.

Exemplul 3.2. Dacǎ cadrul eşantionului este o listǎ de 4265 de studenţi atunci ei sunt
numerotaţi de la 0001; 0002; ...; 4265. Pentru un eşantion de 50 de studenţi se aleg 50 de
numere aleatoare cu patru cifre şi se identificǎ studenţii din cadrul eşantionului.

Definiţia 3.8. Eşantionul sistematic se construieşte alegând fiecare al k-lea element


din cadrul eşantionului.

Remarca 3.7. În aceastǎ selecţie se foloseşte tabela de numere aleatoare o singurǎ datǎ,
pentru a determina punctul de plecare.

Exemplul 3.3. Dacǎ se considerǎ un cadru de eşantion de 245 de studenţi ai Facultǎţii


de Matematicǎ şi Informaticǎ şi se doreşte un eşantion sistematic format din 15 studenţi
atunci:

1) asociem fiecǎrui student un numǎr de la 1 la 245;

8
2) se calculeazǎ k (pasul de numǎrare) folosind urmǎtoarea relaţie:
· ¸ · ¸
numǎrul de elemente din cadrul eşantionului 245
k= = = 16
numǎrul de elemente din eşantion 15

3) se alege punctul de plecare ı̂ntre 1 şi numǎrul k cu ajutorul unui tabel de numere
aleatoare.

Dacǎ acest numǎr este 10, atunci obţinem eşantionul:

10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.
245
Deoarece k = = 16, 33, nu este un numǎr ı̂ntreg, pasul de numǎrare poate fi şi 17. În
15
acest caz eşantionul sistematic obţinut este de numai 14 elemente.

Remarca 3.8. Este o procedurǎ bunǎ pentru a eşantiona un procentaj ı̂n cazul
populaţiilor mari. Pentru a selecta un eşantion sistematic de x% dintr-o populaţie, un
element din 100/x va fi selectat (dacǎ 100/x nu este ı̂ntreg se ia partea ı̂ntreagǎ).

Remarca 3.9. Folosirea eşantionului sistematic nu este potrivitǎ dacǎ populaţia este
repetitivǎ sau ciclicǎ ı̂n naturǎ.(din perspectiva variabilei de rǎspuns)

Exemplul 3.4. Dacǎ se doreşte estimarea numǎrului studenţilor admişi la Facultatea de


Matematicǎ şi Informaticǎ care au depǎşit vârsta de 20 de ani şi se foloseşte eşantionarea
sistematicǎ extrǎgând din lista candidaţilor admişi numai pe cei de pe poziţiile care sunt
multiplu de 5, existǎ posibilitatea ca toţi candidaţii admişi pe poziţiile respective sǎ aibǎ
sub 20 de ani. Un asemenea eşantion spune ca nu au fost admişi candidaţi peste 20 de
ani, ceea ce nu poate fi susţinut.

Când se eşantioneazǎ populaţii foarte mari, atunci când este posibil se ı̂mparte populaţia
ı̂n douǎ subpopulaţii pe baza unor caracteristici. Aceste subpopulaţii se numesc straturi,
iar straturile sunt eşantionate separat.

Definiţia 3.9. Un eşantion obţinut ı̂n urma stratificǎrii cadrului eşantionului şi prin
selectarea unui numǎr dat de elemente din fiecare strat se numeşte eşantion stratificat.

Remarca 3.10. Când se proiecteazǎ un eşantion stratificat, cadrul se ı̂mparte ı̂n douǎ sau
mai multe straturi şi ı̂n fiecare strat se proiecteazǎ un subeşantion. Aceste subeşantioane
pot fi aleatoare, sistematice sau de alt gen. Dupǎ aceea subeşantioanele sunt asamblate
ı̂ntr-un singur eşantion pentru a colecta un set de date.

Exemplul 3.5. Pentru studierea unei caracteristici a populaţiei studenţilor din Facul-
tatea de Matematicǎ şi Informaticǎ, aceastǎ populaţie poate fi ı̂mpǎrţitǎ:
- pe domenii: informaticǎ, matematicǎ
- pe ani de studiu.

Definiţia 3.10. Eşantion cotǎ (sau eşantion proporţional) este un


eşantion stratificat care se construieşte prin selectarea unui numǎr de elemente din fiecare
strat dupǎ o anumitǎ cotǎ sau proporţional cu mǎrimea stratului.

9
Exemplul 3.6. Dacǎ se doreşte construirea unui eşantion de 150 de studenţi din populaţia
studenţilor Facultǎţii de Matematicǎ şi Informaticǎ putem face stratificarea dupǎ anii de
studiu. În acest caz, numǎrul de studenţi ce va fi selectat din fiecare an ce va fi selectat
va fi proporţional cu numǎrul total de studenţi din anul respectiv:

Anul de studiu Numǎr studenţi Cota Nr. studenţi


selectat ı̂n eşantion:
Anul I 431 36.49% 54
Anul II 303 25.65% 40
Anul III 206 17.44% 26
Anul IV 240 20.40% 30

Eşantionul va fi format din 54 de studenţi din anul I, 40 de studenţi din anul II, 26 de
studenţi din anul III şi 30 de studenţi din anul IV.

O altǎ metodǎ de eşantionare care pleacǎ de la stratificarea populaţiei este eşantionul


ciorchine.

Definiţia 3.11. Eşantionul ciorchine este un eşantion stratificat care se construieşte


prin selectarea de eşantioane din anumite straturi (nu din toate).

Exemplul 3.7. Dacǎ se doreşte realizarea unui eşantion ciorchine format din studenţii
Universitǎţii de Vest din Timişoara, aceastǎ populaţie poate fi startificatǎ ı̂n funcţie
de specializarea pe care au ales-o studenţii selecţionând eşantioane doar de la câteva
specializǎri (nu de la toate).

Remarca 3.11. Eşantionul ciorchine se obţine folosind numere aleatoare sau o metodǎ
sistematicǎ pentru identificarea straturilor (ciorchine) care trebuiesc eşantionate, dupǎ
care fiecare din aceste straturi este eşantionat. Subeşantioanele asamblate formeazǎ un
eşantion ciorchine.

Într-un caz concret procedeul de eşantionare care se foloseşte depinde de populaţie de


variabilǎ de dificultatea eşantionǎrii şi de cost. Dupǎ determinarea eşantionului se poate
trece la colectarea setului de date.

10
4 Determinarea frecvenţei şi gruparea datelor

Dupǎ colectarea unui set de date urmeazǎ prelucrarea primarǎ a datelor. Determinarea
frecvenţei şi gruparea datelor este un procedeu de prelucrae primarǎ a datelor şi este
utilizat atunci când numǎrul datelor este mare.
Pentru a prezenta conceptul de frecvenţǎ sǎ considerǎm urmǎtorul set de date:

3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1

Valoarea 0 apare ı̂n acest set o singurǎ datǎ prin urmare frecvenţa pentru 0 este unu.
Valoarea 1 apare ı̂n acest set de trei ori prin urmare frecvenţa pentru 1 este trei.
Valoarea 2 apare ı̂n acest set de opt ori prin urmare frecvenţa pentru 2 este opt.
Valoarea 3 apare ı̂n acest set cinci ori prin urmare frecvenţa pentru 3 este cinci.
Valoarea 4 apare ı̂n acest set de douǎ ori prin urmare frecvenţa pentru 4 este doi.
Frecvenţa datelor 0,1,2,3,4 care apar ı̂n setul de date este redatǎ ı̂n tabelul urmǎtor:

x f
0 1
1 3
2 8
3 5
4 3
Definiţia 4.1. Frecvenţa f (din coloana a doua) aratǎ de câte ori apare valoarea variabilei
x ı̂n setul de date.

Atunci când ı̂ntr-un set de date multe sunt distincte (ı̂n loc de câteva ca ı̂n cazul precedent)
se grupeazǎ datele ı̂n clase şi apoi se construiesc frecvenţe pentru clase.
Pentru a ilustra acest procedeu considerǎm urmǎtorul set de date:

82 74 88 66 58
62 68 72 92 86
74 78 84 96 76
76 52 76 82 78

Vom pune ı̂n aceeaşi clasǎ toate datele la care prima cifrǎ este aceeaşi şi obţinem
urmǎtoarele cinci clase:

50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99

(50 − 59 este clasa formatǎ cu toate datele la care prima cifrǎ este 5, ş.a.m.d.).
Aceste clase nu se intersecteazǎ (nu existǎ date care sǎ aparţinǎ la douǎ clase) şi oricare
din date aparţine unei clase.
Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.
Datele care aparţin unei clase sunt mai mari decât limita inferioarǎ a clasei şi mai mici
decât limita superioarǎ a clasei.

11
Definiţia 4.2. Lǎţimea unei clase definitǎ ca diferenţa dintre limita inferioarǎ a clasei
urmǎtoare şi limita inferioarǎ a clasei (este egalǎ cu 10 şi este aceeaşi pentru toate clasele
ı̂n exemplul de mai sus) lǎţimea clasei nu este egalǎ cu diferenţa dintre limita superioarǎ
şi limita inferioarǎ a clasei.

Definiţia 4.3. Frontierele unei clase definite ca media aritmeticǎ dintre limita superioarǎ
a clasei şi limita inferioarǎ a clasei urmǎtoare sunt:

49, 5; 59, 5; 69, 5; 79, 5; 89, 5; 99, 5.

Definiţia 4.4. Marca unei clase definitǎ ca media aritmeticǎ dintre limita superioarǎ şi
limita inferioarǎ a clasei, ı̂n acest caz este:

50 + 59
54.5 = ı̂n cazul clasei 50 − 59
2
60 + 69
64.5 = ı̂n cazul clasei 60 − 69
2
70 + 79
74.5 = ı̂n cazul clasei 70 − 79
2
80 + 89
84.5 = ı̂n cazul clasei 80 − 89
2
90 + 99
94.5 = ı̂n cazul clasei 90 − 99
2
Frecvenţa ı̂n acest caz este numǎrul de date dintr-o clasǎ. Frecvenţa datelor pe clase este:

ı̂n cazul clasei 50 − 59 2 date

ı̂n cazul clasei 60 − 69 3 date

ı̂n cazul clasei 70 − 79 8 date

ı̂n cazul clasei 80 − 89 5 date

ı̂n cazul clasei 90 − 99 2 date

În general, ı̂n cazul grupǎrii datelor pe clase şi a determinǎrii frecvenţei trebuiesc
respectate urmǎtoarele reguli:

1) Clasele nu trebuie sǎ se intersecteze şi fiecare datǎ din setul de date trebuie sǎ
aparţinǎ la o clasǎ;

2) Fiecare clasǎ trebuie sǎ aibe aceeaşi lǎţime.

Procedeul concret de grupare este urmǎtorul:

12
i) Se identificǎ cea mai mare datǎ H şi cea mai micǎ datǎ L şi se determinǎ plaja:
R = H − L.

ii) Se alege numǎrul de clase m şi lǎţimea clasei c (dacǎ se poate numǎr impar) astfel
ca produsul m · c sǎ fie puţin mai mare ca plaja R.

iii) Se alege un punct de plecare I care este puţin mai mic decât cea mai micǎ datǎ L.
Adǎugǎm la I multiplii lui c (c este lǎţimea clasei) şi obţinem numerele:

I, I + c, I + 2c, I + 3c, ..., I + (m − 1)c

Aceste numere sunt limitele inferioare ale claselor.

iv) Limitele superioare se stabilesc astfel ı̂ncât sǎ fie respectate condiţiile 1) şi 2).

v) Se determinǎ frecvenţa fiecǎrei clase numǎrând elementele din fiecare clasǎ.

13
5 Prezentarea datelor

Prezentarea unui set de date poate fi fǎcutǎ sub diferite forme şi face parte din prelucrarea
primarǎ a datelor.

Prezentarea datelor sub formǎ de serii

Definiţia 5.1. Seria de distribuţie este un ansamblu de douǎ şiruri finite dintre care
primul este şirul elementelor distincte din setul de date statistice sau şirul claselor obţinute
prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este şirul de
frecvenţe corespunzǎtoare.

Exemplul 5.1. În cazul setului de date statistice:

3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1

seria de distribuţie este: µ ¶


0 1 2 3 4
X
1 3 8 5 3

Exemplul 5.2. În cazul claselor 50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99 obţinute prin
gruparea datelor din setul de date:

82 74 88 66 58 74 78 84 96 76
62 68 72 92 86 76 52 76 82 78

seria de distribuţie este:


µ ¶
50 − 59 60 − 69 70 − 79 80 − 89 90 − 99
X
2 3 8 5 2

În general, o serie de distribuţie aratǎ ı̂n felul urmǎtor:


µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn

şi oricare ar fi nivelul de grupare al datelor, xi având frecvenţa fi , se numeşte termenul


seriei de distribuţie.

Remarca 5.1. Adesea ı̂n prezentarea seriilor de distribuţie ı̂n locul frecvenţei fi se
foloseşte frecvenţa relativǎ:
fi
fi0 = n
X
fj
j=1

sau sub formǎ procentualǎ:


fi00 = fi0 · 100

14
Definiţia 5.2. Valoarea datei care apare cu cea mai mare frecvenţǎ ı̂ntr-o serie de
distribuţie de date statistice se numeşte mod.

Definiţia 5.3. Clasa cu cea mai mare frecvenţǎ ı̂ntr-o serie de distribuţie de date grupate
se numeşte clasǎ modalǎ.

Definiţia 5.4. Serie bimodalǎ este o serie de distribuţie de date grupate ı̂n care apar
douǎ clase modale, separate de clase cu frecvenţǎ mai joasǎ.

Definiţia 5.5. Frecvenţa cumulatǎ a unei clase este suma frecvenţelor tutror claselor
cu valori mai mici (marca mai micǎ).

Definiţia 5.6. Seria dinamicǎ (temporalǎ, cronologicǎ) este un şir dublu dintre
care primul este şirul de valori ale variabilei de rǎspuns, iar cel de-al doilea şir este şirul
de momente de timp la care variabila are aceste valori. În general, o serie dinamicǎ
(temporalǎ) se noteazǎ astfel:
µ ¶
x1 x2 x3 · · · xn
X
t1 t2 t3 · · · tn

Prezentarea datelor sub formǎ de tabele statistice


Tabelele statistice sunt foarte variate şi se folosesc pentru ordonarea datelor statistice
dintr-un set de date ı̂n vederea aplicǎrii metodelor de calcul şi de interpretare statisticǎ.
În funcţie de numǎrul de caracteristici prezentate ı̂n tabel existǎ tabele simple, tabele cu
dublǎ intrare, tabele pe grupe, etc.

Prezentarea datelor sub formǎ graficǎ


Existǎ mai multe metode de prezentare graficǎ a unui set de date statistice. Metoda
de prezentare graficǎ este determinatǎ de tipul de date şi de ideea de prezentare. De
la ı̂nceput trebuie sǎ fie clar cǎ existǎ mai multe cǎi de a dispune grafic anumite date
statistice. Judecata analistului şi circumstanţele din jurul problemei joacǎ un rol major
ı̂n alegerea modului de dispunere graficǎ a datelor statistice.

Definiţia 5.7. Graficele de reprezentare a seriilor statistice fǎrǎ grupare se numesc


diagrame.

Definiţia 5.8. Diagrama cerc a seriei de distribuţie (fǎrǎ grupare)


µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn

este un cerc ı̂mpǎrţit ı̂n n sectoare de cerc S1 , S2 , ..., Sn astfel ı̂ncât aria sectorului Si este
egalǎ cu
fi
fi00 = n · 100
X
fj
j=1

procente din aria cercului.

15
Exemplul 5.3. În cazul seriei de distribuţie din exemplul 5.1
µ ¶
0 1 2 3 4
X
1 3 8 5 3

cercul se ı̂mparte ı̂n cinci sectoare având ariile egale cu 5%, , 15%, 40%, 25%, 15% din
aria cercului

Definiţia 5.9. Diagrama coloanǎ a seriei de distribuţie (fǎrǎ grupare):


µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn

este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale şi sunt aşezate pe
axa Ox, iar ı̂nǎlţimile lor sunt f1 , f2 , ..., fn

Exemplul 5.4. În cazul seriei de distribuţie din exemplul 5.1:


µ ¶
0 1 2 3 4
X
1 3 8 5 3

diagrama coloanǎ este:

16
Definiţia 5.10. Diagrama linie (ramurǎ-frunzǎ) a seriei de distribuţie (fǎrǎ grupare)
µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn

este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale şi sunt aşezate pe
axa Oy, iar lungimile lor sunt f1 , f2 , ..., fn .

Exemplul 5.5. În cazul seriei de distribuţie din exemplul 5.1:


µ ¶
0 1 2 3 4
X
1 3 8 5 3

diagrama linie este:

Definiţia 5.11. Histograma seriei de distribuţie cu grupare


µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn

este un set de n dreptunghiuri care reprezintǎ clasele. Bazele acestor dreptunghiuri


sunt egale (clasele au aceeaşi lǎţime) şi sunt aşezate pe axa Ox, iar ı̂nǎlţimile lor sunt
f1 , f2 , ..., fn .

Exemplul 5.6. În cazul seriei de distribuţie din exemplul 5.2:


µ ¶
50 − 59 60 − 69 70 − 79 80 − 89 90 − 99
X
2 3 8 5 2

histograma este:

17
Remarca 5.2. În cazul histogramei o coloanǎ reprezintǎ un numǎr de date diferite spre
deosebire de diagrama coloanǎ.

Remarca 5.3. O histogramǎ are urmǎtoarele componente:

i) Un titlu care identificǎ populaţia la care se referǎ;

ii) O scarǎ orizontalǎ pe care se identificǎ variabila X, valorile limitelor claselor,


frontierele claselor, mǎrcile claselor.

iii) O scarǎ verticalǎ pe care se identificǎ frecvenţele pentru fiecare clasǎ.

Definiţia 5.12. O histogramǎ de frecvenţe relative este o histogramǎ obţinutǎ dintr-


o histogramǎ ı̂nlocuind frecvenţele cu frecvenţe relative.

Frecvenţa relativǎ (este o mǎsurǎ proporţionalǎ cu frecvenţa ı̂n cauzǎ) se obţine prin
ı̂mpǎrţirea frecvenţei clasei la numǎrul total de elemente din setul de date.

Definiţia 5.13. Ogiva unei serii de distribuţie de clase cu frecvenţe relative cumulate
este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale şi aşezate pe axa Ox, iar
ı̂nǎţimile lor sunt frecvenţele relative cumulate.

Ogiva are urmǎtoarele componente:

1. Un titlu care identificǎ populaţia.

2. O scarǎ orizontalǎ pe care sunt marcate frontierele superioare ale claselor.

3. O scarǎ verticalǎ pe care sunt marcate frecvenţele relative cumulate pentru fiecare
clasǎ.

18
6 Parametrii şi statistici ai tendinţei centrale

O categorie de caracteristici numerici asociaţi unui set de date statistice sunt: parametrii
tendinţei centrale ı̂n cazul populaţiilor şi statistici ale tendinţei centrale ı̂n cazul
eşantioanelor. Întrucât aceştia au definiţii analoage vom prezenta doar statistici ale
tendinţei centrale.

Definiţia 6.1. Statistici ale tendinţei centrale sunt valori numerice asociate unui set
de date statistice care localizeazǎ ı̂ntr-un anumit sens mijlocul mulţimii de date statistice.

Definiţia 6.2. Media aritmeticǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie suma acestor date ı̂mpǎrţitǎ la numǎrul datelor
n
X
xi
i=1
x=
n
Remarca 6.1. Atunci când datele sunt prezentate sub forma unei serii de distribuţie
(fǎrǎ grupare ı̂n clase), media aritmeticǎ se gǎseşte cu formula:
m
X
xj · f j
j=1
x= m
X
fj
j=1

Remarca 6.2. În cazul unei serii de distribuţie (cu grupare ı̂n clase) formula de calcul a
mediei este: X
x · fx
x= X
fx
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.

Definiţia 6.3. Media pǎtraticǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie numǎrul: v
uX n
u
u x2i
t
i=1
xp =
n
Remarca 6.3. Dacǎ datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ
grupare ı̂n clase), media pǎtraticǎ se gǎseşte cu formula:
v
uX m
u
u x2j · fj
u
u j=1
xp = u m
u X
t f j
j=1

19
Remarca 6.4. În cazul unei serii de distribuţie cu grupare ı̂n clase media pǎtraticǎ este
prin definiţie: v
uX 2
u x · fx
u
xp = t X
fx

ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.
Definiţia 6.4. Media armonicǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie numǎrul:
n
xh = n
X 1

i=1
xi

Remarca 6.5. Dacǎ datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ
grupare ı̂n clase), media armonicǎ se gǎseşte cu formula:
m
X
fj
j=1
xh = m
X 1
· fj
j=1
xj

Remarca 6.6. În cazul unei serii de distribuţie cu grupare ı̂n clase media armonicǎ este
prin definiţie:
Xn
fx
i=1
xh = n
X 1
· fx
i=1
x
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.
Definiţia 6.5. Media geometicǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie numǎrul: v
u n
uY
xp = tn
xi
i=1

Remarca 6.7. Dacǎ datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ
grupare ı̂n clase), media geometricǎ se gǎseşte cu formula:

Remarca 6.8. În cazul unei serii de distribuţie cu grupare ı̂n clase media geometricǎ este
prin definiţie: ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma
se extinde pe ansamblul claselor.

20
Definiţia 6.6. Mediana me a unui set de date statistice distincte ordonate dupǎ mǎrime
x1 < x2 < ... < xn este numǎrul care ı̂mparte setul de date ı̂n douǎ grupe egale ca numǎr:

- dacǎ n = 2 · k + 1, atunci me este valoarea de rangul k + 1: me = xk+1 ;


- dacǎ n = 2 · k, atunci orice numǎr ı̂ntre valorile xk şi xk+1 satisface condiţia din
definiţia lui me . În acest caz se convine ca me sǎ fie media aritmeticǎ a valorilor
xk + xk+1
xk şi xk+1 : me = .
2
Exemplul 6.1. În cazul setului de date statistice:

4 7 12 26 32 38 59

mediana este me = 26.


În cazul setului de date statistice:

4 7 12 26 32 38
12 + 26
mediana este me = = 19.
2
Remarca 6.9. Mediana me ı̂n acest caz are proprietatea cǎ suma frecvenţelor valorilor
mai mari decât me este egalǎ cu suma frecvenţelor valorilor mai mici decât me .
Remarca 6.10. Dacǎ datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianei
poate sǎ nu fie adevǎratǎ. În cazul setului de date statistice:

1 1 1 2 3 3 4

Seria de distribuţie corespunzǎtoare este:


1 2 3 4
3 1 2 1
Conform definiţiei lui me ı̂n acest caz me = 2, 5. Aceastǎ valoare a lui me nu rǎspunde
cerinţei cǎ me este o valoare cu proprietatea cǎ valorile mai mari sau mai mici decât ea
apar cu frecvenţe cumulate egale; frecvenţa celor mai mici este 4, iar frecvenǎ celor mai
mari este 3.
Remarca 6.11. Când datele sunt prezentate sub forma unei serii de distribuţie cu sau fǎrǎ
grupare me se calculeazǎ prin procedeul interpolǎrii liniare, bazate pe ipoteza repartiţiei
uniforme a frecvenţelor ı̂n intervalul median.
Definiţia 6.7. Mijlocul plajei este prin definiţie numǎrul:
L+H
Mr =
2
unde L este cea mai micǎ valoare, iar H este cea mai mare valoare a variabilei X

21
7 Parametrii şi statistici ai dispersiei

Dupǎ ce ”mijlocul” unui set de date a fost stabilit urmǎtoarea ı̂ntrebare naturalǎ este:
care sunt parametrii şi statisticile care caracterizeazǎ dispersia (ı̂mprǎştierea) datelor.
Parametrii şi statisticile dispersiei sunt: plaja, deviaţia medie absolutǎ, varianţa, deviaţia
standard şi coeficientul de variaţie. Aceste valori numerice descriu mǎrimea ı̂mprǎştierii
ori a variabilitǎţilor datelor. Datele strâns grupate vor avea ı̂mprǎştiere micǎ, iar cele
care nu sunt grupate (sunt ı̂mprǎştiate) vor avea o dispersie mai mare.

Definiţia 7.1. Plaja P este diferenţa dintre cea mai mare (H) şi cea mai micǎ (L) valoare
a valorilor xi dintr-un set de date:

P =H −L

Deviaţia medie absolutǎ, varianţa şi deviaţia standard mǎsoarǎ dispersia faţǎ de media
aritmeticǎ.

Definiţia 7.2. Deviaţia faţǎ de media aritmeticǎ x a valorii xi a variabilei X este


di = xi − x.

Deviaţia este zero dacǎ şi numai dacǎ xi = x.


Deviaţia este pozitivǎ dacǎ şi numai dacǎ xi > x.
Deviaţia este negativǎ dacǎ şi numai dacǎ xi < x.
n
X
S-ar putea crede cǎ suma deviaţilor (xi − x) poate servi ca mǎsurǎ a dispersiei faţǎ de
i=1
media aritmeticǎ. Dar aceastǎ sumǎ este zero ı̂ntotdeauna:
n
X n
X
(xi − x) = xi − n · x = n · x − n · x = 0
i=1 i=1

Reducerea deviaţiilor poate fi eliminatǎ prin folosirea valorii absolute a deviaţiilor: xi − x.

Definiţia 7.3. Deviaţia medie absolutǎ a setului de date statistice distincte {x1 , x2 , ..., xn }
este prin definiţie:
Xn
|xi − x|
i=1
d=
n
Remarca 7.1. Deviaţia medie absolutǎ, ı̂n cazul ı̂n care datele sunt prezentate sub forma
unei serii de distribuţie fǎrǎ grupare de date se calculeazǎ cu formula:
m
X
|xj − x| · fj
j=1
d= m
X
fj
j=1

22
Remarca 7.2. Deviaţia medie absolutǎ, ı̂n cazul ı̂n care datele sunt prezentate sub forma
unei serii de distribuţie cu grupare de date se calculeazǎ cu formula:
X
|x − x| · fx
d= X
fx
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.

Cu toate cǎ acest parametru al ı̂mprǎştierii nu se foloseşte frecvent, el este o mǎsurǎ a


ı̂mprǎştierii şi aratǎ distanţa medie la care se aflǎ o valoare a variabilei X faţǎ de media
aritmeticǎ.
Mai existǎ o cale de eliminare a reducerii deviaţiilor. Ridicând la pǎtrat deviaţiile
individuale acestea devin pozitive (sau zero). Când aceste pǎtrate sunt adunate rezultatul
Xn
este pozitiv. Suma pǎtratelor deviaţiilor faţǎ de media aritmeticǎ (xi −x)2 este folositǎ
i=1
ı̂n definirea varianţei.
Definiţia 7.4. Varianţa s2 a setului de date statistice distincte {x1 , x2 , ..., xn } este prin
definiţie:
X n
(xi − x)2
i=1
s2 =
n
Remarca 7.3. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie fǎrǎ
grupare de date varianţa s2 se calculeazǎ cu formula:
m
X
(xj − x)2 · fj
j=1
s2 = m
X
fj
j=1

Remarca 7.4. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie cu
grupare de date varianţa s2 se calculeazǎ cu formula:
X
(x − x)2 · fx
2
s = X
fx
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.
Definiţia 7.5. Deviaţia standard (abaterea standard) s a setului de date statistice
distincte {x1 , x2 , ..., xn } este prin definiţie:

n 1
X 2
 (xi − x)2 
 i=1 
s=



 n 

23
Remarca 7.5. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie fǎrǎ
grupare de date deviaţia standard s se calculeazǎ cu formula:
1
X m 
2
 (xj − x)2 · fj 
 j=1 
s=
 m


 X 
fj
j=1

Remarca 7.6. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie cu
grupare de date deviaţia standard s se calculeazǎ cu formula:

X 1
(x − x) · fx 2
2

s= X 
fx

ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.

Remarca 7.7. Deviaţia standard a fost definitǎ cu o formulǎ. Se poate pune ı̂ntrebarea
ce reprezintǎ ea ı̂n realitate? Un rǎspuns la aceastǎ ı̂ntrebare poate fi dat cu inegalitatea
lui Cebı̂şev din care rezultǎ cǎ pentru orice serie de distribuţie fracţiunea de date situatǎ
la cel mult k unitǎţi de deviaţie standard faţǎ de medie este cel puţin 1 − k12 , unde k este
un numǎr pozitiv oarecare mai mare ca 1. Rezultǎ ı̂n particular cǎ pentru orice serie de
distribuţie fracţiunea de date situatǎ la cel mult k = 2 unitǎţi de deviaţie standard faţǎ de
medie este de cel puţin 75% din totalul de date. Dacǎ k = 3 atunci este 89% din totalul
de date.
Conform regulii empirice dacǎ o serie de repartiţie este normalǎ atunci fracţiunea de date
situate la cel mult o unitate de deviaţie standard σ faţa de medie este aproximativ 68%,
iar fracţiunea de date situate la cel mult douǎ unitǎţi de deviaţie standard σ faţǎ de medie
este aproximativ 95%.

Definiţia 7.6. Coeficientul de variaţie V este prin definiţie:


s
V = · 100
x
Remarca 7.8. Coeficientul de variaţie este o statisticǎ relativǎ a dispersiei şi se foloseşte
la compararea dispersiei diferitelor variabile (caracteristici).

Remarca 7.9. V poate lua valori ı̂ntre 0 şi 100%. Dacǎ V este aproape de zero
(V < 35%), atunci populaţia studiatǎ statistic este omogenǎ şi media x este reprezentativǎ
pentru aceastǎ populaţie. Dacǎ V este aproape de 100% (V > 75%), atunci populaţia
studiatǎ statistic este eterogenǎ şi media x nu este reprezentativǎ. De cele mai multe
ori ı̂n asemenea cazuri este necesarǎ separarea populaţiei statistice ı̂n mai multe grupe
omogene, care se studiazǎ separat.

24
8 Parametrii şi statistici factoriali ai varianţei

În analiza varianţei unui set de date statistice se folosesc urmǎtorii parametrii factoriali
ai varianţei:

- varianţa de grupǎ (parţialǎ) s2j

- media varianţelor de grupǎ s2

- varianţa mediilor de grupǎ faţǎ de media generalǎ δ 2

- varianţa totalǎ (generalǎ) s2 .

Definiţia 8.1. Pentru o grupǎ de m date x1 , x2 , ..., xm , varianţa de grupǎ este definitǎ
cu formula: m
X
(xi − xj )2 · nij
i=1
s2j = m
X
nij
i=1

ı̂n care j este indicele grupei, xj este media grupei, xi sunt datele din grupa j având
frecvenţele nij

Remarca 8.1. Varianţele de grupǎ sunt mai mici decât varianţa şi au valori mai mari
sau mai mici ı̂n funcţie de eterogenitatea grupei.

Definiţia 8.2. Prin definiţie media varianţelor de grupǎ este:


k
X
s2j · nj
j=1
s2 = k
X
nj
j=1

m
X
ı̂n care k este numǎrul de grupe, nj = nij este numǎrul de date din grupǎ.
i=1

Definiţia 8.3. Varianţa mediilor de grupǎ faţǎ de media generalǎ este prin
definiţie:
Xk
(xj − x)2 · nj
j=1
δ2 = k
X
nj
j=1

25
9 Parametrii şi statistici ale poziţiei

Parametrii şi statistici ai poziţiei se folosesc pentru a descrie locaţia unei date ı̂n raport
cu celelalte date.
Definiţia 9.1. Quantilele sunt valori numerice care ı̂mpart setul de date ı̂n q grupe
egale. Constanta q se numeşte ordinul quantilei.

Mediana este quantila de ordinul doi.


Quantilele de ordinul patru ı̂mpart setul de date ı̂n patru grupe egale şi se numesc
quartile. Quartilele sunt ı̂n numǎr de trei, notate de obicei cu Q1 , Q2 , Q3 .
Quartila Q1 este un numǎr cu proprietatea cǎ o pǎtrime din date au valori mai mici decât
Q1 şi trei pǎtrimi din date au valori mai mari decât Q1 .
Quartila Q2 este un numǎr cu proprietatea cǎ jumǎtate din date au valori mai mici decât
Q2 şi jumǎtate din date au valori mai mari decât Q2 . Quartila Q2 este chiar mediana.
Quartila Q3 este un numǎr cu proprietatea cǎ trei pǎtrimi din date au valori mai mici
decât Q3 şi o pǎtrime din date au valori mai mari decât Q3 .
Alte categorii de quantile folosite sunt:

- decilele care ı̂mpart setul de date ı̂n 10 grupe egale.

- centilele care ı̂mpart setul de date ı̂n 100 grupe egale.

- promilele care ı̂mpart setul de date ı̂n 1000 grupe egale.

Orice set de date are 99 de centile Pk , k = 1..99. Centila Pk este o valoare numericǎ cu
proprietatea cǎ k% din date are valori mai mici decât Pk , iar (100 − k)% din date au
valori mai mari decât Pk .
Remarca 9.1. Q1 = P25 ; Q3 = P75 ; me = Q2 = P50
Remarca 9.2. Procedeul de determinare a centilei Pk este urmǎtorul:

1) datele se ordoneazǎ crescǎtor;


n·k
2) trebuie gǎsitǎ poziţia i a centilei k. Prima oarǎ se determinǎ numǎrul , unde
100
n·k
n este numǎrul de date. Dacǎ nu este un numǎr ı̂ntreg, atunci i este numǎrul
100
n·k n·k
ı̂ntreg urmǎtor ( = 17.2 → i = 18). Dacǎ este un numǎr ı̂ntreg, atunci i
100 100
n·k n·k
este + 0.5 ( = 23 →
100 100
i = 23.5).

3) localizarea valorii Pk : se numǎrǎ de la valoarea L (cea mai micǎ valoare a datelor) i


valori dacǎ i este ı̂ntreg. Dacǎ i nu este ı̂ntreg atunci este un ı̂ntreg plus o jumǎtate.
n·k n·k
În acest caz valoarea Pk este semisuma datelor de pe locurile şi +1
100 100

O statisticǎ adiţionalǎ a poziţiei este scorul standard sau z-scor.

26
Definiţia 9.2. Scorul standard sau z-scorul este poziţia valorii x faţǎ de mediana x
ı̂n unitǎţi de deviaţie standard:
x−x
z=
s

27
10 Seria de distribuţie a statisticilor
de eşantioane

Pentru a face inferenţǎ (predicţie) asupra parametrilor populaţiei, este necesar sǎ analizǎm
statisticile de eşantioane. Media x ı̂n cazul unui eşantion nu este neaparat egalǎ cu media µ
a populaţiei. Suntem ı̂nsǎ mulţumiţi dacǎ media x este apropiatǎ de µ. Dacǎ se considerǎ
media x0 ı̂n cazul unui al doilea eşantion aceasta poate sǎ fie diferitǎ de x şi de µ. Ceea ce
putem spera este ca aceasta sǎ fie apropiatǎ de valoarea µ şi de x. Valabilitatea acestui
tip de comportament intereseazǎ pentru orice populaţie şi orice statisticǎ.
Întrebarea care se naşte ı̂n mod natural este ce ı̂nseamnǎ aproape? Cum se mǎsoarǎ şi se
determinǎ aceastǎ apropiere? Care este seria de distribuţie a statisticilor de eşantioane?
Definiţia 10.1. Seria de distribuţie a statisticilor de eşantioane este seria de
distribuţie a statisticilor de un anumit tip obţinute pentru eşantioane de aceeaşi mǎrime.
Tipul de statisticǎ poate fi oricare din statisticile prezentate ı̂n secţiunile 6 şi 7.
Exemplul 10.1. Se considerǎ o populaţie de N elemente de la care se pot obţine
urmǎtoarele date statistice distincte: {0, 2, 4, 6, 8}. În cazul acestei populaţii formǎm
eşantioane de mǎrime 2 de la care putem avea urmǎtoarele date statistice:
(0, 0) (2, 0) (4, 0) (6, 0) (8, 0)
(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)
(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)
(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)
(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)
Pentru aceste eşantioane mediile x sunt:
0 1 2 3 4
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
Eşantioanele fiind aleatoare fiecare eşantion, are probabilitatea 1/25 sǎ fie ales şi seria de
distribuţie a mediilor acestor eşantioane este:

x f 0 (x)
0 0.04
1 0.08
2 0.12
3 0.16
4 0.20
5 0.16
6 0.12
7 0.08
8 0.04

unde f 0 (x) este frecvenţa relativǎ a mediei x. Diagrama coloanǎ a mediilor eşantioanelor
este:

28
Pentru acelaşi set de 25 de eşantioane putem determina seria de distribuţie a plajelor R
a acestor eşantioane.
Plajele R ale eşantioanelor sunt date ı̂n tabelul urmǎtor:

0 2 4 6 8
2 0 2 4 6
4 2 0 2 4
6 4 2 0 2
8 6 4 2 0

Seria de distribuţie a plajelor acestor eşantioane este:

R f 0 (R)
0 0.20
2 0.32
4 0.24
6 0.16
8 0.08

iar diagrama coloanǎ a plajei eşantioanelor este:

29
Exemplul 10.2. În cazul aruncǎrii zarului de un numǎr de N ori, setul de date statistice
care se referǎ la numǎrul de pe faţǎ care apare este 1, 2, 3, 4, 5, 6.
Formǎm eşantioane care constau din 5 aruncǎri. Fiecare din aceste eşantioane are media
x. Considerǎm 30 de eşantioane de acest fel (ı̂nseamnǎ 30 × 5 = 150 aruncǎri) şi ı̂ntr-un
tabel reprezentǎm rezultatele precum şi mediile corespunzǎtoare:

Încercare Eşantion x Încercare Eşantion x


1 12322 2.0 16 52135 3.2
2 45545 4.6 17 61335 3.6
3 31524 3.0 18 65526 4.8
4 56642 4.6 19 13556 4.0
5 54164 4.0 20 31531 2.6
6 35615 4.0 21 51143 2.8
7 23632 3.2 22 46312 3.2
8 53462 4.0 23 15345 3.6
9 15534 3.6 24 34133 2.8
10 41526 3.6 25 12414 2.4
11 51332 2.8 26 52163 3.4
12 15231 2.4 27 42563 4.0
13 21153 2.4 28 43134 3.0
14 51446 4.0 29 26533 3.8
15 55633 4.4 30 63511 3.2

Histograma seriei de distribuţie a mediilor celor 30 de eşantioane este reprezentatǎ ı̂n


figura urmǎtoare:

30
Aceastǎ lege de repartiţie pare sǎ aibe caracteristicile unei legi de repartiţie normalǎ; este
maxim şi este simetric faţǎ de media proprie 3.5.

31
11 Teorema limitǎ centralǎ

În secţiunea precedentǎ am prezentat seria de distribuţie a mediei şi plajei unui set de
eşantioane. Media este statistica folositǎ cel mai frecvent ı̂n cazul eşantioanelor şi de aceea
este foarte importantǎ. Teorema limitǎ centralǎ se referǎ la seria de distribuţie a mediei
tuturor eşantioanelor aleatoare de aceeaşi mǎrime n.
Sǎ formulǎm ce anume intereseazǎ ı̂n cazul acestei serii de distribuţie:

1) Unde este centrul datelor?

2) Cât de mare este dispersia datelor?

3) Care este caracterul seriei de distribuţie?

Teorema limitǎ centralǎ oferǎ rǎspuns la aceste trei ı̂ntrebǎri.

Teorema 11.1. Teorema limitǎ centralǎ


Fie µ media şi σ deviaţia standard a unei variabile ı̂n cazul unei populaţii. Dacǎ se
considerǎ toate eşantioanele aleatoare de mǎrime n din aceastǎ populaţie, atunci seria de
distribuţie a mediilor acestor eşantioane are urmǎtoarele proprietǎţi:

a) media µx a acestei serii de distribuţie este egalǎ cu µ;


σ
b) deviaţia standard σx a acestei serii de distribuţie este √ .
n
c) dacǎ seria de distribuţie a variabilei ı̂n cazul populaţiei este normalǎ, atunci seria
de distribuţie a mediilor eşantioanelor este normalǎ; dacǎ seria de distribuţiei a
variabilei ı̂n cazul populaţiei nu este normalǎ, atunci seria de distribuţie a mediilor
eşantioanelor este aproximativ normalǎ pentru eşantioane de mǎrime mai mare ca
30. Tendinţa cǎtre o serie de distribuţie normalǎ creşte dacǎ mǎrimea eşantionului
creşte.

Pe scurt, teorema limitǎ centralǎ stabileşte urmǎtoarele:

1) µx = µ, unde x este media eşantionului x;



2) σx = σ/ n, deviaţia standard a mediei este egalǎ cu deviaţia standard a populaţiei
ı̂mpǎţitǎ cu rǎdǎcina pǎtratǎ a mǎrimii eşantionului.

3) seria de distribuţiei a mediei eşantioanelor este aproximativ normalǎ indiferent de


seria de distribuţiei a variabilei ı̂n cazul populaţiei.

Remarca 11.1. Deviaţia standard σx a seriei de distribuţie a mediilor eşantioanelor


este deviaţia standard a mediilor eşantioanelor faţǎ de media seriei de distribuţie a
eşantioanelor.
Nu vom face demonstraţie teoremei limitǎ centralǎ. Vom ilustra ı̂nsǎ validitatea ei
examinând un caz ilustrativ.

32
Considerǎm o populaţie pentru care seria de distribuţie de date statistice cu frecvenţe
relative ı̂n cazul variabilei X este:
µ ¶
2 4 6
X:
1/3 1/3 1/3
Media µ şi deviaţia standard σ pentru aceastǎ variabilǎ sunt:
v à 3 !2
3 u 3
X uX X
µ= xj · f 0xj σ=t x2j · f 0xj − xj · f 0xj
j=1 j=1 j=1

12
µ= =4 σ = 1, 63
3
În cazul acestei populaţii oricare eşantion de mǎrime doi are urmǎtoarele date posibile:
(2, 2) (2, 4) (2, 6)
(4, 2) (4, 4) (4, 6)
(6, 2) (6, 4) (6, 6)
Eşantioanele au urmǎtoarele medii:
2 3 4
3 4 5
4 5 6

Eşantion Media
(2,2) 2
(2,4) 3
(2,6) 4
(4,2) 3
(4,4) 4
(4,6) 5
(6,2) 4
(6,4) 5
(6,6) 6

1
Eşantioanele fiind aleatoare fiecare eşantion are probabilitatea sǎ fie ales şi seria de
9
distribuţie a mediilor eşantioanelor este:
µ ¶
2 3 4 5 6
X
1/9 2/9 3/9 2/9 1/9
Media seriei de distribuţie a mediilor eşantioanelor µx este µx = 36/9 = 4, 0. Prin urmare
µ = µx , iar deviaţia standard a repartiţiilor mediilor eşantioanelor este:
v à 5 !2 s
u 5 µ ¶2
uX X 156 36
σx = t 2 0
xj · f xj − 0
xj · f x j = − = 1, 15
j=1 j=1
9 9
σ 1, 63 1, 63
√ = √ = = 1, 15 = σx
n 2 1, 44
Reprezentând seria de distribuţie a mediilor eşantioanelor obţinem:

33
Aceastǎ diagramǎ aratǎ cǎ seria de distribuţie a mediilor eşantioanelor este normalǎ.

34
12 O aplicaţie a teoremei limitǎ centralǎ

Teorema limitǎ centralǎ oferǎ informaţii asupra seriei de distribuţie a mediilor eşan-
tioanelor descriind forma repartiţiei mediilor tuturor eşantioanelor (aproape normalǎ).
Ea stabileşte relaţia dintre media µ a populaţiei şi media µx a seriei de distribuţie a
mediilor tuturor eşantioanelor şi relaţia dintre deviaţia standard σ a populaţiei şi deviaţia
standard σx a seriei de distribuţie a mediilor eşantioanelor. Deoarece seria de distribuţie
a mediilor eşantioanelor este aproape normalǎ putem stabili legǎturi probabiliste dintre
media populaţiei şi media unui eşantion.

Exemplul 12.1. Considerǎm o populaţie normalǎ cu µ = 100 şi σ = 20. Dacǎ se alege
un eşantion aleator de mǎrime n = 16 care este probabilitatea ca valoarea medie a acestui
eşantion sǎ fie ı̂ntre 90 şi 110? Altfel spus, cât este P (90 < x < 110)?
Soluţie: Conform teoremei limitǎ centralǎ repartiţia valorilor medii ale eşantioanelor
este normalǎ. Prin urmare va trebui sǎ transformǎm condiţia P (90 < x < 110) ı̂ntr-o
condiţie care sǎ permitǎ folosirea tabelului de distribuţie normalǎ standard. Aceasta se
face scriind: µ ¶ µ ¶
110 − µx 90 − µx
P (90 < x < 110) = Φ −Φ =
σx σx
µ ¶ µ ¶ µ ¶ µ ¶
110 − 100 −10 10 10
=Φ −Φ =2·Φ −1=F
σx σx σx σx
ZX 1 2
1 − t 1
unde Φ(X) = √ e 2 dt şi F (X) = Φ(X) − .
2π 2
−∞
σ 20
Deoarece σx = √ , avem σx = √ = 5 şi astfel obţinem:
n 16
P (90 < x < 110) = 2 · Φ(2) − 1 = 2F (2) = 0.9544

Efectul creşterii dimensiunii n a eşantionului nu afecteazǎ µx = µ şi micşoreazǎ σx . Prin


urmare P (90 < x < 110) creşte, dacǎ n creşte.

Exemplul 12.2. Înǎlţimea copiilor la o grǎdiniţǎ are o distribuţie normalǎ având o medie
µ = 100 cm cu o deviaţie standard de 12, 5 cm. Pentru un eşantion aleator de 25 de copii
se determinǎ media x. Care este probabilitatea ca aceastǎ medie sǎ fie ı̂ntre 90 cm şi 110
cm?
Soluţie:
µ ¶
10
P (90 < x < 110) = 2 · Φ − 1 = 2 · Φ(4) − 1 = 2 · F (4) = 2 · 0.499968
σx

35
13 Estimarea punctualǎ a unui parametru; intervalul
de ı̂ncredere

Considerǎm o populaţie a cǎrei medie µ nu o cunoaştem şi ne punem problema s-o gǎsim.
Pentru acest scop considerǎm un eşantion aleator de dimensiune n pentru care determinǎm
media x. Media x a eşantionului este o estimare punctualǎ a mediei µ a populaţiei.

Definiţia 13.1. O estimare punctualǎ a parametrului γ a unei populaţii este o


valoare g a unei statistici corespunzǎtoare.

Remarca 13.1. Dacǎ x este media eşantioanului cu care estimǎm media necunoscutǎ µ
a populaţiei, aceasta nu ı̂nseamnǎ cǎ x = µ. În general, x 6= µ şi la ceea ce ne putem
aştepta este ca x sǎ fie aproape de µ. Aceastǎ apropiere poate fi fixatǎ prin specificarea
unui interval (centrat ı̂n µ) numit interval de estimare.

Definiţia 13.2. Un interval mǎrginit (a, b) folosit pentru a estima valoarea unui anumit
parametru γ a populaţiei se numeşte interval de estimare. Valorile a, b (capetele
intervalului) sunt calculate din eşantion care este folosit pentru estimare.

Cum anume se poate specifica un interval centrat ı̂n µ care este necunoscut folosind doar
date furnizate de un eşantion va fi lǎmurit ı̂n continuare.

Exemplul 13.1. Considerǎm o populaţie având o deviaţie standard σ cunoscutǎ, o medie


µ necunoscutǎ şi un eşantion aleator simplu de mǎrime n şi medie x cunoscute. Condiţia
x ∈ (µ − 1, µ + 1) ı̂nseamnǎ cǎ scorul standard z (pentru mediile eşantioanelor) dat de:
x − µx x−µ
z= = σ
σx √
n

sǎ verifice: √

1 1 n n
z ∈ (− σ , σ ) = (− , )

n

n
σ σ
Astfel
√ ı̂n termenii
√ scorului standard intervalul de estimare este intervalul (a, b) cu a =
n n
− şi b = .
σ σ
Mai general condiţia x ∈ (µ − δ, µ + δ), ı̂nseamnǎ cǎ scorul standard z (pentru mediile
eşantioanelor) dat de:
x − µx x−µ
z= = σ
σx √
n

sǎ verifice: √√
δ·
n δ· n
z ∈ (− , )
σ σ
√ √
δ· n δ· n
Intervalul de estimare este (− , ).
σ σ
Definiţia 13.3. Nivelul de neı̂ncredere α este probabilitatea ca statistica eşantionului
sǎ aibe valoarea ı̂n afara intervalului de estimare.

36
Conform teoremei de limitǎ centralǎ, repartiţia lui x este normalǎ sau aproape normalǎ
şi avem: µ √ √ ¶
n n
P (µ − 1 < x < µ + 1) = P − <z< =
σ σ
µ √ ¶ µ√ ¶
n n
2·P 0<z < =2·F
σ σ
Zz 1 2
1 − t
unde F (z) = √ e 2 dt.
2·π
0 µ√ ¶
n
Deci nivelul de neı̂ncredere α este 1 − 2 · F .
σ
Definiţia 13.4. Nivelul de ı̂ncredere (coeficient de ı̂ncredere) 1 − α este probabilitatea
ca statistica eşantionului sǎ se afle ı̂n intervalul de estimare ales.

Definiţia 13.5. Intervalul de ı̂ncredere este un interval de estimare cu un nivel de


ı̂ncredere 1 − α specificat.
µ √ √ ¶
n n
Exemplul 13.2. În cazul exemplului 13.1, intervalul de estimare − , este un
µ√ ¶ σ σ
n
interval de ı̂ncredere cu coeficientul de ı̂ncredere 1 − α = 2 · F .
σ
Definiţia 13.6. Eroarea maximǎ de estimare este jumǎtatea lungimii intervalului de
ı̂ncredere cu nivelul de ı̂ncredere 1 − α.

În termen de scor standard aceastǎ eroare se exprimǎ cu formula:


³α´ σ
E=z ·√
2 n
³α´ 1−α
unde z este soluţia ecuaţiei F (z) = , iar intervalul de ı̂ncredere 1 − α pentru µ
2 2
este: µ ³α´ σ ³α´ σ ¶
x−z · √ ,x + z ·√
2 n 2 n
³α´ σ ³α´ σ
x−z · √ este limita inferioarǎ de ı̂ncredere, iar x+z · √ este limita superioarǎ
2 n 2 n
de ı̂ncredere.

37
14 Generalitǎţi privind ipotezele statistice şi proble-
ma verificǎrii ipotezelor statistice

Pentru a ilustra analiza care precede luarea unei decizii ı̂n privinţa credibilitǎţii unei
aserţiuni (numitǎ verificarea ipotezelor statistice) sǎ considerǎm urmǎtorul exemplu:
Candidatul la admitere Popescu Nicolae trebuie sǎ completeze un formular test cu zece
ı̂ntrebǎri. Fiecare ı̂ntrebare are cinci rǎspunsuri dintre care doar unul este corect. Popescu
Nicolae a completat formularul şi din cele zece ı̂ntrebǎri el a rǎspuns corect la şapte. El
susţine cǎ a completat formularul fǎrǎ sǎ citeascǎ ı̂ntrebǎrile şi rǎspunsurile la ele şi a
marcat rǎspunsurile aleator.
Întrebarea este ı̂n ce mǎsurǎ putem da crezare spuselor cǎ el a marcat rǎspunsurile aleator?
O asemenea ı̂ntrebare ne determinǎ sǎ analizǎm şi sǎ hotǎrâm: este sau nu este rezona-
bil ca Popescu Nicolae sǎ obţinǎ şapte rǎspunsuri corecte alegând aleator rǎspunsurile la
ı̂ntrebǎri? Descriem ı̂n cele ce urmeazǎ o analizǎ, care se numeşte verificarea ipotezelor
statistice şi care conduce la formularea unei concluzii.
Verificarea ipotezelor statistice, ı̂n general, este un procedeu care are 5 etape. Fiecare din
aceste etape va fi prezentatǎ şi ilustratǎ ı̂n cazul exemplului considerat.

Etapa 1. Formularea ipotezei nule H0


Prin ipotezǎ ı̂nţelegem o afirmaţie care susţine cǎ ceva este adevǎrat. În
general, ipoteza nulǎ este o afirmaţie relativǎ la un parametru al unei
populaţii şi afirmǎ cǎ parametrul are o valoare datǎ. Adesea expresia
”nu diferǎ” este folositǎ ı̂n formularea ei, de aici vine numele de ipotezǎ
nulǎ. (diferenţa este nulǎ)
Etapa 2. Formularea ipotezei alternative Ha
Ipoteza alternativǎ Ha este o afirmaţie relativǎ la acelaşi parametru al
populaţiei care apare ı̂n ipoteza nulǎ H0 . În ipoteza Ha se afirmǎ cǎ
parametrul are o valoare diferitǎ de cea susţinutǎ ı̂n H0 .
Ipoteza H0 şi ipoteza Ha se formuleazǎ dupǎ o analizǎ a aserţiunii care trebuie inves-
tigatǎ.
În cazul exemplului considerat, aserţiunea care trebuie analizatǎ este: Popescu a comple-
tat formularul aleator.
Populaţia este o mulţime de 510 elemente (distincte). Un element este un sistem ordonat
de 10 rǎspunsuri (R0i1 , R0i2 , . . . , R0i10 ), i1 , i1 , . . . , i10 ∈ {1, 2, 3, 4, 5}; R0i1 este unul din cele
cinci rǎspunsuri posibile la prima ı̂ntrebare, . . . , R0i10 este unul din cele cinci rǎspunsuri
posibile la cea de-a zecea ı̂ntrebare.
Pentru o persoanǎ care marcheazǎ rǎspunsurile aleator (fǎrǎ sǎ le citeascǎ), toate
rǎspunsurile sunt egal posibile. Altfel spus fiecare din cele cinci rǎspunsuri la o ı̂ntrebare
are aceeaşi şansǎ ca sǎ fie corect. Din afirmaţia lui Popescu Nicolae rezultǎ cǎ el a marcat
1
rǎspunsurile aleator, deci a admis cǎ probabilitatea (parametrul p) este 10 pentru fiecare
5
element al populaţiei.
Analiza afirmaţiei lui Popescu Nicolae conduce la urmǎtoarea formulare a ipotezei nule:

1
H0 : p(X) = = p pentru orice Popescu Nicolae a completat
510
element X al populaţiei ⇔ formularul aleator.

38
Ipoteza alternativǎ este:

Ha : existǎ douǎ elemente X1 , X2 ı̂n populaţie Popescu Nicolae nu a completat


pentru care p(X1 ) 6= p(X2 ) ⇔ formularul aleator

De la acest punct ı̂ncepând se admite cǎ ipoteza nulǎ este adevǎratǎ. Situaţia poate fi
comparatǎ cu un proces la judecǎtorie, ı̂n care acuzatul este presupus nevinovat pânǎ
când se dovedeşte contrariul.
Doar ı̂n etapa a 5-a a verificǎrii ipotezelor, vom lua una din cele douǎ decizii posibile:
vom decide ı̂n concordanţǎ cu ipoteza nulǎ H0 şi spunem cǎ acceptǎm H0 sau decidem ı̂n
concordanţǎ cu Ha şi spunem cǎ respingem ipoteza H0 .
În funcţie de valoarea de adevǎr a ipotezei H0 şi de respingerea sau nerespingerea ei
deciziile care se iau sunt prezentate ı̂n tabelul urmǎtor:

Decizia Ipoteza H0 este


Adevǎratǎ Falsǎ

Nu respingem H0 decizie eroare


(acceptǎm) corectǎ
Tip A Tip II

Respingem H0 eroare decizie


corectǎ
Tip I Tip B

O decizie corectǎ de tip A: apare când H0 este adevǎratǎ şi nu respingem H0


O decizie corectǎ de tip B: apare când H0 este falsǎ şi respingem H0
O eroare de tip I: apare când H0 este adevǎratǎ şi H0 este respinsǎ
O eroare tip II: apare când H0 este falsǎ şi H0 nu este respinsǎ

Ar fi foarte frumos ca de fiecare datǎ când luǎm decizii sǎ luǎm decizii corecte, dar aceasta
este statistic imposibil pentru cǎ ne bazǎm pe informaţii furnizate de eşantioane. Cel mai
bun lucru la ce putem spera este sǎ controlǎm riscul sau probabilitatea de a comite o
eroare.
Probabilitatea asignatǎ limitǎrii comiterii unei erori de tip I se noteazǎ cu α şi cea asignatǎ
comiterii unei erori de tip II cu β:

Eroarea Tipul de eroare Probabilitate


Respingerea unei ipoteze adevǎrate I α
Acceptarea unei ipoteze false II β

Etapa 3 Metodologia de verificare a ipotezelor: aceasta constǎ din (1)


identificarea unui test statistic; (2) specificarea valorii lui α; (3) de-
terminarea regiunii critice.
(1) Un test statistic este o variabilǎ aleatoare folositǎ pentru a respinge
sau nu ipoteza H0 . Testul statistic este o statisticǎ de eşantioane sau
alte valori rezultate dintr-un eşantion. Probabilitǎţile care apar ı̂n acest
test statistic sunt determinate presupunând cǎ H0 este adevǎratǎ.

39
În cazul exemplului considerat, variabila aleatoare ”X= numǎrul de rǎspunsuri corecte”
este folosit ca test statistic. Probabilitǎţile pentru fiecare valoare x ale variabilei X ı̂n
ipoteza cǎ H0 este adevǎratǎ sunt date ı̂n tabelul urmǎtor:

X 0 1 2 3 4 5
P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264
X 6 7 8 9 10
P(X) 0.0055 7.92·10−4 7.38·10−5 4.098·10−6 1.02·10−7

Aceastǎ repartiţie aratǎ cǎ probabilitatea sǎ ghiceşti rǎspunsul corect la 5 sau mai multe
ı̂ntrebǎri este 0.0327, iar la 4 sau mai puţin decât 4 ı̂ntrebǎri este 0.9673. Putem spune
cǎ apariţia valorilor 5, 6, 7, 8, 9, 10 nu susţine ipoteza H0 . Dacǎ cineva spune cǎ a ghicit
rǎspunsul corect la 0, 1, 2, 3, 4 ı̂ntrebǎri, spunem cǎ este foarte probabil. Dacǎ cineva spune
cǎ a ghicit rǎspunsul corect la 5, 6, 7, 8, 9, 10 ı̂ntrebǎri spunem cǎ este puţin probabil.
Nivelul de semnificaţie este probabilitatea α de a face o eroare de tip I, adicǎ de a
respinge H0 adevǎrat. În mod curent α se dǎ la ı̂nceput şi acesta determinǎ regiunea
criticǎ. În cazul exemplului, dacǎ α = 0.033, atunci din P (x ≥ 5) = 0.0327 rezultǎ
regiunea criticǎ x = 5, 6, 7, 8, 9, 10.
Regiunea criticǎ: este mulţimea de valori (W ) pentru care P (X ∈ W ) ≤ α şi care ne
determinǎ sǎ respingem ipoteza H0 . (nu susţin ipoteza H0 )
Valoarea criticǎ: este prima valoare din regiunea criticǎ.
Dacǎ pentru un eşantion valoarea testului statistic X depǎşeşte valoarea criticǎ ipoteza
H0 este respinsǎ.
Dupǎ ce Etapa 3 a fost epuizatǎ, putem trece la Etapa 4.

Etapa 4. Determinarea valorii testului statistic


Dupǎ ce am parcurs etapele 1,2,3 observǎm sau calculǎm valoarea x a
testului statistic.

În cazul exemplului x = 7 (numǎrul de rǎspunsuri corecte) este valoarea testului sta-
tistic şi este dat. Uzual valoarea testului statistic se calculeazǎ pe baza informaţiilor
oferite de eşantion.

Etapa 5. Luarea unei decizii şi interpretarea ei


Decizia se ia comparând valoarea testului statistic determinatǎ la Etapa
4 cu regiunea criticǎ gǎsitǎ la Etapa 3.
Regula de decizie: Dacǎ valoarea testului statistic este ı̂n regiunea
criticǎ respingem ipoteza H0 , dacǎ nu, atunci acceptǎm ipoteza H0 .
Ansamblul de valori ale testului statistic care nu sunt ı̂n regiunea criticǎ
formeazǎ regiunea de acceptabilitate. Testul este terminat prin luarea
şi justificarea deciziei luate.

În cazul exemplului: x = 7 este ı̂n regiunea criticǎ şi respingem ipoteza H0 .

Remarca 14.1. Cu aceasta nu am demonstrat cǎ Popescu Nicolae nu a ghicit cele 7


rǎspunsuri. Am arǎtat doar cǎ dacǎ el le-a ghicit este foarte norocos pentru cǎ acesta
este un eveniment rar şi are probabilitatea cel mult 0.033.

40
15 Verificarea ipotezelor statistice:
variantǎ clasicǎ

În secţiunea precedentǎ am prezentat generalitǎţi privind verificarea ipotezelor statis-


tice. În aceastǎ secţiune trecem la prezentarea verificǎrii ipotezelor statistice ı̂n cazul
aserţiunilor referitoare la media µ a unei populaţii. Pentru a simplifica aceastǎ prezentare
la ı̂nceput presupunem cǎ deviaţia standard σ a populaţiei este cunoscutǎ.

Urmǎtoarele trei exemple se referǎ la diferite formulǎri ale ipotezei H0 şi a ipotezei Ha .
Exemplul 15.1. Un ecologist susţine cǎ oraşul Timişoara are o problemǎ privind poluarea
aerului. Concret, el susţine ca nivelul mediu al monoxidului de carbon ı̂n aer ı̂n centrul
oraşului depǎşeşte valoarea 4, 9/106 = valoarea medie normalǎ.
Pentru a formula ı̂n acest caz, ipotezele H0 şi Ha , trebuie sǎ identificǎm: populaţia,
parametrul populaţiei ı̂n cauzǎ şi valoarea cu care aceasta urmeazǎ sǎ fie comparatǎ.
Populaţia ı̂n acest caz poate fi mulţimea locurilor din centrul oraşului Timişoara. Variabila
X este concentraţia monoxidului de carbon ale cǎrei valori x variazǎ ı̂n funcţie de loc,
iar parametrul populaţiei este valoarea medie µ a acestei variabile. Valoarea specificǎ cu
care aceastǎ medie trebuie comparatǎ este 4, 9/106 egalǎ cu valoarea (medie) normalǎ.
Ecologistul face o aserţiune privind valorea lui µ. Aceastǎ valoare poate fi: µ < 4, 9/106
sau µ = 4, 9/106 sau µ > 4, 9/106 . Cele trei situaţii pot fi cuprinse ı̂n douǎ afirmaţii dintre
care una exprimǎ ceea ce ecologistul susţine, iar cealaltǎ exprimǎ contrariul.
Inegalitatea µ > 4, 9/106 este afirmaţia: ”valoarea medie este mai mare ca 4, 9/106 ”.
Inegalitatea µ ≤ 4, 9/106 este echivalentǎ cu ”µ < 4, 9/106 sau µ = 4, 9/106 ” şi este
afirmaţia contrarǎ: ”valoarea medie nu este mai mare ca 4, 9/106 ”.
Ecologistul susţine cǎ µ > 4, 9/106 . Pentru a formula ipoteza H0 şi ipoteza Ha reamintim
cǎ:

1) În general, ipoteza H0 susţine cǎ media µ (parametrul ı̂n chestiune) are o valoare
specificǎ anume.

2) Inferenţa privind media µ a populaţiei se bazeazǎ pe media unui eşantion şi mediile
eşantioanelor au o distribuţie aproximativ normalǎ. (conform teoremei limitǎ
centralǎ).

3) O distribuţie normalǎ este complet determinatǎ dacǎ valoarea medie şi deviaţia
standard a distribuţiei sunt cunoscute.

Cele de mai sus sugereazǎ cǎ afirmaţia µ = 4, 9/106 ar trebui sǎ fie ipoteza nulǎ şi afirmaţia
µ > 4, 9/106 ar trebui sǎ fie ipoteza alternativǎ:

H0 : µ = 4, 9/106
Ha : µ > 4, 9/106

Reamintim cǎ dupǎ ce ipoteza nulǎ H0 este formulatǎ, ı̂n testul statistic identificat se
presupune cǎ H0 este adevǎratǎ. Aceasta ı̂nseamnǎ cǎ µ = 4, 9/106 este egalǎ cu media

41
distribuţiei mediilor eşantioanelor µx şi este o raţiune ı̂n plus pentru care ipoteza H0
trebuie scrisǎ doar cu semnul egal

H0 : µ = 4, 9/106 .

Dacǎ admitem cǎ afirmaţia ”µ = 4, 9/106 sau µ < 4, 9/106 ” este ipoteza nulǎ H0 , atunci:

H0 : µ ≤ 4, 9/106
Ha : µ > 4, 9/106 .

Remarca 15.1. Semnul egal trebuie sǎ fie inclus totdeauna ı̂n ipoteza nulǎ. În acest
exemplu aserţiunea ecologistului este exprimatǎ de fapt ı̂n Ha şi aceasta este analizat.
Exemplul 15.2. Vom considera acum o a doua aserţiune; de exemplu al Camerei de
Comerţ, care susţine cǎ nivelul mediu al monoxidului de carbon ı̂n centrul oraşului
Timişoara este mai mic decât 4, 9/106 (valoare normalǎ). Aceasta este o reclamǎ bunǎ
pentru turism.

Şi ı̂n acest caz parametrul este media µ a repartiţiei monoxidului de carbon. Valoarea
specificǎ este 4, 9/106 care este valoare normalǎ.

”µ < 4, 9/106 ” ⇔ ”valoarea medie este mai micǎ decât valoarea medie normalǎ”
”µ ≥ 4, 9/106 ” ⇔ ”valoarea medie este mai mare sau egalǎ decât valoarea
medie normalǎ”

H0 , Ha pot fi formulate astfel:


H0 : µ ≥ 4, 9/106
Ha : µ < 4, 9/106

Şi de data aceasta aserţiunea Camerei de Comerţ este exprimatǎ ı̂n Ha şi aceasta trebuie
analizatǎ.
Exemplul 15.3. O a treia aserţiune (mai neutrǎ) susţine doar cǎ nivelul mediu µ al
monoxidului de carbon ı̂n aerul din centrul oraşului Timişoara este diferit de 4, 9/106
(valoarea normalǎ diferitǎ de µ).
În acest caz:
H0 : µ = 4.9/106 şi Ha : µ 6= 4, 9/106

Cele trei exemple aratǎ cǎ aserţiunea care trebuie analizatǎ determinǎ ı̂ntr-un anumit sens
formularea ipotezelor H0 , Ha . Mai exact: ı̂n aceste cazuri aserţiunea susţine cǎ valoarea
parametrului µ este diferitǎ de cea normalǎ, iar ipoteza nulǎ susţine cǎ este aceeaşi (nu
diferǎ).
În cazul acestor exemple, cei care ı̂şi formuleazǎ aserţiunea se aşteaptǎ la respingerea
ipotezei nule H0 şi la acceptarea ipotezei alternative Ha care este o afirmaţie conformǎ cu
aserţiunea lor.
Situaţiile de la procesele juridice prezintǎ o oarecare asemǎnare cu cele relatate. Dacǎ
procurorul nu crede ı̂n vinovǎţia inculpatului nu intenteazǎ proces (ipoteza H0 prezumţia
de nevinovǎţie este presupusǎ adevǎratǎ). Procesul se declanşeazǎ doar dacǎ procurorul
are suficiente probe pentru a face proces.

42
Şi ı̂n statisticǎ dacǎ ”experimantatorul” crede ı̂n ipoteza H0 nu face test pentru investi-
garea lui H0 . El testeazǎ ipoteza nulǎ doar dacǎ doreşte sǎ arate cǎ Ha este corectǎ.
Exemplul care urmeazǎ ilustreazǎ toate cele cinci etape de verificare a ipotezelor statistice
ı̂n cazul unei aserţiuni care se referǎ la media unei populaţii.

Exemplul 15.4. Un profesor a ı̂nregistrat pe mai mulţi ani rezultatul elevilor şi media
µ a acestor rezultate este 72 şi abaterea standard este σ = 12. Clasa de 36 de elevi pe
care-i ı̂nvaţǎ la momentul actual are o medie x = 75, 2 (mai ridicatǎ decât media µ = 72)
şi profesorul afirmǎ cǎ aceastǎ clasǎ este superioarǎ celor de pânǎ acum. Întrebarea este
dacǎ media clasei x = 75, 2 este un argument suficient pentru a susţine afirmaţia profe-
sorului la nivelul de semnificaţie α = 0, 05.
Menţionǎm cǎ pentru ca aceastǎ clasǎ sǎ fie superioarǎ trebuie sǎ aibe o medie mai mare
decât toate clasele dinainte. Dacǎ media ei este egalǎ sau mai micǎ decât media unei
clase anterioare, atunci ea nu este superioarǎ.
Dacǎ se considerǎ eşantioane aleatoare de mǎrime n = 36 dintr-o populaţie cu media
µ = 72, multe eşantioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.
Doar medii x care sunt considerabil mai mari decât 72 vor susţine afirmaţia profesorului.
De aceea:

Etapa 1. H0 : µx = µ = 72 ⇔ clasa nu este superioarǎ

Etapa 2. Ha : µx = µ > 72 ⇔ clasa este superioarǎ

Etapa 3. - Atunci când ı̂n ipoteza nulǎ H0 media populaţiei şi deviaţia
standard sunt cunoscute scorul standard z este folosit ca şi test
statistic.

- Nivelul de semnificaţie α = 0, 05 este dat;

- Reamintim cǎ ı̂n baza teoremei limitǎ centralǎ distribuţia


mediilor eşantioanelor este aproape normalǎ. Prin urmare,
distribuţia normalǎ va fi folositǎ pentru determinarea regiu-
nii critice. Regiunea criticǎ este egalǎ cu mulţimea valo-
rilor scorului standard z care determinǎ respingerea ipotezei
H0 şi este situatǎ la extremitatea dreaptǎ a distribuţiei nor-
male. Regiunea criticǎ este la dreapta deoarece valori mari
ale mediei eşantionului susţin ipoteza H0 ı̂n timp ce valori
apropiate ori sub 72 susţin ipoteza nulǎ.

Figura 1:

43
Valoarea criticǎ ce desparte zona valorilor ”nu este superior” de zona valorilor ”este su-
perior” este determinatǎ de probabilitatea α de a comite o eroare de tip I. α = 0, 05 a
fost datǎ. Astfel regiunea criticǎ haşuratǎ pe Figura 2. are aria 0, 05 şi valoarea criticǎ
Z∞ t2
1 −
1, 65 este soluţia ecuaţiei: √ e 2 dt = 0, 05.
2·π
z

Figura 2:

Etapa 4. Valoarea testului statistic este dat de:


x−µ 75, 2 − 72
z∗ = σ = 12/6 = 1, 6

n
Etapa 5. Comparǎm valoarea gǎsitǎ 1, 6 cu valoarea criticǎ 1, 65 şi gǎsim 1, 6 <
1, 65. Decizia este cǎ nu putem respinge ipoteza H0 . Testul se ı̂ncheie
cu formularea concluziei.
Concluzie: Probele nu sunt suficiente pentru a susţine cǎ actuala clasǎ
este superioarǎ claselor anterioare.
Pare aceastǎ concluzie realistǎ ı̂n condiţiile ı̂n care ı̂n mod evident, 75, 2 este mai mare
ca 72. Nu trebuie sǎ uitǎm x = 75, 2 este media unui eşantion de 36 de indivizi extras
dintr-o populaţie cu media µ = 72 şi deviaţia standard σ = 12 şi analiza aratǎ cǎ proba-
bilitatea ca media eşantionului sǎ fie mai mare decât mediile tuturor eşantioanelor este
mai mare decât riscul α cu care noi acceptǎm o eroare de tip I.

Exemplul 15.5. La un colegiu s-a stabilit cǎ greutatea medie a studentelor este µ = 54, 4
kg, iar abaterea standard σ = 5, 4 kg. Profesorul de sport nu crede aceastǎ afirmaţie.
Pentru a face un test selecţioneazǎ un eşantion aleator de 100 de studente şi gǎseşte cǎ
media x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmaţia la nivelul de
semnificaţie α = 0, 05?

Etapa 1. H0 : µ = 54, 4 kg

Etapa 2. Ha : µ 6= 54, 4 kg

44
Etapa 3. - deoarece folosim o distribuţie de medii de eşantioane testul statistic
va fi scorul standard.

- nivelul α = 0, 05 este dat;

- media eşantionului este o estimare a mediei populaţiei. Ipoteza


alternativǎ ”nu este egal” este susţinutǎ de medii de eşantioane
considerabil mai mari sau considerabil mai mici ca 54, 4. ipoteza nulǎ
este susţinutǎ de medii de eşantioane ı̂n jurul valorii 54, 4. Regiunea
criticǎ este formatǎ din douǎ pǎrţi egale situate la cele douǎ extremitǎţi
ale distribuţiei normale. Aria corespunzǎtoare fiecǎrei porţiuni este
α
şi probabilitatea fiecǎrei pǎrţi a regiunii critice este 0, 025. Rezultǎ
2  
2
³α´ ³ ´ Z∞ t
 α 1 − α
z = 1, 96 z este soluţia ecuaţiei: √ e 2 dt = .
2 2 2·π 2
z

Figura 3:

Etapa 4. Se determinǎ valoarea testului statistic:


x−µ
z∗ = σ = −1, 204

n

a cǎrei locaţie este datǎ pe figura urmǎtoare:

45
Figura 4:

Reamintim: Dacǎ valoarea testului statistic este ı̂n regiunea criticǎ respingem ipoteza
H0 dacǎ nu, nu putem respinge ipoteza H0 .

Etapa 5. Valoarea testului statistic nu este ı̂n regiunea criticǎ.


Decizia: Nu respingem ipoteza H0 .
Justificarea deciziei: Valoarea testului nu este ı̂n dezacord cu H0 la
nivel de risc α = 0, 05. Aceasta nu ı̂nseamnǎ cǎ H0 este adevǎratǎ.
Concluzie: Media x gǎsitǎ de profesor nu contravine ipotezei cǎ media µ este 54,4
kg, când dispersia σ este 5, 4 kg.
O decizie de respingere a lui H0 ı̂nseamnǎ cǎ valoarea testului implicǎ cǎ H0 este falsǎ şi
indicǎ Ha .

Rezumat privind verificarea ipotezelor statistice asupra mediei ı̂n variantǎ


clasicǎ:

1. Ipoteza H0 specificǎ o valoare particularǎ a mediei populaţiei.


2. Ipoteza Ha are trei forme. Fiecare dintre acestea determinǎ o locaţie specificǎ a
regiunii critice aşa cum apare ı̂n tabelul de mai jos:

Semne ı̂n ipoteza < 6= >


alternativǎ
Regiunea criticǎ O regiune Douǎ regiuni O regiune
la stânga de fiecare la dreapta
parte câte una
test unilateral test bilateral test unilateral
stânga dreapta

3. Pentru multe cazuri semnul din ipoteza Ha indicǎ direcţia ı̂n care regiunea criticǎ
se gǎseşte

Valoarea lui α se numeşte nivel de semnificaţie şi reprezintǎ riscul (probabilitatea)


respingerii lui H0 atunci când aceasta estea adevǎratǎ. Nu putem determina

46
dacǎ ipoteza H0 este adevǎratǎ sau falsǎ. Putem doar decide cǎ o respingem
sau cǎ o acceptǎm.
Probabilitatea cu care respingem ipoteza adevǎratǎ este α, dar nu ştim probabilitatea cu
care facem o decizie eronatǎ. O eroare de tip I şi o eroare ı̂n decizie sunt lucruri diferite.

47
16 Verificarea ipotezelor statistice:
varianta probabilistǎ

În secţiunea precedentǎ am descris varianta clasicǎ de verificare a ipotezelor statistice


ı̂n cazul aserţiunilor referitoare la media µ a unei populaţii. O variantǎ probabilistǎ
constǎ ı̂n determinarea unei probabilitǎţi numitǎ p-valoarea (prob-valoare) referitoare
la o statisticǎ observatǎ, care este comparatǎ cu nivelul de semnificaţie α dat.

Definiţia 16.1. P-valoarea unui test statistic este cea mai micǎ valoare a nivelului
de semnificaţie α pentru care informaţia extrasǎ din eşantion este semnificativǎ (H0
adevǎratǎ se respinge).

Considerǎm din nou exemplul 15.4 din secţiunea precedentǎ şi-l analizǎm din acest punct
de vedere.

Exemplul 16.1. Un profesor a ı̂nregistrat pe mai mulţi ani rezultatul elevilor şi media
µ a acestor rezultate este 72 şi dispersia σ = 12. Clasa de 36 de elevi pe care-i ı̂nvaţǎ
la momentul actual are o medie x = 75, 2 . Aceastǎ medie fiind mai ridicatǎ decât 72
profesorul vrea sǎ arate cǎ aceastǎ clasǎ este superioarǎ celor de pânǎ acum. Întrebarea
este dacǎ media clasei x = 75, 2 este un argument suficient pentru a susţine afirmaţia
profesorului la nivelul de semnificaţie α = 0, 05?
Precizǎm cǎ pentru a putea susţine cǎ actuala clasǎ este mai bunǎ decât toate celelalte
clase anterioare trebuie ca media clasei actuale sǎ fie mai mare decât media oricǎrei clase
dinainte. Dacǎ media clasei actuale este mai micǎ sau egalǎ cu media unei clase anterioare,
atunci clasa actualǎ nu este mai bunǎ decât toate celelalte.

Etapa 1. Formularea ipotezei H0 : H0 : µx = µ = 72.


Aceastǎ ipotezǎ corespunde aserţiunii cǎ actuala clasǎ nu este superioarǎ
celorlalte clase.
Etapa 2. Formularea ipotezei alternative Ha : Ha : µx = µ > 72.
Aceastǎ ipotezǎ corespunde aserţiunii cǎ actuala clasǎ este superioarǎ
celorlalte clase.
Remarcǎm faptul cǎ etapele 1 şi 2 sunt aceleaşi ı̂n variantǎ probabilistǎ ca şi ı̂n variantǎ
clasicǎ de verificare a ipotezelor statistice.

Etapa 3. Specificarea nivelului de semnificaţie α, a probabilitǎţii erorii de tip I:


α = 0, 005.
Etapa 4. Folosind formula scorului standard (z-scorului) şi media x = 75, 2 a
eşantionului de mǎrime n = 36 se determinǎ valoarea testului statistic:
x−µ
z∗ = σ = 1, 60

n

Remarcǎm aici cǎ Etapa 4 ı̂n varianta probabilistǎ este aceeaşi ca şi
varianta clasicǎ de verificare a ipotezelor statistice.

48
Etapa 5. Se reprezintǎ distribuţia normalǎ a mediilor (testul statistic) ı̂n acest
caz şi se localizeazǎ valoarea z ∗ determinatǎ ı̂n Etapa 4 (care ı̂mparte
distribuţia ı̂n douǎ pǎrţi) şi se determinǎ care parte a distribuţiei
reprezintǎ p−valoarea.
Dupǎ care se determinǎ p−valoarea. Ipoteza alternativǎ Ha aratǎ cǎ ı̂n
cazul nostru:

p = P (z > z ∗ ) = P (z > 1, 6) = 0, 0548


Etapa 6. p-valoarea ı̂n cazul nostru este 0, 0548. Prin urmare pentru
orice nivel de semnificaţie α ≤ 0, 0548 nu putem respinge
ipoteza nulǎ şi concluzia este cǎ nu avem probe suficiente pen-
tru a demonstra superioritatea clasei actuale. Dacǎ ı̂nsǎ nivelul de
semnificaţie α fixat la ı̂nceput este mai mare ca 0, 0548 (de ex. α = 0, 1)
atunci decizia noastrǎ va fi de respingere a ipotezei H0 şi concluzia de
superioritate a clasei actuale.

Figura 5:

Înainte sǎ trecem la un al doilea exemplu recapitulǎm câteva detalii privind verificarea
ipotezelor statistice ı̂n varianta probabilistǎ:

1. Ipotezele H0 şi Ha se formuleazǎ ı̂n aceeaşi manierǎ ca şi ı̂n varianta clasicǎ.

2. Se specificǎ nivelul de semnificaţie α care va fi folosit.

3. Valoarea testului statistic se calculeazǎ ı̂n Etapa 4 de aceeaşi manierǎ ca ı̂n varianta
clasicǎ.

4. P-valoarea este aria aflatǎ ı̂ntre curba de densitate de probabilitate axa Oz şi z = z ∗ .
Existǎ trei cazuri posibile: douǎ unilaterale şi unul bilateral. Direcţia (sau semnul)
ı̂n ipoteza Ha este indiciul:

Cazul 1. Dacǎ Ha este unilateralǎ la dreapta (” > ”) atunci p = P (z > z ∗ ) şi aria este
ı̂n dreapta lui z ∗ .
Cazul 2. Dacǎ Ha este unilateralǎ stânga (” < ”), atunci p = P (z < z ∗ ) este aria din
stânga lui z ∗ .
Cazul 3. Dacǎ Ha este bilateralǎ (” 6= ”), atunci p = P (z < −|z ∗ |) + P (z > |z ∗ |) =
2 · P (z > |z ∗ |)

49
5. Decizia se ia comparând P -valoarea cu nivelul de semnificaţie α:

a) Dacǎ P ≤ α atunci H0 se respinge;


b) Dacǎ P > α atunci H0 se acceptǎ.

6. Concluzia se formuleazǎ de aceeaşi manierǎ ca şi ı̂n varianta clasicǎ.

Considerǎm acum un exemplu ı̂n care Ha este bilateral.

Exemplul 16.2. Companii mari folosesc agenţii specializate pentru a testa candidaţii
care doresc sǎ fie angajaţi. Agenţia A foloseşte un test de selecţie pentru care ı̂n decursul
timpului s-a stabilit o medie de 82 şi o deviaţie standard de 8. Agenţia B a dezvoltat
o nouǎ metodǎ de testare care este mai rapidǎ, mai uşor de aplicat şi costǎ mai puţin.
Agenţia B susţine cǎ testul lor dǎ aceleaşi rezultate ca şi testul agenţiei A.
Mai multe companii, pentru a reduce costul, se gândesc sǎ treacǎ de la agenţia A la
agenţia B, dar ei nu doresc sǎ facǎ aceastǎ trecere dacǎ media cu teste B diferǎ de cea
cu teste A. O agenţie independentǎ C a testat cu noul test 36 de indivizi şi a obţinut o
medie de 80.
Care este p−valoarea asociatǎ acestui test?
Rezultatul testului agenţiei B este acelaşi dacǎ µ = 82 şi este diferit dacǎ µ 6= 82. Prin
urmare:

Etapa 1. H0 : µ = 82 (testele au aceeaşi medie)

Etapa 2. Ha : µ 6= 82 (testele au medii diferite)

Etapa 3. Este omisǎ dacǎ se cere p-valoarea fǎrǎ luarea unei decizii.

Etapa 4. Informaţia din eşantion: n = 36 şi x = 80:


x−µ −2 12 3
z∗ = σ = 8 = − 8 = − 2 = −1.5

n 6

Etapa 5. Se localizeazǎ z pe o distribuţie normalǎ şi deoarece Ha este bilateral
vom considera P (z < −|z ∗ |) şi P (z > |z ∗ |) şi obţinem:

p = P (z < −1, 50) + P (z > 1, 50)


= 0, 5 − 0, 4332 + 0, 5 − 0, 4332 = 0, 1336

deci p− valoarea este 0, 1336.

50
Figura 6:

Fiecare companie va lua propria decizie: a) continuǎ cu A sau b) schimbǎ şi trece la
B. Fiecare va trebui sǎ stabileascǎ propriul nivel de semnificaţie şi sǎ ia o decizie ı̂n
consecinţǎ.

51
17 Inferenţǎ statisticǎ privind media populaţiei dacǎ
nu se cunoaşte abaterea standard a populaţiei

Pânǎ acum am prezentat douǎ tipuri de inferenţǎ statisticǎ privind media populaţiei:
evaluarea intervalului de ı̂ncredere şi verificarea ipotezelor statistice. În cele douǎ
tipuri de inferenţe statistice abaterea standard σ este consideratǎ cunoscutǎ. În general
ı̂nsǎ abaterea standard σ nu este cunoscutǎ. Subiectul acestei secţiuni este inferenţa
statisticǎ privind media µ dacǎ abaterea standard σ nu este cunoscutǎ.
Dacǎ dimensiunea eşantionului este suficient de mare (ı̂n general vorbind, eşantioane
a cǎror mǎrimi este mai mare decât n = 30 de date sunt considerate suficient de mari),
deviaţia standard s a eşantionului este o estimare bunǎ a deviaţiei standard a populaţiei şi
putem susbstitui σ cu s ı̂n procedura discutatǎ deja. Dacǎ populaţia pe care o investigǎm
este aproape normalǎ şi n ≤ 30, atunci procedeul se bazeazǎ pe distribuţia Student t.
Distribuţia Student t (sau simplu t distribuţia) este distribuţia statisticii t, definitǎ prin:
x−µ
t=
√s
n

În anul 1908 W.S. Gosset un funcţionar la o fabricǎ de bere ı̂n Irlanda a publicat o
lucrare relativǎ la aceastǎ distribuţie sub pseudonimul ”Student”. În lucrarea lui Gosset
se presupune cǎ populaţia este normalǎ. Aceastǎ restricţie s-a dovedit ulterior restrictivǎ,
ı̂ntrucât se obţin rezultate satisfǎcǎtoare şi pentru multe populaţii care nu sunt normale.
Ecuaţia care defineşte distribuţia t nu o dǎm aici, doar dǎm câteva proprietǎţi ale lui t:

1) distribuţia t are media 0;

2) distribuţia t este simetricǎ faţǎ de medie;

3) distribuţia t are varianţa supraunitarǎ, dar dacǎ dimensiunea eşantionului creşte,


varianţa tinde la 1;

4) distribuţia t ı̂n jurul mediei este sub şi departe de medie este deasupra distribuţiei
normale;

5) fiecǎrei mǎrimi de eşantion ı̂i corespunde o distribuţie t separatǎ care depinde de


mǎrimea eşantionului. Dacǎ mǎrimea eşantionului creşte atunci t- distribuţia tinde
la distribuţia normalǎ.

52
Figura 7:

Cu toate cǎ pentru fiecare mǎrime de eşantion (n=2,3,4,...) avem o distribuţie t separatǎ
completǎ, ı̂n practicǎ doar anumite valori critice ale lui t sunt folosite. Aceste valori critice
aflate ı̂n dreapta mediei sunt redate ı̂n tabelul urmǎtor:

α 0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6
2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073
16 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015

53
α 0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922
19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659
z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646

Figura 8:

În acest tabel df are valorile de la 1 la 29 şi este numǎrul gradelor de libertate.
Apropierea valorilor din liniile corespunzǎtoare lui df = 29 şi z se datoreazǎ faptului
cǎ dacǎ n ≥ 30 distribuţia t este cea normalǎ (teorema limitǎ centralǎ).
Gradul de libertate df este un parametru statistic care este greu de definit. El este un
indice care se foloseşte pentru a identifica distribuţia care trebuie folositǎ. În consideraţiile
noastre df = n − 1, unde n este mǎrimea eşantionului. Valoarea criticǎ a testului t care
trebuie folositǎ ı̂n estimarea intervalului de ı̂ncredere precum şi ı̂n verificarea ipotezelor
statistice se obţine din tabelul prezentat. Pentru a obţine aceastǎ valoare este nevoie de
a cunoaşte:

1) df - numǎrul gradelor de libertate;


2) α aria determinatǎ de curba de repartiţie aflatǎ ı̂n dreapta valorii critice. Aceastǎ
valoare este notatǎ t(df, α).

54
Exemplul 17.1. Determinaţi t(10, 0.05) din tabel. Avem df = 10 şi α = 0.05, deci
t(10, 0.05) = 1.81.
Valorile critice ale testului statistic t aflate ı̂n stânga mediei se obţin cu formula: −t(df, α),
ţinând seama de simetria distribuţiei t.

Figura 9:

Se observǎ uşor cǎ −t(df, α) = t(df, 1 − α). Astfel: −t(df ; 0, 05) = t(df ; 0, 95).
Exemplul 17.2. Determinaţi t(15; 0, 95). Avem: t(15; 0, 95) = −t(15; 0, 05) = −1, 75.

Figura 10:

Statistica t este folositǎ ı̂n verificarea ipotezelor statistice privind aserţiuni relative la
media µ de aceeaşi manierǎ ca şi statistica z.
Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere al
ecologistului este: ”nivelul monoxidului de carbon ı̂n aer este mai mare decât 4, 9/106 ”.
Un eşantion de 25 de determinǎri cu media x = 5, 1/106 şi s = 2, 1/106 este un argument
suficient pentru a susţine afirmaţia? Se foloseşte nivelul de semnificaţie α = 0, 05.

Etapa 1. H0 : µ = 4, 9/106

Etapa 2. Ha : µ > 4, 9/106

55
Etapa 3. α = 0, 05; df = 25 − 1 = 24 şi t(24; 0, 05) = 1, 71 din tabel.

Etapa 4.
x−µ 5, 1 − 4, 9 0, 20
t∗ = s = 2, 1/√25 = 0, 42 = 0, 476 ' 0, 48

n
Etapa 5. Decizia: Nu putem respinge H0 (t∗ nu este ı̂n regiunea criticǎ).
Concluzie: Nu avem suficiente argumente pentru ca sǎ respingem
ipoteza cǎ nivelul monoxidului de carbon este 4, 96/106 .

Figura 11:

Remarca 17.1. Dacǎ valoarea df (df = n − 1) este mai mare ca 29, atunci valoarea
criticǎ a lui t(df, α) este foarte apropiatǎ de z(α) (scorul z este listat la capǎtul tabelului)
şi prin urmare ı̂n loc de t(df, α) se foloseşte z(α). Deoarece tabelul considerat conţine doar
valorile critice ale distribuţiei t, p-valoarea nu poate fi gǎsitǎ din tabel ı̂n cazul verificǎrii
ipotezei statistice pentru cǎ aceasta necesitǎ distribuţia t completǎ. P-valoarea poate fi
ı̂nsǎ estimatǎ folosind tabelul.

Exemplul 17.4. Sǎ revenim la exemplul 17.3. Reţinem t∗ = 0, 48, df = 24 şi Ha : µ > 49.
Astfel pentru a rezolva problema folosind varianta probabilistǎ pentru Etapa 5 cu p-
valoarea avem:
p = P (t > 0, 48, ştiind df = 24)

56
Figura 12:

Rândul df = 24 din tabel aratǎ cǎ p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 din
tabel aratǎ cǎ P (t > 0, 685) = 0, 25 aşa cum aratǎ figura urmǎtoare:

Figura 13:

Comparând t∗ = 0, 48, vedem cǎ p− valoarea este mai mare ca 0, 25.


Exemplul 17.5. Sǎ se determine p−valoarea pentru urmǎtoarea ipotezǎ statisticǎ:
H0 : µ = 55
Ha : µ 6= 55
ı̂n condiţiile ı̂n care df = 15 şi t∗ = −1, 84.

Soluţie: p = P (t < −1, 84) + P (t > 1, 84) = 2 · P (t > 1, 84). Rândul df = 15 din tabel
aratǎ cǎ P (t > 1, 84) este ı̂ntre 0, 025 şi 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.

Media populaţiei poate fi estimatǎ dacǎ σ este necunoscut de o manierǎ similarǎ cu cazul
σ cunoscut. Diferenţa este cǎ se foloseşte distribuţia t ı̂n loc de distribuţia z şi deviaţia
standard s ca estimare a lui σ. Formula pentru intervalul de ı̂ncredere 1 − α este:
µ ¶
α s α s
x − t(df, ) · √ , x + t(df, ) · √
2 n 2 n

57
Figura 14:

unde df = n − 1.

Exemplul 17.6. În cazul unui eşantion aleator de 20 de noi nǎscuţi, media greutǎţii lor
este 3, 4 kg şi deviaţia standard este 0, 9 kg. Sǎ se estimeze cu o ı̂ncredere de 95% media
greutǎţii noilor nǎscuţi.

Soluţie: x = 3, 4 kg, s = 0, 9 kg şi n = 20, iar 1 − α = 0, 95, implicǎ: α = 0, 05; df = 19,


iar din tabel gǎsim: t(19; 0, 025) = 2, 09. Capetele intervalului sunt:

s 0, 9
x ± t(19; 0, 025) · √ = 3, 4 ± 2, 09 · √
n 20
0, 9
3, 4 ± 2, 09 · = 3, 4 ± 0, 46
4, 472
Intervalul de ı̂ncredere de 95% este (2, 94; 3, 86).

58
18 Inferenţǎ relativǎ la varianţǎ şi estimarea varianţei

Adesea se pun probleme care cer sǎ facem inferenţǎ asupra varianţei. De exemplu, o
companie de produse rǎcoritoare are o maşinǎ de ı̂mbuteliat, care umple cu rǎcoritoare
butelii de 0, 32 l= 32 cl. Cantitatea medie pusǎ ı̂n fiecare butelie este importantǎ, dar
cantitatea medie corectǎ nu asigurǎ cǎ maşina lucreazǎ corect. Dacǎ varianţa este mare,
vor fi multe butelii care sunt prea umplute şi multe butelii care nu sunt bine umplute.
De aceea, compania doreşte sǎ controleze varianţa σ 2 a cantitǎţii x de rǎcoritoare pusǎ ı̂n
fiecare butelie şi sǎ menţinǎ varianţa la un nivel cât mai scǎzut posibil.
Vom prezenta ı̂n aceastǎ secţiune o inferenţǎ privind varianţa unei populaţii. Adesea ı̂n
cazul acestei inferenţe se vorbeşte despre deviaţia standard ı̂n loc de varianţǎ. Trebuie sǎ
subliniem cǎ deviaţia standard este rǎdǎcinǎ pǎtratǎ a varianţei; aşadar a vorbi despre
varianţǎ este comparabil cu a vorbi despre deviaţie standard.
Sǎ revenim la exemplul companiei de produse rǎcoritoare. Sǎ ne imaginǎm cǎ aceastǎ
companie doreşte sǎ detecteze când variabilitatea cantitǎţii de rǎcoritoare pusǎ ı̂n fiecare
butelie scapǎ de sub control. O varianţǎ de 0, 0004 este consideratǎ acceptabilǎ şi
compania va regla maşina de ı̂mbuteliat dacǎ varianţa devine mai mare decât aceastǎ
valoare. Decizia va fi luatǎ folosind verificarea ipotezelor statistice. Ipoteza H0 este cǎ
varianţa are valoarea 0, 0004, iar ipoteza Ha este cǎ varianţa depǎşeşte valoarea 0, 0004:

H0 : σ 2 = 0, 0004 (varianţa este controlatǎ)


Ha : σ 2 > 0, 0004 (varianţa nu este controlatǎ)

Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H0 este testul χ2 .
Valoarea calculatǎ a lui χ2 se va obţine folosind formula:

n · s2
χ2 =
σ2
unde s2 este varianţa eşantionului, n este mǎrimea eşantionului, iar σ 2 este valoarea
specificatǎ ı̂n ipoteza nulǎ.
Dacǎ se iau eşantioane de mǎrime n dintr-o populaţie normalǎ, având variantǎ σ 2 , atunci
cantitatea n·s2 /σ 2 are o distribuţie care se numeşte distribuţia χ2 . Formula care defineşte
distribuţia χ2 nu o vom da aici, dar pentru a folosi distribuţia χ2 , prezentǎm urmǎtoarele
proprietǎţi ale acesteia:

1. distribuţia χ2 are valori nenegative, este zero sau este pozitivǎ;

2. distribuţia χ2 nu este simetricǎ, este asimetricǎ la dreapta;

3. existǎ mai multe repartiţii χ2 . Ca şi pentru distribuţiile t existǎ o distribuţie χ2


pentru fiecare grad de libertate. Inferenţa pe care o discutǎm aici se referǎ la cazul
df = n − 1.

Valorile critice ale lui χ2 sunt date ı̂n tabelul urmǎtor:

59
df/α 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.005
2 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.6
3 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.9
4 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.9
5 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.8
6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.6
7 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3
8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.0
9 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.6
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2
11 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.8
12 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.3
13 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.8
14 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3
15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8
16 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.3
17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.7
18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.2
19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.6
20 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.0
21 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.4
22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.8
23 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.2
24 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.6
25 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.9
26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.3
27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.7
28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.0
29 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.3
30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.7
40 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.8
50 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.5
60 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.0
70 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.0
80 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.0
90 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0
100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0

60
Figura 15:

Valorile critice vor fi identificate prin douǎ valori: grade de libertate şi aria situatǎ sub
curbǎ ı̂n dreapta valorii critice. Astfel χ2 (df, α) este simbolul folosit pentru identificarea
valorii critice χ2 cu df grade de libertate şi cu aria α sub grafic şi ı̂n dreapta, aşa cum
este prezentat pe figura urmǎtoare:

Figura 16:

Exemplul 18.1. Folosind tabelul determinaţi χ2 (20; 0, 05) şi χ2 (14; 0, 90).
Din tabel se obţine: χ2 (20; 0, 05) = 31, 4 şi χ2 (14; 0, 90) = 7, 79.

Remarca 18.1. Dacǎ df > 2 valoarea medie a lui χ2 este df . Valoarea medie este
localizatǎ ı̂n dreapta modului (locul ı̂n care curba atinge valoarea maximǎ).

61
Figura 17:

Exemplul 18.2. Reluǎm cazul companiei de produse rǎcoritoare care doresc sǎ controleze
varianţa ca sǎ nu depǎşeascǎ 0, 0004. Un eşantion de mǎrime 28 cu o varianţǎ de 0, 0010
indicǎ oare la nivelul de semnificaţie 0, 05 cǎ procesul de ı̂mbuteliere nu este sub control
(referitor la varianţǎ)?

Soluţie:
Etapa 1. H0 : σ 2 = 0, 0004 (procesul este sub control)

Etapa 2. H0 : σ 2 > 0, 0004 (procesul nu este sub control)

Etapa 3. α = 0, 05, n = 28, df = 27 şi obţinem din tabel:

χ2 (27; 0, 005) = 40, 1.


Etapa 4.
n · s2 28 · 0, 0010
χ2∗ = 2
= = 70
σ 0, 0004
Etapa 5. Luarea deciziei.

Figura 18:

62
Concluzia: Procesul de ı̂mbuteliere este sub control ı̂n ceea ce priveşte varianţa.
Exemplul 18.3. Specificaţiile unui anumit medicament indicǎ cǎ fiecare comprimat
trebuie sǎ conţinǎ 2,5 g de substanţǎ activǎ. 100 de comprimate alese la ı̂ntâmplare
din producţie sunt analizate. Ele conţin ı̂n media 2,6 g de substanţǎ activǎ cu o deviaţia
standard de s = 0, 4g.
Se poate spune cǎ medicamentul respectǎ specificaţiile (α = 0, 05)?

Etapa 1. Ipoteza H0 este ca medicamentul respectǎ specificaţiile:

H0 : µ = 2, 5
Etapa 2. Ipoteza Ha este ca medicamentul nu respectǎ specificaţiile:

H0 : µ 6= 2, 5
Etapa 3. Statistica folositǎ este media x, iar nivelul de semnificaţie este α = 0, 05.
Regiunea criticǎ este:
Etapa 4. Testul statistic este:
x−µ 2, 6 − 2, 5 0, 1
z= s = = = 2, 5
√ 0, 4 0, 04
n 10
Valoarea lui z ı̂n tabel este: z0,975 = 1, 96 < 2, 5.
Etapa 5. Ipoteza H0 este respinsǎ, aşadar nu putem spune cǎ medicamentul
respectǎ specificaţiile.
Abordarea probabilistǎ a inferenţei statistice asupra varianţei, p-valoarea poate fi estimatǎ
pentru verificarea ipotezelor statistice folosind tabelul statistic χ2 de aceeaşi manierǎ ca
şi ı̂n cazul testului Student.
Exemplul 18.4. Sǎ se determine p-valoarea ı̂n cazul urmǎtoarelor ipoteze statistice:
H0 : σ 2 = 150
Ha : σ 2 > 150

Se cunosc: df = 18 şi χ2∗ = 32, 7.

Soluţie: p = P (χ2 > 32, 7) ∈ (0, 010; 0, 025) (date citite din tabel).
Exemplul 18.5. Un parametru folosit ı̂n determinarea utilitǎţii unui examen ca mǎsurǎ
a abilitǎţii studenţilor este ”ı̂mprǎştierea” rezultatelor. Un set de rezultate al unui test
are valoare micǎ dacǎ plaja notelor este micǎ. Din contrǎ dacǎ plaja notelor este mare,
este o diferenţǎ mare ı̂ntre rezultatul cel mai bun şi rezultatul cel mai slab, atunci testul
are valoare mai mare. La un test la care nota maximǎ este de 100 de puncte s-a pretins
cǎ o deviaţie standard de 12 puncte este de dorit. Pentru a vedea dacǎ un anume test
de o orǎ a fost sau nu un test bun din acest punct de vedere un profesor verificǎ aceastǎ
ipotezǎ statisticǎ la nivelul de semnificaţie α = 0, 05 folosind rezultatele obţinute de clasǎ.
Au fost 28 de rezultate şi deviaţia standard gǎsitǎ a fost 10, 5. Constituie aceasta o probǎ
la nivelul de semnificaţie α = 0, 05 cǎ examenul nu are deviaţia standard specificatǎ?

Soluţie: n = 28, s = 10, 5 şi α = 0, 05


Etapa 1. H0 : σ = 12

63
Etapa 2. H0 : σ 6= 12

Etapa 3. α = 0, 05, df = 27 şi obţinem valorile critice din tabel:

χ21 (27; 0, 975) = 14, 6 şi χ22 (27; 0, 025) = 43, 2.


Etapa 4.
n · s2 28 · (10, 5)2 3087
χ2∗ = 2
= 2
= = 21, 43
σ (12) 144
Etapa 5. Nu se poate respinge H0 .
Concluzie: Nu avem probe suficiente pentru a respinge ipoteza H0

64
19 Generalitǎţi despre corelaţie.
Corelaţie liniarǎ

În statisticǎ adesea apar probleme de genul urmǎtor: pentru aceeaşi populaţie avem douǎ
seturi de date corespunzǎtoare la douǎ variabile distincte şi se pune ı̂ntrebarea dacǎ ı̂ntre
cele douǎ variabile existǎ vreo legǎturǎ (relaţie)? Dacǎ da, care este aceastǎ relaţie? Cum
sunt aceste variabile corelate? Relaţiile pe care le discutǎm aici nu sunt neapǎrat de tip
cauzǎ-efect. Ele sunt relaţii matematice care permit anticiparea comportamentului unei
variabile ı̂n funcţie de comportamentul celeilalte. Iatǎ câteva exemple:

Exemplul 19.1.

- În general o persoanǎ care creşte ı̂n ı̂nalţime creşte şi ı̂n greutate. Se pune ı̂ntrebarea:
existǎ vreo relaţie ı̂ntre ı̂nalţime şi greutate?

- Studenţii ı̂şi petrec timpul la universitate ı̂nvǎţând sau dând examene. Se pune
ı̂ntrebarea: studiind mai mult, obţii note mai mari?

- Doctorii care testeazǎ un nou medicament prescriu cantitǎţi diferite şi observǎ
rǎspunsul pacienţilor; se pune ı̂ntrebarea: cantitatea de medicament prescrisǎ
determinǎ oare timpul de ı̂nsǎnǎtoşire al pacientului?

Problemele din exemplul precedent cer analiza corelaţiei dintre douǎ variabile.
În cazul ı̂n care pentru o populaţie avem douǎ seturi de date corespunzǎtoare la douǎ
variabile distincte se formeazǎ perechile de date (x, y), ı̂n care x este valoarea primei
variabile şi y este valoarea celei de-a doua variabile. De exemplu, x este ı̂nǎţimea şi y este
greutatea.
O pereche ordonatǎ de date (x, y) se numeşte datǎ bidimensionalǎ.
În mod tradiţional, variabila X (având valorile x) se numeşte variabilǎ de intrare
(variabilǎ independentǎ), iar variabila Y (având valorile y) se numeşte variabilǎ de
ieşire (variabilǎ dependentǎ).
Variabila de intrare X este cea mǎsuratǎ sau controlatǎ pentru a prezice variabila Y .
În cazul testǎrii medicamentului doctorii (mǎsoarǎ) controleazǎ cantitatea de medicament
prescrisǎ şi deci aceastǎ cantitate x este valoarea variabilei de intrare (independentǎ) X.
Timpul de recuperare y este valoarea variabilei de ieşire (dependente) Y .
În cazul ı̂nǎlţimii şi greutǎţii oricare din variabile poate fi atât variabilǎ de intrare cât şi
variabilǎ de ieşire. Rezultatele analizei vor fi ı̂nsǎ funcţie de alegerea fǎcutǎ.
În cazul problemelor de analizǎ a corelaţiei dintre douǎ variabile datele eşantionului se
prezintǎ sub forma unei diagrame de ı̂mprǎştiere.

Definiţia 19.1. O diagramǎ de ı̂mprǎştiere sau nor de puncte este reprezentarea


graficǎ a perechilor de date ı̂ntr-un sistem de coordonate ortogonal. Valorile x ale variabilei
de intrare X sunt reprezentate pe axa Ox, iar valorile y ale variabilei de ieşire Y sunt
reprezentate pe axa Oy.

65
Exemplul 19.2. Pentru un eşantion de 15 studenţi urmǎtorul tabel de date reprezintǎ
numǎrul de ore de studiu x pentru un examen şi nota y obţinutǎ la acel examen:

x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8
y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9

Diagrama de ı̂mprǎştiere ı̂n acest caz este:

Exemplul 19.3. Diagrama de ı̂mprǎştiere ı̂n cazul tabelului de date:

x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8
y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9

este:

Analiza de corelaţie are ca obiectiv sǎ stabileascǎ legǎtura dintre cele douǎ variabile.
Vom prezenta câteva diagrame de ı̂mprǎştiere pentru a ilustra corelaţii posibile dintre
variabila de intrare X şi variabila de ieşire Y .
Definiţia 19.2. Dacǎ pentru valorile x crescânde ale variabilei de intrare X nu existǎ o
deplasare clarǎ (bine definitǎ) ale valorilor y ale variabilei Y , atunci zicem cǎ nu avem
corelaţie sau cǎ nu existǎ legǎturǎ ı̂ntre X şi Y .

66
Diagrama de ı̂mprǎştiere ı̂n cazul ı̂n care nu avem corelaţie este urmǎtoarea:

Definiţia 19.3. Dacǎ pentru valorile x crescânde ale variabilei de intrare X existǎ o
deplasare clarǎ (bine definitǎ) ale valorilor y ale variabilei Y zicem cǎ avem o corelaţie.
Zicem cǎ avem o corelaţie pozitivǎ dacǎ y tinde sǎ creascǎ şi avem o corelaţie
negativǎ dacǎ y tinde sǎ descreascǎ odatǎ cu creşterea lui x.

Precizia schimbǎrii lui y atunci când x creşte determinǎ cât de puternicǎ este corelaţia.
Diagramele de ı̂mprǎştiere care urmeazǎ ilustreazǎ aceste idei:

Figura 19: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii pozitive

67
Figura 20: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii pozitive strânse

Figura 21: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii negative

Figura 22: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii negative strânse

Definiţia 19.4. Dacǎ perechile (x, y) tind sǎ urmeze o dreaptǎ zicem cǎ avem o corelaţie
liniarǎ.

Definiţia 19.5. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ (care nu este nici
orizontalǎ nici verticalǎ) atunci zicem cǎ avem o corelaţie liniarǎ perfectǎ.

68
Figura 23: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii pozitive liniare perfecte

Remarca 19.1. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ orizontalǎ sau verticalǎ
nu existǎ corelaţie intre cele douǎ variabile. Aceasta ı̂ntrucât schimbarea uneia nu
afecteazǎ valoarea celeilalte variabile.
Remarca 19.2. Diagramele de ı̂mprǎştiere nu sunt totdeauna de genul celor prezentate
pânǎ acum şi sugereazǎ corelaţii care sunt de altǎ naturǎ.

Figura 24: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii neliniare

Definiţia 19.6. Coeficientul de corelaţie liniarǎ r mǎsoarǎ cât de puternicǎ este


corelaţia liniarǎ dintre cele douǎ variabile. Reflectǎ consistenţa efectului pe care-l are
schimbarea valorii variabilei independente X asupra variabilei dependente Y .
Remarca 19.3. Valoarea coeficientului de corelaţie liniarǎ r permite sǎ se formuleze
un rǎspuns la ı̂ntrebarea: existǎ o corelaţie liniarǎ ı̂ntre cele douǎ variabile considerate?
Coeficientul de corelaţie liniarǎ r are valoarea ı̂ntre −1 şi +1. Valoarea r = +1 ı̂nseamnǎ
o corelaţie liniarǎ pozitivǎ perfectǎ, iar valoarea r = −1 ı̂nseamnǎ o corelaţie liniarǎ
negativǎ perfectǎ.

Dacǎ pentru x crescând rezultǎ o creştere generalǎ a valorilor lui y, atunci r indicǎ o
corelaţie liniarǎ pozitivǎ.
De exemplu, ı̂n cazul copiilor dacǎ x este vârsta şi y este ı̂nǎlţimea, atunci ne aşteptǎm ca
r sǎ fie pozitiv, pentru cǎ ı̂n mod natural, ı̂nǎţimea copilului creşte o datǎ cu vârsta. În

69
cazul automobilelor de serie, dacǎ x este vârsta, iar y este valoarea, atunci ne aşteptǎm
ca r sǎ fie negativ pentru cǎ ı̂n mod uzual valoarea automobilului descreşte cu vârsta lui.

Definiţia 19.7. Coeficientul de corelaţie liniarǎ r ı̂n cazul unui eşantion este prin
definiţie: P
(x − x) · (y − y)
r=
n · sx · sy
ı̂n care sx , sy sunt deviaţiile standard ale variabilelor x, y, iar n este numǎrul de perechi
(x, y).

Remarca 19.4. Pentru a calcula r de obicei se foloseşte o formulǎ alternativǎ echivalentǎ:

SS(x, y)
r=p
SS(x) · SS(Y )
P 2 1 ³X ´2 P 2 1 ³X ´2
unde: SS(x) = x − · x , SS(y) = y − · y , SS(x, y) =
³ X X ´n n
P 1
x·y− · x· y .
n
Exemplul 19.4. Sǎ se determine coeficientul de corelaţie liniarǎ r ı̂n cazul unui eşantion
aleator de mǎrime 10, dacǎ tabelul de date este:

x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43

Folosind aceste date avem:

SS(x) = 1396, 9 SS(y) = 858, 0 SS(x, y) = 919, 0

de unde gǎsim:
919, 0
r=p = 0, 8394 ≈ 0, 84.
(1396, 9) · (858, 0)
Remarca 19.5. Dacǎ valoarea calculatǎ r este apropiatǎ de 0, atunci nu existǎ corelaţie
liniarǎ.

Dacǎ valoarea calculatǎ r este aproape de +1 sau −1, atunci bǎnuim cǎ ı̂ntre cele douǎ
variabile exista corelaţie liniarǎ.

Între 0 şi 1 existǎ o valoare numitǎ punct de decizie care indicǎ dacǎ existǎ sau nu existǎ
corelaţie liniarǎ. Un punct simetric existǎ şi ı̂ntre −1 şi 0. Valoarea punctului de decizie
depinde de mǎrimea eşantionului.
În tabelul urmǎtor sunt trecute puncte de decizie pozitive pentru diferite mǎrimi de
eşantionare cuprinse ı̂ntre 5 şi 100.

70
n punct de n punct de n punct de n punct de
decizie decizie decizie decizie
5 0,878 12 0,576 19 0,456 30 0,301
6 0,811 13 0,553 20 0,444 40 0,312
7 0,754 14 0,532 22 0,423 50 0,279
8 0,707 15 0,514 24 0,404 60 0,254
9 0,666 16 0,497 26 0,388 80 0,220
10 0,632 17 0,482 28 0,374 100 0,196
11 0,602 18 0,468
Tabelul 1:Punctele de decizie pozitive pentru corelaţie liniarǎ

Valorile punctelor de decizie descresc dacǎ n creşte.

Dacǎ r se gǎseşte ı̂ntre punctul de decizie negativ şi cel pozitiv nu avem argumente ca sǎ
susţinem cǎ ı̂ntre cele douǎ variabile existǎ o corelaţie liniarǎ.

Dacǎ r este mai mare decât punctul de decizie pozitiv sau mai mic decât punctul de
decizie negativ atunci ı̂ntre cele douǎ variabile existǎ o corelaţie liniarǎ.

Existenţa unei corelaţii ı̂ntre cele douǎ variabile nu ı̂nseamnǎ cǎ existǎ o relaţie
cauzǎ efect. Astfel, de exemplu, dacǎ X este alocaţia pentru copii ı̂n ultimii 10 ani şi
Y este consumul de bǎuturi alcoolice ı̂n ultimii 10 ani, un eşantion de aceste date aratǎ
o corelaţie pozitivǎ strânsǎ fǎrǎ ca alocaţia pentru copii sǎ fie cauza vânzǎrii bǎuturilor
alcoolice sau viceversa.

O metodǎ rapidǎ de estimare a coeficientului de corelaţie liniarǎ r ı̂n cazul unui eşantion
este urmǎtoarea:

a) Se deseneazǎ o curbǎ ı̂nchisǎ ı̂n jurul valorii mulţimii de perechi (x, y):

71
b) Se determinǎ lungimea D a diametrului maxim:

c) Se determinǎ lungimea diametrului minim d:

µ

d
d) Valoarea r se estimeazǎ cu ± 1 − , ı̂n care semnul se alege ı̂n funcţie de
D
orientarea diametrului D:

Trebuie subliniat cǎ aceastǎ estimare este grosierǎ. Este foarte sensibilǎ la ı̂mprǎştiere.
Cu toate acestea dacǎ plaja de valori a lui X este aproximativ aceeaşi ca plaja de valori
a lui Y aproximaţia este utilǎ.

72
20 Analizǎ de corelaţie liniarǎ

În secţiunea 20 am vǎzut care este formula coeficientului de corelaţie liniarǎ r ı̂ntre douǎ
variabile X, Y menit sǎ mǎsoare cât de strânsǎ este relaţia de dependenţǎ liniarǎ dintre
cele douǎ variabile.
În cele ce urmeazǎ vom prezenta o analizǎ mai amǎnunţitǎ a acestei formule. Considerǎm
pentru ilustraţie urmǎtorul set de date bidimensionale:

x 2 3 6 8 11 12
y 1 5 3 2 6 1

Diagrama de ı̂mprǎştiere ı̂n acest caz este:

Media x a variabilei x este 7: x = 7, iar media variabilei y este 3: y = 3.


Punctul (x, y) este punctul (7, 3) şi se numeşte centroid al datelor:

73
Dacǎ prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul de
date se ı̂mparte ı̂n patru submulţimi. Fiecare datǎ (x, y) se gǎseşte la o anumitǎ distanţǎ
de aceste linii; x − x este distanţa cu semn de la (x, y) la paralela la axa Oy şi y − y
este distanţǎ cu semn de la (x, y) la paralela Ox. distanţele cu semn sunt pozitive sau
negative ı̂n funcţie de poziţia lui (x, y) faţǎ de (x, y).

O mǎsurǎ a dependenţei liniare ar putea fi covarianţa. Covarianţa dintre X şi Y este


definitǎ ca suma produselor distanţelor cu semn x − x şi y − y a tuturor datelor la centroid
ı̂mpǎrţitǎ la n:
Xn
(xi − x) · (yi − y)
i=1
covar(x, y) =
n
Covarianţa ı̂n cazul tabelului de date considerate este 0, 6.
Covarianţa pozitivǎ ı̂nseamnǎ cǎ diagrama de dispersie este dominatǎ de date care se
gǎsesc deasupra şi ı̂n dreapta centroidului sau dedesubt şi ı̂n stânga acestuia. Aceasta
ı̂ntrucât produsele (x − x) · (y − y) ı̂n puncte din aceste regiuni sunt pozitive.
Dacǎ diagrama de dispersie este dominatǎ de date care se gǎsesc deasupra şi ı̂n stânga sau
dedesubt şi ı̂n dreapta centroidului atunci covarianţa este negativǎ pentru cǎ produsele
(x − x) · (y − y) pentru puncte din aceste regiuni sunt negative.
Covarianţa ı̂nsǎ nu este convenabilǎ pentru a mǎsura cât este de strânsǎ relaţia de
dependenţǎ liniarǎ ı̂ntre douǎ variabile fiindcǎ depinde de unitǎţile de mǎsurǎ ale datelor.
Covarianţa nu are o unitate de mǎsurǎ standardizatǎ şi ı̂mprǎştierea datelor influenţeazǎ
foarte mult mǎrimea covarianţei.
Astfel de exemplu dacǎ ı̂nmulţim datele din tabelul considerat anterior cu 10 obţinem
tabelul de date:

x 20 30 60 80 110 120
y 10 50 30 20 60 10

Covarianţa ı̂n cazul acestui tabel de date este 60, dar aceasta nu ı̂nseamnǎ nicidecum cǎ
relaţia de dependenţǎ liniarǎ ı̂ntre X, Y este mai strânsǎ. Relaţia de dependenţǎ liniarǎ

74
este aceeaşi şi doar datele sunt mai ı̂mprǎştiate. Aceasta este problema cu covarianţa
atunci când vrem sǎ mǎsurǎm cu ajutorul ei dependenţa liniarǎ ı̂ntre douǎ variabile.
Trebuie sǎ gǎsim o cale de eliminare a efectului ı̂mprǎştierii datelor atunci când mǎsurǎm
dependenţa.
Dacǎ standardizǎm X şi Y ı̂mpǎrţind deviaţia fiecǎreia de la media sa cu deviaţia
standard:
x−x y−y
x0 = şi y 0 =
sx sy
şi calculǎm covarianţa lui X 0 şi Y 0 , vom avea o covarianţǎ care nu mai este influenţatǎ de
ı̂mprǎştierea datelor. Exact acest lucru este realizat prin introducerea coeficientului de
corelaţie liniar r. Astfel coeficientul de corelaţie liniar este:

covar(X, Y )
r = covar(X 0 , Y 0 ) =
sx · sy

Coeficientul de corelaţie liniarǎ standardizeazǎ mǎsura dependenţei şi ne permite sǎ com-
parǎm cât de strânsǎ este dependenţa liniarǎ a diferitelor seturi de date bidimensionale.
Formula coeficientului de corelaţie liniarǎ adesea poartǎ denumirea de momentul produs
Pearson.
Valoarea coeficientului de corelaţie liniarǎ r ı̂n cazul setului de date considerat la ı̂nceput
este:
0, 6
r= = 0, 07
(4, 099) · (2, 098)
Pentru cǎ determinarea coeficientului de corelaţie liniarǎ cu ajutorul formulei:
covarX, Y
r=
sx · sy

este greoaie, ı̂n locul ei se foloseşte una practicǎ:

SS(X, Y )
r=p
SS(X) · SS(Y )

Aceasta din urmǎ formulǎ evitǎ calculul separat al lui x, y, sx , sy precum şi calculul
deviaţiilor de la medie.

75
21 Inferenţǎ privind coeficientul de corelaţie liniarǎ

Dupǎ ce coeficientul de corelaţie liniarǎ r a fost calculat pentru un eşantion se pune ı̂n
mod natural ı̂ntrebarea: valoarea lui r indicǎ oare cǎ existǎ o dependenţǎ liniarǎ ı̂ntre
cele douǎ variabile ı̂n cazul populaţiei din care eşantioanele au fost luate?
Pentru a rǎspunde la aceastǎ ı̂ntrebare facem o verificare a ipotezelor statistice.
Etapa 1. Formularea ipotezei nule H0 :

”Cele douǎ variabile sunt liniar necorelate.”

Aceasta ı̂nseamnǎ ρ = 0, ρ fiind coeficientul de corelaţie pentru


populaţie.
Etapa 2. Formularea ipotezei alternative.
Aceasta poate fi unilateralǎ sau bilateralǎ. Cel mai frecvent este
bilateralǎ ρ 6= 0. Cu toate acestea dacǎ suspectǎm cǎ avem doar o
singurǎ corelaţie pozitivǎ ori o singurǎ corelaţie negativǎ trebuie sǎ
folosim test unilateral. Ipoteza alternativǎ ı̂n cazul testului unilateral
este: ρ > 0 sau ρ < 0.
Etapa 3. Regiunea criticǎ pentru testul statistic este ı̂n partea dreaptǎ dacǎ ne
aşteptǎm la o corelaţie pozitivǎ şi este ı̂n stânga dacǎ ne aşteptǎm la o
corelaţie negativǎ.

Testul statistic folosit pentru testarea ipotezei nule este scorul standard şi valoarea tes-
tului statistic este valoarea lui r calculatǎ din eşantion. Valorile critice pentru r se gǎsesc
ı̂n urmǎtorul tabel la intersecţia coloanei corespunzǎtoare valorii lui α şi a liniei core-
spunzǎtoare gradului de libertate df = n − 2:

76
Valorile critice pentru r dacǎ ρ = 0

df|α 0,10 0,05 0,02 0,01


1 0,988 0,997 1,000 1,000
2 0,900 0,950 0,980 0,980
3 0,805 0,878 0,934 0,959
4 0,729 0,811 0,882 0,917
5 0,669 0,754 0,833 0,874
6 0,662 0,707 0,789 0,834
7 0,582 0,666 0,750 0,798
8 0,549 0,632 0,716 0,765
9 0,521 0,602 0,685 0,735
10 0,497 0,576 0,658 0,708
11 0,476 0,553 0,634 0,684
12 0,458 0,532 0,612 0,661
13 0,441 0,514 0,592 0,641
14 0,426 0,497 0,574 0,623
15 0,412 0,482 0,558 0,606
16 0,400 0,468 0,542 0,590
17 0,389 0,456 0,528 0,575
18 0,378 0,444 0,516 0,561
19 0,369 0,433 0,503 0,549
20 0,360 0,423 0,492 0,537
25 0,323 0,381 0,445 0,487
30 0,296 0,349 0,409 0,449
35 0,275 0,325 0,381 0,418
40 0,257 0,304 0,358 0,393
45 0,243 0,288 0,338 0,372
50 0,231 0,273 0,322 0,354
60 0,211 0,250 0,295 0,325
70 0,195 0,232 0,274 0,302
80 0,183 0,217 0,256 0,283
90 0,173 0,205 0,242 0,267
100 0,164 0,195 0,230 0,254

Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral.
Pentru un test unilateral valoarea lui α este dublul valorii lui α ce se foloseşte ı̂n verifi-
carea ipotezelor statistice.

Etapa 4. Se determinǎ r din eşantion.

Etapa 5. Se determinǎ dacǎ r este ı̂n regiunea criticǎ sau nu.

Neacceptarea ipotezei nule ı̂nseamnǎ cǎ existǎ o probǎ a dependenţei dintre cele douǎ
variabile ale populaţiei
Menţiune: Aceasta nu ı̂nseamnǎ cǎ am stabilit o relaţie de tip cauzǎ efect ci
doar o relaţie matematicǎ care permite sǎ se prezicǎ comportamentul variabilei

77
de ieşire Y din comportamentul variabilei de intrare X.

Exemplul 21.1. În cazul tabelului de date:

x 2 3 6 8 11 12
y 1 5 3 2 6 1

avem n = 6, iar r = 0, 07. Întrebarea este dacǎ aceastǎ valoare a lui r diferǎ de zero ı̂n
mod semnificativ dacǎ nivelul de semnificaţie este α = 0, 02?

Etapa 1. H0 : ρ = 0

Etapa 2. H0 : ρ 6= 0

Etapa 3. Avem α = 0, 02 şi df = n − 2 = 6 − 2 = 4. Valorile critice din tabel


sunt: −0, 882 şi 0, 882.
Etapa 4. Valoarea calculatǎ a lui r este r∗ = 0, 07

Etapa 5. Se acceptǎ H0 .

Concluzie: Nu am putut arǎta cǎ X, Y sunt corelate. Dacǎ acceptǎm ipoteza nulǎ
ı̂nseamnǎ cǎ independenţa liniarǎ dintre cele douǎ variabile a fost arǎtatǎ.
Ca şi ı̂n alte probleme, uneori se cere estimarea unui interval de ı̂ncredere pentru
coeficientul de corelaţie ρ. Este posibilǎ estimarea coeficientului de corelaţie ρ folosind
un tabel care ne dǎ centuri de ı̂ncredere. Tabelul urmǎtor reprezintǎ asemenea centuri
de ı̂ncredere pentru intervale de ı̂ncredere de 95%: Exemplul urmǎtor aratǎ cum trebuie
citit un asemenea tabel.

Exemplul 21.2. Pentru un eşantion de 15 perechi de date o valoare calculatǎ a lui r este
r = 0, 35. Sǎ se determine intervalul de ı̂ncredere 95% pentru coeficientul de corelaţie
liniar ρ a populaţiei?

1) Se localizeazǎ 0, 35 pe axa orizontalǎ (axa coeficientului de corelaţie liniarǎ) şi se


duce linia verticalǎ.

78
2) Se determinǎ intersecţia liniei verticale cu centurile corespunzǎtoare mǎrimii
eşantionului (aceasta fiind 15) şi se obţin douǎ puncte pe linia verticalǎ.

3) Intervalul de ı̂ncredere este intervalul determinat de ordonatele acestor puncte


(−0, 20, −0, 72) (axa ordonatelor este axa coeficientului de corelaţie a populaţiei).

79
22 Regresie liniarǎ

Dacǎ valoarea coeficientului de corelaţie liniarǎ r indicǎ o corelaţie liniarǎ strânsǎ atunci se
pune problema stabilirii unei relaţii numerice exacte. Aceastǎ relaţie exactǎ este obţinutǎ
prin regresie liniarǎ.
În general statisticianul cautǎ o ecuaţie care exprimǎ relaţia dintre douǎ variabile. Ecuaţia
aleasǎ este cea mai bunǎ fitare a diagramei de dispersie. Ecuaţiile gǎsite se numesc ecuaţii
de predicţie, iar ı̂n continuare sunt prezentate câteva asemenea ecuaţii:

y = b0 + b1 · x - liniarǎ

y = a + b · x + c · x2 - pǎtraticǎ

y = a · bx - exponenţialǎ

y = a · logb x - logaritmicǎ.

Obiectivul final este ca folosind ecuaţii sǎ se facǎ predicţii. În general valoarea exactǎ a
variabilei Y nu este prezisǎ. Ne mulţumim dacǎ predicţia este suficient de apropiatǎ.
Definiţia 22.1. Regresia liniarǎ stabileşte dependenţa liniarǎ ı̂n medie a lui y ı̂n funcţie
de x.

Vom descrie ı̂n continuare cum se stabileşte cea mai bunǎ dependenţǎ liniarǎ pentru un
set de date (x, y).
Dacǎ relaţia de dependenţǎ liniarǎ pare potrivitǎ, cea mai bunǎ relaţie liniarǎ se stabileşte
cu metoda celor mai mici pǎtrate.
Sǎ presupunem cǎ ŷ = b0 + b1 · x este cea P mai bunǎ relaţie liniarǎ. Metoda celor mai mici
pǎtrate cere ca b0 şi b1 sǎ fie astfel ı̂ncât (y − ŷ)2 sǎ fie minimǎ.
Din teorema lui Fermat rezultǎ cǎ valorile minime ale funcţiei:
X
F (b0 , b1 ) = (y − b0 − b1 · x)2

se obţin pentru
P
(x − x) · (y − y) 1 ³X X ´
b1 = P , b0 = · y − b1 · x
(x − x)2 n
b1 este panta dreptei, iar b0 este ordonata la origine.
Pentru determinarea pantei b1 de obicei se foloseşte formula echivalentǎ:
SS(x, y)
b1 =
SS(x)
P 1 ³X ´2 P 1 ³X X ´
unde: SS(x) = x2 − · x şi SS(x, y) = x·y− · x· y .
n n
Menţionǎm aici cǎ expresiile SS(x, y) şi SS(x) apar şi ı̂n formula de calcul al coeficientului
de corelaţie liniarǎ. De aceea ı̂n momentul calculǎrii lui r putem afla şi valoarea pantei
b1 .

80
Exemplul 22.1. În cazul unui eşantion de 10 indivizi considerǎm urmǎtorul set de date.

x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43

Pentru a determina cea mai bunǎ relaţie liniarǎ ŷ = b0 + b1 · x se calculeazǎ SS(x, y) şi
SS(x) şi se obţine:
SS(x, y) = 919, 0 şi SS(x) = 1396, 9
de unde panta b1 este:
919, 0
b1 = = 0, 6599 ≈ 0, 66.
1396, 9
Pentru a determina ordonata ı̂n origine b0 se foloseşte formula de calcul a acesteia şi
rezultǎ:
1
b0 = [380 − 0, 65 · 351] = 14, 9077 ≈ 14, 9
10
Astfel cea mai bunǎ relaţie liniarǎ este:

ŷ = 14, 9 + 0, 66 · x

Remarca 22.1.

a) Panta b1 reprezintǎ schimbarea prezisǎ a variabilei y corespunzǎtoare unei creşteri


cu o unitate a variabilei x.

b) Ordonata b0 reprezintǎ valoarea lui y ı̂n x = 0. Doar dacǎ x = 0 este ı̂n domeniul
de date putem spune cǎ b0 este valoarea prezisǎ a lui y pentru x = 0.

c) Cea mai bunǎ relaţie liniarǎ este o dreaptǎ ce trece prin punctul de coordonate
(x, y). Acest fapt poate fi utilizat ca verificare atunci când se traseazǎ graficul celei
mai bune relaţii liniare.

Exemplul 22.2. În cazul unui eşantion aleator de 8 indivizi considerǎm urmǎtorul tabel
de date

x 65 65 62 67 69 65 61 67
y 105 125 11 120 140 135 95 130

Diagrama de ı̂mprǎştiere a acestui set de date sugereazǎ o corelaţie liniarǎ.

81
Pentru a gǎsi cea mai bunǎ relaţie de dependenţǎ liniarǎ calculǎm SS(x, y) şi SS(x) şi
gǎsim:
SS(x, y) = 230, 0 şi SS(x) = 48, 875
De aici avem:
230, 0
b1 = = 4, 706 ≈ 4, 71.
48, 875
1 hX X i
b0 = y − b1 · x = −186, 478 ≈ 186, 5
n
de unde:
ŷ = −186, 5 + 4, 71 · x

Remarca 22.2. O estimare ”grosierǎ” a celei mai bune relaţii de dependenţǎ liniarǎ se
poate face ı̂n felul urmǎtor:

- ca şi ı̂n cazul aproximǎrii coeficientului de corelaţie r se considerǎ o curbǎ ı̂nchisǎ


ı̂n jurul mulţimii de perechi (x, y);

- diametrul maxim al mulţimii este o aproximare a graficului de dependenţǎ liniarǎ;

- se scrie ecuaţia de dependenţǎ liniarǎ ca ecuaţia unei drepte ce trece prin douǎ
puncte de pe acest diametru;

- ca şi ı̂n cazul estimǎrii lui r aceastǎ estimare este una grosierǎ şi trebuie folositǎ ca
atare.

82
23 Analizǎ de regresie liniarǎ

Modelul liniar folosit pentru a explica dependenţa liniarǎ a douǎ variabile referitoare la
aceeaşi populaţie este definit de ecuaţia:

y = β0 + β1 · x + ε

Aceastǎ ecuaţie reprezintǎ relaţia liniarǎ dintre douǎ variabile x şi y ı̂ntr-o populaţie. În
aceastǎ relaţie:
- β0 este ordonata la origine;
- β1 este panta;
- y este valoarea observatǎ la o valoare datǎ a lui x;
- β0 + β · x este media lui y pentru valoarea datǎ a lui x
Remarcǎm cǎ eroarea ε depinde de x. Pentru valorile x1 , x2 , . . . , xn ale lui x modelul liniar
se scrie:
yi = β0 + β1 · xi + εi , i = 1, 2, . . . , n
- ε este eroarea aleatoare a valorii observate y la o valoare datǎ a lui x care reprezintǎ
deviaţia valorii observate y de la medie.
Dreapta de regresie liniarǎ obţinutǎ ŷ = b0 + b1 · x pe baza datelor (xi , yi ), i = 1, 2, . . . , n
ne dǎ b0 care este o estimare pentru β0 şi b1 care este o estimare pentru β1 . Atunci vom
putea scrie yi = b0 + b · xi + ei . Erorile sunt estimate prin yi − ŷi care este diferenţa
dintre valoarea observatǎ yi şi valoarea prezisǎ ŷi a lui y la o valoare datǎ a lui x. Fiindcǎ
ŷi = b0 + b1 · xi avem cǎ:
ei = yi − ŷi
Erorile ei sunt cunoscute sub numele de reziduuri.
Variabila aleatoare e are urmǎtoarele proprietǎţi:

• e > 0 ⇐⇒ y > ŷ;

• e < 0 ⇐⇒ y < ŷ;

• pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;
aceasta este o consecinţǎ a metodei celor mai mici pǎtrate; şi astfel media erorilor
Xn
experimentale este zero: ei = 0.
i=1

Notǎm cu σε2 varianţa erorilor aleatoare a datelor observate şi ne propunem sǎ estimǎm
aceastǎ varianţǎ.
Înainte ı̂nsǎ sǎ trecem la estimarea varianţei σε2 sǎ analizǎm puţin ce reprezintǎ eroarea
ε? ε reprezintǎ diferenţa dintre valoarea observatǎ y şi valoarea medie a lui y pentru o
valoare datǎ a lui x. Întrucât nu cunoaştem valoarea medie a lui y, vom folosi ecuaţia de
regresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu ŷ valoarea prezisǎ
de ecuaţia de regresie a lui y pentru acest x. Astfel estimarea lui ε este e = y − ŷ.

83
Dacǎ pentru o valoare datǎ x avem mai multe valori observate y acestea pot fi reprezentate
pe verticala ı̂n x pe axa Ox.

O distribuţie similarǎ apare la fiecare valoare a lui x. Valoarea medie a datelor y observate
depinde de x şi se estimeazǎ cu ŷ.
Altfel spus, deviaţia standard a distribuţiei datelor y de la medie este aceeaşi pentru orice
x:

84
Reamintim cǎ varianţa s2 a unui set de date statistice x1 , x2 , . . . , xn a fost definitǎ cu
formula: n
1X
s2 = (xi − x)2
n i=1
Determinarea varianţei setului de date y introduce o complicaţie pentru cǎ media datelor
y diferǎ de la un x la altul. Pentru fiecare x media este estimatǎ prin valoarea prezisǎ ŷ ce
corespunde la x prin dreapta de regresie. Astfel varianţa erorii ε se estimeazǎ cu formula:
n
1X
s2ε = (yi − ŷi )2
n i=1

care aratǎ cǎ varianţa erorii ε este varianţa variabilei y ı̂n jurul dreptei de regresie.
Varianţa erorii s2ε poate fi scrisǎ sub forma:
1X 1 hX 2 X i
s2ε = (y − b0 − b1 · xi )2 = yi − b0 · y − b 1 · xi · y i
n n
şi este o estimare a lui σε2
Exemplul 23.1. O persoanǎ care se mutǎ la Timişoara şi se angajeazǎ la o companie
doreşte sǎ ştie ı̂n cât timp poate sǎ ajungǎ dimineaţa cu maşina de la locuinţǎ la locul de
muncǎ. Pentru a gǎsi un rǎspuns la aceastǎ ı̂ntrebare el ı̂ntreabǎ un numǎr de 15 colegi la
ce distanţǎ stau de locul de muncǎ şi ı̂n cât timp ajung la serviciu şi ı̂ntocmeşte urmǎtorul
tabel de date statistice:

coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x - distanţa
(ı̂n km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20
y - timpul
(ı̂n min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45

Pentru a gǎsi un rǎspuns la problemǎ persoana ı̂n cauzǎ trebuie sǎ determine dreapta de
regresie şi varianţa s2e .
Folosind formulele de calcul el gǎseşte:
(184)2
SS(x) = 2, 616 − = 358, 9333
15
85
(184) · (403)
SS(x, y) = 5, 623 − = 679, 53333
15
358, 9333
b1 = = 1, 893202 ≈ 1, 89
679, 53333
1
b0 = [403 − (1, 893202) · (184)] = 3, 643387 ≈ 3, 64
15
ŷ = 3, 64 + 1, 89 · x.
Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a
ajunge la serviciu ı̂n funcţie de distanţa x la care locuieşte.
Pentru a gǎsi abaterea standard de la valoarea estimatǎ el va trebui sǎ calculeze şi varianţa
s2ε . Folosind formulele de calcul el gǎseşte: s2ε = 29, 17.

86
24 Inferenţǎ referitoare la panta unei drepte de re-
gresie liniarǎ

Dupǎ ce ecuaţia dreptei de regresie liniarǎ a fost determinatǎ ne ı̂ntrebǎm când putem
folosi aceastǎ ecuaţie pentru a prezice valorile variabilei y ı̂n funcţie de x?
Rǎspunsul la ı̂ntrebare ı̂l vom da parcurgând procedeul de verificare a ipotezelor statistice.
Înainte de a face inferenţǎ privind dreapta de regresie facem urmǎtoarele ipoteze:

- pentru fiecare x distribuţia datelor y observate este aproximativ normalǎ;

- pentru fiecare x varianţa distribuţiei datelor y observate este aceeaşi.

Înainte sǎ trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor
statistice) sǎ analizǎm distribuţia pantelor ce se obţin pentru eşantioane aleatoare de
mǎrime n. Aceste pante b1 au o distribuţie aproape normalǎ având media β1 panta ı̂n
cazul populaţiei şi varianţa σb21 datǎ de:

σε2
σb21 =P
(x − x)2
Un estimator adecvat s2b1 a lui σb21 se obţine prin ı̂nlocuirea lui σε2 cu s2e :

s2e
s2b1 = P
(x − x)2
Aceastǎ formulǎ poate fi scrisǎ sub forma:
s2e s2e
s2b1 = =P £P ¤
SS(x) x − ( x)2 /n

Eroarea standard a regresiei (pantei) este σb1 şi este estimatǎ prin sb1 .
Putem trece acum la verificarea ipotezelor statistice:

Etapa 1. Formularea ipotezei H0 . Ipoteza nulǎ va fi β1 = 0. Dacǎ β1 = 0


atunci ecuaţia liniarǎ nu poate fi folositǎ pentru a prezice valoarea lui
y aceasta ı̂nseamnǎ cǎ: ŷ = y.
Etapa 2. Ipoteza alternativǎ poate fi unilateralǎ sau bilateralǎ. Dacǎ bǎnuiala
este cǎ panta este pozitivǎ atunci un test unilateral este potrivit:
Ha : β1 > 0.
Etapa 3. Ca test statistic folosim testul t. Numǎrul gradelor de libertate pentru
test este df = n − 2. În cazul Exemplului 23.1 care se referǎ la timpul
necesar pentru a ajunge cu maşina la servici df = 15−2 = 13. La nivelul
de semnificaţie α = 0, 05, valoarea criticǎ a lui t este t(13; 0, 05) = 1, 77.
Formula de calcul folosit pentru valoarea testului statistic t pentru
inferenţǎ este:
b1 − β1
t∗ =
sb1

87
s2e
Etapa 4. Având ı̂n vedere egalitatea s2b1 = ı̂n cazul exemplului considerat
SS(X)
gǎsim cǎ valoarea testului statistic este:
b1 − β1 1, 89 − 0
t∗ = =√ = 6, 629 ≈ 6, 63
sb1 0, 0813
Etapa 5. Decizie: ipoteza H0 se respinge pentru cǎ t∗ este ı̂n regiunea criticǎ.
Concluzie: Panta dreptei de cea mai bunǎ aproximaţie este mai mare
ca zero. Probele statistice aratǎ cǎ existǎ o relaţie liniarǎ ı̂ntre distanţa
locuinţǎ-serviciu şi perioada de timp necesarǎ pentru a ajunge cu maşina
la serviciu şi aceastǎ perioadǎ de timp este predictibilǎ.
Panta β1 a dreptei de regresie liniarǎ a populaţiei poate fi estimatǎ cu ajutorul inter-
valului de ı̂ncredere. Capetele acestui interval de ı̂ncredere sunt date de formula:
α
b1 ± t(n − 2; ) · sb1
2

În cazul Exemplului 23.1 la nivelul de semnificaţie α = 0, 05:


p
1, 89 ± 2, 16 · 0, 0813 = 1, 89 ± 0, 62

capetele intervalului de ı̂ncredere sunt 1, 27 şi 2, 51.


Deci intervalul de ı̂ncredere pentru β1 este (1, 27; 2, 51) la nivelul de semnificaţie 0, 05.

88
BIBLIOGRAFIE
[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston

[2] Andrei Tudorel, Stancu Andrei, Statisticǎ - teorie şi aplicaţii, Editura All, 1995,
Bucureşti

[3] Thomas H. Wonacott, Ronald J. Wonacott: Statistique, Economica, 4me dition,


1991,Paris

[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lecţii de statisticǎ descrip-
tivǎ, Universitatea de Vest, 1998, Timişoara

[5] Bocşan Gheorghe, Estimarea parametrilor modelelor statistice, Universitatea de Vest,


1995, Timişoara

[6] Yule G. Udny, Kendall, M.G., Introducere ı̂n teoria statisticii, Editura Ştiinţificǎ,
1969, Bucureşti

89