Documente Academic
Documente Profesional
Documente Cultură
Cuprins
1 Ce este statistica? 3
2 Noţiuni de bazǎ 5
3 Colectarea datelor 7
5 Prezentarea datelor 14
1
15 Verificarea ipotezelor statistice: variantǎ clasicǎ 41
22 Regresie liniarǎ 80
2
1 Ce este statistica?
Problema 1.1. Universitatea de Vest din Timişoara doreşte sǎ facǎ un plan de dezvoltare
a facilitǎţilor de cazare. Pentru a trece la acţiune consiliul de administraţie hotǎrǎşte cǎ
este necesar sǎ se rǎspundǎ la urmǎtoarea ı̂ntrebare: Câţi studenţi vor trebui cazaţi ı̂n
urmǎtorii zece ani?
Pentru a rǎspunde la aceastǎ ı̂ntrebare trebuie sǎ cunoaştem rǎspunsul la cel puţin
urmǎtoarele douǎ ı̂ntrebǎri: Câţi absolvenţi de liceu vor fi? Câţi vor sǎ vinǎ la
universitate? (Şi altele poate).
Pentru a rǎspunde la aceste douǎ ı̂ntrebǎri e nevoie de date referitoare la numǎrul de
absolvenţi de liceu ı̂n urmǎtorii zece ani şi de date care indicǎ procentul acelor absolvenţi
de liceu care doresc sǎ devinǎ studenţi la U.V.T. ı̂n urmǎtorii zece ani.
O cale de a obţine date refritoare la numǎrul de absolvenţi de liceu ı̂n urmǎtorii zece ani
este de a vedea care a fost acest numǎr ı̂n ultimii zece ani şi a extrapola acest numǎr.
Trebuie remarcat cǎ aceastǎ idee presupune cǎ existǎ o legǎturǎ dintre trecut şi viitor.
Acest lucru nu este ı̂ntotdeauna adevǎrat. O ı̂ntrebare suplimentarǎ care se pune ı̂n acest
context este dacǎ va trebui sǎ numǎrǎm toţi absolvenţii de liceu din toate şcolile din
ultimii zece ani sau ne putem limita sǎ numǎrǎm doar la anumite şcoli? Altfel spus, dacǎ
putem considera doar eşantioane?
O cale de a obţine date referitoare la procentul acelor absolvenţi care doresc sǎ devinǎ
studenţi la U.V.T. este aceea de a vedea aceste procente ı̂n ultimii zece ani şi de a
extrapola.
Alte ı̂ntrebǎri care se pun sunt: Cum interpretǎm aceste date? Cum formulǎm o concluzie
pe baza acestor date? Cum se ia o decizie pe baza acestor date?
Nu am terminat cu enumerarea ı̂ntrebǎrilor care pot fi relevante. La acest moment ceea
ce este important este sǎ ı̂ncepem sǎ ne gândim la asemenea probleme şi la ı̂ntrebǎrile
care trebuiesc lǎmurite pentru a obţine un rǎspuns.
3
populaţia). Statistica ne cere sǎ facem un eşantion, sǎ analizǎm eşantionul şi pe urmǎ sǎ
facem predicţie asupra populaţiei pe baza informaţiei gǎsite ı̂n eşantion.
• ı̂n educaţie; statistica descriptivǎ este adesea folositǎ pentru a prezenta rezultatele;
Mulţi oameni sunt indiferenţi faţǎ de descrierea statisticǎ, alţii cred cǎ statisticile sunt
minciuni. Majoritatea minciunilor statistice sunt inocente şi rezultǎ din folosirea unei
statistici neadecvate sau date obţinute dintr-un eşantion nepotrivit. Toate acestea conduc
la o ı̂nţelegere greşitǎ a informaţiei din partea consumatorului. Folosirea greşitǎ a
statisticii duce uneori la ı̂ncurcǎturi.
4
2 Noţiuni de bazǎ
Definiţia 2.1. Populaţia este o colecţie (mulţime) de indivizi, obiecte sau date numerice
obţinute prin mǎsurǎtori ale cǎrei proprietǎţi trebuiesc analizate.
Remarca 2.1. Populaţia este colecţia completǎ de indivizi, obiecte sau date numerice
obţinute prin mǎsurǎtori care prezintǎ interes (pentru cel care colecteazǎ eşantionul).
Conceptul de populaţie este fundamental ı̂n statisticǎ. Populaţia trebuie definitǎ cu grijǎ
şi se considerǎ complet definitǎ dacǎ lista membrilor este specificatǎ. Mulţimea studenţilor
Facultǎţii de Matematicǎ şi Informaticǎ este o populaţie bine definitǎ.
Dacǎ auzim cuvântul populaţie de obicei ne gândim la o mulţime de oameni. În statisticǎ
populaţia poate fi o mulţime de animale, de obiecte fabricate sau de date numerice
obţinute prin mǎsurǎtori. De exemplu mulţimea ”ı̂nǎlţimilor” studenţilor facultǎţii de
Matematicǎ şi Informaticǎ este o populaţie.
Definiţia 2.2. Eşantionul este o submulţime a unei populaţii.
Remarca 2.2. Un eşantion constǎ din indivizi, obiecte sau date mǎsurate selectate din
populaţie (de cǎtre colectorul de eşantion).
Definiţia 2.3. O variabilǎ de rǎspuns (simplu variabilǎ) este o caracteristicǎ (de
obicei numericǎ) care prezintǎ interes ı̂n cazul fiecǎrui element (individ) al unei populaţii.
Remarca 2.3. Vârsta studentului, media lui, culoarea pǎrului, ı̂nǎlţimea, greutatea
ş.a.m.d. sunt variabile de rǎspuns ı̂n cazul populaţiei: studenţii de la Facultatea de
Matematicǎ şi Informaticǎ.
Definiţia 2.4. O datǎ (la singular) este ”valoarea” unei variabile de rǎspuns ı̂n cazul
unui element al populaţiei sau eşantionului.
Exemplul 2.1. Popescu Nicolae are vı̂rsta de ”19 ani”, media 8.50, pǎrul lui este
”castaniu”, ı̂nǎlţimea lui este ”1 m şi 75 cm”, iar greutatea lui este ”65 kg”. Aceste cinci
”valori” ale celor cinci variabile de rǎspuns (Remarca 2.3) ı̂n cazul lui Popescu Nicolae
sunt ”cinci” date.
Definiţia 2.5. ”Valorile” unei variabile de rǎspuns ı̂n cazul unei populaţii sau a unui
eşantion constituie un set de date . Într-un set de date aceeaşi datǎ apare de atâtea ori
de câte ori variabila are aceastǎ ”valoare”.
Exemplul 2.2. Cele 25 de ı̂nǎlţimi ı̂n cazul unui eşantion de 25 de studenţi este un set
de 25 de date nu neapǎrat diferite.
Definiţia 2.6. O activitate planificatǎ ı̂n urma cǎreia se obţine un set de date se numeşte
experiment sau sondaj.
Definiţia 2.7. Parametru este o caracteristicǎ numericǎ a unei populaţii.
Exemplul 2.3. Procentul de studenţi de la Facultatea de Matematicǎ şi Informaticǎ care
au promovat toate examenele la sesiunea din iarnǎ este un exemplu de parametru ı̂n cazul
populaţiei: studenţii de la Facultatea de Matematicǎ şi Informaticǎ.
Remarca 2.4. Parametrul este o valoare numericǎ care se referǎ la ı̂ntreaga populaţie.
În statisticǎ se obişnuieşte ca parametrul sǎ fie notat cu literǎ greceascǎ.
5
Definiţia 2.8. O statisticǎ este o caracteristicǎ numericǎ a unui eşantion
Exemplul 2.4. Înǎlţimea medie gǎsitǎ folosind cele 25 de ı̂nǎlţimi ı̂n cazul unui eşantion
de 25 de studenţi este un exemplu de statisticǎ (de eşantion).
6
3 Colectarea datelor
Prima problemǎ a statisticianului este colectarea unui set de date. Aceasta presupune
definirea prealabilǎ a obiectivelor sondajului (experimentului) a populaţiei şi a variabilei.
Exemple de obiective:
Tot ı̂nainte de colectarea setului de date trebuie hotǎrât dacǎ setul de date se constituie
pentru ı̂ntreaga populaţie sau doar pentru un eşantion. Dacǎ setul de date se constituie
pentru ı̂ntreaga populaţie atunci se face un recensǎmânt.
Definiţia 3.1. Un recensǎmânt este o enumerare sau o listare a fiecǎrui element al
populaţiei ı̂mpreunǎ cu data (valoarea variabilei) corespunzǎtoare elementului.
În cazul unei populaţii mari, constituirea unui set de date la nivelul populaţiei este dificil
şi costisitor. De aceea, ı̂n cazul ı̂n care nu este posibilǎ realizarea unui recensǎmânt,
setul de date se constituie doar pentru o parte a populaţiei, pentru un eşantion. Selecţia
elementelor pentru eşantion se face dintr-un cadru de eşantionare.
Definiţia 3.2. Cadrul de eşantionare este o listǎ de elemente care aparţin populaţiei,
din care va fi extras eşantionul.
Remarca 3.1. Deoarece numai elementele din cadrul eşantionului au şansa sǎ fie selectate
pentru eşantion, din perspectiva variabilei de rǎspuns cadrul de eşantion trebuie sǎ fie
reprezentativ pentru populaţie.
Remarca 3.2. În cazul unei populaţii de indivizi listele de alegǎtori sau cǎrţile de telefon
sunt folosite adesea drept cadru de eşantion. În funcţie de variabila de rǎspuns acestea
pot fi cadre de eşantion potrivite sau nepotrivite.
Remarca 3.3. Dupǎ definirea cadrului eşantionului se trece la stabilirea modului de
alegere a elementelor eşantionului. Acest proces se numeşte proiectarea eşantionului.
Definiţia 3.3. Proiectarea eşantionului ı̂nseamnǎ stabilirea procedurii de alegere a
elementelor eşantionului din cadrul eşantionului.
Existǎ mai multe procedee de alegere a elementelor eşantionului. În mare aceste procedee
ı̂mpreunǎ cu eşantioanele corespunzǎtoare se ı̂mpart ı̂n douǎ categorii: procedee bazate
pe reprezentativitate şi procedee probabiliste.
7
Definiţia 3.4. Eşantioane bazate pe reprezentativitate sunt acelea pentru care
elementele se aleg astfel ı̂ncât din perspectiva variabilei de rǎspuns, elementul ales sǎ fie
reprezentativ pentru populaţie.
Exemplul 3.1. Din perspectiva variabilei de rǎspuns: ”cursul A este util sau nu ı̂n
formarea dumneavoastrǎ profesionalǎ?”, studenţii din cadrul unui eşantion care nu au
frecventat cursul nu sunt reprezentativi. Deci nu sunt aleşi ı̂n eşantion.
Definiţia 3.5. Un eşantion pentru care elementele sunt selectate pe bazǎ probabilistǎ;
oricare element din cadrul eşantionului are o anumitǎ şansǎ nenulǎ sǎ fie selectat; se
numeşte eşantion probabilist.
Remarca 3.4. Inferenţe statistice cer ca eşantionul sǎ fie probabilist. Eşantioanele
probabiliste aleatoare sunt cele mai familiare eşantioane probabiliste.
Definiţia 3.6. Un eşantion de mǎrimea n este eşantion probabilist aleator dacǎ orice
eşantion de mǎrimea n ales din acelaşi cadru are aceeaşi probabilitate sǎ fie ales.
Remarca 3.5. Cea mai rǎspânditǎ metodǎ de a colecta date foloseşte eşantion aleator
simplu.
Definiţia 3.7. Un eşantion probabilist aleator pentru care elementele sunt selectate dintr-
un cadru ı̂n care elementele au aceeaşi probabilitate sǎ fie alese se numeşte eşantion
aleator simplu.
Remarca 3.6. Atunci când se construieşte un eşantion probabilist aleator simplu trebuie
avutǎ grijǎ ca fiecare element din cadrul eşantionului sǎ aibe aceeaşi probabilitate sǎ fie
selectat. Adesea se fac greşeli pentru cǎ termenul ”aleator” este confundat cu ”ales
la ı̂ntâmplare”. Un procedeu corect de selectare a unui eşantion probabilist aleator
simplu este acela care foloseşte un generator de numere aleatoare sau o tabelǎ de numere
aleatoare. Prima oarǎ se numeroteazǎ elementele din cadrul de eşantionare. Dupǎ aceasta
ı̂n tabelul cu numere aleatoare se aleg atâtea numere câte sunt necesare pentru eşantion.
Fiecare element din cadrul de eşantionare, al cǎrui numǎr coincide cu un numǎr selectat
din tabelul de numere aleatoare va fi ales pentru eşantion.
Exemplul 3.2. Dacǎ cadrul eşantionului este o listǎ de 4265 de studenţi atunci ei sunt
numerotaţi de la 0001; 0002; ...; 4265. Pentru un eşantion de 50 de studenţi se aleg 50 de
numere aleatoare cu patru cifre şi se identificǎ studenţii din cadrul eşantionului.
Remarca 3.7. În aceastǎ selecţie se foloseşte tabela de numere aleatoare o singurǎ datǎ,
pentru a determina punctul de plecare.
8
2) se calculeazǎ k (pasul de numǎrare) folosind urmǎtoarea relaţie:
· ¸ · ¸
numǎrul de elemente din cadrul eşantionului 245
k= = = 16
numǎrul de elemente din eşantion 15
3) se alege punctul de plecare ı̂ntre 1 şi numǎrul k cu ajutorul unui tabel de numere
aleatoare.
10, 16, 32, 48, 64, 80, 96, 112, 128, 144, 160, 176, 192, 208, 234.
245
Deoarece k = = 16, 33, nu este un numǎr ı̂ntreg, pasul de numǎrare poate fi şi 17. În
15
acest caz eşantionul sistematic obţinut este de numai 14 elemente.
Remarca 3.8. Este o procedurǎ bunǎ pentru a eşantiona un procentaj ı̂n cazul
populaţiilor mari. Pentru a selecta un eşantion sistematic de x% dintr-o populaţie, un
element din 100/x va fi selectat (dacǎ 100/x nu este ı̂ntreg se ia partea ı̂ntreagǎ).
Remarca 3.9. Folosirea eşantionului sistematic nu este potrivitǎ dacǎ populaţia este
repetitivǎ sau ciclicǎ ı̂n naturǎ.(din perspectiva variabilei de rǎspuns)
Când se eşantioneazǎ populaţii foarte mari, atunci când este posibil se ı̂mparte populaţia
ı̂n douǎ subpopulaţii pe baza unor caracteristici. Aceste subpopulaţii se numesc straturi,
iar straturile sunt eşantionate separat.
Definiţia 3.9. Un eşantion obţinut ı̂n urma stratificǎrii cadrului eşantionului şi prin
selectarea unui numǎr dat de elemente din fiecare strat se numeşte eşantion stratificat.
Remarca 3.10. Când se proiecteazǎ un eşantion stratificat, cadrul se ı̂mparte ı̂n douǎ sau
mai multe straturi şi ı̂n fiecare strat se proiecteazǎ un subeşantion. Aceste subeşantioane
pot fi aleatoare, sistematice sau de alt gen. Dupǎ aceea subeşantioanele sunt asamblate
ı̂ntr-un singur eşantion pentru a colecta un set de date.
Exemplul 3.5. Pentru studierea unei caracteristici a populaţiei studenţilor din Facul-
tatea de Matematicǎ şi Informaticǎ, aceastǎ populaţie poate fi ı̂mpǎrţitǎ:
- pe domenii: informaticǎ, matematicǎ
- pe ani de studiu.
9
Exemplul 3.6. Dacǎ se doreşte construirea unui eşantion de 150 de studenţi din populaţia
studenţilor Facultǎţii de Matematicǎ şi Informaticǎ putem face stratificarea dupǎ anii de
studiu. În acest caz, numǎrul de studenţi ce va fi selectat din fiecare an ce va fi selectat
va fi proporţional cu numǎrul total de studenţi din anul respectiv:
Eşantionul va fi format din 54 de studenţi din anul I, 40 de studenţi din anul II, 26 de
studenţi din anul III şi 30 de studenţi din anul IV.
Exemplul 3.7. Dacǎ se doreşte realizarea unui eşantion ciorchine format din studenţii
Universitǎţii de Vest din Timişoara, aceastǎ populaţie poate fi startificatǎ ı̂n funcţie
de specializarea pe care au ales-o studenţii selecţionând eşantioane doar de la câteva
specializǎri (nu de la toate).
Remarca 3.11. Eşantionul ciorchine se obţine folosind numere aleatoare sau o metodǎ
sistematicǎ pentru identificarea straturilor (ciorchine) care trebuiesc eşantionate, dupǎ
care fiecare din aceste straturi este eşantionat. Subeşantioanele asamblate formeazǎ un
eşantion ciorchine.
10
4 Determinarea frecvenţei şi gruparea datelor
Dupǎ colectarea unui set de date urmeazǎ prelucrarea primarǎ a datelor. Determinarea
frecvenţei şi gruparea datelor este un procedeu de prelucrae primarǎ a datelor şi este
utilizat atunci când numǎrul datelor este mare.
Pentru a prezenta conceptul de frecvenţǎ sǎ considerǎm urmǎtorul set de date:
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
Valoarea 0 apare ı̂n acest set o singurǎ datǎ prin urmare frecvenţa pentru 0 este unu.
Valoarea 1 apare ı̂n acest set de trei ori prin urmare frecvenţa pentru 1 este trei.
Valoarea 2 apare ı̂n acest set de opt ori prin urmare frecvenţa pentru 2 este opt.
Valoarea 3 apare ı̂n acest set cinci ori prin urmare frecvenţa pentru 3 este cinci.
Valoarea 4 apare ı̂n acest set de douǎ ori prin urmare frecvenţa pentru 4 este doi.
Frecvenţa datelor 0,1,2,3,4 care apar ı̂n setul de date este redatǎ ı̂n tabelul urmǎtor:
x f
0 1
1 3
2 8
3 5
4 3
Definiţia 4.1. Frecvenţa f (din coloana a doua) aratǎ de câte ori apare valoarea variabilei
x ı̂n setul de date.
Atunci când ı̂ntr-un set de date multe sunt distincte (ı̂n loc de câteva ca ı̂n cazul precedent)
se grupeazǎ datele ı̂n clase şi apoi se construiesc frecvenţe pentru clase.
Pentru a ilustra acest procedeu considerǎm urmǎtorul set de date:
82 74 88 66 58
62 68 72 92 86
74 78 84 96 76
76 52 76 82 78
Vom pune ı̂n aceeaşi clasǎ toate datele la care prima cifrǎ este aceeaşi şi obţinem
urmǎtoarele cinci clase:
(50 − 59 este clasa formatǎ cu toate datele la care prima cifrǎ este 5, ş.a.m.d.).
Aceste clase nu se intersecteazǎ (nu existǎ date care sǎ aparţinǎ la douǎ clase) şi oricare
din date aparţine unei clase.
Limitele inferioare ale claselor sunt 50, 60, 70, 80, 90, iar limitele superioare sunt 59, 69, 79, 89, 99.
Datele care aparţin unei clase sunt mai mari decât limita inferioarǎ a clasei şi mai mici
decât limita superioarǎ a clasei.
11
Definiţia 4.2. Lǎţimea unei clase definitǎ ca diferenţa dintre limita inferioarǎ a clasei
urmǎtoare şi limita inferioarǎ a clasei (este egalǎ cu 10 şi este aceeaşi pentru toate clasele
ı̂n exemplul de mai sus) lǎţimea clasei nu este egalǎ cu diferenţa dintre limita superioarǎ
şi limita inferioarǎ a clasei.
Definiţia 4.3. Frontierele unei clase definite ca media aritmeticǎ dintre limita superioarǎ
a clasei şi limita inferioarǎ a clasei urmǎtoare sunt:
Definiţia 4.4. Marca unei clase definitǎ ca media aritmeticǎ dintre limita superioarǎ şi
limita inferioarǎ a clasei, ı̂n acest caz este:
50 + 59
54.5 = ı̂n cazul clasei 50 − 59
2
60 + 69
64.5 = ı̂n cazul clasei 60 − 69
2
70 + 79
74.5 = ı̂n cazul clasei 70 − 79
2
80 + 89
84.5 = ı̂n cazul clasei 80 − 89
2
90 + 99
94.5 = ı̂n cazul clasei 90 − 99
2
Frecvenţa ı̂n acest caz este numǎrul de date dintr-o clasǎ. Frecvenţa datelor pe clase este:
În general, ı̂n cazul grupǎrii datelor pe clase şi a determinǎrii frecvenţei trebuiesc
respectate urmǎtoarele reguli:
1) Clasele nu trebuie sǎ se intersecteze şi fiecare datǎ din setul de date trebuie sǎ
aparţinǎ la o clasǎ;
12
i) Se identificǎ cea mai mare datǎ H şi cea mai micǎ datǎ L şi se determinǎ plaja:
R = H − L.
ii) Se alege numǎrul de clase m şi lǎţimea clasei c (dacǎ se poate numǎr impar) astfel
ca produsul m · c sǎ fie puţin mai mare ca plaja R.
iii) Se alege un punct de plecare I care este puţin mai mic decât cea mai micǎ datǎ L.
Adǎugǎm la I multiplii lui c (c este lǎţimea clasei) şi obţinem numerele:
iv) Limitele superioare se stabilesc astfel ı̂ncât sǎ fie respectate condiţiile 1) şi 2).
13
5 Prezentarea datelor
Prezentarea unui set de date poate fi fǎcutǎ sub diferite forme şi face parte din prelucrarea
primarǎ a datelor.
Definiţia 5.1. Seria de distribuţie este un ansamblu de douǎ şiruri finite dintre care
primul este şirul elementelor distincte din setul de date statistice sau şirul claselor obţinute
prin gruparea elementelor din setul de date statistice, iar cel de-al doilea este şirul de
frecvenţe corespunzǎtoare.
3 2 2 3 2
4 4 1 2 2
4 3 2 0 2
2 1 3 3 1
Exemplul 5.2. În cazul claselor 50 − 59; 60 − 69; 70 − 79; 80 − 89; 90 − 99 obţinute prin
gruparea datelor din setul de date:
82 74 88 66 58 74 78 84 96 76
62 68 72 92 86 76 52 76 82 78
Remarca 5.1. Adesea ı̂n prezentarea seriilor de distribuţie ı̂n locul frecvenţei fi se
foloseşte frecvenţa relativǎ:
fi
fi0 = n
X
fj
j=1
14
Definiţia 5.2. Valoarea datei care apare cu cea mai mare frecvenţǎ ı̂ntr-o serie de
distribuţie de date statistice se numeşte mod.
Definiţia 5.3. Clasa cu cea mai mare frecvenţǎ ı̂ntr-o serie de distribuţie de date grupate
se numeşte clasǎ modalǎ.
Definiţia 5.4. Serie bimodalǎ este o serie de distribuţie de date grupate ı̂n care apar
douǎ clase modale, separate de clase cu frecvenţǎ mai joasǎ.
Definiţia 5.5. Frecvenţa cumulatǎ a unei clase este suma frecvenţelor tutror claselor
cu valori mai mici (marca mai micǎ).
Definiţia 5.6. Seria dinamicǎ (temporalǎ, cronologicǎ) este un şir dublu dintre
care primul este şirul de valori ale variabilei de rǎspuns, iar cel de-al doilea şir este şirul
de momente de timp la care variabila are aceste valori. În general, o serie dinamicǎ
(temporalǎ) se noteazǎ astfel:
µ ¶
x1 x2 x3 · · · xn
X
t1 t2 t3 · · · tn
este un cerc ı̂mpǎrţit ı̂n n sectoare de cerc S1 , S2 , ..., Sn astfel ı̂ncât aria sectorului Si este
egalǎ cu
fi
fi00 = n · 100
X
fj
j=1
15
Exemplul 5.3. În cazul seriei de distribuţie din exemplul 5.1
µ ¶
0 1 2 3 4
X
1 3 8 5 3
cercul se ı̂mparte ı̂n cinci sectoare având ariile egale cu 5%, , 15%, 40%, 25%, 15% din
aria cercului
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale şi sunt aşezate pe
axa Ox, iar ı̂nǎlţimile lor sunt f1 , f2 , ..., fn
16
Definiţia 5.10. Diagrama linie (ramurǎ-frunzǎ) a seriei de distribuţie (fǎrǎ grupare)
µ ¶
x1 x2 x3 · · · xn
X
f1 f2 f3 · · · fn
este un set de n dreptunghiuri. Bazele acestor dreptunghiuri sunt egale şi sunt aşezate pe
axa Oy, iar lungimile lor sunt f1 , f2 , ..., fn .
histograma este:
17
Remarca 5.2. În cazul histogramei o coloanǎ reprezintǎ un numǎr de date diferite spre
deosebire de diagrama coloanǎ.
Frecvenţa relativǎ (este o mǎsurǎ proporţionalǎ cu frecvenţa ı̂n cauzǎ) se obţine prin
ı̂mpǎrţirea frecvenţei clasei la numǎrul total de elemente din setul de date.
Definiţia 5.13. Ogiva unei serii de distribuţie de clase cu frecvenţe relative cumulate
este un set de dreptunghiuri. Bazele dreptunghiurilor sunt egale şi aşezate pe axa Ox, iar
ı̂nǎţimile lor sunt frecvenţele relative cumulate.
3. O scarǎ verticalǎ pe care sunt marcate frecvenţele relative cumulate pentru fiecare
clasǎ.
18
6 Parametrii şi statistici ai tendinţei centrale
O categorie de caracteristici numerici asociaţi unui set de date statistice sunt: parametrii
tendinţei centrale ı̂n cazul populaţiilor şi statistici ale tendinţei centrale ı̂n cazul
eşantioanelor. Întrucât aceştia au definiţii analoage vom prezenta doar statistici ale
tendinţei centrale.
Definiţia 6.1. Statistici ale tendinţei centrale sunt valori numerice asociate unui set
de date statistice care localizeazǎ ı̂ntr-un anumit sens mijlocul mulţimii de date statistice.
Definiţia 6.2. Media aritmeticǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie suma acestor date ı̂mpǎrţitǎ la numǎrul datelor
n
X
xi
i=1
x=
n
Remarca 6.1. Atunci când datele sunt prezentate sub forma unei serii de distribuţie
(fǎrǎ grupare ı̂n clase), media aritmeticǎ se gǎseşte cu formula:
m
X
xj · f j
j=1
x= m
X
fj
j=1
Remarca 6.2. În cazul unei serii de distribuţie (cu grupare ı̂n clase) formula de calcul a
mediei este: X
x · fx
x= X
fx
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.
Definiţia 6.3. Media pǎtraticǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie numǎrul: v
uX n
u
u x2i
t
i=1
xp =
n
Remarca 6.3. Dacǎ datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ
grupare ı̂n clase), media pǎtraticǎ se gǎseşte cu formula:
v
uX m
u
u x2j · fj
u
u j=1
xp = u m
u X
t f j
j=1
19
Remarca 6.4. În cazul unei serii de distribuţie cu grupare ı̂n clase media pǎtraticǎ este
prin definiţie: v
uX 2
u x · fx
u
xp = t X
fx
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.
Definiţia 6.4. Media armonicǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie numǎrul:
n
xh = n
X 1
i=1
xi
Remarca 6.5. Dacǎ datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ
grupare ı̂n clase), media armonicǎ se gǎseşte cu formula:
m
X
fj
j=1
xh = m
X 1
· fj
j=1
xj
Remarca 6.6. În cazul unei serii de distribuţie cu grupare ı̂n clase media armonicǎ este
prin definiţie:
Xn
fx
i=1
xh = n
X 1
· fx
i=1
x
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.
Definiţia 6.5. Media geometicǎ a setului de date statistice {x1 , x2 , ..., xn } este prin
definiţie numǎrul: v
u n
uY
xp = tn
xi
i=1
Remarca 6.7. Dacǎ datele sunt prezentate sub forma unei serii de distribuţie (fǎrǎ
grupare ı̂n clase), media geometricǎ se gǎseşte cu formula:
Remarca 6.8. În cazul unei serii de distribuţie cu grupare ı̂n clase media geometricǎ este
prin definiţie: ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma
se extinde pe ansamblul claselor.
20
Definiţia 6.6. Mediana me a unui set de date statistice distincte ordonate dupǎ mǎrime
x1 < x2 < ... < xn este numǎrul care ı̂mparte setul de date ı̂n douǎ grupe egale ca numǎr:
4 7 12 26 32 38 59
4 7 12 26 32 38
12 + 26
mediana este me = = 19.
2
Remarca 6.9. Mediana me ı̂n acest caz are proprietatea cǎ suma frecvenţelor valorilor
mai mari decât me este egalǎ cu suma frecvenţelor valorilor mai mici decât me .
Remarca 6.10. Dacǎ datele pot fi egale, atunci proprietatea din Remarca 6.9 a medianei
poate sǎ nu fie adevǎratǎ. În cazul setului de date statistice:
1 1 1 2 3 3 4
21
7 Parametrii şi statistici ai dispersiei
Dupǎ ce ”mijlocul” unui set de date a fost stabilit urmǎtoarea ı̂ntrebare naturalǎ este:
care sunt parametrii şi statisticile care caracterizeazǎ dispersia (ı̂mprǎştierea) datelor.
Parametrii şi statisticile dispersiei sunt: plaja, deviaţia medie absolutǎ, varianţa, deviaţia
standard şi coeficientul de variaţie. Aceste valori numerice descriu mǎrimea ı̂mprǎştierii
ori a variabilitǎţilor datelor. Datele strâns grupate vor avea ı̂mprǎştiere micǎ, iar cele
care nu sunt grupate (sunt ı̂mprǎştiate) vor avea o dispersie mai mare.
Definiţia 7.1. Plaja P este diferenţa dintre cea mai mare (H) şi cea mai micǎ (L) valoare
a valorilor xi dintr-un set de date:
P =H −L
Deviaţia medie absolutǎ, varianţa şi deviaţia standard mǎsoarǎ dispersia faţǎ de media
aritmeticǎ.
Definiţia 7.3. Deviaţia medie absolutǎ a setului de date statistice distincte {x1 , x2 , ..., xn }
este prin definiţie:
Xn
|xi − x|
i=1
d=
n
Remarca 7.1. Deviaţia medie absolutǎ, ı̂n cazul ı̂n care datele sunt prezentate sub forma
unei serii de distribuţie fǎrǎ grupare de date se calculeazǎ cu formula:
m
X
|xj − x| · fj
j=1
d= m
X
fj
j=1
22
Remarca 7.2. Deviaţia medie absolutǎ, ı̂n cazul ı̂n care datele sunt prezentate sub forma
unei serii de distribuţie cu grupare de date se calculeazǎ cu formula:
X
|x − x| · fx
d= X
fx
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.
Remarca 7.4. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie cu
grupare de date varianţa s2 se calculeazǎ cu formula:
X
(x − x)2 · fx
2
s = X
fx
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.
Definiţia 7.5. Deviaţia standard (abaterea standard) s a setului de date statistice
distincte {x1 , x2 , ..., xn } este prin definiţie:
n 1
X 2
(xi − x)2
i=1
s=
n
23
Remarca 7.5. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie fǎrǎ
grupare de date deviaţia standard s se calculeazǎ cu formula:
1
X m
2
(xj − x)2 · fj
j=1
s=
m
X
fj
j=1
Remarca 7.6. Dacǎ setul de date este prezentat sub forma unei serii de distribuţie cu
grupare de date deviaţia standard s se calculeazǎ cu formula:
X 1
(x − x) · fx 2
2
s= X
fx
ı̂n care x reprezintǎ marca clasei şi fx frecvenţa corespunzǎtoare, iar suma se extinde pe
ansamblul claselor.
Remarca 7.7. Deviaţia standard a fost definitǎ cu o formulǎ. Se poate pune ı̂ntrebarea
ce reprezintǎ ea ı̂n realitate? Un rǎspuns la aceastǎ ı̂ntrebare poate fi dat cu inegalitatea
lui Cebı̂şev din care rezultǎ cǎ pentru orice serie de distribuţie fracţiunea de date situatǎ
la cel mult k unitǎţi de deviaţie standard faţǎ de medie este cel puţin 1 − k12 , unde k este
un numǎr pozitiv oarecare mai mare ca 1. Rezultǎ ı̂n particular cǎ pentru orice serie de
distribuţie fracţiunea de date situatǎ la cel mult k = 2 unitǎţi de deviaţie standard faţǎ de
medie este de cel puţin 75% din totalul de date. Dacǎ k = 3 atunci este 89% din totalul
de date.
Conform regulii empirice dacǎ o serie de repartiţie este normalǎ atunci fracţiunea de date
situate la cel mult o unitate de deviaţie standard σ faţa de medie este aproximativ 68%,
iar fracţiunea de date situate la cel mult douǎ unitǎţi de deviaţie standard σ faţǎ de medie
este aproximativ 95%.
Remarca 7.9. V poate lua valori ı̂ntre 0 şi 100%. Dacǎ V este aproape de zero
(V < 35%), atunci populaţia studiatǎ statistic este omogenǎ şi media x este reprezentativǎ
pentru aceastǎ populaţie. Dacǎ V este aproape de 100% (V > 75%), atunci populaţia
studiatǎ statistic este eterogenǎ şi media x nu este reprezentativǎ. De cele mai multe
ori ı̂n asemenea cazuri este necesarǎ separarea populaţiei statistice ı̂n mai multe grupe
omogene, care se studiazǎ separat.
24
8 Parametrii şi statistici factoriali ai varianţei
În analiza varianţei unui set de date statistice se folosesc urmǎtorii parametrii factoriali
ai varianţei:
Definiţia 8.1. Pentru o grupǎ de m date x1 , x2 , ..., xm , varianţa de grupǎ este definitǎ
cu formula: m
X
(xi − xj )2 · nij
i=1
s2j = m
X
nij
i=1
ı̂n care j este indicele grupei, xj este media grupei, xi sunt datele din grupa j având
frecvenţele nij
Remarca 8.1. Varianţele de grupǎ sunt mai mici decât varianţa şi au valori mai mari
sau mai mici ı̂n funcţie de eterogenitatea grupei.
m
X
ı̂n care k este numǎrul de grupe, nj = nij este numǎrul de date din grupǎ.
i=1
Definiţia 8.3. Varianţa mediilor de grupǎ faţǎ de media generalǎ este prin
definiţie:
Xk
(xj − x)2 · nj
j=1
δ2 = k
X
nj
j=1
25
9 Parametrii şi statistici ale poziţiei
Parametrii şi statistici ai poziţiei se folosesc pentru a descrie locaţia unei date ı̂n raport
cu celelalte date.
Definiţia 9.1. Quantilele sunt valori numerice care ı̂mpart setul de date ı̂n q grupe
egale. Constanta q se numeşte ordinul quantilei.
Orice set de date are 99 de centile Pk , k = 1..99. Centila Pk este o valoare numericǎ cu
proprietatea cǎ k% din date are valori mai mici decât Pk , iar (100 − k)% din date au
valori mai mari decât Pk .
Remarca 9.1. Q1 = P25 ; Q3 = P75 ; me = Q2 = P50
Remarca 9.2. Procedeul de determinare a centilei Pk este urmǎtorul:
26
Definiţia 9.2. Scorul standard sau z-scorul este poziţia valorii x faţǎ de mediana x
ı̂n unitǎţi de deviaţie standard:
x−x
z=
s
27
10 Seria de distribuţie a statisticilor
de eşantioane
Pentru a face inferenţǎ (predicţie) asupra parametrilor populaţiei, este necesar sǎ analizǎm
statisticile de eşantioane. Media x ı̂n cazul unui eşantion nu este neaparat egalǎ cu media µ
a populaţiei. Suntem ı̂nsǎ mulţumiţi dacǎ media x este apropiatǎ de µ. Dacǎ se considerǎ
media x0 ı̂n cazul unui al doilea eşantion aceasta poate sǎ fie diferitǎ de x şi de µ. Ceea ce
putem spera este ca aceasta sǎ fie apropiatǎ de valoarea µ şi de x. Valabilitatea acestui
tip de comportament intereseazǎ pentru orice populaţie şi orice statisticǎ.
Întrebarea care se naşte ı̂n mod natural este ce ı̂nseamnǎ aproape? Cum se mǎsoarǎ şi se
determinǎ aceastǎ apropiere? Care este seria de distribuţie a statisticilor de eşantioane?
Definiţia 10.1. Seria de distribuţie a statisticilor de eşantioane este seria de
distribuţie a statisticilor de un anumit tip obţinute pentru eşantioane de aceeaşi mǎrime.
Tipul de statisticǎ poate fi oricare din statisticile prezentate ı̂n secţiunile 6 şi 7.
Exemplul 10.1. Se considerǎ o populaţie de N elemente de la care se pot obţine
urmǎtoarele date statistice distincte: {0, 2, 4, 6, 8}. În cazul acestei populaţii formǎm
eşantioane de mǎrime 2 de la care putem avea urmǎtoarele date statistice:
(0, 0) (2, 0) (4, 0) (6, 0) (8, 0)
(0, 2) (2, 2) (4, 2) (6, 2) (8, 2)
(0, 4) (2, 4) (4, 4) (6, 4) (8, 4)
(0, 6) (2, 6) (4, 6) (6, 6) (8, 6)
(0, 8) (2, 8) (4, 8) (6, 8) (8, 8)
Pentru aceste eşantioane mediile x sunt:
0 1 2 3 4
1 2 3 4 5
2 3 4 5 6
3 4 5 6 7
4 5 6 7 8
Eşantioanele fiind aleatoare fiecare eşantion, are probabilitatea 1/25 sǎ fie ales şi seria de
distribuţie a mediilor acestor eşantioane este:
x f 0 (x)
0 0.04
1 0.08
2 0.12
3 0.16
4 0.20
5 0.16
6 0.12
7 0.08
8 0.04
unde f 0 (x) este frecvenţa relativǎ a mediei x. Diagrama coloanǎ a mediilor eşantioanelor
este:
28
Pentru acelaşi set de 25 de eşantioane putem determina seria de distribuţie a plajelor R
a acestor eşantioane.
Plajele R ale eşantioanelor sunt date ı̂n tabelul urmǎtor:
0 2 4 6 8
2 0 2 4 6
4 2 0 2 4
6 4 2 0 2
8 6 4 2 0
R f 0 (R)
0 0.20
2 0.32
4 0.24
6 0.16
8 0.08
29
Exemplul 10.2. În cazul aruncǎrii zarului de un numǎr de N ori, setul de date statistice
care se referǎ la numǎrul de pe faţǎ care apare este 1, 2, 3, 4, 5, 6.
Formǎm eşantioane care constau din 5 aruncǎri. Fiecare din aceste eşantioane are media
x. Considerǎm 30 de eşantioane de acest fel (ı̂nseamnǎ 30 × 5 = 150 aruncǎri) şi ı̂ntr-un
tabel reprezentǎm rezultatele precum şi mediile corespunzǎtoare:
30
Aceastǎ lege de repartiţie pare sǎ aibe caracteristicile unei legi de repartiţie normalǎ; este
maxim şi este simetric faţǎ de media proprie 3.5.
31
11 Teorema limitǎ centralǎ
În secţiunea precedentǎ am prezentat seria de distribuţie a mediei şi plajei unui set de
eşantioane. Media este statistica folositǎ cel mai frecvent ı̂n cazul eşantioanelor şi de aceea
este foarte importantǎ. Teorema limitǎ centralǎ se referǎ la seria de distribuţie a mediei
tuturor eşantioanelor aleatoare de aceeaşi mǎrime n.
Sǎ formulǎm ce anume intereseazǎ ı̂n cazul acestei serii de distribuţie:
32
Considerǎm o populaţie pentru care seria de distribuţie de date statistice cu frecvenţe
relative ı̂n cazul variabilei X este:
µ ¶
2 4 6
X:
1/3 1/3 1/3
Media µ şi deviaţia standard σ pentru aceastǎ variabilǎ sunt:
v à 3 !2
3 u 3
X uX X
µ= xj · f 0xj σ=t x2j · f 0xj − xj · f 0xj
j=1 j=1 j=1
12
µ= =4 σ = 1, 63
3
În cazul acestei populaţii oricare eşantion de mǎrime doi are urmǎtoarele date posibile:
(2, 2) (2, 4) (2, 6)
(4, 2) (4, 4) (4, 6)
(6, 2) (6, 4) (6, 6)
Eşantioanele au urmǎtoarele medii:
2 3 4
3 4 5
4 5 6
Eşantion Media
(2,2) 2
(2,4) 3
(2,6) 4
(4,2) 3
(4,4) 4
(4,6) 5
(6,2) 4
(6,4) 5
(6,6) 6
1
Eşantioanele fiind aleatoare fiecare eşantion are probabilitatea sǎ fie ales şi seria de
9
distribuţie a mediilor eşantioanelor este:
µ ¶
2 3 4 5 6
X
1/9 2/9 3/9 2/9 1/9
Media seriei de distribuţie a mediilor eşantioanelor µx este µx = 36/9 = 4, 0. Prin urmare
µ = µx , iar deviaţia standard a repartiţiilor mediilor eşantioanelor este:
v à 5 !2 s
u 5 µ ¶2
uX X 156 36
σx = t 2 0
xj · f xj − 0
xj · f x j = − = 1, 15
j=1 j=1
9 9
σ 1, 63 1, 63
√ = √ = = 1, 15 = σx
n 2 1, 44
Reprezentând seria de distribuţie a mediilor eşantioanelor obţinem:
33
Aceastǎ diagramǎ aratǎ cǎ seria de distribuţie a mediilor eşantioanelor este normalǎ.
34
12 O aplicaţie a teoremei limitǎ centralǎ
Teorema limitǎ centralǎ oferǎ informaţii asupra seriei de distribuţie a mediilor eşan-
tioanelor descriind forma repartiţiei mediilor tuturor eşantioanelor (aproape normalǎ).
Ea stabileşte relaţia dintre media µ a populaţiei şi media µx a seriei de distribuţie a
mediilor tuturor eşantioanelor şi relaţia dintre deviaţia standard σ a populaţiei şi deviaţia
standard σx a seriei de distribuţie a mediilor eşantioanelor. Deoarece seria de distribuţie
a mediilor eşantioanelor este aproape normalǎ putem stabili legǎturi probabiliste dintre
media populaţiei şi media unui eşantion.
Exemplul 12.1. Considerǎm o populaţie normalǎ cu µ = 100 şi σ = 20. Dacǎ se alege
un eşantion aleator de mǎrime n = 16 care este probabilitatea ca valoarea medie a acestui
eşantion sǎ fie ı̂ntre 90 şi 110? Altfel spus, cât este P (90 < x < 110)?
Soluţie: Conform teoremei limitǎ centralǎ repartiţia valorilor medii ale eşantioanelor
este normalǎ. Prin urmare va trebui sǎ transformǎm condiţia P (90 < x < 110) ı̂ntr-o
condiţie care sǎ permitǎ folosirea tabelului de distribuţie normalǎ standard. Aceasta se
face scriind: µ ¶ µ ¶
110 − µx 90 − µx
P (90 < x < 110) = Φ −Φ =
σx σx
µ ¶ µ ¶ µ ¶ µ ¶
110 − 100 −10 10 10
=Φ −Φ =2·Φ −1=F
σx σx σx σx
ZX 1 2
1 − t 1
unde Φ(X) = √ e 2 dt şi F (X) = Φ(X) − .
2π 2
−∞
σ 20
Deoarece σx = √ , avem σx = √ = 5 şi astfel obţinem:
n 16
P (90 < x < 110) = 2 · Φ(2) − 1 = 2F (2) = 0.9544
Exemplul 12.2. Înǎlţimea copiilor la o grǎdiniţǎ are o distribuţie normalǎ având o medie
µ = 100 cm cu o deviaţie standard de 12, 5 cm. Pentru un eşantion aleator de 25 de copii
se determinǎ media x. Care este probabilitatea ca aceastǎ medie sǎ fie ı̂ntre 90 cm şi 110
cm?
Soluţie:
µ ¶
10
P (90 < x < 110) = 2 · Φ − 1 = 2 · Φ(4) − 1 = 2 · F (4) = 2 · 0.499968
σx
35
13 Estimarea punctualǎ a unui parametru; intervalul
de ı̂ncredere
Considerǎm o populaţie a cǎrei medie µ nu o cunoaştem şi ne punem problema s-o gǎsim.
Pentru acest scop considerǎm un eşantion aleator de dimensiune n pentru care determinǎm
media x. Media x a eşantionului este o estimare punctualǎ a mediei µ a populaţiei.
Remarca 13.1. Dacǎ x este media eşantioanului cu care estimǎm media necunoscutǎ µ
a populaţiei, aceasta nu ı̂nseamnǎ cǎ x = µ. În general, x 6= µ şi la ceea ce ne putem
aştepta este ca x sǎ fie aproape de µ. Aceastǎ apropiere poate fi fixatǎ prin specificarea
unui interval (centrat ı̂n µ) numit interval de estimare.
Definiţia 13.2. Un interval mǎrginit (a, b) folosit pentru a estima valoarea unui anumit
parametru γ a populaţiei se numeşte interval de estimare. Valorile a, b (capetele
intervalului) sunt calculate din eşantion care este folosit pentru estimare.
Cum anume se poate specifica un interval centrat ı̂n µ care este necunoscut folosind doar
date furnizate de un eşantion va fi lǎmurit ı̂n continuare.
sǎ verifice: √
√
1 1 n n
z ∈ (− σ , σ ) = (− , )
√
n
√
n
σ σ
Astfel
√ ı̂n termenii
√ scorului standard intervalul de estimare este intervalul (a, b) cu a =
n n
− şi b = .
σ σ
Mai general condiţia x ∈ (µ − δ, µ + δ), ı̂nseamnǎ cǎ scorul standard z (pentru mediile
eşantioanelor) dat de:
x − µx x−µ
z= = σ
σx √
n
sǎ verifice: √√
δ·
n δ· n
z ∈ (− , )
σ σ
√ √
δ· n δ· n
Intervalul de estimare este (− , ).
σ σ
Definiţia 13.3. Nivelul de neı̂ncredere α este probabilitatea ca statistica eşantionului
sǎ aibe valoarea ı̂n afara intervalului de estimare.
36
Conform teoremei de limitǎ centralǎ, repartiţia lui x este normalǎ sau aproape normalǎ
şi avem: µ √ √ ¶
n n
P (µ − 1 < x < µ + 1) = P − <z< =
σ σ
µ √ ¶ µ√ ¶
n n
2·P 0<z < =2·F
σ σ
Zz 1 2
1 − t
unde F (z) = √ e 2 dt.
2·π
0 µ√ ¶
n
Deci nivelul de neı̂ncredere α este 1 − 2 · F .
σ
Definiţia 13.4. Nivelul de ı̂ncredere (coeficient de ı̂ncredere) 1 − α este probabilitatea
ca statistica eşantionului sǎ se afle ı̂n intervalul de estimare ales.
37
14 Generalitǎţi privind ipotezele statistice şi proble-
ma verificǎrii ipotezelor statistice
Pentru a ilustra analiza care precede luarea unei decizii ı̂n privinţa credibilitǎţii unei
aserţiuni (numitǎ verificarea ipotezelor statistice) sǎ considerǎm urmǎtorul exemplu:
Candidatul la admitere Popescu Nicolae trebuie sǎ completeze un formular test cu zece
ı̂ntrebǎri. Fiecare ı̂ntrebare are cinci rǎspunsuri dintre care doar unul este corect. Popescu
Nicolae a completat formularul şi din cele zece ı̂ntrebǎri el a rǎspuns corect la şapte. El
susţine cǎ a completat formularul fǎrǎ sǎ citeascǎ ı̂ntrebǎrile şi rǎspunsurile la ele şi a
marcat rǎspunsurile aleator.
Întrebarea este ı̂n ce mǎsurǎ putem da crezare spuselor cǎ el a marcat rǎspunsurile aleator?
O asemenea ı̂ntrebare ne determinǎ sǎ analizǎm şi sǎ hotǎrâm: este sau nu este rezona-
bil ca Popescu Nicolae sǎ obţinǎ şapte rǎspunsuri corecte alegând aleator rǎspunsurile la
ı̂ntrebǎri? Descriem ı̂n cele ce urmeazǎ o analizǎ, care se numeşte verificarea ipotezelor
statistice şi care conduce la formularea unei concluzii.
Verificarea ipotezelor statistice, ı̂n general, este un procedeu care are 5 etape. Fiecare din
aceste etape va fi prezentatǎ şi ilustratǎ ı̂n cazul exemplului considerat.
1
H0 : p(X) = = p pentru orice Popescu Nicolae a completat
510
element X al populaţiei ⇔ formularul aleator.
38
Ipoteza alternativǎ este:
De la acest punct ı̂ncepând se admite cǎ ipoteza nulǎ este adevǎratǎ. Situaţia poate fi
comparatǎ cu un proces la judecǎtorie, ı̂n care acuzatul este presupus nevinovat pânǎ
când se dovedeşte contrariul.
Doar ı̂n etapa a 5-a a verificǎrii ipotezelor, vom lua una din cele douǎ decizii posibile:
vom decide ı̂n concordanţǎ cu ipoteza nulǎ H0 şi spunem cǎ acceptǎm H0 sau decidem ı̂n
concordanţǎ cu Ha şi spunem cǎ respingem ipoteza H0 .
În funcţie de valoarea de adevǎr a ipotezei H0 şi de respingerea sau nerespingerea ei
deciziile care se iau sunt prezentate ı̂n tabelul urmǎtor:
Ar fi foarte frumos ca de fiecare datǎ când luǎm decizii sǎ luǎm decizii corecte, dar aceasta
este statistic imposibil pentru cǎ ne bazǎm pe informaţii furnizate de eşantioane. Cel mai
bun lucru la ce putem spera este sǎ controlǎm riscul sau probabilitatea de a comite o
eroare.
Probabilitatea asignatǎ limitǎrii comiterii unei erori de tip I se noteazǎ cu α şi cea asignatǎ
comiterii unei erori de tip II cu β:
39
În cazul exemplului considerat, variabila aleatoare ”X= numǎrul de rǎspunsuri corecte”
este folosit ca test statistic. Probabilitǎţile pentru fiecare valoare x ale variabilei X ı̂n
ipoteza cǎ H0 este adevǎratǎ sunt date ı̂n tabelul urmǎtor:
X 0 1 2 3 4 5
P(X) 0.1074 0.2684 0.302 0.20133 0.0881 0.0264
X 6 7 8 9 10
P(X) 0.0055 7.92·10−4 7.38·10−5 4.098·10−6 1.02·10−7
Aceastǎ repartiţie aratǎ cǎ probabilitatea sǎ ghiceşti rǎspunsul corect la 5 sau mai multe
ı̂ntrebǎri este 0.0327, iar la 4 sau mai puţin decât 4 ı̂ntrebǎri este 0.9673. Putem spune
cǎ apariţia valorilor 5, 6, 7, 8, 9, 10 nu susţine ipoteza H0 . Dacǎ cineva spune cǎ a ghicit
rǎspunsul corect la 0, 1, 2, 3, 4 ı̂ntrebǎri, spunem cǎ este foarte probabil. Dacǎ cineva spune
cǎ a ghicit rǎspunsul corect la 5, 6, 7, 8, 9, 10 ı̂ntrebǎri spunem cǎ este puţin probabil.
Nivelul de semnificaţie este probabilitatea α de a face o eroare de tip I, adicǎ de a
respinge H0 adevǎrat. În mod curent α se dǎ la ı̂nceput şi acesta determinǎ regiunea
criticǎ. În cazul exemplului, dacǎ α = 0.033, atunci din P (x ≥ 5) = 0.0327 rezultǎ
regiunea criticǎ x = 5, 6, 7, 8, 9, 10.
Regiunea criticǎ: este mulţimea de valori (W ) pentru care P (X ∈ W ) ≤ α şi care ne
determinǎ sǎ respingem ipoteza H0 . (nu susţin ipoteza H0 )
Valoarea criticǎ: este prima valoare din regiunea criticǎ.
Dacǎ pentru un eşantion valoarea testului statistic X depǎşeşte valoarea criticǎ ipoteza
H0 este respinsǎ.
Dupǎ ce Etapa 3 a fost epuizatǎ, putem trece la Etapa 4.
În cazul exemplului x = 7 (numǎrul de rǎspunsuri corecte) este valoarea testului sta-
tistic şi este dat. Uzual valoarea testului statistic se calculeazǎ pe baza informaţiilor
oferite de eşantion.
În cazul exemplului: x = 7 este ı̂n regiunea criticǎ şi respingem ipoteza H0 .
40
15 Verificarea ipotezelor statistice:
variantǎ clasicǎ
Urmǎtoarele trei exemple se referǎ la diferite formulǎri ale ipotezei H0 şi a ipotezei Ha .
Exemplul 15.1. Un ecologist susţine cǎ oraşul Timişoara are o problemǎ privind poluarea
aerului. Concret, el susţine ca nivelul mediu al monoxidului de carbon ı̂n aer ı̂n centrul
oraşului depǎşeşte valoarea 4, 9/106 = valoarea medie normalǎ.
Pentru a formula ı̂n acest caz, ipotezele H0 şi Ha , trebuie sǎ identificǎm: populaţia,
parametrul populaţiei ı̂n cauzǎ şi valoarea cu care aceasta urmeazǎ sǎ fie comparatǎ.
Populaţia ı̂n acest caz poate fi mulţimea locurilor din centrul oraşului Timişoara. Variabila
X este concentraţia monoxidului de carbon ale cǎrei valori x variazǎ ı̂n funcţie de loc,
iar parametrul populaţiei este valoarea medie µ a acestei variabile. Valoarea specificǎ cu
care aceastǎ medie trebuie comparatǎ este 4, 9/106 egalǎ cu valoarea (medie) normalǎ.
Ecologistul face o aserţiune privind valorea lui µ. Aceastǎ valoare poate fi: µ < 4, 9/106
sau µ = 4, 9/106 sau µ > 4, 9/106 . Cele trei situaţii pot fi cuprinse ı̂n douǎ afirmaţii dintre
care una exprimǎ ceea ce ecologistul susţine, iar cealaltǎ exprimǎ contrariul.
Inegalitatea µ > 4, 9/106 este afirmaţia: ”valoarea medie este mai mare ca 4, 9/106 ”.
Inegalitatea µ ≤ 4, 9/106 este echivalentǎ cu ”µ < 4, 9/106 sau µ = 4, 9/106 ” şi este
afirmaţia contrarǎ: ”valoarea medie nu este mai mare ca 4, 9/106 ”.
Ecologistul susţine cǎ µ > 4, 9/106 . Pentru a formula ipoteza H0 şi ipoteza Ha reamintim
cǎ:
1) În general, ipoteza H0 susţine cǎ media µ (parametrul ı̂n chestiune) are o valoare
specificǎ anume.
2) Inferenţa privind media µ a populaţiei se bazeazǎ pe media unui eşantion şi mediile
eşantioanelor au o distribuţie aproximativ normalǎ. (conform teoremei limitǎ
centralǎ).
3) O distribuţie normalǎ este complet determinatǎ dacǎ valoarea medie şi deviaţia
standard a distribuţiei sunt cunoscute.
Cele de mai sus sugereazǎ cǎ afirmaţia µ = 4, 9/106 ar trebui sǎ fie ipoteza nulǎ şi afirmaţia
µ > 4, 9/106 ar trebui sǎ fie ipoteza alternativǎ:
H0 : µ = 4, 9/106
Ha : µ > 4, 9/106
Reamintim cǎ dupǎ ce ipoteza nulǎ H0 este formulatǎ, ı̂n testul statistic identificat se
presupune cǎ H0 este adevǎratǎ. Aceasta ı̂nseamnǎ cǎ µ = 4, 9/106 este egalǎ cu media
41
distribuţiei mediilor eşantioanelor µx şi este o raţiune ı̂n plus pentru care ipoteza H0
trebuie scrisǎ doar cu semnul egal
H0 : µ = 4, 9/106 .
Dacǎ admitem cǎ afirmaţia ”µ = 4, 9/106 sau µ < 4, 9/106 ” este ipoteza nulǎ H0 , atunci:
H0 : µ ≤ 4, 9/106
Ha : µ > 4, 9/106 .
Remarca 15.1. Semnul egal trebuie sǎ fie inclus totdeauna ı̂n ipoteza nulǎ. În acest
exemplu aserţiunea ecologistului este exprimatǎ de fapt ı̂n Ha şi aceasta este analizat.
Exemplul 15.2. Vom considera acum o a doua aserţiune; de exemplu al Camerei de
Comerţ, care susţine cǎ nivelul mediu al monoxidului de carbon ı̂n centrul oraşului
Timişoara este mai mic decât 4, 9/106 (valoare normalǎ). Aceasta este o reclamǎ bunǎ
pentru turism.
Şi ı̂n acest caz parametrul este media µ a repartiţiei monoxidului de carbon. Valoarea
specificǎ este 4, 9/106 care este valoare normalǎ.
”µ < 4, 9/106 ” ⇔ ”valoarea medie este mai micǎ decât valoarea medie normalǎ”
”µ ≥ 4, 9/106 ” ⇔ ”valoarea medie este mai mare sau egalǎ decât valoarea
medie normalǎ”
Şi de data aceasta aserţiunea Camerei de Comerţ este exprimatǎ ı̂n Ha şi aceasta trebuie
analizatǎ.
Exemplul 15.3. O a treia aserţiune (mai neutrǎ) susţine doar cǎ nivelul mediu µ al
monoxidului de carbon ı̂n aerul din centrul oraşului Timişoara este diferit de 4, 9/106
(valoarea normalǎ diferitǎ de µ).
În acest caz:
H0 : µ = 4.9/106 şi Ha : µ 6= 4, 9/106
Cele trei exemple aratǎ cǎ aserţiunea care trebuie analizatǎ determinǎ ı̂ntr-un anumit sens
formularea ipotezelor H0 , Ha . Mai exact: ı̂n aceste cazuri aserţiunea susţine cǎ valoarea
parametrului µ este diferitǎ de cea normalǎ, iar ipoteza nulǎ susţine cǎ este aceeaşi (nu
diferǎ).
În cazul acestor exemple, cei care ı̂şi formuleazǎ aserţiunea se aşteaptǎ la respingerea
ipotezei nule H0 şi la acceptarea ipotezei alternative Ha care este o afirmaţie conformǎ cu
aserţiunea lor.
Situaţiile de la procesele juridice prezintǎ o oarecare asemǎnare cu cele relatate. Dacǎ
procurorul nu crede ı̂n vinovǎţia inculpatului nu intenteazǎ proces (ipoteza H0 prezumţia
de nevinovǎţie este presupusǎ adevǎratǎ). Procesul se declanşeazǎ doar dacǎ procurorul
are suficiente probe pentru a face proces.
42
Şi ı̂n statisticǎ dacǎ ”experimantatorul” crede ı̂n ipoteza H0 nu face test pentru investi-
garea lui H0 . El testeazǎ ipoteza nulǎ doar dacǎ doreşte sǎ arate cǎ Ha este corectǎ.
Exemplul care urmeazǎ ilustreazǎ toate cele cinci etape de verificare a ipotezelor statistice
ı̂n cazul unei aserţiuni care se referǎ la media unei populaţii.
Exemplul 15.4. Un profesor a ı̂nregistrat pe mai mulţi ani rezultatul elevilor şi media
µ a acestor rezultate este 72 şi abaterea standard este σ = 12. Clasa de 36 de elevi pe
care-i ı̂nvaţǎ la momentul actual are o medie x = 75, 2 (mai ridicatǎ decât media µ = 72)
şi profesorul afirmǎ cǎ aceastǎ clasǎ este superioarǎ celor de pânǎ acum. Întrebarea este
dacǎ media clasei x = 75, 2 este un argument suficient pentru a susţine afirmaţia profe-
sorului la nivelul de semnificaţie α = 0, 05.
Menţionǎm cǎ pentru ca aceastǎ clasǎ sǎ fie superioarǎ trebuie sǎ aibe o medie mai mare
decât toate clasele dinainte. Dacǎ media ei este egalǎ sau mai micǎ decât media unei
clase anterioare, atunci ea nu este superioarǎ.
Dacǎ se considerǎ eşantioane aleatoare de mǎrime n = 36 dintr-o populaţie cu media
µ = 72, multe eşantioane vor avea media x aproape de 72, de exemplu 71; 71, 8; 72; 72, 5; 73.
Doar medii x care sunt considerabil mai mari decât 72 vor susţine afirmaţia profesorului.
De aceea:
Etapa 3. - Atunci când ı̂n ipoteza nulǎ H0 media populaţiei şi deviaţia
standard sunt cunoscute scorul standard z este folosit ca şi test
statistic.
Figura 1:
43
Valoarea criticǎ ce desparte zona valorilor ”nu este superior” de zona valorilor ”este su-
perior” este determinatǎ de probabilitatea α de a comite o eroare de tip I. α = 0, 05 a
fost datǎ. Astfel regiunea criticǎ haşuratǎ pe Figura 2. are aria 0, 05 şi valoarea criticǎ
Z∞ t2
1 −
1, 65 este soluţia ecuaţiei: √ e 2 dt = 0, 05.
2·π
z
Figura 2:
Exemplul 15.5. La un colegiu s-a stabilit cǎ greutatea medie a studentelor este µ = 54, 4
kg, iar abaterea standard σ = 5, 4 kg. Profesorul de sport nu crede aceastǎ afirmaţie.
Pentru a face un test selecţioneazǎ un eşantion aleator de 100 de studente şi gǎseşte cǎ
media x = 53, 75 kg. Este aceasta suficient pentru a respinge afirmaţia la nivelul de
semnificaţie α = 0, 05?
Etapa 1. H0 : µ = 54, 4 kg
Etapa 2. Ha : µ 6= 54, 4 kg
44
Etapa 3. - deoarece folosim o distribuţie de medii de eşantioane testul statistic
va fi scorul standard.
Figura 3:
45
Figura 4:
Reamintim: Dacǎ valoarea testului statistic este ı̂n regiunea criticǎ respingem ipoteza
H0 dacǎ nu, nu putem respinge ipoteza H0 .
3. Pentru multe cazuri semnul din ipoteza Ha indicǎ direcţia ı̂n care regiunea criticǎ
se gǎseşte
46
dacǎ ipoteza H0 este adevǎratǎ sau falsǎ. Putem doar decide cǎ o respingem
sau cǎ o acceptǎm.
Probabilitatea cu care respingem ipoteza adevǎratǎ este α, dar nu ştim probabilitatea cu
care facem o decizie eronatǎ. O eroare de tip I şi o eroare ı̂n decizie sunt lucruri diferite.
47
16 Verificarea ipotezelor statistice:
varianta probabilistǎ
Definiţia 16.1. P-valoarea unui test statistic este cea mai micǎ valoare a nivelului
de semnificaţie α pentru care informaţia extrasǎ din eşantion este semnificativǎ (H0
adevǎratǎ se respinge).
Considerǎm din nou exemplul 15.4 din secţiunea precedentǎ şi-l analizǎm din acest punct
de vedere.
Exemplul 16.1. Un profesor a ı̂nregistrat pe mai mulţi ani rezultatul elevilor şi media
µ a acestor rezultate este 72 şi dispersia σ = 12. Clasa de 36 de elevi pe care-i ı̂nvaţǎ
la momentul actual are o medie x = 75, 2 . Aceastǎ medie fiind mai ridicatǎ decât 72
profesorul vrea sǎ arate cǎ aceastǎ clasǎ este superioarǎ celor de pânǎ acum. Întrebarea
este dacǎ media clasei x = 75, 2 este un argument suficient pentru a susţine afirmaţia
profesorului la nivelul de semnificaţie α = 0, 05?
Precizǎm cǎ pentru a putea susţine cǎ actuala clasǎ este mai bunǎ decât toate celelalte
clase anterioare trebuie ca media clasei actuale sǎ fie mai mare decât media oricǎrei clase
dinainte. Dacǎ media clasei actuale este mai micǎ sau egalǎ cu media unei clase anterioare,
atunci clasa actualǎ nu este mai bunǎ decât toate celelalte.
Remarcǎm aici cǎ Etapa 4 ı̂n varianta probabilistǎ este aceeaşi ca şi
varianta clasicǎ de verificare a ipotezelor statistice.
48
Etapa 5. Se reprezintǎ distribuţia normalǎ a mediilor (testul statistic) ı̂n acest
caz şi se localizeazǎ valoarea z ∗ determinatǎ ı̂n Etapa 4 (care ı̂mparte
distribuţia ı̂n douǎ pǎrţi) şi se determinǎ care parte a distribuţiei
reprezintǎ p−valoarea.
Dupǎ care se determinǎ p−valoarea. Ipoteza alternativǎ Ha aratǎ cǎ ı̂n
cazul nostru:
Figura 5:
Înainte sǎ trecem la un al doilea exemplu recapitulǎm câteva detalii privind verificarea
ipotezelor statistice ı̂n varianta probabilistǎ:
1. Ipotezele H0 şi Ha se formuleazǎ ı̂n aceeaşi manierǎ ca şi ı̂n varianta clasicǎ.
3. Valoarea testului statistic se calculeazǎ ı̂n Etapa 4 de aceeaşi manierǎ ca ı̂n varianta
clasicǎ.
4. P-valoarea este aria aflatǎ ı̂ntre curba de densitate de probabilitate axa Oz şi z = z ∗ .
Existǎ trei cazuri posibile: douǎ unilaterale şi unul bilateral. Direcţia (sau semnul)
ı̂n ipoteza Ha este indiciul:
Cazul 1. Dacǎ Ha este unilateralǎ la dreapta (” > ”) atunci p = P (z > z ∗ ) şi aria este
ı̂n dreapta lui z ∗ .
Cazul 2. Dacǎ Ha este unilateralǎ stânga (” < ”), atunci p = P (z < z ∗ ) este aria din
stânga lui z ∗ .
Cazul 3. Dacǎ Ha este bilateralǎ (” 6= ”), atunci p = P (z < −|z ∗ |) + P (z > |z ∗ |) =
2 · P (z > |z ∗ |)
49
5. Decizia se ia comparând P -valoarea cu nivelul de semnificaţie α:
Exemplul 16.2. Companii mari folosesc agenţii specializate pentru a testa candidaţii
care doresc sǎ fie angajaţi. Agenţia A foloseşte un test de selecţie pentru care ı̂n decursul
timpului s-a stabilit o medie de 82 şi o deviaţie standard de 8. Agenţia B a dezvoltat
o nouǎ metodǎ de testare care este mai rapidǎ, mai uşor de aplicat şi costǎ mai puţin.
Agenţia B susţine cǎ testul lor dǎ aceleaşi rezultate ca şi testul agenţiei A.
Mai multe companii, pentru a reduce costul, se gândesc sǎ treacǎ de la agenţia A la
agenţia B, dar ei nu doresc sǎ facǎ aceastǎ trecere dacǎ media cu teste B diferǎ de cea
cu teste A. O agenţie independentǎ C a testat cu noul test 36 de indivizi şi a obţinut o
medie de 80.
Care este p−valoarea asociatǎ acestui test?
Rezultatul testului agenţiei B este acelaşi dacǎ µ = 82 şi este diferit dacǎ µ 6= 82. Prin
urmare:
Etapa 3. Este omisǎ dacǎ se cere p-valoarea fǎrǎ luarea unei decizii.
50
Figura 6:
Fiecare companie va lua propria decizie: a) continuǎ cu A sau b) schimbǎ şi trece la
B. Fiecare va trebui sǎ stabileascǎ propriul nivel de semnificaţie şi sǎ ia o decizie ı̂n
consecinţǎ.
51
17 Inferenţǎ statisticǎ privind media populaţiei dacǎ
nu se cunoaşte abaterea standard a populaţiei
Pânǎ acum am prezentat douǎ tipuri de inferenţǎ statisticǎ privind media populaţiei:
evaluarea intervalului de ı̂ncredere şi verificarea ipotezelor statistice. În cele douǎ
tipuri de inferenţe statistice abaterea standard σ este consideratǎ cunoscutǎ. În general
ı̂nsǎ abaterea standard σ nu este cunoscutǎ. Subiectul acestei secţiuni este inferenţa
statisticǎ privind media µ dacǎ abaterea standard σ nu este cunoscutǎ.
Dacǎ dimensiunea eşantionului este suficient de mare (ı̂n general vorbind, eşantioane
a cǎror mǎrimi este mai mare decât n = 30 de date sunt considerate suficient de mari),
deviaţia standard s a eşantionului este o estimare bunǎ a deviaţiei standard a populaţiei şi
putem susbstitui σ cu s ı̂n procedura discutatǎ deja. Dacǎ populaţia pe care o investigǎm
este aproape normalǎ şi n ≤ 30, atunci procedeul se bazeazǎ pe distribuţia Student t.
Distribuţia Student t (sau simplu t distribuţia) este distribuţia statisticii t, definitǎ prin:
x−µ
t=
√s
n
În anul 1908 W.S. Gosset un funcţionar la o fabricǎ de bere ı̂n Irlanda a publicat o
lucrare relativǎ la aceastǎ distribuţie sub pseudonimul ”Student”. În lucrarea lui Gosset
se presupune cǎ populaţia este normalǎ. Aceastǎ restricţie s-a dovedit ulterior restrictivǎ,
ı̂ntrucât se obţin rezultate satisfǎcǎtoare şi pentru multe populaţii care nu sunt normale.
Ecuaţia care defineşte distribuţia t nu o dǎm aici, doar dǎm câteva proprietǎţi ale lui t:
4) distribuţia t ı̂n jurul mediei este sub şi departe de medie este deasupra distribuţiei
normale;
52
Figura 7:
Cu toate cǎ pentru fiecare mǎrime de eşantion (n=2,3,4,...) avem o distribuţie t separatǎ
completǎ, ı̂n practicǎ doar anumite valori critice ale lui t sunt folosite. Aceste valori critice
aflate ı̂n dreapta mediei sunt redate ı̂n tabelul urmǎtor:
α 0,40 0,30 0.25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
1 0,325 0,727 1,000 1,376 3,078 6,314 12,71 31,82 63,66 318,3 636,6
2 0,289 0,617 0,816 1,061 1,886 2,920 4,303 6,965 9,925 22,33 31,60
3 0,277 0,584 0,765 0,978 1,638 2,353 3,182 4,541 5,841 10,22 12,94
4 0,271 0,569 0,741 0,941 1,533 2,132 2,776 3,747 4,604 7,173 8,610
5 0,267 0,559 0,727 0,920 1,476 2,015 2,571 3,365 4,032 5,893 6,859
6 0,265 0,553 0,718 0,906 1,440 1,943 2,447 3,143 3,707 5,208 5,959
7 0,263 0,549 0,711 0,896 1,415 1,895 2,365 2,998 3,499 4,785 5,405
8 0,262 0,546 0,706 0,889 1,397 1,860 2,306 2,896 3,355 4,501 5,041
9 0,261 0,543 0,703 0,883 1,383 1,833 2,262 2,821 3,250 4,297 4,781
10 0,260 0,542 0,700 0,879 1,372 1,812 2,228 2,764 3,169 4,144 4,587
11 0,260 0,540 0,697 0,876 1,363 1,796 2,201 2,718 3,106 4,025 4,437
12 0,259 0,539 0,695 0,873 1,356 1,782 2,179 2,681 3,055 3,930 4,318
13 0,259 0,538 0,694 0,870 1,350 1,771 2,160 2,650 3,012 3,852 4,221
14 0,258 0,537 0,692 0,868 1,345 1,761 2,145 2,624 2,977 3,787 4,140
15 0,258 0,536 0,691 0,866 1,341 1,753 2,131 2,602 2,947 3,733 4,073
16 0,258 0,535 0,690 0,865 l,337 1,746 2,120 2,583 2,921 3,686 4,015
53
α 0,40 0,30 0,25 0,20 0,10 0,05 0,025 0,010 0,005 0,001 0,0005
df
17 0,257 0,534 0,689 0,863 1,333 1,740 2,110 2,567 2,898 3,646 3,965
18 0,257 0,534 0,688 0,862 1,330 1,734 2,101 2,552 2,878 3,611 3,922
19 0,257 0,533 0,688 0,861 1,328 1,729 2,093 2,539 2,861 3,579 3,883
20 0,257 0,533 0,687 0,860 1,325 1,725 2,086 2,528 2,845 3,552 3,850
21 0,257 0,532 0,686 0,859 1,323 1,721 2,080 2,518 2,831 3,527 3,819
22 0,256 0,532 0,686 0,858 1,321 1,717 2,074 2,508 2,819 3,505 3,792
23 0,256 0,532 0,685 0,858 1,319 1,714 2,069 2,500 2,807 3,485 3,767
24 0,256 0,531 0,685 0,857 1,318 1,711 2,064 2,492 2,797 3,467 3,745
25 0,256 0,531 0,684 0,856 1,316 1,708 2,060 2,485 2,787 3,450 3,725
26 0,256 0,531 0,684 0,856 1,315 1,706 2,056 2,479 2,779 3,435 3,707
27 0,256 0,531 0,684 0,855 1,314 1,703 2,052 2,473 2,771 3,421 3,690
28 0,256 0,530 0,683 0,855 1,313 1,701 2,048 2,467 2,763 3,408 3,674
29 0,256 0,530 0,683 0,854 1,311 1,699 2,045 2,462 2,756 3,396 3,659
z 0,256 0,530 0,674 0,854 1,310 1,697 2,042 2,457 2,750 3,385 3,646
Figura 8:
În acest tabel df are valorile de la 1 la 29 şi este numǎrul gradelor de libertate.
Apropierea valorilor din liniile corespunzǎtoare lui df = 29 şi z se datoreazǎ faptului
cǎ dacǎ n ≥ 30 distribuţia t este cea normalǎ (teorema limitǎ centralǎ).
Gradul de libertate df este un parametru statistic care este greu de definit. El este un
indice care se foloseşte pentru a identifica distribuţia care trebuie folositǎ. În consideraţiile
noastre df = n − 1, unde n este mǎrimea eşantionului. Valoarea criticǎ a testului t care
trebuie folositǎ ı̂n estimarea intervalului de ı̂ncredere precum şi ı̂n verificarea ipotezelor
statistice se obţine din tabelul prezentat. Pentru a obţine aceastǎ valoare este nevoie de
a cunoaşte:
54
Exemplul 17.1. Determinaţi t(10, 0.05) din tabel. Avem df = 10 şi α = 0.05, deci
t(10, 0.05) = 1.81.
Valorile critice ale testului statistic t aflate ı̂n stânga mediei se obţin cu formula: −t(df, α),
ţinând seama de simetria distribuţiei t.
Figura 9:
Se observǎ uşor cǎ −t(df, α) = t(df, 1 − α). Astfel: −t(df ; 0, 05) = t(df ; 0, 95).
Exemplul 17.2. Determinaţi t(15; 0, 95). Avem: t(15; 0, 95) = −t(15; 0, 05) = −1, 75.
Figura 10:
Statistica t este folositǎ ı̂n verificarea ipotezelor statistice privind aserţiuni relative la
media µ de aceeaşi manierǎ ca şi statistica z.
Exemplul 17.3. Revenim la exemplul relativ la poluarea aerului; punctul de vedere al
ecologistului este: ”nivelul monoxidului de carbon ı̂n aer este mai mare decât 4, 9/106 ”.
Un eşantion de 25 de determinǎri cu media x = 5, 1/106 şi s = 2, 1/106 este un argument
suficient pentru a susţine afirmaţia? Se foloseşte nivelul de semnificaţie α = 0, 05.
Etapa 1. H0 : µ = 4, 9/106
55
Etapa 3. α = 0, 05; df = 25 − 1 = 24 şi t(24; 0, 05) = 1, 71 din tabel.
Etapa 4.
x−µ 5, 1 − 4, 9 0, 20
t∗ = s = 2, 1/√25 = 0, 42 = 0, 476 ' 0, 48
√
n
Etapa 5. Decizia: Nu putem respinge H0 (t∗ nu este ı̂n regiunea criticǎ).
Concluzie: Nu avem suficiente argumente pentru ca sǎ respingem
ipoteza cǎ nivelul monoxidului de carbon este 4, 96/106 .
Figura 11:
Remarca 17.1. Dacǎ valoarea df (df = n − 1) este mai mare ca 29, atunci valoarea
criticǎ a lui t(df, α) este foarte apropiatǎ de z(α) (scorul z este listat la capǎtul tabelului)
şi prin urmare ı̂n loc de t(df, α) se foloseşte z(α). Deoarece tabelul considerat conţine doar
valorile critice ale distribuţiei t, p-valoarea nu poate fi gǎsitǎ din tabel ı̂n cazul verificǎrii
ipotezei statistice pentru cǎ aceasta necesitǎ distribuţia t completǎ. P-valoarea poate fi
ı̂nsǎ estimatǎ folosind tabelul.
Exemplul 17.4. Sǎ revenim la exemplul 17.3. Reţinem t∗ = 0, 48, df = 24 şi Ha : µ > 49.
Astfel pentru a rezolva problema folosind varianta probabilistǎ pentru Etapa 5 cu p-
valoarea avem:
p = P (t > 0, 48, ştiind df = 24)
56
Figura 12:
Rândul df = 24 din tabel aratǎ cǎ p-valoarea este mai mare ca 0, 25. Valoarea 0, 685 din
tabel aratǎ cǎ P (t > 0, 685) = 0, 25 aşa cum aratǎ figura urmǎtoare:
Figura 13:
Soluţie: p = P (t < −1, 84) + P (t > 1, 84) = 2 · P (t > 1, 84). Rândul df = 15 din tabel
aratǎ cǎ P (t > 1, 84) este ı̂ntre 0, 025 şi 0, 05. Prin urmare avem: 0, 05 < p < 0, 10.
Media populaţiei poate fi estimatǎ dacǎ σ este necunoscut de o manierǎ similarǎ cu cazul
σ cunoscut. Diferenţa este cǎ se foloseşte distribuţia t ı̂n loc de distribuţia z şi deviaţia
standard s ca estimare a lui σ. Formula pentru intervalul de ı̂ncredere 1 − α este:
µ ¶
α s α s
x − t(df, ) · √ , x + t(df, ) · √
2 n 2 n
57
Figura 14:
unde df = n − 1.
Exemplul 17.6. În cazul unui eşantion aleator de 20 de noi nǎscuţi, media greutǎţii lor
este 3, 4 kg şi deviaţia standard este 0, 9 kg. Sǎ se estimeze cu o ı̂ncredere de 95% media
greutǎţii noilor nǎscuţi.
s 0, 9
x ± t(19; 0, 025) · √ = 3, 4 ± 2, 09 · √
n 20
0, 9
3, 4 ± 2, 09 · = 3, 4 ± 0, 46
4, 472
Intervalul de ı̂ncredere de 95% este (2, 94; 3, 86).
58
18 Inferenţǎ relativǎ la varianţǎ şi estimarea varianţei
Adesea se pun probleme care cer sǎ facem inferenţǎ asupra varianţei. De exemplu, o
companie de produse rǎcoritoare are o maşinǎ de ı̂mbuteliat, care umple cu rǎcoritoare
butelii de 0, 32 l= 32 cl. Cantitatea medie pusǎ ı̂n fiecare butelie este importantǎ, dar
cantitatea medie corectǎ nu asigurǎ cǎ maşina lucreazǎ corect. Dacǎ varianţa este mare,
vor fi multe butelii care sunt prea umplute şi multe butelii care nu sunt bine umplute.
De aceea, compania doreşte sǎ controleze varianţa σ 2 a cantitǎţii x de rǎcoritoare pusǎ ı̂n
fiecare butelie şi sǎ menţinǎ varianţa la un nivel cât mai scǎzut posibil.
Vom prezenta ı̂n aceastǎ secţiune o inferenţǎ privind varianţa unei populaţii. Adesea ı̂n
cazul acestei inferenţe se vorbeşte despre deviaţia standard ı̂n loc de varianţǎ. Trebuie sǎ
subliniem cǎ deviaţia standard este rǎdǎcinǎ pǎtratǎ a varianţei; aşadar a vorbi despre
varianţǎ este comparabil cu a vorbi despre deviaţie standard.
Sǎ revenim la exemplul companiei de produse rǎcoritoare. Sǎ ne imaginǎm cǎ aceastǎ
companie doreşte sǎ detecteze când variabilitatea cantitǎţii de rǎcoritoare pusǎ ı̂n fiecare
butelie scapǎ de sub control. O varianţǎ de 0, 0004 este consideratǎ acceptabilǎ şi
compania va regla maşina de ı̂mbuteliat dacǎ varianţa devine mai mare decât aceastǎ
valoare. Decizia va fi luatǎ folosind verificarea ipotezelor statistice. Ipoteza H0 este cǎ
varianţa are valoarea 0, 0004, iar ipoteza Ha este cǎ varianţa depǎşeşte valoarea 0, 0004:
Testul statistic care va fi folosit pentru a lua o decizie asupra ipotezei H0 este testul χ2 .
Valoarea calculatǎ a lui χ2 se va obţine folosind formula:
n · s2
χ2 =
σ2
unde s2 este varianţa eşantionului, n este mǎrimea eşantionului, iar σ 2 este valoarea
specificatǎ ı̂n ipoteza nulǎ.
Dacǎ se iau eşantioane de mǎrime n dintr-o populaţie normalǎ, având variantǎ σ 2 , atunci
cantitatea n·s2 /σ 2 are o distribuţie care se numeşte distribuţia χ2 . Formula care defineşte
distribuţia χ2 nu o vom da aici, dar pentru a folosi distribuţia χ2 , prezentǎm urmǎtoarele
proprietǎţi ale acesteia:
59
df/α 0.995 0.990 0.975 0.950 0.900 0.10 0.05 0.025 0.01 0.005
2 0.01 0.020 0.050 0.103 0.211 4.61 6.0 7.38 9.21 10.6
3 0.071 0.115 0.216 0.352 0.584 6.25 7.82 9.35 11.4 12.9
4 0.207 0.297 0.484 0.711 1.06 7.78 9.50 11.1 13.3 14.9
5 0.412 0.554 0.831 1.15 1.61 9.24 11.1 12.8 15.1 16.8
6 0.676 0.872 1.24 1.64 2.20 10.6 12.6 14.5 16.8 18.6
7 0.990 1.24 1.69 2.17 2.83 12.0 14.1 16.0 18.5 20.3
8 1.34 1.65 2.18 2.73 3.49 13.4 15.5 17.5 20.1 22.0
9 1.73 2.09 2.70 3.33 4.17 14.7 17.0 19.0 21.7 23.6
10 2.16 2.56 3.25 3.94 4.87 16.0 18.3 20.5 23.2 25.2
11 2.60 3.05 3.82 4.58 5.58 17.2 19.7 21.9 24.7 26.8
12 3.07 3.57 4.40 5.23 6.30 18.6 21.0 23.3 26.2 28.3
13 3.57 4.11 5.01 5.90 7.04 19.8 22.4 24.7 27.7 29.8
14 4.07 4.66 5.63 6.57 7.79 21.1 23.7 26.1 29.1 31.3
15 4.60 5.23 6.26 7.26 8.55 22.3 25.0 27.5 30.6 32.8
16 5.14 5.81 6.91 7.96 9.31 23.5 26.3 28.9 32.0 34.3
17 5.70 6.41 7.56 8.67 10.1 24.8 27.6 30.2 33.4 35.7
18 6.26 7.01 8.23 9.39 10.9 26.0 28.9 31.5 34.8 37.2
19 6.84 7.63 8.91 10.1 11.7 27.2 30.1 32.9 36.2 38.6
20 7.43 8.26 9.59 10.9 12.4 28.4 31.41 34.2 37.6 40.0
21 8.03 8.90 10.3 11.6 13.2 29.6 32.7 35.5 39.0 41.4
22 8.64 9.54 11.0 12.3 14.0 30.8 33.9 36.8 40.3 42.8
23 9.26 10.2 11.0 13.1 14.9 32.0 35.2 38.1 41.6 44.2
24 9.89 10.9 12.4 13.9 15.7 33.2 36.4 39.4 43.0 45.6
25 10.5 11.5 13.1 14.6 16.5 34.4 37.7 40.7 44.3 46.9
26 11.2 12.2 13.8 15.4 17.3 35.6 38.9 41.9 45.6 48.3
27 11.8 12.9 14.6 16.2 18.1 36.7 40.1 43.2 47.0 49.7
28 12.5 13.6 15.3 16.9 18.9 37.9 41.3 44.5 48.3 51.0
29 13.1 14.3 16.1 17.7 19.8 39.1 42.6 45.7 49.6 52.3
30 13.8 15.0 16.8 18.5 20.6 40.3 43.8 47.0 50.9 53.7
40 20.7 22.2 24.4 26.5 29.1 51.8 55.8 59.3 63.7 66.8
50 28.0 29.7 32.4 34.8 37.7 63.2 67.5 71.4 76.2 79.5
60 5.5 37.5 40.5 43.2 46.5 74.4 79.1 83.3 88.4 92.0
70 43.3 45.4 48.8 51.8 55.3 85.5 90.5 95.0 100.0 104.0
80 51.2 53.5 57.2 60.4 64.3 96.6 102.0 107.0 112.0 116.0
90 59.2 61.8 65.7 69.1 73.3 108.0 113.0 118.0 124.0 128.0
100 67.3 70.1 74.2 77.9 82.4 114.0 124.0 130.0 136.0 140.0
60
Figura 15:
Valorile critice vor fi identificate prin douǎ valori: grade de libertate şi aria situatǎ sub
curbǎ ı̂n dreapta valorii critice. Astfel χ2 (df, α) este simbolul folosit pentru identificarea
valorii critice χ2 cu df grade de libertate şi cu aria α sub grafic şi ı̂n dreapta, aşa cum
este prezentat pe figura urmǎtoare:
Figura 16:
Exemplul 18.1. Folosind tabelul determinaţi χ2 (20; 0, 05) şi χ2 (14; 0, 90).
Din tabel se obţine: χ2 (20; 0, 05) = 31, 4 şi χ2 (14; 0, 90) = 7, 79.
Remarca 18.1. Dacǎ df > 2 valoarea medie a lui χ2 este df . Valoarea medie este
localizatǎ ı̂n dreapta modului (locul ı̂n care curba atinge valoarea maximǎ).
61
Figura 17:
Exemplul 18.2. Reluǎm cazul companiei de produse rǎcoritoare care doresc sǎ controleze
varianţa ca sǎ nu depǎşeascǎ 0, 0004. Un eşantion de mǎrime 28 cu o varianţǎ de 0, 0010
indicǎ oare la nivelul de semnificaţie 0, 05 cǎ procesul de ı̂mbuteliere nu este sub control
(referitor la varianţǎ)?
Soluţie:
Etapa 1. H0 : σ 2 = 0, 0004 (procesul este sub control)
Figura 18:
62
Concluzia: Procesul de ı̂mbuteliere este sub control ı̂n ceea ce priveşte varianţa.
Exemplul 18.3. Specificaţiile unui anumit medicament indicǎ cǎ fiecare comprimat
trebuie sǎ conţinǎ 2,5 g de substanţǎ activǎ. 100 de comprimate alese la ı̂ntâmplare
din producţie sunt analizate. Ele conţin ı̂n media 2,6 g de substanţǎ activǎ cu o deviaţia
standard de s = 0, 4g.
Se poate spune cǎ medicamentul respectǎ specificaţiile (α = 0, 05)?
H0 : µ = 2, 5
Etapa 2. Ipoteza Ha este ca medicamentul nu respectǎ specificaţiile:
H0 : µ 6= 2, 5
Etapa 3. Statistica folositǎ este media x, iar nivelul de semnificaţie este α = 0, 05.
Regiunea criticǎ este:
Etapa 4. Testul statistic este:
x−µ 2, 6 − 2, 5 0, 1
z= s = = = 2, 5
√ 0, 4 0, 04
n 10
Valoarea lui z ı̂n tabel este: z0,975 = 1, 96 < 2, 5.
Etapa 5. Ipoteza H0 este respinsǎ, aşadar nu putem spune cǎ medicamentul
respectǎ specificaţiile.
Abordarea probabilistǎ a inferenţei statistice asupra varianţei, p-valoarea poate fi estimatǎ
pentru verificarea ipotezelor statistice folosind tabelul statistic χ2 de aceeaşi manierǎ ca
şi ı̂n cazul testului Student.
Exemplul 18.4. Sǎ se determine p-valoarea ı̂n cazul urmǎtoarelor ipoteze statistice:
H0 : σ 2 = 150
Ha : σ 2 > 150
Soluţie: p = P (χ2 > 32, 7) ∈ (0, 010; 0, 025) (date citite din tabel).
Exemplul 18.5. Un parametru folosit ı̂n determinarea utilitǎţii unui examen ca mǎsurǎ
a abilitǎţii studenţilor este ”ı̂mprǎştierea” rezultatelor. Un set de rezultate al unui test
are valoare micǎ dacǎ plaja notelor este micǎ. Din contrǎ dacǎ plaja notelor este mare,
este o diferenţǎ mare ı̂ntre rezultatul cel mai bun şi rezultatul cel mai slab, atunci testul
are valoare mai mare. La un test la care nota maximǎ este de 100 de puncte s-a pretins
cǎ o deviaţie standard de 12 puncte este de dorit. Pentru a vedea dacǎ un anume test
de o orǎ a fost sau nu un test bun din acest punct de vedere un profesor verificǎ aceastǎ
ipotezǎ statisticǎ la nivelul de semnificaţie α = 0, 05 folosind rezultatele obţinute de clasǎ.
Au fost 28 de rezultate şi deviaţia standard gǎsitǎ a fost 10, 5. Constituie aceasta o probǎ
la nivelul de semnificaţie α = 0, 05 cǎ examenul nu are deviaţia standard specificatǎ?
63
Etapa 2. H0 : σ 6= 12
64
19 Generalitǎţi despre corelaţie.
Corelaţie liniarǎ
În statisticǎ adesea apar probleme de genul urmǎtor: pentru aceeaşi populaţie avem douǎ
seturi de date corespunzǎtoare la douǎ variabile distincte şi se pune ı̂ntrebarea dacǎ ı̂ntre
cele douǎ variabile existǎ vreo legǎturǎ (relaţie)? Dacǎ da, care este aceastǎ relaţie? Cum
sunt aceste variabile corelate? Relaţiile pe care le discutǎm aici nu sunt neapǎrat de tip
cauzǎ-efect. Ele sunt relaţii matematice care permit anticiparea comportamentului unei
variabile ı̂n funcţie de comportamentul celeilalte. Iatǎ câteva exemple:
Exemplul 19.1.
- În general o persoanǎ care creşte ı̂n ı̂nalţime creşte şi ı̂n greutate. Se pune ı̂ntrebarea:
existǎ vreo relaţie ı̂ntre ı̂nalţime şi greutate?
- Studenţii ı̂şi petrec timpul la universitate ı̂nvǎţând sau dând examene. Se pune
ı̂ntrebarea: studiind mai mult, obţii note mai mari?
- Doctorii care testeazǎ un nou medicament prescriu cantitǎţi diferite şi observǎ
rǎspunsul pacienţilor; se pune ı̂ntrebarea: cantitatea de medicament prescrisǎ
determinǎ oare timpul de ı̂nsǎnǎtoşire al pacientului?
Problemele din exemplul precedent cer analiza corelaţiei dintre douǎ variabile.
În cazul ı̂n care pentru o populaţie avem douǎ seturi de date corespunzǎtoare la douǎ
variabile distincte se formeazǎ perechile de date (x, y), ı̂n care x este valoarea primei
variabile şi y este valoarea celei de-a doua variabile. De exemplu, x este ı̂nǎţimea şi y este
greutatea.
O pereche ordonatǎ de date (x, y) se numeşte datǎ bidimensionalǎ.
În mod tradiţional, variabila X (având valorile x) se numeşte variabilǎ de intrare
(variabilǎ independentǎ), iar variabila Y (având valorile y) se numeşte variabilǎ de
ieşire (variabilǎ dependentǎ).
Variabila de intrare X este cea mǎsuratǎ sau controlatǎ pentru a prezice variabila Y .
În cazul testǎrii medicamentului doctorii (mǎsoarǎ) controleazǎ cantitatea de medicament
prescrisǎ şi deci aceastǎ cantitate x este valoarea variabilei de intrare (independentǎ) X.
Timpul de recuperare y este valoarea variabilei de ieşire (dependente) Y .
În cazul ı̂nǎlţimii şi greutǎţii oricare din variabile poate fi atât variabilǎ de intrare cât şi
variabilǎ de ieşire. Rezultatele analizei vor fi ı̂nsǎ funcţie de alegerea fǎcutǎ.
În cazul problemelor de analizǎ a corelaţiei dintre douǎ variabile datele eşantionului se
prezintǎ sub forma unei diagrame de ı̂mprǎştiere.
65
Exemplul 19.2. Pentru un eşantion de 15 studenţi urmǎtorul tabel de date reprezintǎ
numǎrul de ore de studiu x pentru un examen şi nota y obţinutǎ la acel examen:
x 2 3 3 4 4 5 5 6 6 6 7 7 7 8 8
y 5 5 7 5 7 7 8 6 9 8 7 9 10 8 9
x 2 12 4 6 9 4 11 3 10 11 3 1 13 12 14 7 2 8
y 4 8 10 9 10 8 8 5 10 9 8 3 9 8 8 11 6 9
este:
Analiza de corelaţie are ca obiectiv sǎ stabileascǎ legǎtura dintre cele douǎ variabile.
Vom prezenta câteva diagrame de ı̂mprǎştiere pentru a ilustra corelaţii posibile dintre
variabila de intrare X şi variabila de ieşire Y .
Definiţia 19.2. Dacǎ pentru valorile x crescânde ale variabilei de intrare X nu existǎ o
deplasare clarǎ (bine definitǎ) ale valorilor y ale variabilei Y , atunci zicem cǎ nu avem
corelaţie sau cǎ nu existǎ legǎturǎ ı̂ntre X şi Y .
66
Diagrama de ı̂mprǎştiere ı̂n cazul ı̂n care nu avem corelaţie este urmǎtoarea:
Definiţia 19.3. Dacǎ pentru valorile x crescânde ale variabilei de intrare X existǎ o
deplasare clarǎ (bine definitǎ) ale valorilor y ale variabilei Y zicem cǎ avem o corelaţie.
Zicem cǎ avem o corelaţie pozitivǎ dacǎ y tinde sǎ creascǎ şi avem o corelaţie
negativǎ dacǎ y tinde sǎ descreascǎ odatǎ cu creşterea lui x.
Precizia schimbǎrii lui y atunci când x creşte determinǎ cât de puternicǎ este corelaţia.
Diagramele de ı̂mprǎştiere care urmeazǎ ilustreazǎ aceste idei:
67
Figura 20: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii pozitive strânse
Figura 22: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii negative strânse
Definiţia 19.4. Dacǎ perechile (x, y) tind sǎ urmeze o dreaptǎ zicem cǎ avem o corelaţie
liniarǎ.
Definiţia 19.5. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ (care nu este nici
orizontalǎ nici verticalǎ) atunci zicem cǎ avem o corelaţie liniarǎ perfectǎ.
68
Figura 23: Diagramǎ de ı̂mprǎştiere ı̂n cazul unei corelaţii pozitive liniare perfecte
Remarca 19.1. Dacǎ toate perechile (x, y) se gǎsesc pe o dreaptǎ orizontalǎ sau verticalǎ
nu existǎ corelaţie intre cele douǎ variabile. Aceasta ı̂ntrucât schimbarea uneia nu
afecteazǎ valoarea celeilalte variabile.
Remarca 19.2. Diagramele de ı̂mprǎştiere nu sunt totdeauna de genul celor prezentate
pânǎ acum şi sugereazǎ corelaţii care sunt de altǎ naturǎ.
Dacǎ pentru x crescând rezultǎ o creştere generalǎ a valorilor lui y, atunci r indicǎ o
corelaţie liniarǎ pozitivǎ.
De exemplu, ı̂n cazul copiilor dacǎ x este vârsta şi y este ı̂nǎlţimea, atunci ne aşteptǎm ca
r sǎ fie pozitiv, pentru cǎ ı̂n mod natural, ı̂nǎţimea copilului creşte o datǎ cu vârsta. În
69
cazul automobilelor de serie, dacǎ x este vârsta, iar y este valoarea, atunci ne aşteptǎm
ca r sǎ fie negativ pentru cǎ ı̂n mod uzual valoarea automobilului descreşte cu vârsta lui.
Definiţia 19.7. Coeficientul de corelaţie liniarǎ r ı̂n cazul unui eşantion este prin
definiţie: P
(x − x) · (y − y)
r=
n · sx · sy
ı̂n care sx , sy sunt deviaţiile standard ale variabilelor x, y, iar n este numǎrul de perechi
(x, y).
SS(x, y)
r=p
SS(x) · SS(Y )
P 2 1 ³X ´2 P 2 1 ³X ´2
unde: SS(x) = x − · x , SS(y) = y − · y , SS(x, y) =
³ X X ´n n
P 1
x·y− · x· y .
n
Exemplul 19.4. Sǎ se determine coeficientul de corelaţie liniarǎ r ı̂n cazul unui eşantion
aleator de mǎrime 10, dacǎ tabelul de date este:
x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43
de unde gǎsim:
919, 0
r=p = 0, 8394 ≈ 0, 84.
(1396, 9) · (858, 0)
Remarca 19.5. Dacǎ valoarea calculatǎ r este apropiatǎ de 0, atunci nu existǎ corelaţie
liniarǎ.
Dacǎ valoarea calculatǎ r este aproape de +1 sau −1, atunci bǎnuim cǎ ı̂ntre cele douǎ
variabile exista corelaţie liniarǎ.
Între 0 şi 1 existǎ o valoare numitǎ punct de decizie care indicǎ dacǎ existǎ sau nu existǎ
corelaţie liniarǎ. Un punct simetric existǎ şi ı̂ntre −1 şi 0. Valoarea punctului de decizie
depinde de mǎrimea eşantionului.
În tabelul urmǎtor sunt trecute puncte de decizie pozitive pentru diferite mǎrimi de
eşantionare cuprinse ı̂ntre 5 şi 100.
70
n punct de n punct de n punct de n punct de
decizie decizie decizie decizie
5 0,878 12 0,576 19 0,456 30 0,301
6 0,811 13 0,553 20 0,444 40 0,312
7 0,754 14 0,532 22 0,423 50 0,279
8 0,707 15 0,514 24 0,404 60 0,254
9 0,666 16 0,497 26 0,388 80 0,220
10 0,632 17 0,482 28 0,374 100 0,196
11 0,602 18 0,468
Tabelul 1:Punctele de decizie pozitive pentru corelaţie liniarǎ
Dacǎ r se gǎseşte ı̂ntre punctul de decizie negativ şi cel pozitiv nu avem argumente ca sǎ
susţinem cǎ ı̂ntre cele douǎ variabile existǎ o corelaţie liniarǎ.
Dacǎ r este mai mare decât punctul de decizie pozitiv sau mai mic decât punctul de
decizie negativ atunci ı̂ntre cele douǎ variabile existǎ o corelaţie liniarǎ.
Existenţa unei corelaţii ı̂ntre cele douǎ variabile nu ı̂nseamnǎ cǎ existǎ o relaţie
cauzǎ efect. Astfel, de exemplu, dacǎ X este alocaţia pentru copii ı̂n ultimii 10 ani şi
Y este consumul de bǎuturi alcoolice ı̂n ultimii 10 ani, un eşantion de aceste date aratǎ
o corelaţie pozitivǎ strânsǎ fǎrǎ ca alocaţia pentru copii sǎ fie cauza vânzǎrii bǎuturilor
alcoolice sau viceversa.
O metodǎ rapidǎ de estimare a coeficientului de corelaţie liniarǎ r ı̂n cazul unui eşantion
este urmǎtoarea:
a) Se deseneazǎ o curbǎ ı̂nchisǎ ı̂n jurul valorii mulţimii de perechi (x, y):
71
b) Se determinǎ lungimea D a diametrului maxim:
µ
¶
d
d) Valoarea r se estimeazǎ cu ± 1 − , ı̂n care semnul se alege ı̂n funcţie de
D
orientarea diametrului D:
Trebuie subliniat cǎ aceastǎ estimare este grosierǎ. Este foarte sensibilǎ la ı̂mprǎştiere.
Cu toate acestea dacǎ plaja de valori a lui X este aproximativ aceeaşi ca plaja de valori
a lui Y aproximaţia este utilǎ.
72
20 Analizǎ de corelaţie liniarǎ
În secţiunea 20 am vǎzut care este formula coeficientului de corelaţie liniarǎ r ı̂ntre douǎ
variabile X, Y menit sǎ mǎsoare cât de strânsǎ este relaţia de dependenţǎ liniarǎ dintre
cele douǎ variabile.
În cele ce urmeazǎ vom prezenta o analizǎ mai amǎnunţitǎ a acestei formule. Considerǎm
pentru ilustraţie urmǎtorul set de date bidimensionale:
x 2 3 6 8 11 12
y 1 5 3 2 6 1
73
Dacǎ prin punctul de coordonate (x, y) se duc paralele la axele de coordonate, setul de
date se ı̂mparte ı̂n patru submulţimi. Fiecare datǎ (x, y) se gǎseşte la o anumitǎ distanţǎ
de aceste linii; x − x este distanţa cu semn de la (x, y) la paralela la axa Oy şi y − y
este distanţǎ cu semn de la (x, y) la paralela Ox. distanţele cu semn sunt pozitive sau
negative ı̂n funcţie de poziţia lui (x, y) faţǎ de (x, y).
x 20 30 60 80 110 120
y 10 50 30 20 60 10
Covarianţa ı̂n cazul acestui tabel de date este 60, dar aceasta nu ı̂nseamnǎ nicidecum cǎ
relaţia de dependenţǎ liniarǎ ı̂ntre X, Y este mai strânsǎ. Relaţia de dependenţǎ liniarǎ
74
este aceeaşi şi doar datele sunt mai ı̂mprǎştiate. Aceasta este problema cu covarianţa
atunci când vrem sǎ mǎsurǎm cu ajutorul ei dependenţa liniarǎ ı̂ntre douǎ variabile.
Trebuie sǎ gǎsim o cale de eliminare a efectului ı̂mprǎştierii datelor atunci când mǎsurǎm
dependenţa.
Dacǎ standardizǎm X şi Y ı̂mpǎrţind deviaţia fiecǎreia de la media sa cu deviaţia
standard:
x−x y−y
x0 = şi y 0 =
sx sy
şi calculǎm covarianţa lui X 0 şi Y 0 , vom avea o covarianţǎ care nu mai este influenţatǎ de
ı̂mprǎştierea datelor. Exact acest lucru este realizat prin introducerea coeficientului de
corelaţie liniar r. Astfel coeficientul de corelaţie liniar este:
covar(X, Y )
r = covar(X 0 , Y 0 ) =
sx · sy
Coeficientul de corelaţie liniarǎ standardizeazǎ mǎsura dependenţei şi ne permite sǎ com-
parǎm cât de strânsǎ este dependenţa liniarǎ a diferitelor seturi de date bidimensionale.
Formula coeficientului de corelaţie liniarǎ adesea poartǎ denumirea de momentul produs
Pearson.
Valoarea coeficientului de corelaţie liniarǎ r ı̂n cazul setului de date considerat la ı̂nceput
este:
0, 6
r= = 0, 07
(4, 099) · (2, 098)
Pentru cǎ determinarea coeficientului de corelaţie liniarǎ cu ajutorul formulei:
covarX, Y
r=
sx · sy
SS(X, Y )
r=p
SS(X) · SS(Y )
Aceasta din urmǎ formulǎ evitǎ calculul separat al lui x, y, sx , sy precum şi calculul
deviaţiilor de la medie.
75
21 Inferenţǎ privind coeficientul de corelaţie liniarǎ
Dupǎ ce coeficientul de corelaţie liniarǎ r a fost calculat pentru un eşantion se pune ı̂n
mod natural ı̂ntrebarea: valoarea lui r indicǎ oare cǎ existǎ o dependenţǎ liniarǎ ı̂ntre
cele douǎ variabile ı̂n cazul populaţiei din care eşantioanele au fost luate?
Pentru a rǎspunde la aceastǎ ı̂ntrebare facem o verificare a ipotezelor statistice.
Etapa 1. Formularea ipotezei nule H0 :
Testul statistic folosit pentru testarea ipotezei nule este scorul standard şi valoarea tes-
tului statistic este valoarea lui r calculatǎ din eşantion. Valorile critice pentru r se gǎsesc
ı̂n urmǎtorul tabel la intersecţia coloanei corespunzǎtoare valorii lui α şi a liniei core-
spunzǎtoare gradului de libertate df = n − 2:
76
Valorile critice pentru r dacǎ ρ = 0
Valorile din acest tabel sunt valori critice pentru r pentru un test bilateral.
Pentru un test unilateral valoarea lui α este dublul valorii lui α ce se foloseşte ı̂n verifi-
carea ipotezelor statistice.
Neacceptarea ipotezei nule ı̂nseamnǎ cǎ existǎ o probǎ a dependenţei dintre cele douǎ
variabile ale populaţiei
Menţiune: Aceasta nu ı̂nseamnǎ cǎ am stabilit o relaţie de tip cauzǎ efect ci
doar o relaţie matematicǎ care permite sǎ se prezicǎ comportamentul variabilei
77
de ieşire Y din comportamentul variabilei de intrare X.
x 2 3 6 8 11 12
y 1 5 3 2 6 1
avem n = 6, iar r = 0, 07. Întrebarea este dacǎ aceastǎ valoare a lui r diferǎ de zero ı̂n
mod semnificativ dacǎ nivelul de semnificaţie este α = 0, 02?
Etapa 1. H0 : ρ = 0
Etapa 2. H0 : ρ 6= 0
Etapa 5. Se acceptǎ H0 .
Concluzie: Nu am putut arǎta cǎ X, Y sunt corelate. Dacǎ acceptǎm ipoteza nulǎ
ı̂nseamnǎ cǎ independenţa liniarǎ dintre cele douǎ variabile a fost arǎtatǎ.
Ca şi ı̂n alte probleme, uneori se cere estimarea unui interval de ı̂ncredere pentru
coeficientul de corelaţie ρ. Este posibilǎ estimarea coeficientului de corelaţie ρ folosind
un tabel care ne dǎ centuri de ı̂ncredere. Tabelul urmǎtor reprezintǎ asemenea centuri
de ı̂ncredere pentru intervale de ı̂ncredere de 95%: Exemplul urmǎtor aratǎ cum trebuie
citit un asemenea tabel.
Exemplul 21.2. Pentru un eşantion de 15 perechi de date o valoare calculatǎ a lui r este
r = 0, 35. Sǎ se determine intervalul de ı̂ncredere 95% pentru coeficientul de corelaţie
liniar ρ a populaţiei?
78
2) Se determinǎ intersecţia liniei verticale cu centurile corespunzǎtoare mǎrimii
eşantionului (aceasta fiind 15) şi se obţin douǎ puncte pe linia verticalǎ.
79
22 Regresie liniarǎ
Dacǎ valoarea coeficientului de corelaţie liniarǎ r indicǎ o corelaţie liniarǎ strânsǎ atunci se
pune problema stabilirii unei relaţii numerice exacte. Aceastǎ relaţie exactǎ este obţinutǎ
prin regresie liniarǎ.
În general statisticianul cautǎ o ecuaţie care exprimǎ relaţia dintre douǎ variabile. Ecuaţia
aleasǎ este cea mai bunǎ fitare a diagramei de dispersie. Ecuaţiile gǎsite se numesc ecuaţii
de predicţie, iar ı̂n continuare sunt prezentate câteva asemenea ecuaţii:
y = b0 + b1 · x - liniarǎ
y = a + b · x + c · x2 - pǎtraticǎ
y = a · bx - exponenţialǎ
y = a · logb x - logaritmicǎ.
Obiectivul final este ca folosind ecuaţii sǎ se facǎ predicţii. În general valoarea exactǎ a
variabilei Y nu este prezisǎ. Ne mulţumim dacǎ predicţia este suficient de apropiatǎ.
Definiţia 22.1. Regresia liniarǎ stabileşte dependenţa liniarǎ ı̂n medie a lui y ı̂n funcţie
de x.
Vom descrie ı̂n continuare cum se stabileşte cea mai bunǎ dependenţǎ liniarǎ pentru un
set de date (x, y).
Dacǎ relaţia de dependenţǎ liniarǎ pare potrivitǎ, cea mai bunǎ relaţie liniarǎ se stabileşte
cu metoda celor mai mici pǎtrate.
Sǎ presupunem cǎ ŷ = b0 + b1 · x este cea P mai bunǎ relaţie liniarǎ. Metoda celor mai mici
pǎtrate cere ca b0 şi b1 sǎ fie astfel ı̂ncât (y − ŷ)2 sǎ fie minimǎ.
Din teorema lui Fermat rezultǎ cǎ valorile minime ale funcţiei:
X
F (b0 , b1 ) = (y − b0 − b1 · x)2
se obţin pentru
P
(x − x) · (y − y) 1 ³X X ´
b1 = P , b0 = · y − b1 · x
(x − x)2 n
b1 este panta dreptei, iar b0 este ordonata la origine.
Pentru determinarea pantei b1 de obicei se foloseşte formula echivalentǎ:
SS(x, y)
b1 =
SS(x)
P 1 ³X ´2 P 1 ³X X ´
unde: SS(x) = x2 − · x şi SS(x, y) = x·y− · x· y .
n n
Menţionǎm aici cǎ expresiile SS(x, y) şi SS(x) apar şi ı̂n formula de calcul al coeficientului
de corelaţie liniarǎ. De aceea ı̂n momentul calculǎrii lui r putem afla şi valoarea pantei
b1 .
80
Exemplul 22.1. În cazul unui eşantion de 10 indivizi considerǎm urmǎtorul set de date.
x 27 22 15 35 30 52 35 55 40 40
y 30 26 25 42 38 40 32 54 50 43
Pentru a determina cea mai bunǎ relaţie liniarǎ ŷ = b0 + b1 · x se calculeazǎ SS(x, y) şi
SS(x) şi se obţine:
SS(x, y) = 919, 0 şi SS(x) = 1396, 9
de unde panta b1 este:
919, 0
b1 = = 0, 6599 ≈ 0, 66.
1396, 9
Pentru a determina ordonata ı̂n origine b0 se foloseşte formula de calcul a acesteia şi
rezultǎ:
1
b0 = [380 − 0, 65 · 351] = 14, 9077 ≈ 14, 9
10
Astfel cea mai bunǎ relaţie liniarǎ este:
ŷ = 14, 9 + 0, 66 · x
Remarca 22.1.
b) Ordonata b0 reprezintǎ valoarea lui y ı̂n x = 0. Doar dacǎ x = 0 este ı̂n domeniul
de date putem spune cǎ b0 este valoarea prezisǎ a lui y pentru x = 0.
c) Cea mai bunǎ relaţie liniarǎ este o dreaptǎ ce trece prin punctul de coordonate
(x, y). Acest fapt poate fi utilizat ca verificare atunci când se traseazǎ graficul celei
mai bune relaţii liniare.
Exemplul 22.2. În cazul unui eşantion aleator de 8 indivizi considerǎm urmǎtorul tabel
de date
x 65 65 62 67 69 65 61 67
y 105 125 11 120 140 135 95 130
81
Pentru a gǎsi cea mai bunǎ relaţie de dependenţǎ liniarǎ calculǎm SS(x, y) şi SS(x) şi
gǎsim:
SS(x, y) = 230, 0 şi SS(x) = 48, 875
De aici avem:
230, 0
b1 = = 4, 706 ≈ 4, 71.
48, 875
1 hX X i
b0 = y − b1 · x = −186, 478 ≈ 186, 5
n
de unde:
ŷ = −186, 5 + 4, 71 · x
Remarca 22.2. O estimare ”grosierǎ” a celei mai bune relaţii de dependenţǎ liniarǎ se
poate face ı̂n felul urmǎtor:
- se scrie ecuaţia de dependenţǎ liniarǎ ca ecuaţia unei drepte ce trece prin douǎ
puncte de pe acest diametru;
- ca şi ı̂n cazul estimǎrii lui r aceastǎ estimare este una grosierǎ şi trebuie folositǎ ca
atare.
82
23 Analizǎ de regresie liniarǎ
Modelul liniar folosit pentru a explica dependenţa liniarǎ a douǎ variabile referitoare la
aceeaşi populaţie este definit de ecuaţia:
y = β0 + β1 · x + ε
Aceastǎ ecuaţie reprezintǎ relaţia liniarǎ dintre douǎ variabile x şi y ı̂ntr-o populaţie. În
aceastǎ relaţie:
- β0 este ordonata la origine;
- β1 este panta;
- y este valoarea observatǎ la o valoare datǎ a lui x;
- β0 + β · x este media lui y pentru valoarea datǎ a lui x
Remarcǎm cǎ eroarea ε depinde de x. Pentru valorile x1 , x2 , . . . , xn ale lui x modelul liniar
se scrie:
yi = β0 + β1 · xi + εi , i = 1, 2, . . . , n
- ε este eroarea aleatoare a valorii observate y la o valoare datǎ a lui x care reprezintǎ
deviaţia valorii observate y de la medie.
Dreapta de regresie liniarǎ obţinutǎ ŷ = b0 + b1 · x pe baza datelor (xi , yi ), i = 1, 2, . . . , n
ne dǎ b0 care este o estimare pentru β0 şi b1 care este o estimare pentru β1 . Atunci vom
putea scrie yi = b0 + b · xi + ei . Erorile sunt estimate prin yi − ŷi care este diferenţa
dintre valoarea observatǎ yi şi valoarea prezisǎ ŷi a lui y la o valoare datǎ a lui x. Fiindcǎ
ŷi = b0 + b1 · xi avem cǎ:
ei = yi − ŷi
Erorile ei sunt cunoscute sub numele de reziduuri.
Variabila aleatoare e are urmǎtoarele proprietǎţi:
• pentru un x dat suma erorilor (reziduurilor) pentru diferite valori ale lui i este zero;
aceasta este o consecinţǎ a metodei celor mai mici pǎtrate; şi astfel media erorilor
Xn
experimentale este zero: ei = 0.
i=1
Notǎm cu σε2 varianţa erorilor aleatoare a datelor observate şi ne propunem sǎ estimǎm
aceastǎ varianţǎ.
Înainte ı̂nsǎ sǎ trecem la estimarea varianţei σε2 sǎ analizǎm puţin ce reprezintǎ eroarea
ε? ε reprezintǎ diferenţa dintre valoarea observatǎ y şi valoarea medie a lui y pentru o
valoare datǎ a lui x. Întrucât nu cunoaştem valoarea medie a lui y, vom folosi ecuaţia de
regresie, iar valoarea medie a lui y pentru un x dat, o vom estima cu ŷ valoarea prezisǎ
de ecuaţia de regresie a lui y pentru acest x. Astfel estimarea lui ε este e = y − ŷ.
83
Dacǎ pentru o valoare datǎ x avem mai multe valori observate y acestea pot fi reprezentate
pe verticala ı̂n x pe axa Ox.
O distribuţie similarǎ apare la fiecare valoare a lui x. Valoarea medie a datelor y observate
depinde de x şi se estimeazǎ cu ŷ.
Altfel spus, deviaţia standard a distribuţiei datelor y de la medie este aceeaşi pentru orice
x:
84
Reamintim cǎ varianţa s2 a unui set de date statistice x1 , x2 , . . . , xn a fost definitǎ cu
formula: n
1X
s2 = (xi − x)2
n i=1
Determinarea varianţei setului de date y introduce o complicaţie pentru cǎ media datelor
y diferǎ de la un x la altul. Pentru fiecare x media este estimatǎ prin valoarea prezisǎ ŷ ce
corespunde la x prin dreapta de regresie. Astfel varianţa erorii ε se estimeazǎ cu formula:
n
1X
s2ε = (yi − ŷi )2
n i=1
care aratǎ cǎ varianţa erorii ε este varianţa variabilei y ı̂n jurul dreptei de regresie.
Varianţa erorii s2ε poate fi scrisǎ sub forma:
1X 1 hX 2 X i
s2ε = (y − b0 − b1 · xi )2 = yi − b0 · y − b 1 · xi · y i
n n
şi este o estimare a lui σε2
Exemplul 23.1. O persoanǎ care se mutǎ la Timişoara şi se angajeazǎ la o companie
doreşte sǎ ştie ı̂n cât timp poate sǎ ajungǎ dimineaţa cu maşina de la locuinţǎ la locul de
muncǎ. Pentru a gǎsi un rǎspuns la aceastǎ ı̂ntrebare el ı̂ntreabǎ un numǎr de 15 colegi la
ce distanţǎ stau de locul de muncǎ şi ı̂n cât timp ajung la serviciu şi ı̂ntocmeşte urmǎtorul
tabel de date statistice:
coleg 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
x - distanţa
(ı̂n km) 3 5 7 8 10 11 12 12 13 15 15 16 18 19 20
y - timpul
(ı̂n min) 7 20 20 15 25 17 20 35 26 25 35 32 44 37 45
Pentru a gǎsi un rǎspuns la problemǎ persoana ı̂n cauzǎ trebuie sǎ determine dreapta de
regresie şi varianţa s2e .
Folosind formulele de calcul el gǎseşte:
(184)2
SS(x) = 2, 616 − = 358, 9333
15
85
(184) · (403)
SS(x, y) = 5, 623 − = 679, 53333
15
358, 9333
b1 = = 1, 893202 ≈ 1, 89
679, 53333
1
b0 = [403 − (1, 893202) · (184)] = 3, 643387 ≈ 3, 64
15
ŷ = 3, 64 + 1, 89 · x.
Aceasta este formula pe care o va folosi pentru a estima timpul mediu necesar pentru a
ajunge la serviciu ı̂n funcţie de distanţa x la care locuieşte.
Pentru a gǎsi abaterea standard de la valoarea estimatǎ el va trebui sǎ calculeze şi varianţa
s2ε . Folosind formulele de calcul el gǎseşte: s2ε = 29, 17.
86
24 Inferenţǎ referitoare la panta unei drepte de re-
gresie liniarǎ
Dupǎ ce ecuaţia dreptei de regresie liniarǎ a fost determinatǎ ne ı̂ntrebǎm când putem
folosi aceastǎ ecuaţie pentru a prezice valorile variabilei y ı̂n funcţie de x?
Rǎspunsul la ı̂ntrebare ı̂l vom da parcurgând procedeul de verificare a ipotezelor statistice.
Înainte de a face inferenţǎ privind dreapta de regresie facem urmǎtoarele ipoteze:
Înainte sǎ trecem la parcurgerea celor cinci etape (care constituie verificarea ipotezelor
statistice) sǎ analizǎm distribuţia pantelor ce se obţin pentru eşantioane aleatoare de
mǎrime n. Aceste pante b1 au o distribuţie aproape normalǎ având media β1 panta ı̂n
cazul populaţiei şi varianţa σb21 datǎ de:
σε2
σb21 =P
(x − x)2
Un estimator adecvat s2b1 a lui σb21 se obţine prin ı̂nlocuirea lui σε2 cu s2e :
s2e
s2b1 = P
(x − x)2
Aceastǎ formulǎ poate fi scrisǎ sub forma:
s2e s2e
s2b1 = =P £P ¤
SS(x) x − ( x)2 /n
Eroarea standard a regresiei (pantei) este σb1 şi este estimatǎ prin sb1 .
Putem trece acum la verificarea ipotezelor statistice:
87
s2e
Etapa 4. Având ı̂n vedere egalitatea s2b1 = ı̂n cazul exemplului considerat
SS(X)
gǎsim cǎ valoarea testului statistic este:
b1 − β1 1, 89 − 0
t∗ = =√ = 6, 629 ≈ 6, 63
sb1 0, 0813
Etapa 5. Decizie: ipoteza H0 se respinge pentru cǎ t∗ este ı̂n regiunea criticǎ.
Concluzie: Panta dreptei de cea mai bunǎ aproximaţie este mai mare
ca zero. Probele statistice aratǎ cǎ existǎ o relaţie liniarǎ ı̂ntre distanţa
locuinţǎ-serviciu şi perioada de timp necesarǎ pentru a ajunge cu maşina
la serviciu şi aceastǎ perioadǎ de timp este predictibilǎ.
Panta β1 a dreptei de regresie liniarǎ a populaţiei poate fi estimatǎ cu ajutorul inter-
valului de ı̂ncredere. Capetele acestui interval de ı̂ncredere sunt date de formula:
α
b1 ± t(n − 2; ) · sb1
2
88
BIBLIOGRAFIE
[1] Johnson Robert, Elementary Statistics, Duxbury Press, 1984, Boston
[2] Andrei Tudorel, Stancu Andrei, Statisticǎ - teorie şi aplicaţii, Editura All, 1995,
Bucureşti
[4] Constantin Gheorghe, Surulescu Nicolae, Zaharie Daniela, Lecţii de statisticǎ descrip-
tivǎ, Universitatea de Vest, 1998, Timişoara
[6] Yule G. Udny, Kendall, M.G., Introducere ı̂n teoria statisticii, Editura Ştiinţificǎ,
1969, Bucureşti
89