Statistic A - Suport de Curs

Conf. dr.
Virgil Stoica
Statistică aplicată în ştiinţele politice
Introducere
De ce avem nevoie de statistică?

În ultimele decenii, se poate observa o creştere a utilizării metodelor statistice în toate ştiinţele
sociale. Există mai multe motive pentru acest lucru. Cercetarea în ştiinţele sociale a căpătat o orientare tot
mai cantitativă. Revoluţia produsă de calculatoarele personale la sfârşitul secolului XX a făcut ca atât
cercetătorii cât şi indivizii obişnuiţi să aibă acces la o cantitate foarte mare de informaţii. În plus,
calculatoarele au făcut ca metodele statistice să fie mai uşor de folosit. Utilizarea tot mai frecventă a
statisticii este evidentă pentru cineva care urmăreşte conţinutul articolelor unor jurnale ştiinţifice prestigioase
(American Political Science Review, American Journal of Political Science sau American Sociological
Review). Anunţurile de angajări pentru specialişti în ştiinţele sociale enumeră statistica printre cunoştinţele
absolut necesare. Din aceste motive, un student care se pregăteşte în domeniul ştiinţelor sociale trebuie să fie
familiarizat măcar cu noţiuni de bază de statistică.
Strângerea informaţiilor se află în centrul oricărei ştiinţe. Ştiinţele sociale utilizează o largă varietate
de tehnici de culegere a informaţiilor care să fie utilizate în analiza statistică: experimente, anchete de
diferite tipuri, analiza de conţinut a unor documente, etc. În plus, sunt analizate informaţii produse pentru
alte scopuri, cum ar fi rapoarte ale poliţiei, date din recensăminte sau informaţii medicale. Un cercetător
foloseşte metodele statistice pentru:
- proiectarea unei cercetări,
- descrierea, rezumarea şi explorarea datelor,
- producerea de inferenţe (predicţii sau generalizări pornind de la un set de date).
În secolul XXI, nu doar un analist politic, ci orice persoană cu funcţie de conducere are acces la o
mare cantitate de informaţii. Problema majoră constă în modul în care este utilizată această cantitate enormă
de informaţii pentru a lua cele mai bune decizii. Din această perspectivă orice persoană care are o funcţie de
răspundere ar trebui să înţeleagă statistica din umătoarele motive:
1. pentru a şti cum să prezinte şi să descrie informaţiile într-un mod corespunzător
1
2. pentru a şti cum să tragă concluzii despre o populaţie pornind doar de la informaţiile obţinute de
la un eşantion
3. pentru a şti cum să îmbunătăţescă procesul de producţie
4. pentru a şti cum să obţină previziuni de încredere
Metodele statistice sunt utilizate nu doar în cercetările sociale ci şi în domeniul afacerilor, in
contabilitate, finanţe, magement şi marketing. De aceea, acest curs va oferi exemple nu doar din ştiinţele
sociale ci şi din alte domenii în care statistica este absolut necesară şi în special din management.
Dezvoltarea statisticii moderne

Există trei motive principale care au dus la dezvoltarea statisticii: nevoia guvernelor de a colecta
informaţii despre cetăţenii lor, dezvoltarea matematicii şi a teoriei probabilităţii şi evoluţia calculului
electronic.
Culegerea informaţiilor despre cetăţeni este o activitate specifică oricărei civilizaţii. În Egiptul antic,
in cetăţile-stat greceşti sau în Imperiul Roman, astfel de informaţii erau utilizate în special pentru impozitare
şi pentru recrutarea militară. În evul mediu, biserica ţinea registre despre căsătorii, naşteri şi decese. În epoca
modernă (SUA, 1790) a apărut ideea recensământului populaţiei la fiecare 10 ani. Nevoia de informaţii la
nivelul unui stat a fost strâns legată de dezvoltarea statisticii descriptive, metodă care se concentrează pe
colectarea, prezentarea şi caracterizarea unui set de date, cu scopul de a descrie diferitele trăsături ale acelui
set de informaţii.
În paralel cu această evoluţie s-a desfăşurat şi dezvoltarea matematicii despre
Populaţie –
totalitatea itemilor teoria probabilităţilor. Aceasta a pornit de la studierea jocurilor de noroc în perioada
sau elementelor
luate în consideraţie Renaşterii, bazele teoriei probabilităţilor fiind puse la mijlocul secolului al XVII-lea
Parametru –
o măsură care de corespondenţa dintre matematicianul Pascal şi jucătorul Chevalier de Mere.
descrie Îmbunătăţirile aduse de matematicieni ca Bernoulli, DeMoivre şi Gauss au pregătit
caracteristicile unei
populaţii apariţia statisticii inferenţiale. Aceasta face posibilă estimarea caracteristicilor unei
Eşantion –
o porţiune dintr-o populaţii doar pe informaţiile culese de la un eşantion. Statisticieni precum Pearson,
populaţie, care este
selectaă pentru Fisher, Gosset, Neyman, Wald şi Tukey au dezvoltat statistica inferenţială care este
analiză
Informaţie
astăzi larg răspândită în orice domeniu. Nevoia unor astfel de metode a provenit din
statistică – o nevoia de eşantionare. Cu cât o populaţie devine mai mare, cu atât este mai dificil şi
măsură calculată pe
baza unui eşantion, mai costisitor să se strângă informaţii despre ea, luată ca întreg. Deciziile despre
care este utilizată
pentru a descrie sau caracteristicile populaţiei trebuie luate pe baza informaţiilor culese de la un eşantion.
pentru a estima
întreaga populaţie Teoria probabilităţii prezintă şansele ca anumite informaţii extrase din eşantion să
reflecte în mod corect caracterisiticile întregii populaţii.
2
Aceste dezvoltări au fost puternic susţinute de evoluţia calculatoarelor, care asigură astăzi posibilităţi
de calcul la care primii statisticieni nici măcar nu visau. Începând cu anii ’60 şi ’70 au început să apară
programe de statistică. În anii ’80 au apărut programele statistice utilizate şi astăzi, cum ar fi SAS, SPSS sau
Minitab. Alte programe, utilizate iniţial în scopuri diferite (Microsoft Exel), au căpătat abilităţi statistice.
Disponibilitatea actuală a softului statististic a dus la o răspândire fără precedent a utilizării metodelor
statistice în cercetare, în afaceri sau în luare deciziilor.
1. Măsurare şi eşantionare
1.1. Tipuri de variabile

Metodele statistice asigură o modalitate de a gestiona variabilitatea. Variaţia apare între oameni, între
şcoli, între oraşe, între diverse obiecte care ar putea să constituie obiectul nostru de interes în viaţa de zi cu
zi. De exemplu, variaţia apare de la o persoană la alta în funcţie de caracteristici precum venitul, inteligenţa,
preferinţa politică, credinţa religioasă, statusul marital, etc. Natura şi mărimea variabilităţii au consecinţe
importante atât pentru statistica descriptivă, cât şi pentru cea inferenţială.
O variabilă este o caracteristică ce poate varia între subiecţii unui eşantion sau a unei populaţii.
Fiecare subiect are anumite valori pentru o variabilă, însă subiecţi diferiţi pot avea valori diferite. Exemple
de variabile: gen (cu valorile masculin şi feminin), vârsta (cu valorile 0, 1, 2, 3, etc), religia (cu valorile:
ortodox, catolic, protestant, mozaic, musulman, etc), numărul de copii în familie (0, 1, 2, etc), preferinţa
politică (PNL, PD, PSD, PRM, PPCD, etc)
Modul de analiză a unei variabile depinde de modul în care acea variabilă este măsurată. Variabilele
numerice, cum ar fi venitul, trebuie tratate în mod diferit de variabilele care sunt măsurate prin intermediul
unor etichete, cum ar fi preferinţa pentru un anumit partid. Dacă în primul caz putem discuta despre medie
ca o măsură a venitului, în al doilea caz, acest lucru este absurd. Mai departe vor fi introduse două metode de
clasificare a variabileleor.
Variabile calitative şi variabile cantitative
Informaţiile sunt numite calitative atunci când pentru măsurarea lor se foloseşte un set de categorii
care nu sunt ordonate în nici un fel. Exemple de date calitative: statusul marital (necăsătorit, căsătorit,
divorţat, văduv), localitatea de reşedinţă, apartenenţa religioasă, preferinţa politică, etc. Pentru variabilele
calitative, categoriile diferă între ele prin calitate şi nu prin cantitate sau magnitudine.
Atunci când posibilele valori ale unei variabile diferă diferă în magnitudine, variabila este numită
cantitativă. Fiecare valoare posibilă a unei variabile cantitative este mai mare sau mai mică decât orice altă
3
valoare posibilă. Astfel de comparaţii sunt cu putinţă pentru variabile măsurate pe o scală numerică.
Exemple de variabile cantitative: venitul anual, numărul de ani de educaţie, numărul de fraţi, de câte o ori o
persoană a fost condamnată, etc.
Setul de categorii pentru o variabilă calitativă este numit scală nominală, iar setul de valori numerice
pentru o variabilă cantitativă se numeşte scală interval. Scalele interval au o anumită distanţă sau un anumit
„interval” între fiecare pereche de niveluri. Venitul lunar este măsurat pe o astfel de scală interval; intervalul
dintre 2000 si 3000 RON, de exemplu, este de 1000 RON. Astfel se pot face comparaţii între niveluri
diferite ale venitului, comparaţii care nu au nici un sens pentru o scală nominală. Într-un anumit sens există
şi un al treilea tip de scală, situată între scala nominală şi cea interval. Este vorba despre o scală categorică,
având o ordine naturală a valorilor, dar fără a putea identifica distanţa dintre valori. Aceasta este scala
ordinală. De exemplu: poziţia în spectrul politic (stânga, centru-stânga, centru, centru-dreapta, dreapta),
opinia faţă de mărimea cheltuielilor cu protecţia socială (prea mici, normale, prea mari), etc.
Principalul motiv pentru care se face distincţia dintre datele cantitative şi cele calitative este că, aşa
cum s-a mai spus, pentru fiecare tip de date se aplică metode statistice diferite.
Variabile discrete şi variabile continue
O altă modalitate de a clasifica variabilele ţine cont numărul de valori cuprinse în scala de măsurare.
O variabilă este numită discretă dacă ea poate lua doar un număr finit de valori şi este numită continuă dacă
poate lua ca valori un număr infinit de numere reale.
Exemple de variabile discrete: numărul de copii ai fiecărei familii, numărul de infracţiuni într-un an,
numărul de vizite la medic în ultimul an, etc. Oricare dintre variabilele anterioare numite „numărul de...”
este o variabilă discretă, întrucât poate lua doar valori din mulţimea {0, 1, 2, 3, 4, …}.
Exemple de variabile continue: înălţimea, greutatea, vârsta, venitul, etc. Este imposibil de precizat
toate valorile posibile ale unei variabile continue. Greutatea unei persoane poate fi 73,82035... kg, funcţie de
precizia cu care este făcută măsurătoarea.
În cazul variabilelor discrete nu se poate subdiviza unitatea de măsură. Numărul de copii într-o
familie poate fi 2 sau 3, dar în nici un caz, 2,57. Pe de altă parte, o colecţie de valori ale unei variabile
continue poate fi oricând redefinită între două valori posibile. Orice vârstă cuprinsă între 20 şi 20,5 ani, de
exemplu, poate fi rotunjită la 20 de ani, iar orice vârstă cuprinsă între 20,5 şi 21 de ani poate fi rotunjită la 21
de ani.
Variabilele calitative sunt discrete, ele având un set finit de categorii. Variabilele cantitative pot fi
atât discrete cât şi continue.
4
1.2. Eşantionare şi tipuri de eşantioane
Statistica inferenţială utilizează eşantioanele pentru a face predicţii despre parametrii populaţiilor din
care acestea au fost extrase. Calitatea inferenţei depinde în mod esenţial de modul în care eşantionul
reprezintă populaţia.
Procesul de eşantionare începe prin definirea cadrului de eşantionare. Acesta cuprinde o listă
completă sau parţială a itemilor care compun populaţia. Cadrul de eşantionare poate fi o listă de un anumit
tip a populaţiei: lista alegătorilor, lista abonaţilor telefonici dintr-o localitate sau cea a locuinţelor conectate
la reţeaua de electricitate. Subiecţii unei populaţii pot fi indivizi, familii, şcoli, locuinţe, oraşe, spitale, etc.
Dacă anumite grupuri din populaţie nu sunt incluse în cadrul de eşantionare, atunci eşantionul nu va fi
corect.
Motive pentru a Există două mari grupuri de eşantioane: probabilistice şi neprobabilistice.
utiliza un eşantion în
locul unui Un eşantion probabilistic este acela în care subiecţii sunt aleşi pe baza unei
recensământ al
întregii populaţii:
probabilităţi cunoscute. Un eşantion neprobabilistic este acela în care elemen-
1. necesită mai puţin tele componente sunt alese fără să se ţină cont de probabilitatea apariţiei lor.
timp
2. costă mai puţin Pentru anumite studii, eşantioanele neprobabilistice, aşa cum sunt cele pe cote,
3. este mai uşor de
administrat cele intenţionate sau cele convenabile, sunt suficiente. Aceste eşantioane au unele
avantaje faţă de cele probabilistice, cum ar fi uşurinţa şi viteza cu care pot fi
construite, precum şi costul scăzut. Pe de altă parte, ele au două dezavantaje majore: lipsa de acurateţe şi
imposibilitatea generalizării. Din aceste motive, eşantioanele neprobabilistice pot fi utilizate doar atunci
când dorim o aproximare grosieră la un cost scăzut pentru a ne satisface o curiozitate personală sau atunci
când dorim să realizăm un studiu pilot, care va fi urmat mai târziu de o cercetare mult mai riguroasă.
Eşantioanele probabilistice trebuie utilizate ori de câte ori este posibil, deoarece doar ele asigură o
corectă inferenţă statistică de la eşantion la populaţie. Există patru tipuri de eşantioane probabilistice:
eşantionul aleatoriu simplu, eşantionul sistematic, cel startificat şi cel de tip cluster. Aceste tipuri diferă între
ele prin cost, acurateţe şi complexitate.
Un eşantion aleator simplu este acela în care fiecare element din cadrul de eşantionare are aceeaşi
şansă de a fi selectat. Pentru a putea utiliza un astfel de eşantion este necesar, în primul rând, să existe o listă
completă a populaţiei. Apoi de pe această listă se poate extrage eşantionul dorit utilizând metoda loteriei sau
un tabel cu numere aleatoare sau un calculator care să genereze numere aleatoare.
În cazul unui eşantion sistematic, cei N indivizi care formează cadrul de eşantionare (populaţia) sunt
împărţiţi în k grupuri, prin împărţirea populaţiei la mărimea dorită a eşantionului n. Apoi este ales, în mod
aleator, un individ din primul grup, iar restul eşantionului este obţinut prin selecţia al fiecărui k element din
fiecare grup. De exemplu, dacă vrem să extragem un eşantion sistematic de 40 de indivizi dintr-o populaţie
5
de N = 800, populaţia va fi împărţită în 800/40 = 20 de grupuri. Este ales în mod aleator un număr din primul
grup, să spunem 9, apoi fiecare al 20-lea de după acesta: 29, 49, 69,..., 769 şi 789.
Deşi sunt uşor de utilizat, eşantionarea aleatorie simplă şi eşantionarea sistematică sunt în general
mai puţin eficiente decât alte metode mai sofisticate şi nu se poate şti dacă eşantionul este într-adevăr
reprezentativ. În cazul eşantioanelor sistematice, posibilitatea de eroare este chiar mai mare, în cazul în care
cadrul de eşantionare este organizat după un anumit model.
În cazul unui eşantion stratificat, cei N indivizi ai populaţiei sunt împărţiţi în câteva subpopulaţii,
sau straturi, în conformitate cu anumite caracteristici. Este extras câte un eşantion aleator simplu din fiecare
strat, iar eşantioanele rezultate sunt combinate. Această metodă de eşantionare este mai eficientă decât cele
anterioare, deoarece asigură reprezentarea indivizilor din întreaga populaţie, ceea ce oferă o mai mare
precizie în estimarea parametrilor populaţiei.
Pentru a construi un eşantion de tip cluster, cei N indivizi care formează populaţia sunt împărţiţi în
câţiva clusteri, astfel încât fiecare dintre aceştia este reprezentativ pentru întreaga populaţie. Apoi este extras
un eşantion aleator simplu din fiecare cluster. Clusterele sunt zone în care populţia este grupată în mod
natural, cum ar fi judeţe, localităţi, cartiere, străzi, etc. Această metodă poate fi mai eficace şi mai puţin
costisitoare decât cea a eşantionării simple aleatoare, mai ales când populaţia este răspândită peste o arie
geografică largă.
Exerciţii
1. Următoarele variabile sunt cantitative sau calitative?
a. Numărul de animale de casă
b. Judeţul de reşedinţă
c. Autoturismul ales (de producţie internă sau de import)
d. Distanţa (în km) până la locul de muncă
e. Dieta (vegetariană sau nevegetariană)
f. Timpul petrecut săptămâna trecută pe internet
g. Deţinerea unui calculator personal (da, nu)
h. Numărul de persoane bolnave de SIDA pe care le cunoaşteţi personal
2. Care din scalele de măsură (nominlă, ordinală sau interval) este mai potrivită pentru:
a. Atitudinea faţă de interzicerea avortului
b. Numărul de fraţi
c. Genul
d. Afilierea partinică
6
e. Religia
f. Ideologia politică (de stânga,..., de dreapta)
g. Numărul de ani de şcoală terminaţi
h. Cea mai înaltă diplomă obţinută
3. Care din scalele de măsură este mai potrivită pentru următoarele variabile?
a. Ocupaţia
b. Statusul ocupaţional (muncitor, ţăran, intelectual,...)
c. Rata infracţionalităţii (nr. de infracţiuni la 1000 de locuitori)
d. Populaţia localităţii
e. Rata de creştere a populaţiei (în %)
f. Tipul de localitate (comună, oraş, municipiu)
g. Venitul anual
h. Atitudinea faţă minorităţile sexuale (favorabilă, neutră, nefavorabilă)
4. Care dintre următoarele variabile pot fi considerate continue?
a. Vârsta
b. Numărul de copii din familie
c. Venitul soţului/soţiei
d. Populaţia localităţii
e. Metoda de contracepţie utilizată
f. Latitudinea şi longitudinea localităţii
g. Distanţa până la locul de muncă
h. Judeţul de reşedinţă
5. Să presupunem că următoarele informaţii sunt culese de la studenţii care cumpără cărţi de la o
librărie.
a. Suma de bani cheltuită pe cărţi
b. Numărul de cărţi cumpărate
c. Timpul petrecut în librărie
d. Specializarea
e. Genul
f. Deţinerea unui calculator personal
g. Deţinerea unui video/DVD player
h. Metoda de plată
7
Identificaţi tipurile de variabile. Dacă variabila este numerică, detrerminaţi dacă este discretă sau
continuă.
6. Pentru un studiu care constă în interviuri cu participanţii, explicaţi de ce un eşantion simplu aleator
poate fi mai puţin practic decât alte metode.
7. Rectorul unei universităţi cu N=4000 de studenţi solicită biroului de evaluare academică să efectueze
o anchetă prin care să măsoare satisfacţia studenţilor. Următorul tabel conţine o clasificare a
studenţilor, funcţie de gen şi de anul de studii.
Genul Anul 1 Anul 2 Anul 3 Anul 4 Total
Femeie 700 520 500 480 2200
Bărbat 560 460 400 380 1800
Total 1260 980 900 860 4000
Biroul de evaluare intenţionează să extragă un eşantion de n=200 de studenţi.

a. Dacă universitatea dispune de o listă alfabetică a celor 4000 de studenţi (ceea ce
reprezintă cadrul de eşantionare), ce tip de eşantionare poate fi folosit? Discutaţi.
b. Care este avantajul utilizării unui eşantion aleator simplu la punctul a?
c. Care este avantajul utilizării unui eşantion sistematic la punctul a?
d. În cazul în care cadrul de eşantionare este reprezentat de opt liste separate, în ordine
alfabetică, pe gen şi an de studiu, ce tip de eşantion ar trebui folosit? Discutaţi.
e. Să presupunem că toţi studenţii respectivei universităţi locuiesc în 20 de cămine. Fiecare
cămin are patru niveluri, cu 50 de paturi pe nivel, deci poate primi 200 de studenţi. Să
presupunem în continuare că politica universităţii este de a integra studenţii, deci pe
fiecare etaj al fiecărui cămin vor fi camere de băieţi şi camere de fete, de la specializari
diferite şi din ani diferiţi. Dacă biroul de evaluare reuşeşte să construiească un cadru de
eşantionare constând într-o listă cu toţi studenţii aşa cum sunt ei dispuşi în fiecare cămin
şi pe fiecare etaj, ce tip de eşantion ar trebui utilizat. Discutaţi.
2. Statistică descriptivă. Tabele şi grafice
8
2.1. Organizarea datelor numerice
Dacă pentru un set de date compus doar din câteva observaţii nu este o problemă observarea
trăsăturilor majore, acest lucru devine tot mai dificil pe măsură ce numărul de observaţii devine mai mare.
De aceea este nevoie de organizarea informaţiilor. Pentru acest lucru sunt folosite două metode: şirul ordonat
şi dispunerea sub formă de „creangă şi frunze”.
Un şir ordonat reprezintă o secvenţă ordonată de informaţii, aranjate de la cea mai mică la cea mai
mare. De exemplu, să presupunem că durata de şedere, în zile, a unor pacienţi într-un centru de
dezalcoolizare este următoarea: 11, 37, 22, 6, 20, 9, 61, 18, 24, 16, 13, 4, 39, 13, 44, 19 şi 7. Şirul ordonat
va fi în acest caz: 4, 6, 7, 9, 11, 13, 13, 16, 18, 19, 20, 22, 24, 37, 39, 44, 61. Un astfel de şir face mai uşoară
observarea extremelor, a valorilor tipice şi a zonelor în care valorile se concentrează.
Dispunerea sub formă de „creangă şi frunze” este o unealtă utilă pentru organizarea unui set de date
şi pentru înţelegerea modului în care valorile sunt distribuite şi grupate. O astfel de dispunere separă în
cifra/cifrele de intrare („creanga”) şi celelalte cifre („frunzele”), fiecare în ordine crescătoare. Dacă ne
referim la exemplul anterior, atunci o distribuţie creangă şi frunze arată aşa:
Creanga Frunzele
0 4, 6, 7, 9
1 1, 3, 3, 6, 8, 9
2 0, 2, 4
3 7, 9
4 4
5
6 1
2.2. Tabele şi grafice pentru date numerice

Distribuţia frecvenţelor
Indiferent de modul în care sunt ordonate datele, fie în şir crescător, fie sub formă de „crengă şi
frunze”, atunci când numărul de cazuri creşte, informaţia trebuie să fie condensată şi mai mult pentru a putea
fi prezentată, analizată şi interpretată în mod corespunzător. Astfel, informaţiile pot fi grupate în categorii ale
căror limite sunt stabilite funcţie de împrăştierea observaţiilor. O astfel de aranjare a datelor sub formă de
tabel se numeşte distribuţia frecvenţelor.
Atunci când observaţiile sunt grupate într-o distribuţie de frecvenţe, procesul de analiză şi
interpretare a datelor devine mai uşor. Principalele caracteristici ale datelor pot fi aproximate, ceea ce
compensează faptul ca prin grupare informaţia iniţială, legată de fiecare observaţie individuală, este pierdută.
Atunci când se construieşte o distribuţie de frecvenţe sunt câteva etape care trebuie parcurse: punerea
datelor în ordine, stabilirea numărului de categorii, de clase, în care sunt grupate datele, stabilirea mărimii
9
fiecărei clase, stabilirea frontierelor fiecărei categorii şi, în final, punerea fiecărei observaţii în categoria
corespunzătoare.
Alegerea numărului de clase în care se va grupa informaţia depinde în primul rând de numărul de
observaţii. Un număr mai mare de obdervaţii permite un număr mai mare de categorii. În general, o
distribuţie de frecvenţe are între 5 şi 15 clase. Dacă sunt prea puţine clase nu se poate observa nici o
distribuţie iar dacă sunt prea multe clase, unele dintre ele nu vor avea nici o observaţie. Într-o distribuţie de
frecvenţe, lăţimile claselor trebuie să fie egale. Pentru a determina lăţimea unei clase se împarte
amplitudinea variaţiei observaţiilor (din cea mai mare valoare se scade cea mai mică) la numărul dorit de
clase. Frontierele fiecărei categorii categorii trebuie să fie foarte clare, astfel încât să nu rămână date
neacoperite sau suprapuneri.
Exemplu: trebuie construită o distribuţie a frecvenţelor pentru următoarele date obţinute la un test de
cunoştinţe: 16, 2, 16, 29, 15, 7, 25, 16, 5, 19, 1, 12, 22, 10, 29, 20.
1. Punerea datelor în ordine: 1, 2, 5, 7, 10, 12, 15, 16, 16, 16, 19, 20, 22, 25, 29, 29.
2. Stabilirea numărului de categorii: 3
3. Calcularea lăţimii fiecărei categorii: (29-1)/3 =9,333; se poate aproxima la 10.
4. Stabilirea frontierelor fiecărei categorii: 0 – 9; 10 – 19; 20 – 29.
5. Punerea fiecărei observaţii în categoria corespunzătoare:
Categoria Frecvenţa
0–9 4
10 – 19 7
20 – 29 5
Total 16
Principalul avantaj al unui astfel de tabel îl reprezintă faptul că principalele caracteristici ale
informaţiei devin clare foarte uşor: scorurile variază între 0 şi 29, dar cele mai multe sunt în categoria de
mijloc. Pe de altă parte, dezavantajul major al distribuţiei frecvenţelor este că, fără acces la datele originale,
nu se poate cunoaşte distribuţia valorilor în interiorul unei anumite clase.
Distribuţia frecvenţelor relative şi distribuţia procentuală
Pentru a îmbunătăţi analiza, se pot utiliza fie distribuţia frecvenţelor relative, fie distribuţia
procentuală. Distribuţia frecvenţelor relative este formată prin împărţirea frecvenţelor din fiecare clasă la
numărul total de observaţii. Distribuţia procentuală rezultă prin înmulţirea fiecărei frecvenţe relative cu
100.
Frecvenţa Frecvenţa Procentul

Categoria
relativă
10
0–9 4 0,25 25
10 – 19 7 0,4375 43,75
20 – 29 5 0,3125 31,25
Total 16 1 100
Utilizarea proporţiei sau a procentajului are mai mult sens decât utilizarea doar a frecvenţelor. De
fapt, utilizarea distribuţiei frecvenţelor relative şi a distribuţiei procentuale devine esenţială atunci când se
compară două seturi de date, şi mai ales când numărul observaţiilor din cele două seturi de date diferă.
Histograma
Plecând de la expresia foarte cunoscută în jurnalism că „o imagine face cât 1000 de cuvinte” şi
transferând-o în statistică, ajungem la tehnicile grafice. Acestea sunt deseori utilizate în locul tabelelor,
pentru a avea o descriere mai vie a seturilor de date. Unul dintrte graficele cele mai utilizate este histograma.
O histogramă este un grafic în care pe graniţele fiecărei clase sunt construite dreptunghiuri a căror înălţime
este proporţională cu frecvenţa, frecvenţa relativă sau procentajul.
Atunci când se construieşte o histogramă, variabila de interes se amplasează pe orizontală, iar pe
verticală se notează frecvenţa, proporţia sau procentajul observaţiilor din fiecare clasă.
Histograma
8
7
6
Frecventa
5
4
3
2
1
0
9 19 29
categoria
Poligonul frecvenţelor sau procentajelor

Punctul de mijloc al unei clase reprezintă punctul aflat la jumătatea distanţei dintre frontierele
fiecărei clase şi este reprezentativ pentru datele din acea clasă. Poligonul frecvenţelor sau procentajelor este
format prin unirea tuturor punctelor de mijloc ale claselor analizate. La fel ca şi la histogramă, variabila de
interes este amplastă pe orizontală.
11
2.3. Tabele şi grafice pentru variabile nominale
Tabelul rezumativ
Un tabel rezumativ pentru variabile nominale este similar, ca formă, cu un tabel pentru date
numerice. Următorul tabel prezintă rezultatele primului tur de scrutin al alegerilor prezidenţiale desfăşurate
pe 28 noiembrie 2004.
Candidatul Numărul de voturi Procentajul
Adrain Năstase 4278864 40,94
Traian Băsescu 3545236 33,92
Corneliu Vadim Tudor 1313714 12,57
Marko Bela 533446 5,10
Restul candidaţilor 780945 7,47
Graficul bară
Pentru a exprima informaţia prezentată într-un tabel ca cel anterior se utilizează graficul bară al
frecvenţelor, al frecvenţelor relative sau al procentajelor. Într-un astfel de grafic, fiecare categorie este
reprezentată de o bară a cărei lungime este proporţională cu frecvenţa sau procentajul observaţiilor din acea
categorie. În general, variabila de interes este amplastă pe axa verticală, iar valorile pe axa orizontală. În
cazul variabilelor nominale nu contează ordinea în care sunt amplasate categoriile. În plus, spre deosebire de
histograme, barele sunt separate între ele, tocmai pentru a sublinia faptul că variabila este nominală
(calitativă) şi nu interval (cantitativă).
Procentajul
Restul candidaţilor 7,47
Marko Bela 5,1
Corneliu Vadim Tudor 12,57 Procentajul
Traian Băsescu 33,92
Adrain Năstase 40,94
0 10 20 30 40 50
Graficul tort
Graficul tort se bazează pe faptul că un cerc are 360 de grade. Acesta este împărţit în felii a căror
mărime este proporţională cu fiecare categorie.
12
Procentajul
7,47
5,1
Adrain Năstase
12,57
40,94 Traian Băsescu
Corneliu Vadim Tudor
Marko Bela
Restul candidaţilor
33,92
Scopul unui grafic este să prezinte datele cu precizie. Unele cercetări asupra percepţiei umane au
ajuns la concluzia că graficele tort au performanţe mai slabe decât graficele bară. Aceasta deoarece s-a
observat că ochiul uman apreciază mai uşor o lungime în raport cu o scală, ca în cazul graficelor bară, şi mai
greu un unghi, ca în cazul graficelor tort. Astfel, un grafic bară permite o comparare mai uşoară a
categoriilor. Pe de altă parte, graficele tort arată cu claritate faptul că suma tuturor categoriilor este 100%. În
consecinţă, alegerea tipului de grafic este subiectivă şi depinde de scopurile utilizatorului: dacă este mai
importantă comparaţia, atunci este mai bine să se utilizeze un grafic bară; dacă este mai importantă
observarea unei porţiuni în raport cu întregul, atunci este mai bine să se utilizeze un grafic tort.
Exerciţii
1. Formaţi un şir ordonat din următorul eşantion de 10 note la un examen de statistică: 8,8; 7,8; 7,8; 7,3;
9,1; 7,8; 8,5; 6,4; 6,2; 7,5. Construiţi o dispunere „creangă şi frunze”.
2. Formaţi un şir ordonat din următorul eşantion de 10 salarii (în RON) din cadrul unei companii: 755, 490,
648, 832, 710, 590, 576, 627, 915, 839. Construiţi o dispunere „creangă şi frunze”.
3. Următoarele date reprezintă un eşantion de 23 de sume de bani extrase de la un bancomat: 260, 280, 200,
200, 210, 220, 250, 250, 180, 250, 150, 200, 180, 200, 250, 250, 220, 300, 300, 300, 150, 200, 290.
a. Puneţi datele întrt-un şir ordonat.
b. Puneţi datele sub formă „creangă şi frunze”.
c. Care dintre cele două forme de prezentare oferă mai multe informaţii?. Discutaţi.
d. În jurul cărei valori par să se concentreze sumele retrase? Explicaţi.
13
4. Următoarea distribuţie “creangă şi frunze” reprezintă cantitatea de motorină cumpărată (în litri),
de un eşantion de 25 de camioane de la o staţie de alimentare de la periferia Bucureştiului.
9 1,4,7
10 0,2,2,3,8
11 1,3,5,5,6,6,7,7,7,7
12 2,2,3,4,8,9
13 0,2
a. Puneţi datele întrt-un şir ordonat.
b. Care dintre cele două forme de prezentare oferă mai multe informaţii?. Discutaţi.
c. Care este cantitatea de motorină care are şansele cele mai mari de a fi cumpărată?
d. Există o concentraţie spre mijlocul distribuţiei a cantităţii de motorină cumpărată?
e. Credeţi că eşantionul de 25 este reprezentativ pentru o populaţie mai largă? Discutaţi.
5. Plecând de la aceeaşi distribuţie „creangă şi frunze” de la exerciţiul 3
a. Construiţi distribuţia de frecvenţe şi distribuţia procentajelor
b. Trasaţi histograma procentajelor
c. Trasaţi poligonul procentajelor
6. În anul 2004, numărul de credincioşi ai marilor religii ale lumii era următorul: creştini 2107
milioane, musulmani 1283 milioane, hinduşi 851 de milioane, budişti 375 milioane, iudaici 15
milioane.
a. Construiţi distribuţia frecvenţelor pentru aceste date.
b. Construiţi distribuţia frecvenţelor relative pentru aceste date.
c. Construiţi un grafic bară.
d. Se poate calcula media, mediana sau modul pentru aceste date? Interpretaţi.
7. Cele două şiruri ordonate din tabelul următor prezintă durata de viaţă, în ore, a două eşantioane
de câte 40 de becuri de 100W, eşantioane extrase din producţia a două fabrici.
Fabrica A Fabrica B
684 697 720 773 821 819 836 888 897 903
831 835 848 852 852 907 912 918 942 943
859 860 868 870 876 952 959 962 986 992
893 899 905 909 911 994 1004 1005 1007 1015
922 924 926 926 938 1016 1018 1020 1022 1034
939 943 946 954 971 1038 1072 1077 1077 1082
972 977 984 1005 1014 1096 1100 1113 1113 1116
1016 1041 1052 1080 1093 1153 1154 1174 1188 1230
a. Construiţi distribuţia frecvenţelor pentru cele două fabrici, utilizând clase de 100 de ore lăţime.
b. Construiţi alte distribuţii ale frecvenţelor, utilizând următoarea schemă:
• Fabrica A: de la 650 până la 750, de la 750 inclusiv la 850, şamd
14
• Fabrica B: de la 750 până la 850, de la 850 inclusiv la 950, şamd
c. Schimbaţi lăţimea intervalelor de la 100 la 50 (650 – 700, 700 – 750, etc). Comentaţi rezultatele
acestei modificări.
d. Construiţi distribuţia procentajelor din distribuţia frecvenţelor de la punctul b.
e. Trasaţi separat histogramele procentajelor.
f. Trasaţi poligoanele procentajelor.
g. Becurile cărei fabrici au o speranţă de viaţă mai lungă? Explicaţi.
8. O variabilă nominală are patru categorii, cu următoarele procentaje:
Categoria Procentajul
A 12
B 29
C 35
D 24
a. Construiţi un grafic bară
b. Construiţi un grafic tort
15
3. Statistică descriptivă. Măsuri ale tendinţei centrale şi ale dispersiei
3.1. Măsuri ale tendinţei centrale, ale dispersiei şi formei

Cele mai multe dintre seturile de date arată o tendinţă clară a datelor de a se grupa în jurul unui punct
central. Din acest motiv, pentru orice set de date, o anumită valoare tipică poate fi utilizată pentru a descrie
întregul set. O astfel de valoare descriptivă se numeşte măsură a tendinţei centrale. Există trei astfel de
măsuri ale tendinţei centrale: media aritmetică, mediana şi modul.
Media aritmetică
Media aritmetică reprezintă cea mai utilizată măsură a tendinţei centrale. Media aritmetică se
calculează prin împărţirea sumei tuturor valorilor numerice ale unei variabile dintr-un set de date la numărul
de date din acel set.
Pentru un eşantion care conţine n observaţii, notate X1, X2,..., Xn, media aritmetică a eşantionului,
notată X şi numită X barat, se calculează după formula:
n
X 1 + X 2 + X 3 + ... + X n ∑X i
X = = i =1
n n
Pentru o populaţie care conţine N observaţii, media aritmetică a populaţiei se notează cu litera
grecească μ şi se calculează după o formulă similară:
n
X 1 + X 2 + X 3 + ... + X n ∑X i
µ= = i =1
N N
Trebuie subliniat faptul că μ reprezintă un parametru, iar X este doar o informaţie statistică.
Să luăm în considerare următorul exemplu:
Tabelul 3.1. Activitatea economică a femeilor în Europa; Angajarea în muncă a femeilor ca procent din
angajarea în muncă a bărbaţilor
16
Europa occidentală Europa centrală şi de est
Ţara Activitatea economică Ţara Activitatea economică
Austria 60 Bulgaria 88
Belgia 47 Cehia 84
Danemarca 77 Polonia 77
Elveţia 60 România 77
Franţa 64 Slovacia 81
Irlanda 41 Ungaria 70
Italia 44
Marea Britanie 60
Norvegia 68
Olanda 42
Portugalia 51
Spania 31
Suedia 77
Pentru a calcula media aritmetică a angajării în muncă a femeilor din Europa centrală şi de est, întâi
se calculează suma valorilor (88+84+77+77+81+70 = 477), care apoi se împarte la numărul de cazuri
(477/6=79,5). Media, ca şi ceilalţi indicatori ai tendinţei centrale, permite compararea între grupuri. În cazul
exemplului anterior, valoarea mediei aritmetice pentru Europa centrală şi de est (79,5) poate fi comparată cu
cea pentru Europa occidentală (55,53), iar diferenţa poate fi analizată.
Proprietăţile mediei:
- media este o măsură potrivită doar pentru datele cantitative
- media este puternic influenţată de observaţiile care sunt foarte depărtate de restul datelor, care
sunt numite observaţii excentrice.
Mediana
Mediana este măsura care împarte exact în două un şir ordonat de date.
Mediana = a (n+1)/2 observaţie
Dacă există un număr impar de observaţii, mediana reprezintă valoare numerică ce este poziţionată
exact în punctul de (n+1)/2.
Dacă există un număr par de observaţii, atunci mediana se situează între cele două observaţii din
mijloc şi este egală cu media lor.
În cazul datelor din tabelul 3.1, pentru ţările din Europa occidentală, şirul ordonat al datelor este
următorul: 31, 41, 42, 44, 47, 51, 60, 60, 60, 64, 68, 77, 77. Numărul observaţiilor fiind impar, observaţia a
7-a împarte şirul în două părţi egale, deci Mediana = 60.
În cazul datelor pentru Europa centrală şi de este, şirul ordonat al datelor este: 70, 77, 77, 81, 84, 88.
Pentru că numărul observaţiilor este par, Mediana = (77+81)/2 = 79
17
Principala calitate a medianei în raport cu media constă în faptul că nu este afectată de valorile
excentrice. Dar, pe de altă parte, pentru seturi de date relativ mici, distribuţii diferite pot avea aceeaşi
mediană.
Modul
Modul este valoarea care are frecvenţa cea mai mare într-un set de date. Spre deosebire de media
aritmetică, modul nu este afectat de valorile extreme. Modul este utilizat doar pentru scopuri descriptive,
deoarece el este mult mai variabil de la un eşantion la altul decât decât celelalte măsuri ale tendinţei centrale.
Pentru variabilele continue, aşa cum ar fi venitul, deoarece sunt extrem de multe valori posibile pe care
variabila le poate lua, sunt şanse foarte mari ca nici o valoare să nu apară de două ori. În consecinţă, pentru
variabilele continue nu putem discuta despre mod.
În exemplul datelor din tabelul 3.1, pentru ţările din Europa occidentală, valoare cu frecvenţa cea mai
mare este 60, deci Modul = 60. Pentru ţările din Europa centrală şi de est, Modul =77.
Quartilele
Quartilele reprezintă cea mai utilizată măsură a locaţiei necentrale şi sunt utilizate pentru a descrie
proprietăţile unor seturi mari de date. În vreme ce mediana este valoarea care împarte în două un set ordonat
de date (50% dintre observaţii sunt mai mari decât aceasta iar 50% mai mici), quartilele sunt măsuri
descripitve care împart un şi ordonat de date în patru sferturi.
Prima quartilă, Q1, este valoarea pentru care 25% dintre observaţii sunt mai mici, iar 75% sunt mai
mari: Q1 = a (n+1)/4 observaţie
A treia quartilă, Q3, este valoarea pentru care 75% dintre observaţii sunt mai mici, iar 25% sunt mai
mari: Q1 = a 3(n+1)/4 observaţie
Pentru calcularea quartilelor se folosesc urmatoarele reguli:
1. Dacă numărul rezultat din formulă este întreg, atunci observaţia corespunzătoare
numărului rezultat reprezintă quartila.
2. Dacă numărul rezultat din formulă este la jumătatea dintre două numere întregi, atunci
quartila reprezintă media dintre valorile observaţiilor între care se situează.
3. Dacă numărul rezultat din din formulă nu este nici întreg şi nici la jumătatea distanţei
dintre două numere întregi, atunci quartila reprezintă valoarea observaţiei cea mai apropiată.
Utilizând datele din tabelul 3.1, pentru ţările din Europa occidentală, şirul ordonat al datelor este
următorul: 31, 41, 42, 44, 47, 51, 60, 60, 60, 64, 68, 77, 77
În acest caz, Q1 = a (13+1)/4 observaţie = a 3,5 observaţie. Utilizand a doua regulă, prima quartilă va
fi media dintre a 3-a şi a 4-a observaţie: Q1 = (42+44)/2 = 43
18
Q1 = a 3(13+1)/4 observaţie = a 10,5 observaţie. Utilizând a doua regulă, a treia quartilă va fi media
dintre a 10-a şi a 11-a observaţie: Q3 = (64+68)/2 = 66
Măsuri ale dispersiei

O a doua proprietate importantă care descrie un set de date este dispersia sau împrăştierea datelor.
Două seturi de date pot diferi atât în ceea ce priveşte tendinţa centrală cât şi dispersia, după cum se poate
observa în figurile 3.1 şi 3.2.
Fig. 3.1. Două distribuţii simetrice care diferă doar în privinţa tendinţei centrale
Fig. 3.2. Două distribuţii simetrice care diferă doar prin dispersie
Există cinci măsuri ale dispersiei: Amplitudinea, amplitudinea interquartilică, varianţa, deviaţia
standard şi coeficientul de variaţie.
Amplitudinea reprezintă diferenţa dintre cea mai mare şi cea mai mică observaţie dintr-un set de
date: A = Xmax-Xmin
Utilizând datele din tabelul 3.1, pentru ţările din Europa occidentală, A = 77-31 = 46
Amplitudinea măsoară împrăştierea totală a unui set de date. Deşi amplitudinea este o măsură simplă
a variaţiei totale a datelor, slăbiciunea ei principală este că nu ţine cont de modul în care datele sunt
19
împrăştiate între cea mai mare şi cea mai mică valoare. Astfel, atunci când există cel puţin o valoare
excentrică, folosirea amplitudinii nu este corespunzătoare.
Amplitudinea interquartilică reprezintă diferenţa dintre a treia quartilă şi prima quartilă dintr-un set
de date: Aiq = Q3-Q1
Această măsură ia în considerare împrăştierea a 50% dintre date şi de aceea nu este influenţată de
valorile extreme. Utilizând şirul ordonat rezultat din datele din tabelul 3.1, pentru ţările din Europa
occidentală, Aiq = 66-43 = 23
Varianţa şi deviaţia standard
Deşi atât amplitudinea cât şi amplitudinea interquartilică măsoară împrăştierea, nici una dintre aceste
măsuri nu ia în considerare modul în care observaţiile sunt distribuite sau grupate. Cele două măsuri ale
variaţiei care iau în considerare modul de distribuţie al observaţiilor sunt varianţa (numită şi dispersie) şi
deviaţia. Aceste măsuri apreciază cum fluctuează valorile în jurul mediei. Varianţa unui eşantion ar putea fi
astfel considerată ca media pătratelor diferenţei dintre fiecare observaţie şi medie.
Astfel, pentru un eşantion care conţine n observaţii, notate X1, X2,..., Xn, varianţa eşantionului este:
[
S 2 = ( X 1 − X ) 2 + ( X 2 − X ) 2 + ... + ( X n − X ) 2 /(n − 1) ]
n
Sau 2
∑( X i − X )2
S =
n −1
i =1
Cea mai practică şi cea mai utilizată măsură a variaţiei este deviaţia standard. Această măsură
reprezintă radical din varianţă: ∑ (X i − X )2

S = i =1
n −1
Continuând exemplul cu datele din tabelul 3.1. pentru ţările din Europa occidentală, în tabelul 3.2.
sunt prezentaţi paşii necesari calculării varianţei şi deviaţiei standard. Astfel, varianţa este
S2 = 2431,23/(13-1) = 202,6
Iar deviaţia standard S = 202 ,6 =14 ,23
Tabelul 3.2.
20
Calcularea lui S2 şi S Ţara Xi X (Xi −X ) (X i − X )2
1. Se calculează Austria 60 55,53 4,47 19,98
diferenţele dintre
fiecare observaţie şi Belgia 47 55,53 -8,53 72,76
medie Danemarca 77 55,53 21,47 460,96
2. Se ridică la pătrat Elveţia 60 55,53 4,47 19,98
fiecare diferenţă Franţa 64 55,53 8,47 71,74
3. Se adună diferenţele
ridicate la pătrat Irlanda 41 55,53 -14,53 211,12
4. Rezultatul se Italia 44 55,53 -11,53 132,94
împarte la n-1 Marea Britanie 60 55,53 4,47 19,98
Pentru a calcula S se Norvegia 68 55,53 12,47 155,51
extrage rădăcina
pătrată din S2 Olanda 42 55,53 -13,53 183,06
Portugalia 51 55,53 -4,53 20,52
Spania 31 55,53 -24,53 601,72
Suedia 77 55,53 21,47 460,96
Total 0,00 2431,23
Calculând S2 şi S, diferenţele dintre fiecare observaţie şi valoarea medie au fost ridicate la pătrat. De
aceea, niciodată varianţa şi deviaţia standard nu pot fi negative. Singura situaţie în care S 2 şi S sunt zero este
atunci când nu există nici un fel de variaţie în interiorul setului de date.
Datele numerice sunt în mod inerent variabile, nu constante, fiecare
Înţelegerea dispersiei variabilă care este studiată luând mai multe valori. Tocmai datorită
1. cu cât datele sunt mai împrăştiate,
cu atât mai mare vor fi acestei variabilităţi, pentru a sumariza un set de date este important de
amplitudinea, amplitudinea
interquartilică, varianţa şi deviaţia
precizat nu doar măsurile tendinţei centrale, ci şi măsurile care reflectă
standard. modul în care datele sunt dispersate. Deviaţia standard este folositoare
2. cu cât datele sunt mai concentrate şi
mai omogene, cu atât mai mici vor la înţelegerea modului în care un set de date este grupat în jurul mediei.
fi amplitudinea, amplitudinea
interquartilică, varianţa şi deviaţia Pentru cele mai multe seturi de date, majoritatea observaţiilor sunt în
standard.
3. dacă datele sunt aceleaşi (adică nu intervalul plus – minus o deviaţie standard faţă de medie.
există nici un fel de variaţie),
În cazul exemplului cu angajarea în muncă a femeilor din Europa
amplitudinea, amplitudinea
interquartilică, varianţa şi deviaţia occidentală, media era 55,53, iar deviaţia standard 14,23. Deci
standard vor fi nule.
4. pentru un set obişnuit de date nici majoritea cazurilor se vor găsi în intervalul 55,53 – 14,23 = 41,3 şi
una dintre măsurile variaţiei
(amplitudinea, amplitudinea 55,53 + 14,23 = 69,76. Verificând acest lucru pe şirul ordonat al
interquartilică, varianţa şi deviaţia
standard) nu pot fi vreodată nule. datelor, se observă ca 10 din 13 cazuri sunt cuprinse în acest interval.
Coeficientul de variaţie
21
Spre deosebire de măsurile anterioare ale variaţiei, coeficientul de variaţie este o măsură relativă a
acesteia. El este exprimat în procente şi nu într-o anumită unitate de măsură. Coeficientul de variaţie se
calculează pein împărţirea deviaţiei standard la media aritmetică şi înmulţind totul cu 100.
S
CV = 100 %
X
Coeficientul de variaţie este folositor când se compară două sau mai multe seturi de date, şi în special
când aceste date sunt măsurate în unităţi de măsură diferite.
Forma
O a treia proprietate importantă a unui set de date o reprezintă forma, adică modul în care sunt
distribuite datele. O distribuţie poate fi simetrică sau asimetrică. Cele asimetrice se mai numesc şi înclinate.
Pentru a descrie forma se poate compara media cu mediana. Daca aceste două măsuri sunt egale,
atunci distribuţia este considerată simetrică. Dacă media este mai mare decât mediana, distribuţia este
conisderată pozitivă sau înclinată spre dreapta. Dacă mediana este mai mare decât media, atunci distribuţia
este conisderată negativă sau înclinată spre stânga.
Media < Mediana
Fig. 3.3. Distribuţie înclinată spre stânga
Media > Mediana
Fig. 3.4. Distribuţie înclinată spre dreapta
22
Media = Mediana
Fig. 3.5. Distribuţie simetrică
3.2. Obţinerea unui rezumat descriptiv al unei populaţii

În secţiunea anterioară au fost prezentate proprietăţile tendinţei centrale, variaţiei şi formei pentru un
eşantion. Să presupunem că datele nu reprezintă un eşantion, ci o întreagă populaţie. În acest caz nu mai
discutăm despre date statistice ci despre parametrii ai tendinţei centrale, variaţiei şi formei. Ele se calculează
după formule similare celor pentru eşantioane, dar se notează diferit.
Media populaţiei se calculează prin împărţirea sumei tuturor valorilor din populaţie la mărimea
populaţiei, N.
n
X + X 2 + X 3 + ... + X n ∑X i
µ= 1 = i =1
N N
Varianţa populaţiei se calculeză prin însumarea pătratului diferenţei dintre fiecare valoare şi media
aritmetică a valorilor populaţiei, urmată de împărţirea acestei sume la mărimea populaţiei.
n
∑(X i − µ)2
σ
2
= i =1
N
Deviaţia standard a populaţiei este rădăcina pătrată din varianţa popuaţiei:
n
∑ (X i − µ )2
σ = i =1
N
Trebuie notat faptul că formulele pentru varianţa populaţiei şi pentru deviaţia standard a populaţiei
diferă de cele pentru eşantion prin faptul că, în cazul populaţiei, numitorul este N şi nu n-1.
Regula empirică
În cele mai multe seturi de date, o mare parte a datelor tinde să se concentreze în jurul medianei. În
seturile de date înclinate spre dreapta, această grupare apare la stânga medianei (valori mai mici decât
mediana), iar în seturile de date înclinate spre stânga, observaţiile se grupează la dreapta medianei (valori
mai mari decât aceasta). În seturile de date care sunt simetrice, în care mediana a este egală cu media,
23
observaţiile tind să fie distribuite în mod egal în jurul măsurilor tendinţei centrale. Atunci când într-un set de
date nu este vizibilă o înclinaţie puternică, se poate utiliza regula empirică pentru a examina variabilitatea
datelor şi pentru a avea înţelegere mai bună a ceea ce măsoară deviaţia standard.
Regula empirică afirmă că pentru o distribuţie simetrică, în formă de clopot, aproximativ două
treimi din toate observaţiile (67%) sunt concentrate la o distanţă de ± o deviaţie standard faţă de medie, iar
aproximativ 95% dintre observaţii sunt concentrate în intervalul de ± două deviaţii standard faţă de medie.
Astfel, deviaţia standard, ca o măsură a variaţiei medii în jurul mediei, ajută la înţelegerea modulului
în care sunt distribuite observaţiile deasupra şi dedesubtul mediei, permiţând concetrarea asupra valorilor
anormale, excentrice, atunci când este analizat un set de date numerice.
3.3. Coeficientul de corelaţie

Coeficientul de corelaţie, ρ, măsoară puterea unei relaţii sau a unei asocieri între două variabile ale
unei populaţii. Valorile acestuia pot varia de la –1, pentru o corelaţie negativă perfectă, la +1, pentru o
corelaţie pozitivă perfectă. În acest caz, perfect înseamnă că tote punctele de pe o diagramă care reprezintă
cele două variabile ar putea fi unite de o linie dreaptă. Astfel, coeficientul de corelaţie măsoară gradul de
asociere liniară între două variabile. Semnul pozitiv al coeficientului de corelaţie arată că valorile variabilei
X cresc în acelaşi timp cu cele ale variabilei Y, iar semnul negativ arată că valorile mari ale variabilei X sunt
asociate cu valori mici ale variabilei Y. Atunci când coeficientul de corelaţie este apropiat de zero, se poate
considera că nu există nici un fel de corelaţie între cele două variabile. Figura 3.6. ilustrează trei tipuri de
asociere între variabile.
Fig. 3.6. Corelaţie perfect negativă (ρ = -1) Corelaţie perfect pozitivă (ρ = 1)
24
Nici un fel de corelaţie
In cazuri reale, este foarte puţin probabil să existe corelaţii perfecte de un anumit fel. În figura 3.7.
sunt prezentate o corelaţie pozitivă puternică (ρ = 0,75) şi o corelaţie negativă puternică (ρ = -0,75).
Fig. 3.7
În ambele situaţii, relaţiile sunt descrise ca tendinţe şi nu ca relaţie cauză – efect. Doar corelaţia nu
poate să dovedească existenţa unei relaţii de cauzalitate, că o modificarea unei variabile provoacă
modificarea celeilalte variabile. O corelaţie puternică se poate produce doar datorită întâmplării, datorită
neluării în considerare a ueni a treia variabile sau datorită relaţiei cauză – efect. Este necesară o analiză
suplimentară pentru a determina care dintre cele trei situaţii a provocat corelaţia.
Coeficientul de corelaţie pentru un eşantion se calculează după următoarea formulă:
n
∑ (X i − X )(Yi − Y )
r= i =1
n n
∑ ( X i − X )2
i =1
∑ (Y
i =1
i − Y )2
25
Exerciţii
1. Managerul unei firme de curierat trebuie să cumpere un set de camioane. Atunci
când pachetele sunt puse în camioane pentru livrare, există două constrângeri
majore: greutatea şi volumul fiecărui item. Dacă într-un eşantion de 200 de
pachete, greutatea medie este de 26 kg cu o deviaţie standard de 3,9 kg, iar
volumul mediu este de 8,8 litri, cu o deviaţie standard de 2,2 litri, cum poate fi
comparată variaţia greutăţii şi a volumului?
2. Fie următorul set de date dintr-un eşantion de mărimea n = 5 elemente: 7, 4, 9, 8,
2.
a. Calculaţi media, mediana şi modul.
b. Calculaţi amplitudinea, amplitudinea interquartilică, varianţa, deviaţia standard şi coeficientul de
variaţie.
c. Descrieţi forma datelor.
3. Fie următorul set de date dintr-un eşantion de mărimea n = 6 elemente: 7, 4, 9, 7, 3, 12.
a. Calculaţi media, mediana şi modul.
b. Calculaţi amplitudinea, amplitudinea interquartilică, varianţa, deviaţia standard şi coeficientul de
variaţia.
c. Descrieţi forma datelor.
4. Fie următoarele două seturi de date, fiecare formând un eşantion de 7 elemente:
Setul 1: 10, 2, 3, 2, 4, 2, 5
Setul 2: 20, 12, 13, 12, 14, 12, 15
a. Pentru fiecare set de date calculaţi media, mediana şi modul
b. Comparaţi rezultatele.
c. Pentru fiecare set de date calculaţi amplitudinea, amplitudinea interquartilică, varianţa, deviaţia
standard şi coeficientul de variaţie.
d. Descrieţi forma fiecărui set de date.
e. Comparaţi rezultatele de la punctele c şi d.
5. Următorul set de date reprezintă informaţii despre o populaţie cu N = 10: 7, 5, 11, 8, 3, 6, 2, 1, 9, 8
a. Calculaţi media populaţiei
b. Calculaţi deviaţia standard a populaţiei
6. Următorul set de date reprezintă informaţii despre o populaţie cu N = 10: 7, 5, 6, 6, 6, 4, 8, 6, 9, 3
a. Calculaţi media populaţiei
26
b. Calculaţi deviaţia standard a populaţiei
7. Următoarele date reprezintă informaţii de la un eşantion cu n = 11 elemente:
X 7 5 8 3 6 10 12 4 9 15 18
Y 21 15 24 9 18 30 36 12 27 45 54
a. Calculaţi coeficientul de corelaţie
b. Cât de puternică este relaţia dintre X şi Y? Explicaţi.
27
4. Probabilitatea şi distribuţia probabilităţii
4.1. Concepte fundamentale în probabilitate

Probabilitatea reprezintă şansa ca un anumit eveniment să se producă. Probabilitatea poate să se
refere la şansa de a nimeri o anumită culoare când se alege o carte dintr-un pachet de cărţi de joc, la şansa ca
un anumit individ să aleagă un candidat în dauna altuia, ori la şansa ca un nou produs să aibă succes pe piaţă.
În oricare dintre aceste exemple, probabilitatea reprezintă o proporţie sau o fracţie şi ia valori între 0 şi 1.
Evenimentul care este imposibil să apară are probabilitatea 0, iar cel care apare cu certitudine are
probabilitatea 1.
Probabilitatea de apariţie = X/T, unde X = numărul de cazuri în care evenimentul poate să apară,
iar T = numărul total de rezultate.
Elemente de vocabular
Elementele de bază ale teoriei probabilităţii sunt rezultatele procesului sau fenomenului studiat. În
limbajul statisticii, un experiment reprezintă un proces al cărui rezultat este imprecis. Spaţiul de
probabilitate (S) reprezintă toate rezultatele posibile ale unui experiment. Fiecare rezultat posibil este numit
eveniment. Dacă evenimentul poate fi descris în funcţie de o singură caracteristică, atunci el este un
eveniment simplu. Dacă un eveniment are două sau mai multe caracteristici, atunci el se numeşte
eveniment reunit. Complementul unui eveniment A, notat A’, include toate evenimentele din spaţiul S
care nu sunt parte a evenimentului A.
Probabilitatea (P) sau probabilitatea simplă este un număr real din intervalul [0,1], corespunzător
unui unui subset de rezultate din spaţiul de probabilitate.
Exemplu: să presupunem că aruncarea unui zar reprezintă experimentul. Spaţiul de probabilitate, în
acest caz este S = {1,2,3,4,5,6}.
Evenimentul A este reprezentat de cazurile în care rezultatul aruncărilor sunt numere impare, A =
{1,3,5}, iar evenimentul B este reprezentat de cazurile în care rezultatul aruncărilor este mai mic decât 3, B
= {1,2}.
Presupunând că şansele de apariţie a oricărei faţete a zaruli sunt aceleaşi, P(1) = 1/6, atunci
probabilitatea de apariţie a evenimentului A este P(A) = 3/6 = 0,5, iar probabilitatea de apariţie a
evenimentului B este P(B) = 2/6 = 0,33
Dacă probabilitatea simplă se referă la apariţia unor evenimente simple, probabilitatea reunită se
referă la situaţii care implică două sau mai multe evenimente, reprezentând intersecţia evenimentelor.
28
Exemplu: Pentru cazul anterior, evenimentul reunit (A şi B) = {1 }, iar P(A şi B) = 1/6 = 0,16
Reguli ale probabilităţii

1. 0 ≤ P(A) ≤ 1, pentru orice A în S
Probabilitatea oricărui eveniment A într-un spaţiu de probabilitate S este cuprinsă între 0şi 1.
2. P(spaţiu de probabilitate vid) = 0, pentru orice S
Probabilitatea unui eveniment care nu are nici un element este nulă.
3. Dacă A şi A’ sunt evenimente complementare în spaţiul S, atunci P (A’) = 1 – P(A)
Exemplu: Dacă experimentul constă în aruncarea unui zar, şi evenimentul A = {1,3,5}, atunci
complementarul său este A’ = {2,4,6}.
P (A’) = 3/6 = 0,5
1 – P(A) = 1- 3/6 = 0,5
În cazul aceluiaşi experiment, dacă B = {1,2}, atunci complementarul său este B’ = {3,4,5,6}.
P (B’) = 1 – P(B) = 1 – 2/6 = 0,67
4. Dacă A şi B sunt evenimente din spaţiul S, iar A este un subset al lui B, atunci P(A) ≤ P(B)
Exemplu: Dacă experimentul constă în aruncarea unui zar, şi evenimentul B reprezintă elementele mai
mari sau egale cu 3, B = {3,4,5,6}, iar A reprezintă elementele mai mari sau egale cu 5, A = {5,6}, atunci
A este un subset a lui B, iar P(B) = 4/6 = 0,67 şi P(A) = 2/6 = 0,33, ceea ce verifică regula.
O diagramă Venn a exemplului anterior este prezentată în figura 4.1.
S
1,2
B A
3,4 5,6
Fig. 4.1
5. Regula de însumare: probabilitatea lui A sau B este egală cu probabilitatea evenimentului A plus
probabilitatea evenimentului B minus probabilitatea lui A şi B:
P (A sau B) = P(A) + P(B) – P(A şi B)
Exemplu: Dacă experimentul constă în aruncarea unui zar, şi evenimentul A reprezintă obţinerea lui 3
sau 4, iar evenimentul B reprezintă obţinerea lui 1, 2 sau 3, atunci P(A) = 2/6 = 0,33, iar P(B) = 3/6 =
0,5.
Diagrama Venn a acestui spaţiu de probabilităţi este prezentată în figura 4.2.
29
Fig. 4.2
A sau B reprezintă reunirea celor două evenimente: A U B = {1,2,3,4}, P (A U B) = 4/6 = 0,67
A şi B reprezintă intersecţia celor două evenimente: A ∩ B = {3}, P(A ∩ B) = 1/6 = 0,16
În această situaţie, aplicând regula de însumare se obţine: P (A U B) = 2/6 + 3/6 – 1/6 = 4/6 = 0,67
4.2. Probabilitate condiţională

Fiecare dintre situaţiile de până acum au implicat probabilitatea unui eveniment particular atunci
când acesta este selectat dintr-un câmp de probabilitate. Dar cum ar putea fi determinată probabilitatea dacă
anumite informaţii despre evenimentele petrecute ar fi deja cunoscute?
Atunci când se calculează probabilitatea unui anumit eveniment A, dată fiind informaţia despre
apariţia unui alt eveniment B, această probabilitate se numeşte probabilitate condiţională şi se notează
P(A│B).
Probabilitatea lui A dat fiind B este egală cu probabilitatea evenimentului A şi B împărţită la
probabilitatea evenimentului B.
P(A│B) = P(A şi B)/P(B)
Probabilitatea lui B dat fiind A este egală cu probabilitatea evenimentului A şi B împărţită la
probabilitatea evenimentului A.
P(B│A) = P(A şi B)/P(A)
Exemplu: Să presupunem că avem următorul tabel care prezintă rezultatele unui sondaj efectuat în
1000 de gospodării cu privire la cumpărarea unui televizor nou.
Tabelul 4.1
Au cumpărat
Intenţionează să cumpere Da Nu Total
Da 200 50 250
Nu 100 650 750
Total 300 700 1000
30
Întrebarea la care se doreşte răspuns este următoarea: care este probabilitatea ca într-o gospodărie să
se cumpere un televizor nou? În acest caz, scopul este de a calcula P(au cumpărat│intenţionează să
cumpere). Astfel, spaţiul de probabilitate nu mai este întregul eşantion de 1000 de gospodării, ci doar
gospodăriile în care se intenţionează să se cumpere un televizor, adică 250. Din cele 250 de astfel de
gospodării, doar în 200 s-au cumpărat televizoare. Astfel, probabilitatea ca într-o gospodărie să se cumpere
un televizor dat fiind intenţiile de cumpărare este:
P(au cumpărat│intenţionează să cumpere) = P(au cumpărat şi intenţionează să cumpere)/ P(intenţionează să
cumpere)
P(au cumpărat│intenţionează să cumpere) = (200/1000)/(250/1000) = 200/250 = 0,8
Independenţa statistică
În exemplul anterior, probabilitatea ca într-o gospodărie să se cumpere un televizor dat fiind
intenţiile de cumpărare este de 200/250 = 0,8. Probabilitatea simplă ca într-o gospodărie să se cumpere un
televizor este doar de 300/1000 = 0,3. Aceste rezultate oferă informaţii importante. Cunoaşterea prealabilă a
intenţiei de cumpărare a afectat probabilitatea ca într-o gospodărie chiar să se cumpere un televizor.
Rezultatul este condiţionat de o informaţie prealabilă. Atunci când rezultatul unui eveniment nu afectează
probabilitatea apariţiei altui eveniment, se spune despre cele două evenimente că sunt independente din
punct de vedere statistic.
Două evenimente A şi B sunt statistic independente dacă şi numai dacă P(A│B) = P(A).
Exemplu: Să presupunem că avem următorul tabel care prezintă rezultatele unui sondaj efectuat în
300 de gospodării cu privire la cumpărarea unui televizor cu ecran normal sau cu ecran plat şi dacă sunt
mulţumiţi de ceea ce au cumpărat.
Tabelul 4.2
Satisfăcuţi de achiziţie?
Tipul de televizor Da Nu Total
Cu ecran normal 64 16 80
Cu ecran plat 176 44 220
Total 240 60 300
Trebuie să se determine dacă a fi satisfăcut de achiziţie şi tipul de televizor achiziţionat sunt

independente din punct de vedere statistic.
P(satisfacţie│ecran normal) = P(satisfacţie şi ecran normal)/P(ecran normal) = (64/300)/(80/300) = 64/80 =
0.8, care este egal cu
P(satisfacţie) = 240/300 = 0,8
31
De aici rezultă că relaţia privind independenţa evenimentelor este satisfăcută: cunoaşterea unui
eveniment nu afectează probabilitatea celuilalt eveniment.
Regula de multiplicare
Formula probabilităţii condiţionale poate fi tranformată algebric, asfel încât probabilitatea reunită
P(A şi B) să fie determinată funcţie de probabilitatea condiţională.
P(A şi B) = P(A│B)P(B)
Deci regula de multiplicare afirmă că probabilitatea lui A şi B este egală cu probabilitatea lui A dat
fiind B înmulţită cu probabilitea lui B.
Exemplu: Ştim că 80 de familii au cumprat un televizor cu ecran normal. Din tabelul 4.2 se poate
observa că 64 sunt satisfăcuţi iar 16 nu. Să presupunem că sunt aleşi, în mod aleatoriu, doi clienţi dintre cei
80. Care este probabilitatea ca amândoi să fie satisfăcuţi de achiziţie?
În acest caz se poate utiliza regula de multiplicare. Dacă A = al doilea cumpărător este satisfăcut, iar
B = primul cumpărător este satisfăcut, atunci:
P(A şi B) = P(A│B)P(B)
Probabilitatea ca primul cumpărător să fie satisfăcut de achiziţie este de 64/80. Probabilitatea ca al
doilea cumpărător să fie satisfăcut depinde de rezultatul primei selecţii. Dacă primul cumpărător nu este pus
la loc în eşantion (eşantionare fără înlocuire), atunci numărul cumpărătorilor rămaşi este de 79. În acest caz,
probabilitatea ca şi al doilea cumpărător să fie satisfăcut este de 63/79. Atunci,
P(A şi B) = (63/79)(64/80) = 0,638
În cazul în care după extragerea primului cumpărător, acesta este introdus la loc în eşantion
(eşantionare cu înlocuire) probabilitatea celui de-al doilea cumpărător de a fi satisfăcut este egală cu cea a
primului. De aceea,
P(A şi B) = (64/80)(64/80) = 0,64
Exemplul anterior demonstrează că a doua extragere este independentă de prima, deoarece a doua
probabilitate nu este influenţată de prima. De aceea, înlocuind P(A│B) cu P(A), obţinem regula de
multiplicare pentru evenimente independente: dacă A şi B sunt independente din punct de vedere
statistic, probabilitatea evenimentului A şi B este egală cu produsul dintre probabilitatea lui A şi
probabilitatea lui B.
P(A şi B) = P(A)P(B)
Rezultă de aici că sunt două modalităţi de determinare a independenţei statistice:
1. Evenimentele A şi B sunt independente dacă şi numai dacă P(A│B) = P(A).
2. Evenimentele A şi B sunt independente dacă şi numai dacă P(A şi B) = P(A)P(B).
32
4.3. Distribuţia de probabilitate pentru o variabilă aleatoare discretă
Aşa după cum s-a discutat în capitolul 1, o variabilă numerică este aceea pentru care răspunsurile
sunt exprimate prin cifre. Variabilele numerice pot fi discrete sau continue, primele rezultând dintr-un
proces de numărare, iar celelate dintr-un proces de măsurare.
Distribuţia de probabilitate pentru o variabilă aleatoare discretă este o listă exhaustivă a tuturor
rezultatelor numerice posibile ale acelei variabile, construită astfel încât fiecărui rezultat îi este asociată
proabilitatea de apariţie.
De exemplu, să considerăm numărul de cereri aprobate săptămânal de către rectorul unei universităţi,
aşa cum sunt prezentate în tabelul 4.3. Deoarece toate rezultatele posibile sunt incluse în tabel, lista este
exhaustivă, iar suma probabilităţilor este 1.
Tabelul 4.3.
Număr de cereri aprobate săptămânal Probabilitatea
0 0,10
1 0,10
2 0,20
3 0,30
4 0,15
5 0,10
6 0,05
Valoarea aşteptată a unei variabile discrete (μ) reprezintă media ponderată a tuturor rezultatelor
posibile, ponderea fiind probabilitaea rezultatului respectiv. Această medie ponderată se obţine prin
înmulţirea fiecărui rezultat posibil X cu probabilitatea corespunzătoare P(X), urmată de însumarea
rezultatelor.
N
µ = E ( X ) = ∑ X i P( X i )
i =1
Pentru distribuţia de probabilitate a numărului de cereri aprobate săptămânal, valoarea aşteptată este
calculată după formula anterioară:
μ = (0)(0,1) + (1)(0,1) +(2)(0,2) +(3)(0,3) +(4)(0,15) +(5)(0,1) +(6)(0,05) =
= 0 + 0,1 + 0,4 + 0,9 + 0,6 + 0,5 + 0,3 = 2,8
Trebuie notat faptul că valoarea aşteptată a numărului de cereri aprobate, 2,8, nu are neapărat sens,
pentru că numărul de cereri aprobate trebuie să fie unul întreg. Valoarea aşteptată reprezintă o medie.
Varianţa unei variabile aleatoare discrete (σ2 ) reprezintă media ponderată a pătratului diferenţelor
dintre fiecare rezultat posibil şi medie, ponderea find reprezentată de probabilitatea respectivului rezultat.
33
N
σ 2 = ∑[ X i − E ( X )] 2 P( X i )
i =1
Deviaţia standard a unei variabile aleatoare discrete (σ) este obţinută prin extragerea radicalului
din varianţă.
N
σ= ∑[ X
i =1
i − E ( X )] 2 P ( X i )
Varianţa şi deviaţia standard pentru cererile aprobate pe săptămână se calculează astfel:

σ2 = (0 – 2,8)2(0,1) + (1 – 2,8)2(0,1) + ( 2 – 2,8)2(0,2) + (3 – 2,8)2(0,3) + (4 – 2,8)2(0,15) +
(5 – 2,8)2(0,1) + (6 – 2,8)2(0,05) = 0,784 + 0,324 + 0,128 + 0,012 + 0,296 + 0,484 + 0,512 = 2,46
σ = 1,57
4.4. Distribuţia binomială

Atunci când există o expresie matematică pentru o variabila aleatorie, poate fi calculată probabilitatea de
apariţie a unui anumit rezultat. În astfel de cazuri întreaga distribuţie de probabilitate poate fi calculată şi
prezentată. De exemplu, funcţia de distribuţie a probabilităţii de selecţie a unui număr dintr-un tabel cu
numere aleatoare este uniformă. Principala caracteristică a unei distribuţii uniforme este că orice rezultat al
unei variabile aleatorii are aceeaşi şansă de apariţie. Astfel, probabilitatea extragerii unui număr de o cifră
este aceeaşi – 1/10 – deoarece sunt posibile 10 rezultate. Au fost dezvoltate mai multe modele de distribuţii a
diverse variabile care apar în ştiinţele sociale, în ştiinţele naturale sau în administrarea afacerilor. Unul dintre
cele mai utilizate modele este reprezentat de distribuţia binomială.
Proprietăţile distribuţiei binomiale:
1. Eşantionul constă într-un anumit număr de observaţii, n.
2. Fiecare observaţie poate fi clasificată doar în două categorii, care sunt mutual exclusive şi colectiv
exhaustive, care în general sunt numite succes şi eşec.
3. Probabilitatea ca o observaţie să fie clasificată ca succes, p, este constantă de la o observaţie la alta. La
fel, probabilitatea ca o observaţie să fie clasificată ca eşec, 1 – p, este constantă pentru toate observaţiile.
4. Rezultatul (succes sau eşec) uneiobservaţii este independent de rezultatul oricărei alte observaţii.
Formula distribuţiei binomiale:
P ( X ) = C Xn p X (1 − p) n − X
Unde:
n!
CXn reprezintă combinaţii de n luate câte X: C X =
n
-
X !( n − X )!
- n reprezintă mărimea eşantionului, iar n! (numit n factorial) este produsul n(n-1)(n-2)....1

34
- p reprezintă probabilitatea de succes a fiecărei încercări
- 1-p reprezintă probabilitatea de eşec a fiecărei încercări
- X reprezintă numărul de succese din eşantion
n!
Atunci, P ( X ) = p X (1 − p ) n −X
X !( n − X )!
Caracateristicile unei distribuţii binomiale

De fiecare dată când un set de parametrii (n şi p) este specificat, se generează o anumită distribuţie
binomială.
Forma. O distribuţie binomială poate fi simetrică sau înclinată. Atunci când p = 0,5, distribuţia
binomială va fi simetrică, indiferent de valoarea lui n. Atunci când p ≠ 0,5, distribuţia va fi înclinată. Cu cât
p este mai apropiată de 0,5 şi cu cât este mai mare numărul de observaţii n, cu atât mai puţin înclinată va fi
distribuţia.
Media unei distribuţii binomiale se obţine prin înmulţirea celor doi parametrii, n şi p.
μ = E(X) = np
Deviaţia standard a unei distribuţii binomiale se calculează după formula:
σ = σ 2 = np (1 − p )
Exemplu:
Dacă experimentul constă în aruncarea o singură dată a unei monede şi suntem interesaţi de obţinerea
stemei, atunci, aplicând formula distribuţiei binomiale P(X=1) = 0,51(1-0,5)1-1 1!/[1!(1-1)!]
= 0,5(1)(1) = 0,5
Distribuţia binomială poate fi scrisă sub forma următorului tabel
X P(X) Rezultat
0 0,5 ban
1 0,5 stemă
Dacă experimentul constă în aruncarea de două ori a unei monede şi suntem interesaţi de obţinerea
unei steme, atunci P(X=1) = 0,51(1-0,5)2-1 1!/[1!(2-1)!] = 0,5(0,5)2(1)/1 = 0,25(2) = 0,5
Distribuţia binomială poate fi scrisă sub forma următorului tabel
X P(X) Rezultat
0 0,25 ban, ban
1 0,50 ban, stemă
2 0,25 stemă, stemă
Deci sunt 50% şanse ca din 2 aruncări ale unei monede să obţinem o stemă.
Care este probabilitatea ca din 12 aruncări ale unei monede să se obţină de 5 ori stemă?
35
În această situaţie sunt 792 de posibilităţi de a obţine 5 steme din 12 aruncări (combinaţii de 12 luate
câte 5)
Astfel: n = 12, X = 5, p = 0,5
P(X = 5) = [(12·11·10·9·8·7·6·5·4·3·2·1)/(5·4·3·2·1)(7·6·5·4·3·2·1)]0,55(1 – 0,5)7 =
= 792·0,03125·0,0078124 = 0,19335
Deci probabilitatea de a obtine 5 steme din 12 aruncări ale unei monede este de aproximativ 19%.
Dacă vom încerca să construim o distribuţie a probabilităţii pentru 12 aruncări ale monedei vom obţine:
X P(X) Rezultat
0 0,00024 de 12 ori ban
1 0,00292 o dată stemă, de 11 ori ban
2 0,01611 de 2 ori stemă de, de 10 ori ban
3 ... de 3 ori stemă de, de 9 ori ban
11 0,00292 de 11 ori stemă de, o dată ban
12 0,00024 de 12 ori stemă
Care este probabilitatea de a obţine cel puţin 10 steme?

P(X≥10) = P(X=10) + P(X=11) + P(X=12) = 0,016 + 0,0029 + 0,0002 = 0,019
Adică sunt 1,9% şanse ca din 12 aruncări să obţinem cel puţin 10 steme.
Media unui experiment care constă în aruncarea unei monede de 12 ori este:
μ = np = 0,5(12) = 6
Deviaţia standard este:
σ = np (1 − p ) = 12 ⋅ 0,5(1 −0,5) = 3 =1,73
Cum se interpretează aceste rezultate? Dacă se repetă experimentul de foarte multe ori, cea mai
probabilă medie, adică cel mai probabil rezultat după 12 aruncări ale monedei este de 6 ori stemă şi de 6 ori
ban. Conform regulii empirice, sunt 68% şanse ca rezultatul să se afle în intervalul medie ± deviaţia
standard, adică 6 ± 1,73. Însemană este o probabilitate de 68% ca după 12 aruncări ale monedei să obţinem
5, 6 sau 7 steme, care sunt valorile cuprinse între 4,27 şi 7,73.
Exerciţii
1. Se dă următorul tabel:
36
B B’ Total
A 10 20 30
A’ 20 40 60
Total 30 60 90
Care este probabilitatea:
a. Evenimentului A
b. Evenimentului B
c. Evenimentului A’
d. Evenimentului A şi B
e. Evenimentului A şi B’
f. Evenimentului A’ şi B’
g. Evenimentului A sau B
h. Evenimentului A sau B’
i. Evenimentului A’ sau B’
2. În ultimii ani, băncile au făcut eforturi deosebite pentru ca studenţii să îşi deschidă conturi. Să
presupunem că am extras un eşantion de 200 de studenţi care posedă un card de credit obişnuit şi/sau un card
de credit pentru călătorii:
Card de credit pentru călătorii
Card de credit obişnuit Da Nu Total
Da 60 60 120
Nu 15 65 80
Total 75 125 200
a. Daţi un exemplu de eveniment simplu
b. Daţi un exemplu de eveniment reunit
c. Care este complementul evenimentului de a avea un card de credit obişnuit?
d. De ce „ a avea un card de credit obişnuit şi un card de credit pentru călătorii” este eveniment reunit?
e. Construiți diagrama Venn asociată tabelului.
Dacă este selectat la întâmplare un student, care este probabilitatea ca:
f. studentul să aibă un card de credit?
g. studentul să aibă un card de credit pentru călătorii?
h. studentul să aibă un card de credit şi un card de credit pentru călătorii?
i. studentul sa nu aibă nici card de credit şi nici card de credit pentru călătorii?
j. studentul să aibă un card de credit sau un card de credit pentru călătorii?
k. studentul să nu aibă un card de credit sau să aibă un card de credit pentru călătorii?
3. Se da urmatorul tabel:
37
B B’
A 10 30
A’ 25 35
a. Care este probabilitatea lui A dat fiind B?
b. Care este probabilitatea lui A dat fiind B’?
c. Care este probabilitatea lui A’ dat fiind B’?
d. A si B sunt independente din punct de vedere statistic?
4. Dat fiind tabelul de la problema 2,
a. Presupunând că se cunoaşte faptul ca un student are un card de credit, care este probabilitatea ca el să
aibă un card de credit pentru călătorii?
b. Presupunând că se cunoaşte faptul ca un student nu are un card de credit pentru călătorii, care este
probabilitatea ca el să aiba un card de credit?
c. Cele doua evenimente, a avea un card de credit şi a avea un card de credit pentru călătorii, sunt
independente din punct de vedere statistic? Explicaţi.
5. Să presupunem că avem un pachet de cărţi de joc. În interiorul său sunt patru suite (pică, treflă, cupă şi
caro), fiecare având 13 valori (as, 2, 3, ..., regină, popă). Acest pachet de cărţi de joc este amestecat, iar
dumneavoastră primiţi primele două cărţi, fără înlocuire.
a. Care este probabilitatea ca ambele cărţi să fie regine?
b. Care este probabilitatea ca prima carte să fie un 10 şi a doua carte să fie un 5 sau un 6?
c. Dacă extragerea ar avea loc cu înlocuire, care ar fi răspunsul la punctul a?
d. În jocul numit Blackjack, figurile (valet, damă, popă) au câte 10 puncte, asul are fie 1 fie 11 puncte,
iar celelalte cărţi au atâtea puncte câte indică cifra de pe ele. Realizezi un blackjack dacă cele două
cărţi pe care le ai totalizează 21 de puncte. Care este probabilitatea de a realiza un blackjack în
această problemă?
6. Tabelul următor prezintă distribuţia probabilităţii accidentelor de circulaţie dintr-un oraş.
Număr zilnic de accidente P(X)
0 0,10
1 0,20
2 0,45
3 0,15
4 0,05
5 0,05
a. calculaţi media sau numărul aşteptat de accidente dintr-o zi
b. calculaţi deviaţia standard
38
7. Un student trebuie să susţină un examen sub formă de grilă, în care la fiecare întrebare trebuie să aleagă
între patru răspunsuri posibile. Presupunând că nu are nici cea mai mică idee despre răspunsurile corecte, el
hotărăşte să marcheze aleator răspunsul de la fiecare întrebare. La acel examen există cinci întrebări.
a. care este probabilitatea ca toate cele cinci răspunsuri să fie corecte?
b. care este probabilitatea de a obţine cel puţin patru răspunsuri corecte?
c. care este probabilitatea ca nici unul dintre răspunsuri să nu fie corect?
d. care este probabilitatea de a obţine cel mult două răspunsuri corecte?
e. care este media şi deviaţia standard a acestui experiment?
f. presupunând că grila de examinare conţine 10 de întrebări şi trebuie 5 răspunsuri corecte pentru a
lua examenul, care va fi probabilitatea de a trece examenul urmând aceeaşi strategie?
8. Pentru cei care au magazine electronice, pe internet, să aibă un vizitator pe site nu este suficient.
Vânzătorii trebuie să-şi persuadeze clienţii online pentru ca aceştia să cumpere. Experţii estimează că 88%
dintre cumpărătorii de pe internet abandonează tranzacţia înainte de terminarea ei. Conisderând un eşantion
de 20 de cumpărători care vizitează un magazin electronic, iar probabilitatea ca unul dintre aceştia să
abandoneze site-ul înainte de a cumpăra ceva este de 0,88, utilizaţi modelul binomial pentru a răspunde la
următoarele întrebări:
a. Care este valoarea aşteptată sau media distribuţiei binomiale?
b. Care este deviaţia standard a distribuţiei binomiale?
c. Care este probabilitatea ca toţi cumpărătorii să plece de site înainte de a finaliza tranzacţia?
d. Care este posibilitatea ca cel puţin 18 cumpărătorii să plece de site înainte de a finaliza tranzacţia?
e. Care este probabilitea ca cel puţin 15 cumpărătorii să plece de site înainte de a finaliza tranzacţia?
f. Dacă site-ul este îmbunătăţit şi doar 70% dintre clienţi nu încheie tranzacţia, cum va modifica acest
lucru răspunsurile la întrebările a – e?
39
5. Distribuţia normală şi distribuţia eşantioanelor
Acest capitol tratează cea mai importantă distribuţie din statistică, distribuţia normală, care implică o
variabilă continuă. Distribuţia normală, numită uneori şi distribuţie gaussiană, este una dintre multele
distribuţii continue rezultate din procesul de măsurare a variabilelor. Histogramele datelor obţinute de la un
eşantion sunt de multe ori apropiate de forma unui clopot. În asemenea cazuri se spune că variabila este
aproximativ normal distribuită. Principalul motiv care face din această curbă cea mai importantă distribuţie
din statistică este faptul că cele mai multe metode ale inferenţei statistice utilizează proprietăţile distribuţiei
normale chiar şi atunci când datele din eşantion nu sunt distribuite sub formă de clopot.
5.1. Distribuţia normală

Atunci când există o expresie matematică pentru a reprezenta o variabilă continuă, se poate calcula
probabilitatea ca anumite valori să apară în anumite intervale. Cu tote acestea, probabilitatea exactă a unei
anumite valori dintr-o distribuţie continuă este zero.
Proprietăţi ale distribuţiei normale:
1. Are o formă simetrică, de clopot.
2. Toate măsurile tendinţei centrale (media, mediana şi modul) sunt egale între ele.
3. Distanţa interquartilică este cuprinsă între două treimi de deviaţie stanadard sub medie şi două treimi
de deviaţie standard dincolo de medie.
4. Este asociată cu o variabilă aleatoare care are o amplitudine infinită (-∞ < X < ∞).
Expresia matematică a funcţiei de densitate a probabilităţii este notată cu f(x) şi este dată de
următoarea formulă:
1
e −(1 / 2 )[( X −µ) / µ]
2
f (X ) =
2πσ
în care: e = constanta matematică 2,71828
π = constanta matematică 3,14159
μ = media populaţiei
σ = deviaţia standard a populaţiei
X = orice valoare a variabilei continue, unde -∞ < X < ∞
Deoarece e şi π sunt constante matematice, probabilităţile asociate unei vatiabile aleatoare sunt
dependente doar de doi parametrii ai distribuţiei normale: media populaţiei, μ, şi deviaţia standard a
populaţiei, σ. De fiecare dată când există o anumită combinaţie de μ şi σ, va rezulta o distribuţie normală
40
diferită, după cum se poate observa în figura 5.1. Curbele A, B şi C au aceaşi medie, dar au deviaţii standard
diferite. Curba D diferă de celelelate atât în privinţa mediei cât şi în cea a deviaţiei standard.
Fig. 5.1.
Din păcate, expresia matematică a distribuţiei normale este greu de calculat. Pentru a evita astfel de
calcule se pot folosi un set tabele care oferă probabilităţile necesare. Deoarece există un număr infinit de
valori pentru combinaţiile dintre μ şi σ, ar fi necesar un număr infinit de astfel de tabele. Însă, prin ceea ce se
numeşte standardizare, este necesar doar un singur tabel. Prin utilizarea formulei de transformare, orice
variabilă aleatoare X este transformată într-o variabilă normală standardizată Z.
Formula de transformare afirmă că valoarea lui Z este egală cu diferenţa dintre X şi media
populaţiei μ împărţită la deviaţia statndard σ.
Z = (X - μ)/ σ
Deşi forma originală a variabilei X avea media μ şi deviaţia standard σ, variabila standardizată Z are
întotdeauna media μ = 0 şi deviaţia standard σ = 1. Astfel, orice set de date normal distribuite pot fi
convertite într-o formă standardizată, iar orice probabilitate poate fi determinată dintr-un tabel al distribuţiei
normale standardizate, ca cel din anexa 1.
Pentru a înţelege modul de aplicare a formulei de transformare să considerăm următorul exemplu: o
firmă de comerţ electronic, care este interesată de un acces cât mai rapid la propriul site, a constatat că
downloadarea paginii sale de acces durează în medie 7 secunde, cu o deviaţie standard de 2 secunde. Din
figura 5.2. se poate observa că fiecărui X de pe scala iniţială îi corespunde un Z obţinut prin formula de
transformare.
41
Fig. 5.2.
Astfel, pentru un timp de downloadare de 9 secunde, echivalentul standardizat este 1 (cu o deviaţie
standard deasupra mediei) deoarece Z = (9 – 7)/ 2 = 1. Iar pentru un timp de downloadare de o secundă (3
deviaţii standard sub medie) Z = (1 -7)/ 2 = -3. Astfel, deviaţia standard a devenit unitatea de măsură.
Să presupunem acum că se doreşte să se afle care este probabilitatea ca timpul de downloadare a site-
ului să fie mai mic de 9 secunde. Pentru că 9 secunde se află la o deviaţie standard deasupra mediei, este
necesar să aflăm valoarea Z pentru care timpul de downloadare este mai mic de o deviaţie standard. Tabelul
din anexa 1 prezintă probabilităţile cumulative sau aria de sub aria de sub curba normală standardizată
calculată pentru un anumit Z. Pentru a utiliza acest tabel, Z trebuie înregistrat cu două zecimale. Astfel,
pentru a determina probabilitatea sau aria de sub curbă pentru Z = +1,00, trebuie coborât pe prima coloană
până se ajunge la valoarea întreagă a lui Z, adică 1. Apoi, la intersecţia liniei Z = 1, cu coloana 0.00, se va
găsi probabilitatea căutată: 0,8413. Adică sunt 84,13% şanse ca downloadarea să dureze mai puţin de 9
secunde. Aceasta este suprafaţa de sub curba normală de la - ∞ la 1σ (figura 5.2).
Exemplul 1. Dacă se doreşte aflarea probabilităţii ca timpul de dowloadare să fie mai mic de o
secundă, se procedează în mod similar. Trebuie calculată aria de sub curba normal standardizată aflată la
stanga valorii lui Z calculată cu ajutorul formulei de transformare (Z = -3,00). Folosind tabelul din anexa 1,
la intersecţia liniei Z = -3 cu coloana .00 se va afla P(X <1) = 0,0013. Cu alte cuvinte, sunt 0,13% şanse ca
timpul de downloadare să fie mai mic de o secundă.
42
Exemplul 2. Care este probabilitatea ca timpul de downloadare să fie mai mare de 9 secunde? Pentru
că probabilitatea ca timpul de downloadare să fie mai mic de 9 secunde a fost deja determinată, privind
figura 5.2 se opoate observa că valoarea căutată este complementul acesteia, adică suprafaţa de sub curba
normală de la X = 9 (Z = 1) până la ∞: P(X > 9) = 1 – 8413 = 0,1587.
Exemplul 3. Care este probabilitatea ca timpul de downloadare să fie mai mare de o secundă, dar mai
mic de 9 secunde? În acest caz, probabilitatea căutată va fi egală cu suprafaţa de sub curba normală cuprinsă
între X = 1 şi X = 9. Pentru că P(X <1) şi P(X > 9) au fost deja calculate, probabilitatea ce trebuie calculată
va fi complementul sumei celor două probaiblităţi:
P(1 < X < 9) = 1- [P(X <1) + P(X > 9)] = 1 – (0,0013 + 0,1587) = 0,84
Pentru a găsi o anumită valoare asociată cu o probabilitate cunoscută, se procedează în modul următor:
1. Se schiţează curba normală şi se plasează valorile pentru medie pe scalele lui X şi Z.
2. Se găseşte aria cumulativă situată până la X.
3. Se haşurează acea arie.
4. Utilizând tabelul din anexa 1 se determină valoarea lui Z corespunzătoare ariei de sub curba
normală de până la X.
5. Se calculează X din ecuaţia de transformare:
Z = (X - μ)/σ → X = μ + Z σ
Exemplul 4. Care este timpul necesar (în secunde) pentru ca 10% dintre pagini să se downloadeze?
Pentru că în 10% din cazuri este de aşteptat ca pagina să se downloadeze în mai puţin de X secunde, aria de
sub curba normală pentru acest Z trebuie sa fie mai mică de 0,1000. Utilizând tabelul din anexa 1, se observă
că cea mai apropiată valoare de 0,1000 este 0,1003, care se găseşte la intersecţia liniei Z = -1,2 cu coloana
0,08. Deci Z = - 1,28. În această situaţie, X = 7 + (-1,28)(2) = 4,44 secunde. Astfel, ne putem aştepta ca în
10% din cazuri pagina de internet să se downloadeze în mai puţin de 4,44 secunde.
Exemplul 5. Care sunt valorile minimă şi maximă a lui X, valori situate simetric faţă de medie, care
vor include 95% dintre timpii de downloadare?
Pentru că 95% dintre valori sunt situate între Xmin şi Xmax, şi Xmin şi Xmax se află la distanţe egale de medie,
înseamnă 2,5% dintre valori sunt mai mici decât Xmin. Căutând în tabelul din anexa 1 valoarea 0,0250, o
găsim la intersecţia lui liniei Z = -1,9 şi coloanei 0,06. Deci Zmin = -1,96. Rezultă că X = 7 + (-1,96)(2) =
3,08 secunde.
Pentru a afla Xmax, trebuie găsit Z pentru care sub curba normală se află 97,5% dintre cazuri. Din tabel,
această valoare o găsim la intersecţia cliniei Z = 1,9 şi a coloanei 0,06. Deci Z = 1,96.
Prin urmare, X = 7 + (1,96)(2) = 10,92 secunde.
Înseamnă că în 95% dintre cazuri, timpul de downloadare va fi între 3,08 şi 10,92 secunde.
43
5.2. Distribuţia eşantioanelor
Un scop important al analizei statistice este de a face inferenţe, adică de a utiliza media eşantionului
sau proporţia eşantionului pentru a estima parametrii corespunzători ai întregii populaţii. Principala
problemă în utilizarea inferenţei statistice este să se tragă concluzii despre populaţie şi nu despre eşantion.
De exemplu, un sondaj de opinie despre intenţia de vot a cetăţenilor foloseşte eşantionul doar ca o cale de a
afla cum vor fi distribuite voturile în rândul întregului electorat. Valorile determinate doar pentru eşantion nu
au o valoare prea mare în sine.
În mod ipotetic, utilizarea datelelor statistice ale unui eşantion pentru estimarea parametrilor
populaţiei ar necesita examinarea tuturor eşantioanelor posibile din acea populaţie. Când o astfel de selecţie
de eşantioane este făcută, distribuţia rezultatelor astfel obţinute este numită distribuţia eşantioanelor. Spre
deosebire de distribuţiile studiate până în acest moment, o distribuţie a eşantioanelor nu se referă observaţii
individuale, ci la valori statistice calculate în urma culegerii observaţiilor, eşantion după eşantion.
Construcţia unei distribuţii a eşantioanelor
Câteodată este posibil de construit o distribuţie de aşantioane fără a recurge la simulări matematice
complexe. Pentru a ilustra aceasta, se va construi distribuţia eşantioanelor de patru persoane dintr-o
populaţie în care jumătate favorizează candidatul liberal la preşedenţie, iar cealaltă jumătate favorizează
candidatul social-democrat. Pentru fiecare subiect se va defini variabila X care reprezintă preferinţa pentru
un anumit candidat:
X = 1, dacă subiectul preferă candidatul liberal
X = 0, dacă subiectul preferă candidatul social-democrat
Cele patru rezultate posibile dintr-un eşantion vor fi plasate într-o paranteză, după modelul următor:
(1,0,0,1). Aceasta ar însemna că primul şi ultimul respondent preferă candidatul liberal, iar al doilea şi al
treilea îl preferă pe cel social-democrat. Să presupunem că s-au extras 16 eşantioane:
(1,1,1,1) (1,1,1,0) (1,1,0,1) (1,0,1,1)
(0,1,1,1) (1,1,0,0) (1,0,1,0) (1,0,0,1)
(0,1,1,0) (0,1,0,1) (0,0,1,1) (1,0,0,0)
(0,1,0,0) (0,0,1,0) (0,0,0,1) (0,0,0,0)
Eşantioanele ar fi corecte dacă jumătate din populaţie l-ar prefera pe fiecare dintre candidaţi.
Acum se poate construi distribuţia de eşantioane pentru proporţia celor care îl preferă pe candidatul
liberal. Pentru un eşantion de 4, această proporţie poate fi 0, 0,25, 0,5, 0,75 şi 1. Proporţia 0 rezultă doar
pentru unul dintre cele 16 eşantioane, (0,0,0,0), aşa că probabilitatea acestui eşantion este de 1/16 = 0,0625.
Proporţia de 0,25 apare în patru eşantioane, (1,0,0,0), (0,1,0,0), (0,0,1,0) şi (0,0,0,1), aşa că probabilitatea
44
unui astfel de eşantion este de 4/16 = 0,25. În mod similar se poate construi probabilitatea fiecărei proporţii,
aşa cum se poate vedea în tabelul următor.
Proporţia în eşantion Probabilitatea
0,00 0,0625
0,25 0,2500
0,50 0,3750
0,75 0,2500
1,00 0,0625
Distribuţiile de eşantioane reflectă variabilitatea care apare atunci când se colectează date de la
eşantioane şi se utilizează informaţiile statistice pentru a estima parametrii. Dacă patru organizaţii de sondare
a opiniei publice ar face patru anchete, fiecare cu eşantionul ei, ar trebui să obţină rezultate diferite, pentru că
eşantioanele sunt diferite. În practică, dacă se lucrează profesionist, rezultatele nu ar trebui să fie foarte
diferite. O distribuţie a eşantioanelor unei informaţii statistice bazate pe n observaţii reprezintă distribuţia
frecvenţelor relative ale acelei informaţii statistice, rezultată în urma extragerii repetate a unor eşantioane de
dimensiunea n, de fiecare dată calculându-se valoarea statistică de interes. Este posibil de construit o astfel
de distribuţie în mod empiric, la fel ca în exemplul anterior. În practică, nu este necesar să se extragă
eşantioane în mod repetat pentru a genera distribuţii de eşantioane. Forma distribuţiei eşantioanelor este
cunoscută din punct de vedere teoretic, astfel încât se pot face afirmaţii despre valoarea unei informaţii
statistice pornind doar de la un singur eşantion de o anumită dimensiune.
5. 3. Distribuţia mediei eşantioanelor

În capitolul 3 au fost discutate câteva măsuri ale tendinţei centrale. Cea mai utilizată dintre acestea
este media aritmetică. Media aritmetică este şi cea mai bună măsură pentru o distribuţie care se presupune că
este normală. Atunci când se colectează informaţii şi se calculează media unui eşantion, X , nu se ştie cât
de aproape se situează această valoare de media populaţiei, μ, pentru că nu se cunoaşte această ultimă
valoare. Totuşi, folosind distribuţia eşantioanelor se poate prezice eroarea de estimare. De exemplu,
distribuţia eşantioanelor poate indica faptul că este o probabilitate mare ca X să se situeze la, să zicem, 10
unităţi înainte sau după μ. Media eşantionului, X , este o variabilă care îşi modifică valoarea de la
eşantion la eşantion. Pentru eşantioane aleatorii, ea fluctuează în jurul mediei populaţiei, μ, câteodată fiind
mai mare, alteori fiind mai mică. De fapt, media distribuţiei eşantioanelor este egală cu media populaţiei, μ.
Dacă se extrag în mod repetat eşantioane, pe termen foarte lung, media mediilor eşantioanelor va egala
media populaţiei.
45
Eroarea standard a distribuţiei mediei eşantioanelor descrie împrăştierea acestor valori de la un
eşantion la altul. Valoarea ei rezultă din extragerea repetată a unor eşantioane, calcularea mediei X pentru
fiecare eşantion şi apoi prin calcularea deviaţiei standard a mediilor. Simbolul utilizat, σX în loc de σ, şi
terminologia utilizată, eroare standard în loc de deviaţie standard, disting această măsură statistică de
deviaţia standard a unei distribuţii obişnuite.
Eroarea standard a mediei, σX , este egală cu deviaţia standard a populaţiei, σ, împărţită la rădăcina
pătrată a mărimii eşantionului, n:
σ
σX =
n
Astfel, împrăştierea distribuţiei eşantioanelor depinde de mărimea eşantionului şi de împrăştierea
existentă în cadrul populaţiei. De aceea, pe măsură ce dimensiunea eşantionului creşte, eroarea
standard a mediei descreşte cu un factor egal cu rădăcina pătrată a mărimii eşantionului (figura
5.3.).
Fig. 5.3.
Teorema limitei centrale, care se bazează pe constatările anterioare, afirmă că pe măsură ce
mărimea eşantionului, n, creşte, distribuţia mediilor eşantioanelor, X , se apropie de distribuţia normală.
Această teoremă are câteva consecinţe foarte importante:
- Distribuţia aproximativ normală a mediei eşantioanelor este valabilă indiferent de forma
distribuţiei populaţiei (figura 5.4.)
- Distribuţia eşantioanelor ia o formă din ce în ce mai apropiată de cea normală pe măsură ce n
creşte. Cât de mare trebuie să fie eşantionul pentru ca distribuţia mediilor să se apropie de cea
normală, depinde de gradul de înclinare a distribuţiei populaţiei. Cu cât înclinarea este mai mare,
cu atât este necesar un eşantion mai mare. În cele mai multe cazuri, un eşantion de 25 – 30 este
suficient pentru o bună aproximaţie.
46
Figura 5.4.
- Deşi un eşantion de aproximativ 30 este în general suficient de mare pentru ca distribuţia
mediilor să fie apropiată de normal, acest lucru nu înseamnă că 30 de cazuri sunt suficiente
pentru o inferenţă statistică suficient de precisă.
Obţinerea lui Z pentru distribuţia mediilor eşantioanelor. Valoare lui Z este egală cu diferenţa
dintre media eşantionului X şi media populaţiei μ, împărţită la eroarea standard a mediei σX :
X − µX X −µ
Z= =
σX σ
n
Exemplul 1.
Să presupunem că suntem managerul unei firme alimentare, iar echipamentul de ambalare umple
cutiile de cereale după o distribuţie normală, cu o medie de 358g pentru fiecare cutie. Din experienţa
anterioară se ştie că deviaţia standard a populaţiei în procesul de umplere este de 15g. Dacă se extrage un
eşantion aleator de 25 de cutii şi este calculată greutatea medie, ce rezultat ar fi de aşteptat? Cât credeţi că va
fi media eşantionului: 368g, 200g, 365g?
Eşantionul este ca o reprezentare în miniatură a populaţiei, iar dacă valorile populaţiei sunt normal
distribuite, valorile din eşantion ar trebui să fie şi ele aproximativ normal distribuite. Astfel, dacă media
populaţiei este de 368g, media eşantionului are şanse mari de a fi apropiată de 368g.
47
Mai departe, cum s-ar putea determina probabilitatea ca greutatea medie a celor 25 de cutii să fie mai
mică de 365g? De la distribuţia normală se ştie că aria mai mică decât orice valoare a lui X poate fi
determinată convertind pe X în valori standardizate Z şi găsind valoare corespunzătoare din tabelul
distribuţiei normale:
X −µ 365 − 368 − 3
Z = = = = −1,00
σ 15 3
n 25
Aria corespunzătoare lui Z = -1 din tabelul anexei 1 este 0,1587. Aceasta înseamnă că 15,87% din
toate eşantioanele posibile de 25 de cutii au o medie pe eşantion de sub 365g. Nu este acelaşi lucru cu a
spune că acesta ar fi procentul cutiilor cu o greutate mai mică de 365g. Acest procent poate fi calculat astfel:
X − µ 365 − 368
Z = = = −0,20
σ 15
Aria corespunzătoare lui Z = -0,20 este de 0,4207. Deci este de aşteptat ca 42,07% dintre cutii să aibă
mai puţin de 365g. Comparând rezultatele se poate observa că mai multe cutii decât media eşantioanelor vor
avea mai puţin de 365g. Acest rezultat poate fi explicat prin faptul că procesul de calcul al mediei diluează
importanţa valorilor individuale. Astfel, şansa ca media unui eşantion de 25 de cutii să fie departe de media
populaţiei va fi mai mică decât şansa unei anumite cutii.
Exemplul 2.
Cum este afectată eroarea standard a mediei de creşterea eşantionului de cutii de la 25 la 100 de
bucăţi?
Dacă n = 25, atunci:
σ 15 15
σX = = = = 3,0
n 25 5
Dacă n = 100, atunci:

σ 15 15
σX = = = = 1,5
n 100 10
Se poate observa că urmare a creşterii mărimii eşantionului de la 25 la 100, eroarea standard a scăzut
la jumătate: de la 3 la 1,5 grame. Aceasta demonstrează că extrtagerea unor eşantioane mai mari va duce la o
variabilitate mai redusă a mediilor eşantioanelor de la un eşantion la altul.
Exemplul 3.
Dacă este extras un eşantion de 100 de cutii, care este şansa de a obţine o medie a eşantionului mai
mică de 365g?
48
X −µ 365 − 368 − 3
Z = = = = −2,00
σ 15 1,5
n 100
Din tabelul anexei 1, aria pentru un Z mai mic decât –2 este 0,0228. Aceasta înseamnă că ne putem
aştepta ca 2,28% dintre eşantioanele de 100 de bucăţi să aibă mai puţin de 365g, comparativ cu 15,87%
pentru eşantioanele de 25.
Câteodată este necesar să se afle intervalul în care va cădea o proporţie de medii ale eşantioanelor.
Similar exemplelor de la secţiunea anterioară, distanţa dintre valoarea inferioară mediei şi cea superiaoră
mediei va conţine aria de sub curba normală care trebuie determinată.
XI −µ
ZI =
σ unde ZI = -Z
n
X S−µ
ZS =
σ unde ZS =+Z
n
σ
Astfel, X I = µ − Z , iar
n
σ
XS = µ +Z
n
Exemplul 4.
Să se determine un interval situat în jurul mediei populaţiei care va include 95% dintre mediile
eşantioanelor, pentru un eşantion de 25 de cutii.
Dacă 95% este divizat în două părţi egale, situate simetric dedesubtul şi deasupra mediei, valoarea lui
ZI corespunzătoare unei arii de 0,0250 este, conform tabelului din anexa 1, -1,96, iar valoare lui ZS,
corespunzătoare unei arii de 0,975 este +1,96. Atunci, valorile inferioară şi superioară ale lui X vor fi:
15
X I = 368 −1,96 = 368 − 5,88 = 362 ,12
25
15
X S = 368 + 1,96 = 368 + 5,88 = 373 ,88
25
Astfel, 95% dintre mediile eşantioanelor bazate pe eşantioane de 25 de cutii vor fi situate între
362,12 g şi 373,88g.
5.4. Distribuţia proporţiei eşantioanelor
49
Atunci când se lucrează cu variabile categorice, situaţie în care fiecare individ sau fiecare item din
cadrul populaţiei este clasificat ca având sau nu o anumită caracteristică (să fie bărbat sau femeie, să prefere
candidatul A sau candidatul B) cele două rezultate posibile sunt 1 sau 0, care reprezintă prezenţa sau absenţa
respectivei caracteristici. Dacă este disponibil un singur eşantion de n indivizi, atunci media eşantionului
pentru o astfel de variabilă va fi obţinută prin însumarea tuturor cifrelor de 1 şi 0 şi împărţirea rezultatului la
n. De exemplu, dacă într-un eşantion de 5 indivizi, 3 îl preferă pe candidatul A şi 2 nu îl preferă, atuci suma
scorurilor va fi 3, împărţită la 5 va rezulta 0,6. Aceasta este proporţia indivizilor din eşantion care îl preferă
pe candidatul A. De aceea, atunci când se lucrează cu variabile categorice, media eşantionului (rezultată din
scoruri de 1 şi 0) reprezintă proporţia eşantionului pe. Astfel, proporţia eşantionuui este:
X
pe =
n
Proporţia unui eşantion are o proprietate specială: ia valori între 0 şi 1. Dacă toţi indivizii posedă
aceeaşi proprietate, fiecare având astfel scorul 1, pe va fi 1. Dacă jumătate din eşantion posedă acea
proprietate şi jumătate nu o posedă, pe va fi 0,5, iar dacă nici un individ nu posedă proprietatea, pe va fi 0.
Prin analogie cu distribuţia mediei eşantioanelor, eroarea standard a proporţiei se poate calcula cu
următoarea formulă:
p (1 − p )
σp =
e
n
Atunci când se exrag eşantioane dintr-o populaţie finită, cu înlocuire, distribuţia proporţiei
eşantioanelor este binomială. Totuşi, distribuţia normală poate fi utilizată pentru a aproxima distribuţia
binomială atunci când produsele np şi n(1-p) sunt cel puţin 5. În cele mai multe cazuri în care se fac
inferenţe despre proporţii, mărimea eşantionului este suficient de mare pentru ca distribuţia să poată fi
aproximată ca fiind normală. Astfel, în multe cazuri, distribuţia normală poate fi utilizată pentru a evalua
distibuţia proporţiei eşantioanelor.
X − µX X −µ
Z= = σ p (1 − p )
Dacă în ecuaţia σX σ se înlocuieşte X cu pe, μ cu p şi cu , atunci
n n
n
pe − p
Z =
p (1 − p )
n
Exemplu
Să presupunem că directorul unei bănci a constatat că 40% dintre cei care îşi păstrează economiile la
acea bancă posedă mai multe conturi. Dacă ar selecta un eşantion aleator de 200 de clienţi, care este
probabilitatea ca proporţia eşantionului de clienţi ce au mai multe conturi să fie mai mică de 0,30?
50
Deoarece np = 200(0,40) = 80 > 5 şi n(1 – p) = 200(0,60) = 120 > 5, distribuţia proporţiei
eşantionului poate fi considerată ca aproximativ normală. În acest caz,
pe − p 0,30 − 0,40 − 0,10 − 0,10
Z= = = = = −2,89
p (1 − p ) (0,40 )( 0,60 ) 0,24 0,0346
n 200 200
Utilizând tabelul din anexa 1, aria de sub curba normală de până la Z = -2,89 este de 0,0019. Astfel,
probabilitatea de a obţine o proporţie a eşantionului mai mică de 0,30 este de 0,19%, ceea ce înseamnă că
evenimentul este foarte puţin probabil. Aceasta înseamnă că dacă proporţia adevărată din cadrul populaţiei
este de 0,4, atunci este de aşteptat ca mai puţin de o cincime din eşantioanele de mărime 200 să aibă
proporţii mai mici decât 0,3
Exerciţii
1. Dată fiind o distribuţie normală cu media de 50 şi deviaţia standard de 4, care este probabilitatea ca:
a. X > 43?
b. X < 42?
c. 42 < X < 48?
d. X > 57,5?
e. X < 40 sau X > 55?
f. 5% dintre valori să fie mai mici decât X?
g. 60% dintre valori să se afle între două valori ale lui X, situate simetric faţă de medie?
h. 85% dintre valori să fie mai mari decât X?
2. O firmă de transport a determinat că distanţa parcursă anual de fiecare camion este normal distribuită, cu o
medie de 50000 km şi o deviaţie standard de 12000 km.
a. Care este proporţia camioanelor care ar putea face între 34000 şi 50000 km într-un an?
b. Care este probabilitatea ca un camion ales aleator să facă între 34000 şi 38000 km pe an?
c. Care este procentul camioanelor care vor face sub 30000 sau peste 60000 km pe an?
d. Care este procentul camioanelor care vor face între 30000 şi 60000 km pe an?
e. Câţi km vor face cel puţin 80% dintre camioane?
f. Care vor fi răspunsurile la întrebările a – e dacă deviaţia standard ar fi 10000km?
3. Se constată că notele finale la un examen de statistică sunt normal distribuite şi cu o medie de 7,3 şi o
deviaţie standard de 0,8.
a. Care este probabilitatea de a obţine cel mult 9,1 la acest examen?
b. Care este procentul de studenţi cu note între 6,5 şi 8,9?
c. Care este procentul de studenţi cu note cuprinse între 8,1 şi 8,9?
51
d. Doar 5% dintre studenţi obţin o notă mai mare decât ce valoare?
e. În ce situaţie eşti mai bine situat faţă de colegii tăi: atunci când obţii 8,1 puncte la acest examen sau
atunci când obţii 6,8 puncte la un examen a cărui medie este 6,2 iar deviaţia standard este 3?
4. Timpul utilizat pentru consultarea e-mailului este normal distribuit, cu μ = 8 minute şi σ = 2 minute.
a. dacă sunt extrase eşantioane aleatorii de 25 de sesiuni, care este proporţia mediilor eşantioanelor care
sunt cuprinse între 7,8 şi 8,2 minute?
b. dacă sunt extrase eşantioane aleatorii de 25 de sesiuni, care este proporţia mediilor eşantioanelor care
sunt cuprinse între 7,5 şi 8 minute?
c. dacă sunt extrase eşantioane aleatorii de 100 de sesiuni, care este proporţia mediilor eşantioanelor
care sunt cuprinse între 7,8 şi 8,2 minute?
d. explicaţi diferenţa dintre rezultatele de la punctul a şi punctul c
e. ce are şanse mai mari de apariţie: o anumită sesiune de consultare a e-mailului care să fie mai lungă
de 11 minute, o medie a unui eşantion care să fie mai mare de 9 minute dintr-un eşantion de 25 de
sesiuni sau o medie a unui eşantion care să fie mai mare de 8,6 minute dintr-un eşantion de 100 de
sesiuni. Explicaţi rezultatul.
5. O firmă de transport a determinat că, anual, distanţa parcursă de fiecare camion este normal distribuită, cu
o medie de 50000 km şi o deviaţie standard de 12000 km.
a. dacă este extras un eşantion de 16 camioane, care este probabilitatea ca distanţa medie parcursă să fie
mai mică de 45000 km pe an?
b. dacă este extras un eşantion de 16 camioane, care este probabilitatea ca distanţa medie parcursă să fie
între 44000 şi 48000 km pe an?
c. dacă este extras un eşantion de 64 de camioane, care este valoarea distanţei parcurse anual pentru
care există 95% şanse ca media eşantionului să fie mai mică decât aceasta?
d. care sunt răspunsurile la întrebările a – c, dacă deviaţia standard este 10000 km?
6. O instituţie de sondare a opiniei publice analizează rezultatele unui exit-poll pentru a face predicţii în
seara alegerilor. Presupunând că este vorba de o competiţie electorală între doi candidaţi şi că dacă
unul dintre aceştia a primit 55% din voturi în cadrul eşantionului, atunci acel candidat va fi anunţat
ca şi câştigător al alegerilor. Dacă eşantionul este de 100 de persoane
a. care este probabilitatea ca acel candidat să fie anunţat ca învingător atunci când adevăratul procent de
voturi primite este de 50,1%?
b. care este probabilitatea ca acel candidat să fie anunţat ca învingător atunci când adevăratul procent de
voturi primite este de 60%?
52
c. care este probabilitatea ca acel candidat să fie anunţat ca învingător atunci când adevăratul procent de
voturi primite este de 49% (adică, de fapt, a pierdut alegerile)?
d. dacă mărimea eşantionului creşte la 400, care vor fi răspunsurile la punctele a – c?
7. Se efectuează un experiment de marketing care constă în identificarea de către respondenţi a două
băuturi răcoritoare. Sunt extrase eşantioane de către 200 de participanţi şi se presupune că aceştia nu
pot distinge între cele două branduri (aceasta înseamnă că şansa fiecărei băuturi de a fi selectată este
de 50%).
a. Care proporţia eşantioanelor pentru care identificarea va fi între 50% şi 60% corectă?
b. Între ce limite simetrice ale procentului populaţiei se vor afla 90% dintre eşantioane?
c. Care este probabilitatea de a obţine eşantioane cu un procent de identificare corectă mai mare
de 65%?
d. Ce are şanse mai mari de apariţie: 60% identificare corectă într-un eşantion de 200 sau 55%
identificare corectă într-un eşantion de 1000? Explicaţi.
6. Estimarea intervalului de încredere
53
Inferenţa statistică reprezintă procesul de utilizare a rezultatelor obţinute în urma extragerii unui
eşantion pentru a trage concluzii despre caracteristicile întregii populaţii. În acest capitol vor fi discutate
proceduri care permit estimarea mediei sau a proporţiei populaţiei.
Există două tipuri majore de date estimative: estimările punctuale şi estimările interval. O estimare
punctuală repezintă o singură informaţie statistică, care este utilizată pentru a estima adevărata valoare a
parametrului populaţiei. De exemplu, media eşantionului, X , este o estimare punctuală a mediei populaţiei,
μ, iar varianţa eşantionului, S2, este o estimare punctuală a varianţei populaţiei, σ2. O informaţie statistică,
aşa cum este X , variază de la eşantion la eşantion, deoarece depinde de itemii care sunt selectaţi în cadrul
acestuia. Această variaţie trebuie luată în considerare atunci când se doreşte oferirea unei estimări a
caracteristicii populaţiei. Pentru a realiza acest lucru se foloseşte o estimare a intervalului în care se găseşte
adevărata medie a populaţiei, utilizând distribuţia mediei eşantioanelor. Acest interval va avea o anumită
încredere sau probabilitate de estimare corectă a adevăratei valori a parametrului μ. O estimare asemănătoare
poate fi calculată pentru proporţia, p, din cadrul unei populaţii. De exemplu, se poate construi un interval
pentru care putem fi 95% siguri că acesta include proporţia reală a votului pentru un anumit candidat. Tot în
acest capitol se va discuta şi modul de determinare a dimensiunii unui eşantion.
6.1. Estimarea intervalului de încredere a mediei atunci când deviaţia standard este
cunoscută
În capitolul anterior a fost utilizată teorema limitei centrale şi/sau distribuţia populaţiei pentru a
determina procentajul mediilor eşantioanelor care vor fi la o anumită distanţă de media populaţiei. În
exemplul folosit, cel cu ambalarea cerealelor în cutii, 95% dintre mediile eşantioanelor erau situate între
362,12 şi 373,88g. Această afirmaţie este una deductivă, dar ceea ce trebuie să calculăm acum necesită un
raţionament inductiv. Inducţia este necesară deoarece în cazul statisticii inferenţiale rezultatele unui singur
eşantion sunt utilizate pentru a trage concluzii despre populaţie şi nu invers. În practică, ceea ce nu se
cunoaşte şi trebuie determinat este media populaţiei.
Să presupunem, în exemplul cu cerealele la cutie, că adevărata medie a populaţiei, μ, este
necunoscută, dar este cunoscută deviaţia standard a populaţiei, σ, care este egală cu 15 grame. Astfel, în loc
să plecăm de la formula µ ±1,96 (σ / n ) pentru a afla limita superioară şi inferioară în jurul lui μ, se va
utiliza X în loc de μ pentru a-l determina pe acesta din urmă: X ±1,96 (σ / n) . Deşi în practică este
extras un singur eşantion de mărime n, şi pentru acesta se calculează X , pentru a înţelege ce înseamnă
estimarea intervalului, se va lua în considerare un set de eşantioane, fiecare de mărime n.
54
De exemplu, să presupunem că media populaţiei, μ, este egală cu 368g. Să presupunem în continuare
că a fost extras un eşantion de 25 de cutii, iar media acestuia este de 362,3g. Intervalul pentru estimarea lui μ
este 362 ,3 ±1,96 (15 / 25 ) sau 362,3 ± 5,88. Deci estimarea lui μ este:
356,42 ≤ μ ≤ 368,18
Deoarece media populaţiei (368) este inclusă în acest interval, putem afirma că eşantionul a condus
la o concluzie corectă în privinţa lui μ (figura 6.1.).
Figura 6.1. Estimarea intervalului de încredere pentru cinci eşantioane diferite de 25 de elemente,
extrase dintr-o populaţie pentru care μ = 368 şi σ = 15
55
Pentru a continua acest exemplu, să presupunem că pentru un alt eşantion de 25 de cutii, media este
369,5. Intervalul calculat pentru acest eşantion va fi 369 ,5 ±1,96 (15 / 25 ) sau 369,5 ± 5,88. Deci
estimarea lui μ este:
363,62 ≤ μ ≤ 375,38
Deoarece media populaţiei (368) este inclusă şi în acest interval, putem afirma că eşantionul a condus
la o concluzie corectă în privinţa lui μ (figura 6.1.).
Înainte de a crede orice eşantion poate duce la concluzii corecte despre μ, să presupunem că s-a extrs
un al treilea eşantion de mărimea n = 25, a cărui medie este 360g. Intervalul calculat pentru acest eşantion va
fi 360 ±1,96 (15 / 25 ) sau 360 ± 5,88. Deci estimarea lui μ este:
354,12 ≤ μ ≤ 365,88
Această estimare nu este corectă, deoarece media populaţiei nu este inclusă în intervalul calculat din
acest eşantion. Astfel, pentru unele eşantioane intervalul de estimare al lui μ va fi corect, însă pentru alte
eşantioane nu va fi corect. Mai mult decât atât, în practică este extras un singur eşantion şi deoarece media
populaţiei nu este cunoscută, nu se poate şti dacă estimarea intervalului este corectă. Pentru a ieşi din această
dilemă este necesar să se determine proporţia eşantioanelor care conduc la intervale de încredere corecte
pentru media populaţiei, μ. Pentru a face acest lucru vor fi examinate alte două eşantioane ipotetice: unul
pentru care media este 362,12g şi altul pentru care media este 373,88g. Pentru primul dintre aceste
eşantioane intervalul calculat va fi 362 ,12 ±1,96 (15 / 25 ) sau 362,12 ± 5,88. Deci estimarea lui μ este:
356,24 ≤ μ ≤ 368,00
Deoarece media populaţiei este limita superioară a acestui interval, estimarea este corectă.
Pentru cel de-al doilea eşantion, intervalul calculat va fi 373 ,88 ±1,96 (15 / 25 ) sau 373,88 ± 5,88.
Deci estimarea lui μ este:
368,00 ≤ μ ≤ 379,76
Deoarece media populaţiei este limita inferioară a acestui interval, estimarea este corectă.
Din aceste exemple, ilustrate în figura 6.1, se poate observa că dacă media unui eşantion format din
25 de cutii se situează oriunde între 362,12g şi 373,88g, atunci media populaţiei este inclusă undeva în acest
interval. Din acelaşi exemplu discutat în capitolul 5 a rezultat că 95% dintre mediile eşantioanelor se
situează între 362,12g şi 373,88g. De aceea, 95% dintre toate eşantioanele de n = 25 de cutii au medii care
includ media populaţiei în intervalul calculat, iar 5% dintre toate eşantioanele vor conduce la intervale care
nu conţin media populaţiei.
Deoarece în practică este extras un singur eşantion iar media populaţiei este necunoscută, nu putem fi
niciodată siguri că intervalul calculat conţine media populaţiei. Totuşi, este o încredere de 95% că eşantionul
56
respectiv include media populaţiei. În general, un interval de încredere de 95% este interpretat în felul
următor: dacă sunt extrase toate eşantioanele posibile de mărime n şi sunt calculate mediile lor, atunci 95%
dintre intervalele calculate vor include media populaţiei undeva în jurul mediei eşantionului şi doar în 5%
dintre cazuri nu se va întâmpla aşa ceva.
În unele situaţii este necesar un grad mai mare de siguranţă în estimarea intervalului în care se
situează media (de exemplu 99%). În alte cazuri, un grad de siguranţă mai mic (90%) este suficient. În
general, nivelul de încredere este simbolizat de (1 – α) x 100%, unde α este proporţia din laturile
distribuţiei care este în afara intervalului de încredere. Proporţia aflată pe latura superioară a distribuţiei este
α/2, care este egală cu cea aflată pe latura inferioară a acesteia. Pentru a obţine un interval de (1 – α) x 100%
încredere în estimarea mediei atunci când deviaţia standard este cunoscută se foloseşte următoarea formulă:
σ
X ±Z
n
σ σ
sau X − Z ≤µ ≤ X +Z
n n
unde Z este valoarea corespunzătoare suprafeţei de până la 1 - α/2 din distribuţia normală standardizată, sau
probabilitatea de α/2 din latura superioară a distribuţiei.
Pentru a construi un interval de încredere de 95%, pentru estimarea mediei, se alege α = 0,05.
Valorile lui Z corespunzătoare unei suprafeţe din care se scad cele două laturi (α/2 = 0,025) sunt –1,96 şi
+1,96. Această valoare a lui Z obţinută în construcţia unui interval de încredere se numeşte valoare critică a
distribuţiei.
Există valori critice diferite pentru fiecare nivel de încredere 1 - α ales. Un nivel de încredere de 95%
conduce, aşa cum am vazut deja, la o valoare a lui Z egală cu ±1,96 (figura 6.2.). Dacă se doreşte un nivel de
încredere de 99%, atunci α = 0,01, iar valoarea lui Z este aproximativ 2,58, pentru că suprafaţa din latura
superioară este de 0,005 (figura 6.3).
57
Figura 6.2. Curba normală pentru determinarea valorii lui Z necesară pentru o încredere de 95%
Figura 6.3. Curba normală pentru determinarea valorii lui Z necesară pentru o încredere de 99%
Cineva s-ar putea întreba de ce nu construim un interval de încredere cât mai apropiat de 100%?
Acest lucru nu este de dorit deoarece, aşa cum s-a observat şi din cele două exemple anterioare, orice
creştere a nivelului de încredere este obţinută prin lărgirea intervalului de încredere. Într-o astfel de situaţie
putem avea mai multă încredere că media populaţiei se află în interiorul unui spectru mai larg de valori, însă
58
acest lucru s-ar putea să nu fie foarte folositor din punct de vedere al unei decizii. Astfel există un echilibru
între mărimea intervalului de încredere şi nivelul de încredere.
Exemplul 1
Un producător de hârtie de scris fabrică foi de dimensiunea A4, pentru care este de aşteptat ca
lungimea să fie de 297mm, iar deviaţia standard de 2mm. La intervale periodice se extrag eşantioane pentru
a determina dacă lungimea foilor este egală cu 297mm sau ceva s-a deteriorat în procesul de producţie. Dacă
s-ar observa aşa ceva, utilajele ar trebui recalibrate. Să presupunem că a fost extras un eşantion de 100 de
foi, iar media lungimii acestora este de 296,7mm. Să se construiască un interval de încredere de 95% pentru
estimarea lungimii medii a foilor.
σ σ
Utilizând formula X − Z ≤µ ≤ X +Z , cu Z = 1,96 pentru o încredere de 95%,
n n
2 2
296 ,7 −1,96 ≤ µ ≤ 296 ,7 +1,96
100 100
296 ,308 ≤ µ ≤ 297 ,092
Astfel, cu o încredere de 95%, se estimează că media populaţiei este cuprinsă între 296,308 şi 297,092.
Pentru că 297, valoarea care indică faptul că procesul de producţie este corespunzător, este inclus în acest
interval, nu există nici un motiv să se creadă că este ceva în neregulă cu procesul de producţie.
Exemplul 2
Să se construiască un interval de încredere de 99% pentru estimarea lungimii medii a foilor.
Utilizând aceeaşi formulă cu Z = 2,58 pentru o încredere de 99%,
2 2
296 ,7 − 2,58 ≤ µ ≤ 296 ,7 + 2,58
100 100
296 ,184 ≤ µ ≤ 297 ,216
Deoarece 297 este inclus în intervalul calculat, nu există nici un motiv să se creadă că procesul de producţie
este dereglat.
6.2. Estimarea intervalului de încredere a mediei atunci când deviaţia standard este
necunoscută
Aşa cum de obicei media populaţiei, μ, nu este cunoscută, nici deviaţia standard a populaţiei, σ, nu
este cunoscută. De aceea a trebuit să se dezvolte un procedeu de estimare a intervalului de încredere pentru μ
pornind doar de la informaţiile statistice ale eşantionului, X şi S.
59
Distribuţia Student
La începutul secolului XX, un statistician numit William S. Gosset, angajat al producătorului de bere
Guinness, din Irlanda, era interesat de inferenţele ce se pot face despre medie atunci când deviaţia standard a
populaţiei, σ, este necunoscută. Pentru că angajaţii de la Guinness nu aveau permisiunea să publice cercetări
sub propriul nume, Gosset a adoptat pseudonimul de Student. Distribuţia pe care el dezvoltat-o a ajuns astfel
să se numească distribuţia Student.
Dacă variabila X este normal distribuită, atunci următoarea informaţie statistică are o distribuţie t cu
n-1 grade de libertate:
X −µ
t=
S
n
Se poate observa că expresia lui t este similară celei a lui Z din capitolul 5, cu excepţia faptului că
deviaţia standard a populaţiei, σ, care nu este cunoscută, este înlocuită cu deviaţia standard a eşantionului, S.
Proprietăţi ale distribuţiei t

Ca formă, distribuţia t este foarte asemănătoare distribuţiei normale standardizate. Ambele distribuţii
au formă de clopot şi sunt simetrice. Totuşi, distribuţia t are suprafeţe mai mari pe laturi şi mai mici pe
centru decât cea normal standardizată (figura 6.4.). Acest lucru se întâmplă deoarece σ este necunoscut iar S
este utilizat pentru a-l estima. Pentru că valoarea lui σ este incertă, valorile lui t care sunt observate vor avea
o variabilitate mai mare decât Z.
Totuşi, pe măsură ce numărul gradelor de libertate creşte, distribuţia t se apropie treptat de ditribuţia
normal standardizată, până când cele două distribuţii devin identice. Acest lucru se întâmplă deoarece S
devine o estimare mai bună pentru σ pe măsură ce mărimea eşantionului creşte. Pentru un eşantion mai mare
sau egal cu 120, S îl estimează suficient de precis pe t, astfel încât diferenţa dintre distribuţia t şi distribuţia Z
este nesemnificativă. Din acest motiv, cei mai mulţi statisticieni utilizează Z în loc de t atunci când
eşantionul este mai mare de 120.
60
Fig. 6.4. Distribuţia normal standardizată şi distribuţia t pentru 18 grade de libertate
Valorile critice ale lui t pentru numărul corespunzător de grade de libertate se obţin din tabelul cu
distribuţia t (Anexa 2). Rândul de sus al fiecărei coloane indică suprafaţa din latura superioară a distribuţiei
t; fiecare linie reprezintă valoarea specifică a lui t pentru fiecare grad de libertate.
De exemplu, pentru 100 de grade de libertate, dacă se doreşte construirea unui interval de încredere
de 95%, înseamnă că 2,5% dintre valori (o suprafaţă de 0,025) sunt în fiecare latură a distribuţiei. La
încrucişarea coloanei de 0,025 şi a liniei corespunzătoare pentru 100 de grade de libertate, vom găsi valoarea
critică a lui t: 1,9840. Deoarece t este o distribuţie simetrică cu media zero, dacă valoarea din latura
superioară este de +1,9840, atunci valoarea din latura inferioară va fi de –1,9840. O valoare a lui t de 1,9840
înseamnă că probabilitatea ca t să depăşească +1,9840 este de 0,025, adică de 2,5% (figura 6.5.).
Figura 6.5. Distribuţia t cu 100 de grade de libertate
61
Conceptul de grade de libertate
n
Formula varianţei, din capitolul 3 era 2

∑( X i − X )2
. Astfel, pentru a calcula S2 este necesar
S = i =1
n −1
să se cunoască X . Ca urmare, doar n-1 din valorile eşantionului pot să varieze. Acest lucru înseamnă că
există n-1 grade de libertate. De exemplu, să presupunem că un eşantion de 5 elemente are media de 20. Câte
valori distincte trebuie cunoscute pentru a le cunoaşte pe cele rămase? Faptul că n = 5 şi X = 20 ne spune
că
n
∑X
i =1
i = 100
n
deoarece ∑X
i =1
i n=X
Astfel, atunci când patru dintre valori sunt cunoscute, a cincea nu va fi liberă să varieze, pentru că
suma lor trebuie să fie 100. De exemplu, dacă patru dintre valori ar fi 18, 24, 19 şi 16, atunci a cincea
valoare trebuie să fie 23, astfel încât suma să fie 100.
Formula intervalului de încredere atunci când σ este necunoscut

Intervalul de încredere de valoare (1-α)x100 se calculează cu ajutorul următoarei formule:
S
X ± t n −1
n
sau
S S
X − t n −1 ≤ µ ≤ X + t n −1
n n
Pentru a ilustra aplicarea formulei intervalului de încredere atunci când deviaţia standard, σ, este
necunoscută, să considerăm următorul exemplu: managerul unei firme selectează un eşantion de 100 de
facturi din populaţia de facturi din ultima lună. Media eşantionului celor 100 de facturi este de 110,27 RON,
iar deviaţia standard este de 28,95 RON. Firma cere un nivel de încredere de 95%, asfel că valoarea critică a
distribuţiei t (Anexa 2) poate fi aproximată la 1,984 (în Anexa 2 avem valoarea lui t doar pentru 100 de
grade de liberate şi nu pentru 99). Utilizând ecuaţia anterioară
S 28 ,95
X ± t n −1 = 110 ,27 ± (1,984 ) = 110 ,27 ± 5,74
n 100
104 ,53 ≤ µ ≤116 ,01
Astfel, cu o încredere de 95% se poate aferma că media facturilor este situată între 104,53 şi 116,01
RON. Un interval de încredere de 95% înseamnă că dacă ar fi extrase toate eşantioanele posibile de 100 de
62
facturi (ceea ce în practică nu va realiza niciodată), 95% dintre intervalele calculate vor include adevărata
medie. Validitatea estimării intervalului de încredere depinde de asumpţia de normalitate pentru distribuţia
valorilor facturilor. Deoarece mărimea eşantionului este sufiecient de mare (n = 100), se poate considera că
presupunerea este corectă, iar utilizarea distribuţiei t este corectă.
6.3. Estimarea intervalului de încredere a proporţiei

În acest subcapitol, conceptul de interval de încredere va fi extins şi la date categorice, pentru a putea
estima proporţia populaţiei, p, din proporţia eşantionului pe = X/n. Din capitolul 5 am reţinut că atunci când
produsele np şi n(1-p) au o valoare cel puţin egală cu 5, atunci distribuţia binomială poate fi aproximată cu o
distribuţie nomală. Astfel, un interval de încredere de (1-α)x100% pentru estimarea proporţiei populaţiei, p,
poate fi calculat cu următoarea formulă:
p e (1 − p e )
pe ± Z
n
sau
p e (1 − pe ) pe (1 − p e )
pe − Z ≤ p ≤ pe + Z
n n
unde, pe = proporţia din eşantion = X/n = numărul de succese /mărimea eşantionului

p = proporţia în populaţie
Z = valoarea critică rezultată din distribuţia normal standardizată
n = mărimea eşantionului
Exemplu: Să presupunem că firma din exemplul anterior doreşte să determine frecvenţa de apariţie a
erorilor în scrierea facturilor. Se doreşte construirea unui interval de încredere de 95% pentru a estima
proporţia din întreaga populaţie de facturi care conţin erori, pentru a le putea remedia. Să presupunem că în
eşantionul de 100 de facturi, 10 conţin erori. Pentru aceste date, pe = 10/100 = 0,10. Pentru un interval de
încredere de 95%, Z = 1,96, astfel că
p e (1 − p e ) (0,10 )( 0,90 )
pe ± Z = 0,10 ± (1,96 ) = 0,10 ± (1,96 )( 0,03) = 0,10 ± 0,0588
n 100
0,0412 ≤ p ≤ 0,1588
Astfel se poate afirma că între 4,12% şi 15,88% dintre facturi conţin erori de completare.
6.4. Determinarea dimensiunii eşantionului
63
În exemplele utilizate anterior referitoare la estimarea unui interval de încredere, eşantioanele au fost
alese fără a se ţine cont de lăţimea intervalului de încredere rezultat. În lumea reală, determinarea unei
mărimi corespunzătoare a eşantionului presupune o procedură complicată, care trebuie să ţină cont de
constrângerile legate de bugetul disponibil, de timpul disponibil şi de uşurinţa în selectare. În cele două
exemple anterioare, dacă se doreşte estimarea mediei facturilor sau a proporţiei facturilor ce conţin erori, ar
trebui de determinat, în primul rând, cât de precisă se doreştea fi estimarea. Astfel este necesar să se
determine eroarea de eşantionare admisibilă în estimarea fiecărui parametru cât şi încrederea necesară pentru
o estimare corectă a acestora.
Determinarea mărimii eşantionului pentru medie
Pentru a detremina mărimea eşantionului necesar pentru estimarea mediei, trebuie avute în vedere
eroarea de eşantionare considerată acceptabilă, nivelul de încredere dorit, precum şi deviaţia standard.
Se pleacă de la formula din capitolul precedent
X −µ
Z =
σ , unde Z este variabila normal standardizată
n
σ
mai departe, Z = X −µ
n
Valoarea lui Z este pozitivă sau negativă, depinzând de faptul dacă X este mai mare sau mai mic
decât μ. Diferenţa dintre media eşantionului, X , şimedia populaţiei, μ, este numită eroare de eşantionare
şi este notată cu e.
σ
e=Z
n
De aici rezultă mărimea eşantionului pentru determinarea mediei, care este egală cu produsul dintre
pătratul lui Z şi pătratul deviaţiei standard, împărţit la pătratul erorii de eşantionare
Z 2σ 2
n=
e2
Deci, pentru a putea determina mărimea eşantionului trebuie să cunoaştem trei factori:
1. Nivelul dorit de încredere, care va determina Z, valoarea critică din distribuţia normal standardizată
2. Eroarea de eşantionare acceptabilă, e
3. Deviaţia standard, σ
În practică, nu este atât de uşor de determinat aceşti trei factori. Cum ar putea fi determinate nivelul
de încredere şi eroarea de eşantionare? În mod obişnuit, răspunsul la această întrebare este oferit de
experienţă. Deşi un nivel de încredere de 95% este cel mai utilizat (în acest caz Z = 1,96), dacă se doreşte o
încredere mai mare, 99% este o valoare mai potrivită, iar dacă nu este necesară prea multă precizie, 90%
64
poate fi acceptabil. Eroarea de eşantionare nu trebuie privită din perspectiva unei valori dorite, pentru că, de
fapt, nu se doreşte nici o eroare, ci din perspectiva valorii care poate fi tolerate şi care permite tragerea unor
concluzii valide.
În plus, este necesară o estimare a deviaţiei standard. Din nefericire, deviaţia standard a populaţiei, σ,
este rareori cunoscută. În unele situaţii, deviaţia standard a populaţiei poate fi estimată din cercetări
anterioare. În alte situaţii se poate face o estimare suficient de corectă în funcţie de amplitudinea şi
distribuţia variabilei. De exemplu, dacă se presupune că există o distribuţie normală, amplitudinea este
aproximativ egală cu 6σ (adică ±3σ în jurul mediei), astfel că deviaţia standard poate fi estimată ca fiind o
şesime din amplitudine. Dacă deviaţia standard nu poate fi dedusă în aceste maniere, atunci trebuie
desfăşurat un studiu pilot, iar σ va fi extrasă de aici.
Pentru a înţelege modul de determinare a mărimii eşantionului pentru estimarea mediei populaţiei, să
reluăm un exemplu anterior, în care la o firmă au fost selectate 100 de facturi pentru a caluca un interval de
95% încredere. Cum a fost determinată această mărime a eşantionului?
Să presupunem că, după o consultare în cadrul firmei, s-a stabilit că eroarea de eşantionare nu trebuie
să fie mai mare de ±5 RON, împreună cu o încredere de 95%. Date anterioare indică faptul că deviaţia
standard a vânzărilor a fost de 25 RON pentru o lungă perioadă de timp. Astfel, e = 5, σ = 25, iar Z = 1,96
(pentru o încredere de 95%), iar n va fi
Z 2σ 2 (1,96 ) 2 (25 ) 2
n= 2
= = 96 ,04
e (5) 2
Putem considera că n = 97. Deoarece regula generală este de a suprasatisface criteriile, prin rotunjire
la următorul număr întreg, mărimea eşantionului a fost aleasă la 100.
Determinarea mărimii eşantionului pentru proporţie
Metoda de determinare a mărimii eşantionului pentru estimarea proporţiei este similară cu cea
utilizată pentru estimarea mediei.
Se pleacă de la formula
pe − p
Z =
p (1 − p ) , unde Z este variabila normal standardizată.
n
p (1 − p )
Z = pe − p
n
Eroarea de eşantionare, este egală cu diferenţa dintre pe şi p, adică diferenţa dintre proporţia
eşantionului şi parametrul care trebuie estimat. Astfel, eroarea de eşantionare este definită ca
65
p (1 − p )
e =Z
n
De aici rezultă mărimea eşantionului pentru determinarea proporţiei, care este egală cu produsul
dintre pătratul lui Z, p şi (1-p), totul împărţit la pătratul erorii de eşantionare:
Z 2 p (1 − p )
n=
e2
Pentru a determina mărimea eşantionului necesar estimării proporţiei, trebuie cunoscuţi trei factori:
1. Nivelul dorit de încredere, care determină valoarea lui Z
2. Eroarea de eşantionare acceptabilă, e
3. Adevărata proporţie existentă în rândul populaţiei, p
În practică, alegerea acestor factori necesită o oarecare planificare. După ce este ales nivelul de
încredere, se poate determina valoarea corespunzătoare a lui Z din distribuţia normal standardizată. Eroarea
de eşantionare, e, indică mărimea erorii care poate fi tolerată în estimarea proporţiei populaţiei. Al treilea
factor, adevărata proporţie existentă în populaţie, p, este exact parametrul care se doreşte a fi determinat.
Astfel apare întrebarea cum ar putea fi stabilită o valoare pentru un factor care este necesar la determinarea
eşantionului care, la rândul său, duce la stabilirea factorului respectiv. Există două alternative pentru acest
lucru. Prima este că, în multe situaţii, există informaţii din trecut sau din experienţe anterioare care ne pot
oferi o estimare suficient de corectă a lui p. A doua alternativă, atunci când nu există informaţii anterioare,
constă în încercarea de a nu subestima niciodată mărimea eşantionului care este necesar. Privind ecuaţia
pentru determinarea lui n se poate observa produsul p(1-p) care apare la numărător. Valoarea lui p trebuie
aleasă astfel încât produsul p(1-p) să fie cât mai mare posibil.
Atunci când p = 0,9, p(1-p) = (0,9)(0,1) = 0,09
Atunci când p = 0,7, p(1-p) = (0,7)(0,3) = 0,21
Atunci când p = 0,5, p(1-p) = (0,5)(0,5) = 0,25
Atunci când p = 0,3, p(1-p) = (0,3)(0,7) = 0,21
Atunci când p = 0,1, p(1-p) = (0,1)(0,9) = 0,09
Se poate observa că cea mai mare valoare a produsului p(1-p) se obţine pentru p = 0,5. De aceea,
atunci când nu există informaţii prealabile despre adevărata proporţie din populaţie, trebuie folosit cel mai
conservator mod de determinare a mărimii eşantionului, folosind 0,5 pentru valoarea lui p. Această variantă
produce cel mai mare eşantion posibil, dar duce, în acelaşi timp, şi la cel mai mare cost al eşantionării.
Dacă ne întoarcem la exemplul cu managerul firmei care dorea să afle proporţia facturilor completate
greşit, să presupunem că se doreşte o încredere de 95% în estimarea proporţiei facturilor cu erori, într-o
marjă de ±0,07 faţă de adevărata proporţie a populaţiei. Rezultatele din ultimele luni indică faptul că
66
niciodată proporţia facturilor cu erori nu a depăşit 0,15. Astfel, e = 0,07, p = 0,15 şi Z = 1,96 (pentru 95%
încredere):
Z 2 p (1 − p ) (1,96 ) 2 (0,15 )( 0,85 )
n= = = 99 ,96
e2 (0,07 ) 2
De aceea, n = 100, pentru că regula generală este ca mărimea eşantionului să fie rotunjită la numărul
întreg cel mai apropiat, pentru a suprasatisface criteriile.
Exerciţii
1. Într-un sondaj de opinie, respondenţii sunt rugaţi să îşi evalueze poziţia ideologică pe o scală cu 7
trepte, unde 1 înseamnă extrema stangă, 4 înseamnă centru, iar 7 înseamnă extrema dreaptă. Să
presupunem că un astfel de sondaj a fost realizat pe un eşantion de n = 2879 de persoane, media
răspunsurilor fiind 4,171, iar deviaţia standard este 1,390.
a. Construiţi un interval de 95% încredere pentru media ideologiei politice.
b. Arătaţi care este efectul creşterii nivelului de încredere construind un interval de 99% încredere.
c. Arătaţi care este efectul scăderii nivelului de încredere construind un interval de 90% încredere.
2. Dacă X = 125, σ = 24 şi n = 36, construiţi un interval de 99% încredere pentru estimarea mediei
populaţiei.
3. Managerul responsabil de controlul calităţii la o fabrică de becuri trebuie să estimeze media de viaţă a
unui important lot de produse. El ştie din procesul de producţie că deviaţia standard este de 100 de ore.
Este extras un eşantion de 64 de becuri pentru care media speranţei de viaţă este de 350 de ore.
a. Construiţi un interval de 95% încredere pentru a estima adevărata medie a speranţei de viaţă a
becurilor din lotul respectiv.
b. Credeţi că producătorul are dreptul să afirme că, în medie, becurile rezistă 400 de ore? Explicaţi.
c. Explicaţi de ce o speranţă de viaţă a unui bec de 320 de ore nu este ceva neobişnuit, chair dacă este în
afara intervalului de încredere calculat.
d. Dacă deviaţia standard ar fi 80 de ore, care ar fi răspunsurile la punctele a şi b?
4. Determinaţi valoarea critică a lui t pentru fiecare din situaţiile următoare:
a. 1-α = 0,95, n = 10
b. 1-α = 0,99, n = 10
c. 1-α = 0,95, n = 32
d. 1-α = 0,95, n = 61
e. 1-α = 0,90, n = 16
67
5. Dacă X = 50 , S = 15 şi n = 16 şi presupunând că populaţia este normal distribuită, construiţi un
interval de încredere de 99% pentru a estima media populaţiei, μ.
6. Construiţi un interval de încredere de 95% pentru estimarea mediei populaţiei, plecând de la
următoarele seturi de date şi presupunând că populaţia este normal distribuită:
Setul 1: 1, 1, 1, 1, 8, 8, 8, 8
Setul 2: 1, 2, 3, 4, 5, 6, 7, 8
Explicaţi de ce aceste seturi de date au intervale de încredere diferite, deşi au aceeaşi medie şi aceeaşi
amplitudine.
7. Construiţi un interval de 95% încredere pentru a estima media populaţiei pe baza următoarelor numere: 1,
2, 3, 4, 5, 6 şi 20. Schimbaţi numărul 20 cu 7 şi recalculaţi intervalul de încredere. Utilizând aceste rezultate,
descrieţi efectele unei valori extreme asupra intervalului de încredere.
8. Să presupunem că într-un sondaj de opinie aplicat unui eşantion de 987 de subiecţi a fost pusă următoarea
întrebare: „În ultimul an ati fost victima unui furt din buzunare, a unei tâlhării sau a unei spargeri?”. Din
totalul respondenţilor, 17 au răspuns da, iar 970 nu.
a. Determinaţi proporţia populaţiei care a fost victima unor astfel de infracţiuni.
b. Construiţi un interval de încredere de 95% pentru proporţia populaţiei. Se poate concluziona că mai
puţin de 5% din populaţie a fost victima unei astfel de infracţiuni?
9. Managerul unui ziar de mare tiraj vrea să determine proporţia de ziare care conţin erori de tipar
(exces de cerneală, tăieri necorspunzătoare ale paginilor, pagini lipsa sau pagini reptate). El
hotărăşte să selecteze un eşantion de 200 de ziare pentru analiză şi doreşte să se construiască un
interval de încredere de 90% pentru a estima proporţia ziarelor cu erori de tipar din toatalul
populaţiei de ziare. Din acest eşantion, 35 de ziare conţin erori. Managerul doreşte să aibă 90%
încredre în estimarea adevăratei proporţii din populaţie. Construiţi intervalul de încredere.
10. Un dealer de autoturisme doreşte să estimeze proporţia clienţilor care încă deţin maşina pe care au
cumpărat-o de la el în urmă cu cinci ani. Un eşantion aleator de 200 de clienţi extras din dosarele firmei arată
faptul că 82 dintre aceştia încă deţin autoturismele achiziţionate cu cinci ani în urmă. Construiţi un interval
de încredere de 95% pentru a estima proporţia clienţilor care încă deţin autoturismul cumpărat cu cinci ani în
urmă.
11. Dacă o echipă de inspecţie de la Protecţia consumatorului vrea să estimeze media volumului de suc
îmbuteliat în sticlele de 2 litri, într-o marjă de ±0,01 litri, cu o încredere de 95% şi presupunând că deviaţia
standard este de 0,05 litri, care este mărimea necesară a eşantionului?
68
12. O organizaţie de sondare a opiniei publice doreşte să estimeze proporţia votului pentru unul dintre cei
doi candidaţi aflaţi în finala alegerilor prezidenţiale. Se doreşte o încredere de 90% în corectitudinea
predicţiei, cu o marjă de ±0,04 faţă de adevărata proporţie a populaţiei.
a. Care este mărimea eşantionului necesar pentru acest lucru?
b. Dacă se doreşte o încredere de 95%, cât de mare trebuie să fie eşantionul?
c. Dacă se doreşte o încredere de 95%, cu o eroare de ±0,03, care ar trebui să fie mărimea eşantionului?
7. Testarea ipotezelor: teste pentru un singur eşantion

În acest capitol ne vom concentra atenţia asupra asupra unei alte etape a statisticii inferenţiale, şi
anume testarea ipotezelor pornind de la informaţiile oferite de un eşantion. Va fi prezentată o metodologie
69
care, pas cu pas, va permite efectuarea de inferenţe despre un parametru al populaţiei analizând diferenţele
dintre rezulatelel observate (informaţiile statistice extrase din eşantion) şi rezultatele aşteptate dacă ipoteza
emisă ar fi corectă.
7.1. Metodologia testării ipotezelor

Ipoteza nulă şi ipoteza de lucru
Testarea ipotezelor începe cu acceptrea unei anumite teorii sau asumpţii despre un anumit parametru
al populaţiei. De exemplu, ipoteza iniţială în cazul exemplului anterior folosit, cel cu cerealele ambalate în
cutii, a fost că procesul de producţie este corespunzător, adică fiecare cutie are o greutate medie de 368 g şi
nu sunt necesare corecţii. Ipoteza care afirmă că parametrul populaţiei este egal cu specificaţiile firmei se
numeşte ipoteza nulă. O ipoteză nulă este cea care afirmă status quo-ul sau că nu există nici o diferenţă, şi
este notată cu H0. Pentru exemplul în discuţie, ipoteza nulă poate fi scrisă în mod formal ca
H0: μ = 368
Deşi informaţia disponibilă se referă doar la eşantion, ipoteza nulă este scrisă în termeni de parmetru
al populaţiei. Informaţia statistică va fi utilizată pentru a face inferenţe despre întreaga populaţie, în cazul
nostru despre întregul proces de umplere a cutiilor cu cereale. Una dintre inferenţele care poate rezulta din
analiza eşantionului este aceea că ipoteza nulă este falsă. Dacă ipoteza nulă este falsă, atunci altceva ar trebui
să fie adevărat. Pentru a anticipa această posibilitate, ori de câte ori este emisă o ipoteză nulă trebuie emisă şi
o ipoteză alternativă (sau ipoteză de lucru). Aceasta se notează cu H1 şi poate fi scrisă în mod formal ca
H1: μ ≠ 368
Ipoteza alternativă reprezintă concluzia rezultată din respingerea ipotezei nule, dacă eşantionul oferă
suficiente dovezi pentru a decide că ipoteza nulă nu are şanse să fie adevărată. În exemplul cu cerealele, dacă
greutatea medie a cutiilor de cereale este suficient de depărtată de cifra specificată de companie, 368 g,
atunci ipoteza nulă poate fi respinsă şi poate fi acceptată ipoteza alternativă, că greutatea medie a cutiilor de
cereale este diferită de 368 g. Ca urmare, producţia ar trebui să fie oprită şi să se ia măsurile de corecţie
corespunzătoare.
Metodologia testării ipotezelor este proiectată astfel încât respingerea ipotezei nule se bazează pe
informaţiile oferite de eşantion că ipoteza de lucru are mult mai multe şanse să fie adevărată. Totuşi, eşecul
de a respinge ipoteza nulă nu înseamnă neapărat că aceasta este adevărată. Practic, niciodată nu se poate
dovedi că o ipoteză nulă este corectă, deoarece decizia este luată întotdeauna pe baza informaţiilor oferite de
către un eşantion şi nu pe baza informaţiilor oferite de către întreaga populaţie. De aceea, atunci când ipoteza
nulă nu poate fi respinsă, se poate concluziona doar că există prea puţine dovezi pentru a fi siguri de
respingerea ei.
70
Valoarea critică a testului statistic
Logica ce stă la baza metodologiei testării ipotezelor poate fi dezvoltată dacă ne gândim cum ar putea
fi utilizată informaţia oferită de eşantion pentru a determina plauzibilitatea ipotezei nule.
În cazul cu firma producătoare de cereale, ipoteza nulă afirmă că greutatea medie a fiecărei cutii de
cereale, pentru întrega cantitate produsă, este de 368 g. De pe banda de producţie este extras un eşantion de
cutii, fiecare cutie este cântărită şi se calculează media acestora. După cum ştim, o informaţie statistică este o
estimare a parametrului populaţiei din care a fost extras eşantionul. Chiar dacă ipoteza nulă este adevărată,
informaţia statistică poate să difere de valoarea parametrului datorită variaţiei produsă de eşantionare.
Totuşi, ne putem aştepta ca informaţia statistică extrasă din eşantion să fie apropiată de parametrul populaţiei
în cazul în care ipoteza nulă este adevărată. Într-o asemenea situaţie nu sunt suficeinte dovezi pentru a
respinge ipoteza nulă. Dacă, de exemplu, media eşantionului de cutii ar fi 367,9 g, bunul simţ ne-ar sugera să
concluzionăm că media populaţiei nu s-a modificat în procesul de producţie, deoarece 367,9 este foarte
apropiat de 368.
Pe de altă parte, dacă există o discrepanţă majoră între valoarea informaţiei statistice şi parametrul
corespunzător pentru care se face ipoteza, bunul simţ ne conduce la concluzia că ipoteza nulă nu are cum să
fie adevărată. De exemplu, dacă media eşantionului este 320, vom fi înclinaţi să presupunem că media
populaţiei nu este 368 deoarece media eşantionului este foarte îndepărtată de valoarea pentru care se face
ipoteza, şi anume 368g. Într-o asemenea situaţie este foarte puţin probabil să se obţină o medie a
eşantionului de 320 dintr-o populaţie a cărei medie este 368 şi de aceea este mai logic să se concluzioneze că
că media populaţiei nu este 368. Într-o asemenea situaţie vom respinge ipoteza nulă. În ambele situaţii
anterioare, decizia este luată pe baza credinţei că eşantionul este într-adevăr reprezentativ pentru populaţia
din care a fost extras.
Din nefericire, luarea unei decizii nu este întotdeauna atât de uşoară şi nici nu poate fi lăsată pe
seama unei judecăţi subiective şi arbitrare legată de cât de aproape sau de departe se află media eşantionului
de aceea a populaţiei. Metodologia testării ipotezelor asigură definiţii clare pentru evaluarea unor astfel de
diferenţe. Acest lucru este realizat prin determinarea distribuţiei de eşantioane pentru informaţia statistică de
interes (de exemplu, media eşantionului), urmată apoi de calcularea unui anumit test statistic bazat pe
rezultatele eşantionului respectiv. Deoarece distribuţia de eşantioane pentru testul statistic are de cele mai
multe ori o formă cunoscută, fie distribuţia normală standardizată fie distribuţia t, aceste distribuţii pot fi
utilizate pentru a determina şansele ipotezei nule de a fi adevărate.
Regiunile de respingere şi de nerespingere

71
Distribuţia de eşantioane pentru testul statistic este împărţită în două regiuni: o regiune de respingere
(numită şi regiune critică) şi o regiune de nerespingere (fig. 7.1). Regiunea de respingere reprezintă valorile
testului statistic care nu sunt de aşteptat să apară dacă ipoteza nulă este adevărată. Aceste valori au şanse de
apariţie mai mari dacă ipoteza nulă este falsă.
Fig. 7.1. Regiunile de respingere şi de nerespingere în testarea ipotezelor

Dacă testul statistic se situează în regiunea de nerespingere, ipoteza nulă nu poate fi respinsă. În
exemplul cu cerealele, dacă se consideră că nu există suficiente dovezi pentru a concluziona că media
populaţiei este diferită de 368g, atunci ipoteza nulă nu poate fi respinsă. Dacă testul statistic se situează în
regiunea de respingere, atunci ipoteza nulă poate fi respinsă. În acest caz, firma poate concluziona că media
populaţiei nu este 368g.
Pentru a lua o decizie în privinţa ipotezei nule, în primul rând trebuie determinată valoarea critică a
testului statistic. Valoarea critică este cea care separă regiunea de nerespingere de cea de respingere.
Determinarea acestei valori critice depinde de mărimea regiunii de respingere, care la rândul ei este funcţie
de riscurile implicate de utilizarea unui eşantion atunci când se doreşte estimarea unui parametru al unei
populaţii.
Riscuri în luarea unei decizii atunci când se utilizează metodologia testării ipotezelor
72
Atunci când este utilizată o informaţie statistică extrasă de la un eşantion pentru a lua o decizie în
privinţa unui parametru al unei populaţii, există riscul tragerii unei concluzii eronate. Două tipuri de erori pot
să apară atunci când sunt testate ipoteze: tipul I de eroare şi tipul II de eroare.
Tipul I de eroare apare atunci când ipoteza nulă, H0, este respinsă când de fapt ea este adevărată şi
nu ar trebui respinsă. Probabilitatea de apariţie a tipului I de eroare este α.
Tipul II de eroare apare atunci când ipoteza nulă, H0, nu este respinsă, deşi ea este falsă şi ar trebui
respinsă. Probabilitatea de apariţie a tipului II de eroare este β.
În cazul exemplului discutat, tipul I de eroare apare atunci când, pe baza informaţiilor oferite de
eşantion se concluzionează că greutatea medie a populaţiei de cutii nu este 368g, când de fapt ea este 368g.
Pe de altă parte, tipul II de eroare apare atunci când, pe baza informaţiilor oferite de eşantion se
concluzionează că greutatea medie a populaţiei de cutii este 368g, când de fapt ea nu este 368g.
Nivelul de semnificaţie
Probabilitatea de a comite tipul I de eroare se numeşte nivel de semnificaţie al testului statistic. În
mod obişnuit, tipul I de eroare poate fi controlat prin stabilirea nivelului de risc, α, care poate fi tolerat în
respingerea ipotezei nule, atunci când ea este de fapt adevărată. Nivelul de semnificaţie este ales înainte de
testarea ipotezei şi de obicei ia valori de 0,01, 0,05 sau 0,1.
Coeficientul de încredere, care este notat 1 – α, şi care este complementul probabilităţii erorii de tip
I, reprezintă probabilitatea ca ipoteza nulă, H0, să fie acceptată atunci când ea este adevărată. Nivelul de
încredere pentru testarea unei ipoteze este de (1 – α)100%. În ipoteza cu cerealele, coeficientul de încredere
măsoară probabilitatea concluziei că greutatea medie a populaţiei de cutii este de 368g, când ea chiar este
368g.
Riscul β
Probabilitatea de a comite tipul II de eroare se notează cu β. Spre deosebire de tipul I de eroare, care
este controlată prin alegerea lui α, probabilitatea de a face tipul II de eroare este dependentă de diferenţa
dintre valoarea care se presupune prin ipoteză că există şi valoarea reală a parametrului din populaţie.
Deoarece diferenţele mari sunt mai uşor de observat decât cele mici, dacă diferenţa dintre informaţia
statistică obţinută de la eşantion şi parametrul corespunzător al populaţiei este mare, probabilitatea de a face
tipul II de eroare este de aşteptat să fie mică. De exemplu, dacă adevărata medie a populaţiei (care de fapt nu
este cunoscută) este de 320g, sunt şanse mici (β) să se concluzioneze că media nu s-a schimbat faţă de 368g.
Pe de altă parte, dacă diferenţa dintre informaţia statistică şi valoarea parametrului corespunzător este mică,
probabilitatea de a comite tipul II de eroare este mare. Astfel, dacă media populaţiei este într-adevăr 367g,
este o mare probabilitate de a concluziona că media cu care sunt umplute cutiile nu s-a modificat faţă de
368g, şi s-ar face tipul II de eroare.
73
Puterea testului statistic, 1 – β, este complementul tipului II de eroare şi reprezintă probabilitatea de
respingere a ipotezei nule când aceasta este falsă şi chiar trebuie respinsă. În exemplul nostru, puterea
testului este probabilitatea de a concluziona că greutea medie a cutiilor nu este 368g, când ea de fapt nu este
368g.
Riscuri în luarea deciziei atunci când se testează o ipoteză

Tabelul 7.1. ilustrează rezultatele celor două decizii posibile (să se accepte H0 sau să respingă H0)
care pot să apară atunci când se testează ipoteze. În funcţie de decizia luată, pot să apară una din cele două
tipuri de erori sau poate fi luată una din cele două decizii corecte.
Tabelul 7.1.
Situaţia reală
Decizia statistică H0 este adevărată H0 este falsă
Nerespingerea lui H0 Decizie corectă Eroare de tip II
Încredere = 1 – α P(eroare de tip II) = β
Respingerea lui H0 Eroare de tip I Decizie corectă
P(eroare de tip I) = α Putere = 1 - β
O cale de reducere a probabilităţii de a face tipul II de eroare este de a mări dimensiunea

eşantionului. Eşantioanele mari permit sesizarea diferenţelor mici dintre valoarile reale ale parametrilor şi
valorile cuprinse în ipoteză. Pentru un anumit nivel al lui α, creşterea dimensiunii eşantionului va duce la
scăderea lui β, ceea ce va duce la creşterea capacităţii testului de a detecta faptul dacă ipoteza nulă, H0, este
falsă. Cu toate acestea, întotdeauna există o limită dată de resursele disponibile, ceea ce va afecta mărimea
eşantionului luat în considerare. De aceea, pentru o anumită mărime a eşantionului, trebuie luat în
considerare un anumit echilibru între cele două tipuri de erori. Deoarece riscul de apariţie al tipului I de
eroare poate fi controlat, acest risc poate fi redus prin selectarea unei valori cât mai mici pentru α. De
exemplu, dacă sunt consecinţe negative importante asociate cu tipul I de eroare, se poate alege α = 0,01 în
loc de α = 0,05. Totuşi, când α scade, β creşte, astfel că o reducere a riscului de a face tipul I de eroare va
duce la o creştere a riscului tipului II de eroare. Dacă, pe de altă parte, se doreşte reducerea lui β, atunci
trebuie aleasă o valoare mai mare pentru α. Astfel, dacă este important să se evite tipul II de eroare, atunci se
poote selecta α = 0,05 sau 0,1 în loc de α = 0,01.
În exemplul nostru cu fabrica de cereale, tipul I de eroare duce la concluzia că media greutăţii per
cutie s-a schimbat de la 368g, când de fapt ea nu s-a schimbat. Tipul II de eroare duce la concluzia că
greutatea medie per cutie nu s-a modificat de la 368g, când de fapt ea s-a modificat. Alegerea unor valori
rezonabile pentru α şi β depinde de costurile asociate fiecărui tip de eroare. Dacă, de exemplu, este foarte
74
costisitor de modificat procesul tehnologic de umplere a cutiilor, atunci probabil că vom dori să fim siguri că
schimbarea va fi benefică, deci tipul I de eroare va fi cel mai important şi va trebui menţinut la valori cât mai
scăzute. Pe de altă parte, dacă se doreşte siguranţă în detectarea schimbărilor de la media de 368g, atunci
riscul apariţiei tipului II de eroare este mai important şi trebuie ales un nivel mai ridicat al lui α.
7.2. Testul Z pentru medie, atunci când deviaţia standard este cunoscută
În exemplul discutat anterior, se dorea determinarea faptului dacă procesul tehnologic al umplerii
cutiilor cu cereale decurge corect, adică dacă greutatea medie a cutiilor este 368g, şi nu sunt necesare
ajustări. Pentru a evalua acest lucru se extrage un eşantion de 25 de cutii, fiecare cutie este cântărită, iar
greutatea care este aşteptată prin ipoteză (parametrul populaţiei) este comparată cu greutatea rezultată din
eşantion. În această situaţie, ipoteza nulă este H0: μ = 368, iar ipoteza de lucru este H1: μ ≠ 368.
Dacă deviaţia standard, σ, este cunoscută, atunci distribuţia mediei este normală (acest lucru este
adevărat dacă populaţia este normal distribuită sau dacă mărimea eşantionului este cel puţin 30), de aici
rezultând valoarea testului Z
X −µ
Z =
σ
n
În ecuaţia anterioară, numărătorul arată cât de departe se află media eşantionului de media pentru
care se face ipoteza, μ. Numitorul reprezintă eroarea standard a mediei, astfel încât Z reprezintă diferenţa
dintre X şi μ în unităţi de erori standard.
Perspectiva valorii critice în testarea ipotezelor

Dacă se utilizează un nivel de semnificaţie de 0,05, mărimea regiunii de respingere este de 0,05, iar
valorile critice ale distribuţiei pot fi determinate. Aceste valori critice pot fi exprimate ca valori standardizate
ale lui Z (adică în unităţi de deviaţie standard). Deoarece regiunea de respingere este divizată în două părţi
(de aceea acest test se numeşte şi test pentru două laturi), valoare 0,05 este împărţită în două părţi egale de
valoare 0,025 fiecare. O regiune de respingere de 0,025 pe fiecare dintre laturile distribuţiei normale va
conduce, conform tabelului din Anexa 1, la o valoare critică inferioară de –1,96 şi la o valoare critică
superioară de +1,96. Figura 7.2. ilustrează această situaţie: dacă media este de fapt 368g, aşa cum presupune
ipoteza de nul, H0, atunci valorile testului statistic Z au o distribuţie normal standardizată centrată pe 0 (ceea
ce corespunde unei valori X de 368g). Valori ale lui Z mai mari decât +1,96 sau mai mici decât –1,96
indică faptul că X este prea departe de μ = 368, ceea ce nu este de aşteptat dacă H0 ar fi adevărată.
75
Figura 7.2. Testarea unei ipoteze despre medie atunci când σ este cunoscută, pentru un nivel de
semnificaţie de 0,05
În această situaţie, regula pentru luarea deciziei este următoarea: se respinge H0 dacă Z > +1,96 sau
Z< -1,96 şi nu se respinge H0 în orice altă situaţie.
Să presupunem că un eşantion de 25 de cutii are o greutate medie X = 372,5g, iar deviaţia standard
a populaţiei, σ, este de 15g. Atunci,
X −µ 372 ,5 − 368
Z = = = +1,50
σ 15
n 25
Deoarece testul statistic Z = +1,50, este cuprins în intervalul (-1,96, +1,96), decizia este de a nu
respinge H0. Concluzia este că media greutăţii cu care sunt umplute cutiile de cereale este de 368g. Sau,
luând în considerare posibilitatea tipului II de eroare, concluzia poate fi formulată în felul următor: nu există
dovezi suficiente că media este diferită de 368g.
76
Fig. 7.3.
Paşi în testarea unei ipoteze

1. Se enunţă ipoteza de nul, H0. Ipoteza de nul trebuie enunţată în termeni statistici utilizând
parametrii populaţiei.
2. Se enunţă ipoteza de lucru, H1. Ipoteza de lucru trebuie enunţată în termeni statistici utilizând
parametrii populaţiei.
3. Se alege nivelul de semnificaţie, α. Nivelul de semnificaţie este ales în funcţie de importanţa
riscurilor legate de apariţia erorilor de tip I şi de tip II.
4. Se alege mărimea eşantionului, n. Mărimea eşantionului este aleasă după luarea în considerare a
riscurilor implicate de apariţia erorilor de tip I şi de tip II (trebuie selectate nivelurile pentru α şi β)
şi după luarea în considerare a constângerilor bugetare.
5. Se determină testul statistic corespunzător. Dacă deviaţia standard a populaţiei, σ, este cunoscută,
testul statistic selectat va fi Z.
6. Se stabilesc valorile critice care separă regiunea de nerespingere de regiunile de respingere.
7. Se colectează datele şi se calculează informaţia statistică corespunzătoare pentru eşantion (media
eşantionului).
8. Se determină faptul dacă testul statistic se situează în regiunea de nerespingere sau în regiunile de
respingere.
9. Se ia decizia statistică. Dacă testul statistic se situează în regiunea de nerespingere, atunci ipoteza
de nul, H0, nu poate fi respinsă. Dacă testul statistic se situează în regiunile de respingere, ipoteza
de nul este respinsă.
10. Decizia statistică trebuie exprimată în contextul problemei.
Perspectiva valorii-p în testarea ipotezelor
77
În ultimii ani, odată cu dezvoltarea programelor statistice, perspectiva valorii-p a devenit tot mai
acceptată. Valoarea-p este probabilitatea de a obţine un test statistic egal sau dincolo de rezultatul obţinut din
eşantion în condiţiile în care ipoteza nulă, H0, ar fi adevărată. Valoarea–p este numită şi nivelul observat de
semnificaţie, care este cea mai mică valoare la care H0 poate fi respinsă. Decizia pentru respingerea lui H0
din perspectiva valorii-p este luată astfel:
- dacă valoarea-p este mai mare sau egală cu α, ipoteza nulă nu este respinsă.
- dacă valoarea-p este mai mică decât α, ipoteza nulă este respinsă.
Pentru a înţelege perspectiva valorii-p, să reluăm exemplul cu cerealele. S-a testat faptul dacă media
greutăţii cutiilor cu cereale este 368g. A fost obţinută o valoare de +1,50 pentru Z, iar ipoteza nulă nu a fost
respinsă deoarece această valoare este mai mică decât valoarea critică superioară (+1,96) şi mult mai mare
decât valoarea critică inferioară (-1,96).
Pentru utilizarea valorii-p, pentru un test pe două laturi, trebuie găsită probabilitatea de a obţine un
test statistic Z care este egal sau mai îndepărtat decât +1,5 deviaţii standard faţă de centrul distribuţiei
normal standardizate. Cu alte cuvinte, trebuie calculată probabilitatea de a obţine o valoare Z mai mare decât
+1,50 sau o valoare Z mai mică decât –1,50. Din tabelul distribuţiei normal standardizate (Anexa 1),
probabilitatea de a obţine o valoare a lui Z mai mică decât –1,50 este de 0,0668, iar cea de a obţine o
probabilitate mai mică decât +1,50 este de 0,9332. De aceea, probabilitatea de a obţine o valoare mai mică
decât +1,50 este de 1-0,9332 = 0,0668. Astfel, valoarea-p pentru un test pe două laturi este 0,0668 + 0,0668
= 0,1336 (Fig. 7.4.).
Fig. 7.4. Găsirea valorii-p pentru un test pe două laturi
78
Interpretarea rezultatului: probabilitatea de a obţine un rezultat egal sau mai îndepărtat decât cel
observat este de 0,1336. Deoarece 0,1336 este mai mare decât α = 0,05, ipoteza de nul nu poate fi respinsă.
Paşi în determinarea valorii-p

1. Se emite ipoteza de nul, H0.
2. Se emite ipoteza de lucru, H1.
3. Se alege nivelul de semnificaţie, α.
4. Se alege mărimea eşantionului, n.
5. Se alege testul statistic corespunzător.
6. Se colectează datele şi se calculează valorile corespunzătoare testului statistic.
7. Se calculează valoarea-p pe baza testului statistic. Acest lucru implică:
a. Trasarea distribuţiei bazate pe ipoteza de nul, H0.
b. Plasarea testului statistic pe axa orizontală.
c. Haşurarea ariei corespunzătoare de sub curbă, pe baza ipotezei de lucru, H1.
8. Se compară valoare-p cu α.
9. Se ia decizia statistică. Dacă valoarea-p este mai mare sau egală cu α, ipoteza de nul nu este
respinsă. Dacă valoarea-p este mai mică decât α, ipoteza de nul este respinsă.
10. Se exprimă decizia statistică în contextul problemei.
Legătura dintre estimarea intervalului de încredere şi testarea ipotezelor

În acest capitol şi în cel anterior au fost discutate două componente majore ale statisticii inferenţiale:
estimarea intervalului de încredere şi testarea ipotezelor. Deşi ambele teme se bazează pe acelaşi set de
concepte, ele sunt utilizate în scopuri diferite. Intervalele de încredere sunt utilizate pentru a estima
parametrii, iar testarea ipotezelor se face cu scopul de a lua decizii despre anumite valori ale parametrilor
populaţiei.
În exemplul cu cerealele, în loc să testăm ipoteza de nul că μ = 368g, putem ajunge la aceeaşi
concluzie prin estimarea intervalului de încredere al lui μ. Dacă valoarea de 368g se situează în acest
interval, ipoteza de nul nu poate fi respinsă, deoarece 368 nu este o valoare anormală. Pe de altă parte, dacă
valoarea pentru care se face ipoteza nu se situează în intervalul de încredere, ipoteza de nul este respinsă,
deoarece 368 este considerată o valoare excentrică.
Utilizând ecuaţia pentru calcularea intervalului de încredere din capitolul anterior,
σ
X ±Z
n
pentru n = 25, X = 372,5g, σ = 15g şi pentru un interval de încredere de 95% (care corespunde unui nivel
de semnificaţie de 0,05)
15
372 ,5 ±1,96 = 372 ,5 ± 5,88
25
366 ,62 ≤ µ ≤ 378 ,38
79
Deoarece intervalul de încredere include valoarea pentru care s-a făcut ipoteza (368g), ipoteza de nul
nu poate fi respinsă. Există prea puţine dovezi pentru a concluziona că greutatea medie a cutiilor este diferită
de 368g. Adică am ajuns la aceeaşi decizie ca şi în cazul utilizării metodologiei testării ipotezelor.
7.3. Teste pe o singură latură

Până acum, metodologia de testare a ipotezelor a fost utilizată pentru a examina dacă media
populaţiei este egală cu cea specificată în ipoteza de nul. Ipoteza de lucru conţine două posibilităţi: meid
apoate fi mai mică sau mai mare decât cea specificată. Din acest motiv, regiunea de respingere este împărţită
în două părţi. Totuşi, în unele situaţii, ipoteza de lucru se concentrează pe o anumită direcţie. Ipoteza de
lucru H1: μ> μ0 se aplică atunci când se doreşte detectarea faptului dacă μ este mai mare decât o anumită
valoare μ0, iar ipoteza de lucru H1: μ< μ0 se aplică atunci când se doreşte detectarea faptului dacă μ este mai
mic decât o anumită valoare μ0.
Ipotezele de lucru H1: μ> μ0 şi H1: μ< μ0 sunt numite ipoteze pe o singură latură sau direcţionate. Un
astfel de test este aplicat atunci când cercetătorul prezice o deviaţie de la H0 într-o anumită direcţie. Prin
contrast, testele pe două laturi, H1: μ≠ μ0, se aplică atunci când cercetătorul doreşte să detecteze orice tip de
deviaţie a lui μ de la μ0. Alegerea între cele două tipuri de teste se face înainte de analizarea datelor.
Exemplu
Să presupunem că o firmă de prelucrarea laptelui este interesată dacă cei care o aprovizionează cu
lapte adaugă apă, pentru a creşte astfel cantitatea vândută. Se ştie faptul că exesul de apă reduce temperatura
de îngheţ a laptelui. Punctul de îngheţ al laptelui natural este normal distribuit, cu o medie de –0,545ºC.
Deviaţia standard a temperaturii de îngheţ a laptelui este cunoscută ca fiind de 0,008ºC. Deoarece firma de
prelucrare a laptelui este interesată doar în determinarea faptului dacă temperatura de îngheţ a laptelui este
mai mică decât cea a laptelui natural, întreaga regiune de respingere este concentrată pe latura inferioară a
distribuţiei.
Ipoteza de nul şi ipoteza de lucru sunt următoarele:
H0: μ ≥ -0,545ºC
H1: μ< -0,545ºC
Regiunea de respingere este situată în întregime pe latura inferioară a distribuţiei, geoarece se doreşte
respingerea ipotezei de nul doar când media eşantionului este semnificativ mai mică decât -0,545ºC.
Dacă se alege un nivel de seminifcaţie, α, de 0,05, valoarea critică a lui Z trebuie să fie negativă. Aşa
după cum se vede din Figura 7.5., deoarece întreaga arie de respingere de 0,05 se găseşte în partea inferioară
a distribuţiei, valoarea critică a lui Z este de –1,645, adică media dintre –1,64 şi –1,65. Decizia este de a
repinge H0 dacă Z < –1,645. Altfe, H0 nu poate fi respinsă.
80
Fig. 7.5. Testarea unei ipoteze pe o singură latură
În situaţia noastră, pentru n = 25, X = -0,550ºC şi σ = 0,008ºC
X −µ − 0,550 − ( −0,545 )
Z = = = −3,125
σ 0,008
n 25
Deoarece Z = -3,125 < –1,645, H0, trebuie respinsă. Concluzia este că sunt dovezi că temperatura
medie de îngheţ este mai mică decât -0,545ºC. Drept consecinţă, firma ar trebui să înceapă o investigaţie cu
privire la practicile companiei care o aprovizionează cu lapte.
Pentru a obţine valoarea-p, trebuie calculată probabilitatea de a obţine o valoare a lui Z mai mică
decât testul statistic de –3,125. Această valoare este de 0,0009. Deoarece valoarea-p este mai mică decât
nivelul de seminificaţie stabilit (α = 0,05), ipoteza de nul este respinsă.
7.4. Testul t pentru medie, atunci când deviaţia standard este necunoscută
În cele mai multe situaţii în care se testează ipoteze, deviaţia standard a populaţiei, σ, este
necunoscută. Astfel, deviaţia standard a populaţiei este estimată prin calcularea lui S, deviaţia standard a
eşantionului. Dacă se presupune că populaţia este normal distribuită, distribuţia mediei eşantioanelor
urmează (aşa cum am arătat în capitolul anterior) distribuţia t, cu n-1 grade de libertate. Testul statistic t
pentru determinarea diferenţei dintre media eşantionului, X , şi media populaţiei, μ, atunci când se cunoaşte
deviaţia standard a eşantionului, S, este dat de următoarea ecuaţie:
81
X −µ
t=
S
n
în care testul statistic t urmează o distribuţie t cu n-1 grade de libertate.

Să presupunem că o firmă umăreşte cu atenţie vânzările pe care le face. Departamentul de audit al
firmei extrage lunar un eşantion de facturi. În ultimii ani, valoarea medie a facturilor a fost de 120 de lei.
Următoarele date reprezintă sumele dintr-un eşantion aleator de 12 facturi:
108,98 152,22 111,45 110,59 127,46 107,26 93,32 91,97 11,56 75,71 128,58 135,11
Deoarece departamentul de audit este interesat dacă apare vreo schimbare în valoarea medie a
facturilor emise de către firmă faţă de media lunară de 120 de lei din ultimii ani, indiferent de direcţia
schimbării, se utilizează un test pe două laturi pentru următoarea ipoteză de nul şi ipoteză de lucru:
H0: μ = 120 lei
H1: μ ≠ 120 lei
Perspectiva valorii critice
Pentru un eşantion de mărime n, testul statistic t are o distribuţie t cu n-1 grade de libertate. Deoarece
ipoteza de lucru nu este direcţionată, aria de respingere este împărţită în două, 0,025 pe latura inferioară şi
0,025 pe cea superioară (Fig. 7.6.).Dacă se alege un nivel de semnificaţie α = 0,05, valoarea critică a
distribuţiei t cu 12-1 = 11 grade de libertate poate fi obţinută din tabelul Anexei 2 şi ea este de ±2,2010.
Decizia este de a respinge H0 dacă t < - t11 = -2,2010 sau t > t11 = +2,2010, altfel H0 nu poate fi
respinsă.
Din datele eşantionului se pot calcula
n
∑X i
X = i =1
= 112,85
n
n
∑(X i − X )2
S= i =1
= 20,80
n −1
În această situaţie, valoarea parametrului t este
X − µ 112 ,85 −120
t= = = −1,19
S 20 ,80
n 12
82
Fig. 7.6. Testarea unie ipoteze la 0,05 nivel de semnificaţie, pentru 11 grade de libertate
Deoarece t = -1,19 se situează în regiunea de nerespingere dintre valorile critice t11 = ±2,2010, ipoteza
nulă nu poate fi respinsă. Nu există suficiente dovezi pentru a crede că media lunară a facturilor s-a
modificat faţă de ceea ce era pe termen lung, adică de 120 lei; diferenţa observată este nesemnificativă şi se
poate datora unui accident.
Perspectiva valorii-p
În această situaţie, valoarea-p poate fi calculată doar cu ajutorul unui program specializat de statistică
şi ea este de 0,26 pentru un test pe două laturi. Deoarece valoarea-p, sau nivelul observat de semnificaţie,
este mai mare decât nivelul de semnificaţie, α, ipoteza de nul, H 0, nu poate fi respinsă. Dacă ipoteza nulă ar
fi fost adevărată, probabilitatea ca media eşantionului să difere de 120 de lei este de 0,26. Deci
departamentul de audit nu are de făcut nici o recomandare către conducerea firmei în privinţa modificării
politicii de vânzări.
7.5. Testul Z pentru proporţie

În unele situaţii se doreşte testarea unei ipoteze despre o anumită proporţie într-o populaţie, p, şi nu
despre o medie a populaţiei respective. În această situaţie se extrage un eşantion aleator din cadrul
83
populaţiei, ceea ce ne permite să calculăm proporţia eşantionului, pe = X . Valoarea acestei informaţii
n
statistice este comparată cu cea pentru care se face ipoteza, p, astfel încât să se poată lua o decizie în privinţa
ipotezei.
Dacă numărul de succese, X, şi numărul de eşecuri, n – X, sunt cel puţin 5, fiecare dintre ele,
distribuţia eşantioanelor proporţiei are o distribuţie care se apropie de cea normal standardizată. Testul Z
pentru proporţie este dat de următoarea ecuaţie:
pe − p
Z =
p (1 − p )
n
X
unde p e = , adică proporţia succeselor din eşantion
n
iar p = proporţia de succese din populaţie pentru care se face ipoteza.
Dacă se fac înlocuirile, testul Z poate fi scris şi funcţie de numărul de succese:
X − np
Z =
np (1 − np )
Să presupunem că se doreşte un răspuns la următoarea problemă de cercetare: „Firmele mici sunt

deţinute în proporţie egală de femei şi de bărbaţi?”. Se extrage un eşantion de 899 de firme mici, 369 dintre
acestea fiind deţinute de către femei. În termeni de proporţie, ipoteza nulă şi ipoteza de lucru pot fi scrise
astfel:
H0: p = 0,5 (adică proporţia de firme mici deţinute de femei este de 0,5)
H1: p ≠ 0,5 (adică proporţia de firme mici deţinute de femei este diferită de 0,5)
Perspectiva valorii critice
Deoarece suntem interesaţi dacă proporţia firmelor mici deţinute de femei este de 0,5 (şi deci
proporţia celor deţinute de bărbaţi este de 0,5), va fi utilizat un test pe două laturi. Dacă se alege un nivel de
semnificaţie α = 0,05, regiunile de respingere şi de nerespingere apar ca în figura 7.7. Decizia va fi de a
respinge H0 dacă Z < -1,96 sau Z > +1,96, altfel H0 neputând fi respinsă.
X 369
Din datele culese, p e = = = 0,41046
n 899
Atunci, testul Z va fi:
pe − p 0,41046 − 0,5 − 0,08954
Z= = = = −5,37
p (1 − p ) 0,5(1 − 0,5) 0,0167
n 899
84
Fig. 7.7. Testarea unei ipoteze pe două laturi pentru proporţie, la un nivel de semnificaţie de 0,05
Deoarece –5,37 < -1,96, ipoteza nulă, H0, trebuie respinsă. Deci sunt dovezi că proporţia firmelor
mici deţinute de femei nu este 0,5.
Perspectiva valorii-p
Probabilitatea de a obţine o valoare a lui Z dincolo de –5,37 sau +5,37 este practic 0 (valoarea
maximă din tabelul Anexei 1, pentru un Z = 3,9 este de 0,00005). Cu ajutorul unui program de statistică,
această valoare este găsită ca fiind 0,000000079064. Deoarece această valoare este mult mai mică decât
nivelul selectat de semnificaţie (α = 0,05), ipoteza nulă este respinsă. Valoarea extrem de mică a valorii-p
arată că practic nu este nici o şansă de a obţine o proporţie a unui eşantion de 0,41046 dacă adevărata medie
a populţiei ar fi 0,5.
Exerciţii
1. Dacă în testarea unei ipoteze (test pe două laturi) se utilizează un nivel de semnificaţie de 0,05, ce se va
decide dacă valoarea calculată a testului Z este +2,21?
2. Dacă în testarea unei ipoteze (test pe două laturi) se utilizează un nivel de semnificaţie de 0,01, ce se va
decide în privinţa ipotezei de nul dacă μ = 12,5 şi se utilizează testul Z?
3. Se presupune că în testarea unei ipoteze, valoarea testului statistic Z este +2,0. Care este valoarea-p?
4. Un psiholog realizează un experiment pe un eşantion de 49 de copii dintr-o şcoală. Valoare medie a
coeficientului de inteligenţă pentru copiii din eşantion este de 103. Considerând că valoarea
85
coeficeintului de inteligenţă la nivel naţional este de 100, cu o deviaţie standard de 14, este posibil ca
media copiilor din acea şcoală să fie tot 100?
a. Enunţaţi ipoteza de nul şi ipoteza de lucru.
b. Calculaţi Z şi p.
c. Luaţi o decizie referitor la H0, dacă α = 0,05.
d. Construiţi un interval de încredere de 95% pentru μ şi comparaţi rezultatul cu cel de la punctul c.
e. Care ar fi concluzia dacă α = 0,2, α = 0,1 sau α = 0,01. De ce α = 0,2 nu se utilizează de obicei în
practică.
5. Un director al unei fabrici de stofă trebuie să determine dacă un utilaj nou achiziţionat produce un
anumit tip de stofă, în conformitate cu specificaţiile producătorului: adică stofa să aibă o rezistenţă la
rupere de 70 kg, cu o deviaţie standard de 3,5 kg. Este extras un eşantion de 49 de bucăţi de stofă, din
care rezultă că rezistanţa la rupere este de 69,1 kg.
b. Există suficiente dovezi că utilajul nu îndeplineşte specificaţiile producătorului? (utilizaţi un nivel
de semnificaţie de 0,05)
c. Calculaţi valoarea-p şi interpretaţi rezultatul ei.
d. Care ar fi răspunsul la punctul b dacă deviaţia standard ar fi 1,75 kg.
e. Care ar fi răspunsul la punctul b dacă media eşantionului ar fi de 69 kg iar deviaţia standard 3,5 kg?
6. Se presupune că în testarea unei ipoteze pe o singură latură, unde trebuie respinsă doar latura superioară,
valoarea testului statistic Z este +2,0. Care este valoarea-p?
7. Se presupune că în testarea unei ipoteze pe o singură latură, unde trebuie respinsă doar latura inferioară,
valoarea testului statistic Z este –1,38. Care este valoarea-p?
8. O companie metalurgică fabrică bare de oţel. Dacă procesul de producţie este corespunzător, lungimea
barelor trebuie să fie de cel puţin 2,8 metri şi cu o deviaţie standard de 0,2m. Barele mai lungi pot fi
folosite sau pot fi scurtate, însă barele mai scurte trebuie să fie retopite. De pe banda de fabricaţie este
selectat un eşantion de 25 de bare. Lungimea medie a barelor din eşantion este de 2,73m. Compania
vrea să determine dacă echipamentul său necesită reglaje.
a. Enunţaţi ipoteza nulă şi ipoteza de lucru
b. Dacă se doreşte testarea ipotezei la un nivel de semnificaţie de 0,05, care ar fi decizia luată dacă se
utilizează perspectiva valorii critice?
c. Dacă se doreşte testarea ipotezei la un nivel de semnificaţie de 0,05, care ar fi decizia luată dacă se
utilizează perspectiva valorii-p?
d. Interpretaţi înţelesul valorii-p în această problemă.
86
e. Comparaţi concluziile de la punctele b şi c.
9. Un director al unei fabrici de stofă trebuie să determine dacă un utilaj nou achiziţionat produce un
anumit tip de stofă, în conformitate cu specificaţiile producătorului: adică stofa să aibă o rezistenţă la
rupere de 70 kg, cu o deviaţie standard de 3,5 kg. Directorul este îngrijorat de faptul că dacă rezistenţa
la rupere este de fapt mai mică decât 70 de kg, firma va trebui să facă faţă multor reclamaţii. Este
extras un eşantion de 49 de bucăţi de stofă, din care rezultă că rezistanţa la rupere este de 69,1 kg.
b. Există suficiente dovezi că rezistenţa medie la rupere este mai mică decât 70 de kg?
(utilizaţi un nivel de semnificaţie de 0,05)
c. Calculaţi valoarea-p şi interpretaţi rezultatul ei.
d. Comparaţi rezultatele de la punctul b şi c.
10. Dacă dintr-un eşantion de n = 16 elemente, extras dintr-o populaţie normal distribuită, media
eşantionului este X = 56, iar deviaţia standard a eşantionului este S = 12, care este valoarea testului t,
dacă se testează o ipoteză nulă H0, care afirmă că μ = 50?
11. Prorectorul responsabil cu admiterea al unei universităţi doreşte să îi sfătuiască pe părinţii viitorilor
studenţi în legătură cu costul cărţilor şi altor materiale didactice de pe parcursul unui semestru. Este
extras un eşantion de 100 de studenţi, care cheltuie pe cărţi, în medie 315,4 lei, cu o deviaţie standard
de 43,20 lei.
a. Utilizând un nivel de semnificaţie de 0,1, sunt suficiente dovezi pentru a afirma media populaţiei
este de peste 300 de lei?
b. Care ar fi răspunsul la punctul a dacă deviaţia standard ar fi de 75 lei, iar nivelul de semnificaţie de
0,05?
c. Care ar fi răspunsul la punctul a dacă media eşantionului ar fi de 305,11 lei, iar deviaţia standard de
43,20 lei?
12. Un producător de baterii extrage un eşantion de 13 baterii de pe banda de producţie şi le utilizeză până
când acestea se consumă total. Timpul de viaţă, în ore, al bateriilor din eşantion este următorul:
342 426 317 545 264 451 1049 631 512 266 492 562 298
a. La un nivel de semnificaţie de 0,05, există dovezi durata medie de viaţă a bateriilor este mai mare
de 400 de ore?
b. Ce sfat i-aţi da producătorului dacă acesta ar vrea să afirme în reclamă că „bateriile rezistă mai
mult de 400 de ore”?
c. Dacă prima cifră din şir ar fi 1342 în loc de 342, care ar fi răspunsurile la punctele anterioare?
Comentaţi diferenţa de rezultat.
87
13. Există dovezi pentru a afirma că jumătate dintre angajaţii din România au acces la internet
la locul de muncă? O anchetă efectuată pe un eşantion de 1000 de angajaţi indică faptul că 440 dintre
aceştia au acces la internet.
a. Dacă este ales un nivel de semnificaţie de 0,05, sunt dovezi pentru a afirma ca mai puţin de
jumătate dintre angajaţi au acces la internet la locul de muncă?
b. Calculaţi valoarea-p şi interpretaţi-o.
14. Directorul de personal al unei companii de asigurări este interesat de a reduce rata
„mortalităţii” agenţilor în primul lor an de la angajare. Datele din anii precedenţi indică faptul că 25%
dintre noii angajaţi renunţă la locul de muncă în primul an. Un nou program de pregătire este lansat
pentru pregătirea unui eşantion de 150 de noi angajaţi. La sfârşitul primului an de slujbă, 29 dintre cei
150 care au urmat cursul părăsiseră compania.
a. La un nivel de semnificaţie de 0,01, sunt dovezi pentru a afirma că proporţia celor care
abandonează firma este mai mică de 25%?
b. Calculaţi valoarea-p şi interpretaţi-o.
c. Care ar fi răspunsul la punctul a dacă numărul celor care au părăsit compania ar fi de 22?
d. Calculaţi valoarea-p, pentru punctul c, şi interpretaţi-o.
88
Anexa 1
Aria de sub curba normală de la -∞ la Z
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
------------------------------------------------------------------------------
-3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002
-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
-3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
-3.0 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2.0 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
-1.0 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
-0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
89
Aria de sub curba normală de la -∞ la Z
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
------------------------------------------------------------------------------
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
90
Anexa 2 Valorile critice ale lui t
aria din latura
gr. de sup. 0,25 0,10 0,05 0,025 0,01 0,005
libertate
1 1.000 3.0777 6.3138 12.7062 31.8207 63.6564
2 0.8165 1.8856 2.9200 4.3027 6.9646 9.9248
3 0.7649 1.6377 2.3534 3.1824 4.5407 5.8409
4 0.7407 1.5332 2.1318 2.7764 3.7469 4.6041
5 0.7267 1.4759 2.0150 2.5706 3.3649 4.0322
6 0.7176 1.4398 1.9432 2.4469 3.1427 3.7074
7 0.7111 1.4149 1.8946 2.3646 2.9980 3.4995
8 0.7064 1.3968 1.8595 2.3060 2.8965 3.3554
9 0.7027 1.3830 1.8331 2.2622 2.8214 3.2498
10 0.6998 1.3722 1.8125 2.2281 2.7638 3.1693
11 0.6974 1.3634 1.7959 2.2010 2.7181 3.1058
12 0.6955 1.3562 1.7823 2.1788 2.6810 3.0545
13 0.6938 1.3502 1.7709 2.1604 2.6503 3.0123
14 0.6924 1.3450 1.7613 2.1448 2.6245 2.9768
15 0.6912 1.3406 1.7531 2.1315 2.6025 2.9467
16 0.6901 1.3368 1.7459 2.1199 2.5835 2.9208
17 0.6892 1.3334 1.7396 2.1098 2.5669 2.8982
18 0.6884 1.3304 1.7341 2.1009 2.5524 2.8784
19 0.6876 1.3277 1.7291 2.0930 2.5395 2.8609
20 0.6870 1.3253 1.7247 2.0860 2.5280 2.8453
21 0.6864 1.3232 1.7207 2.0796 2.5177 2.8314
22 0.6858 1.3212 1.7171 2.0739 2.5083 2.8188
23 0.6853 1.3195 1.7139 2.0687 2.4999 2.8073
24 0.6848 1.3178 1.7109 2.0639 2.4922 2.7969
25 0.6844 1.3163 1.7081 2.0595 2.4851 2.7874
26 0.6840 1.3150 1.7056 2.0555 2.4786 2.7787
27 0.6837 1.3137 1.7033 2.0518 2.4727 2.7707
28 0.6834 1.3125 1.7011 2.0484 2.4671 2.7633
29 0.6830 1.3114 1.6991 2.0452 2.4620 2.7564
30 0.6828 1.3104 1.6973 2.0423 2.4573 2.7500
35 0,6816 1,3062 1,6896 2,0301 2,4377 2,7238
40 0.6807 1.3031 1.6839 2.0211 2.4233 2.7045
45 0,6800 1,3006 1,6794 2,0141 2,4121 2,6896
50 0.6794 1.2987 1.6759 2.0086 2.4033 2.6778
60 0.6786 1.2958 1.6706 2.0003 2.3901 2.6603
70 0,6780 1,2938 1,6669 1,9944 2,3808 2,6479
80 0.6776 1.2922 1.6641 1.9901 2.3739 2.6387
90 0,6772 1,2910 1,6620 1,9867 2,3685 2,6316
100 0.6770 1.2901 1.6602 1.9840 2.3642 2.6259
120 0.6765 1.2886 1.6577 1.9799 2.3578 2.6174
0.6745 1.2816 1.6449 1.9600 2.3263 2.5758
91

Statistic A - Suport de Curs

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Statistic A - Suport de Curs

Încărcat de

Drepturi de autor:

Formate disponibile

Conf. dr.

Statistică aplicată în ştiinţele politice

De ce avem nevoie de statistică?

Dezvoltarea statisticii moderne

1.1. Tipuri de variabile

Biroul de evaluare intenţionează să extragă un eşantion de n=200 de studenţi.

2. Statistică descriptivă. Tabele şi grafice

2.2. Tabele şi grafice pentru date numerice

Frecvenţa Frecvenţa Procentul

Poligonul frecvenţelor sau procentajelor

Restul candidaţilor 7,47

Marko Bela 5,1

Corneliu Vadim Tudor 12,57 Procentajul

Traian Băsescu 33,92

Adrain Năstase 40,94

3.1. Măsuri ale tendinţei centrale, ale dispersiei şi formei

Măsuri ale dispersiei

reprezintă radical din varianţă: ∑ (X i − X )2

Media < Mediana

Fig. 3.3. Distribuţie înclinată spre stânga

Media > Mediana

Fig. 3.4. Distribuţie înclinată spre dreapta

Fig. 3.5. Distribuţie simetrică

3.2. Obţinerea unui rezumat descriptiv al unei populaţii

3.3. Coeficientul de corelaţie

Fig. 3.6. Corelaţie perfect negativă (ρ = -1) Corelaţie perfect pozitivă (ρ = 1)

4.1. Concepte fundamentale în probabilitate

Reguli ale probabilităţii

4.2. Probabilitate condiţională

Trebuie să se determine dacă a fi satisfăcut de achiziţie şi tipul de televizor achiziţionat sunt

Varianţa şi deviaţia standard pentru cererile aprobate pe săptămână se calculează astfel:

4.4. Distribuţia binomială

- n reprezintă mărimea eşantionului, iar n! (numit n factorial) este produsul n(n-1)(n-2)....1

Caracateristicile unei distribuţii binomiale

Care este probabilitatea de a obţine cel puţin 10 steme?

5.1. Distribuţia normală

5. 3. Distribuţia mediei eşantioanelor

Dacă n = 100, atunci:

5.4. Distribuţia proporţiei eşantioanelor

6. Estimarea intervalului de încredere

Proprietăţi ale distribuţiei t

Figura 6.5. Distribuţia t cu 100 de grade de libertate

Formula varianţei, din capitolul 3 era 2

Formula intervalului de încredere atunci când σ este necunoscut

6.3. Estimarea intervalului de încredere a proporţiei

unde, pe = proporţia din eşantion = X/n = numărul de succese /mărimea eşantionului

6.4. Determinarea dimensiunii eşantionului

7. Testarea ipotezelor: teste pentru un singur eşantion

7.1. Metodologia testării ipotezelor

Regiunile de respingere şi de nerespingere

Fig. 7.1. Regiunile de respingere şi de nerespingere în testarea ipotezelor

Riscuri în luarea deciziei atunci când se testează o ipoteză

O cale de reducere a probabilităţii de a face tipul II de eroare este de a mări dimensiunea

Perspectiva valorii critice în testarea ipotezelor

Paşi în testarea unei ipoteze

Perspectiva valorii-p în testarea ipotezelor

Fig. 7.4. Găsirea valorii-p pentru un test pe două laturi

Paşi în determinarea valorii-p

Legătura dintre estimarea intervalului de încredere şi testarea ipotezelor

7.3. Teste pe o singură latură

în care testul statistic t urmează o distribuţie t cu n-1 grade de libertate.

7.5. Testul Z pentru proporţie

Să presupunem că se doreşte un răspuns la următoarea problemă de cercetare: „Firmele mici sunt