Sunteți pe pagina 1din 232

Prefaţă

Cuvântul statistică a devenit unul dintre cele des folosite sau


auzite în viaţa de zi cu zi. Se vehiculează, mai mult sau mai puţin în
cunoştinţă de cauză, diferite noţiuni statistice. Expresii ca „statistica
sugerează că...”, „statistic vorbind...”, „o simplă statistică arată că...”
şi multe altele se pot auzi la tot pasul. Câte persoane, oare, n-au văzut
un grafic, n-au calculat o medie, n-au auzit de un sondaj? Şi
exemplele sunt mult mai numeroase.
În multe cazuri, cei neavizaţi asociază statistica cu o simplă
„colecţie” de date. Statistica, însă, reprezintă mai mult decât atât, ea
este ştiinţa culegerii şi prelucrării, analizei datelor. Este un
instrument, o metodă ştiinţifică de analiză, larg folosită, în multe
domenii, în ştiinţele sociale rolul ei devenind din ce în ce mai
important cu deosebire în ultimii 30-40 de ani. Statistica aduce un
plus de rigoare ştiinţifică, potenţează abilitatea de a lua decizii,
suplimentează calităţile unui bun manager etc. Putem spune că
obiectul de studiu al statisticii sociale îl constituie fenomenele şi
procesele care se produc într-un număr mare de cazuri, variază de la
un element la altul, de la un caz la altul, sunt forme individuale de
manifestare în timp, în spaţiu şi ca formă organizatorică.
Statistica, ca orice ştiinţă, şi-a elaborat procedee şi metode
speciale de cercetare, cum sunt cele ale observării de masă, ale
centralizării şi grupării, procedee şi modele de analiză şi interpretare
statistică. Statistica socială se poate defini astfel ca o disciplină care
studiază latura cantitativă a fenomenelor şi proceselor sociale de
masă, în condiţii concrete de timp şi de spaţiu, în strânsă legătură cu
latura lor calitativă.
Complexitatea şi amploarea cercetării statistice fac imperios
necesară perfecţionarea continuă a metodelor de observare,
prelucrare, analiză. În acelaşi timp, dezvoltarea metodelor statisticii
este strâns legată de progresele înregistrate de teoria probabilităţilor
şi statistica matematică, precum şi de cele din domeniul informaticii.
Deşi problematica statisticii este amplă şi deosebit de
complexă, în linii mari, se consideră că aceasta îndeplineşte două
funcţii. Prima este de a descrie seturi de date, iar cea de-a doua de a
determina inferenţe. Ca un exemplu al funcţiei descriptive, să
presupunem că am vrea să ştim câţi absolvenţi ai unei facultăţi au
promovat examenul de licenţă în anul 2007. Pentru a răspunde la
această întrebare, va trebui să obţinem numărul studenţilor acelei
facultăţi, care au promovat examenul de licenţă în anul 2007. În ceea
ce priveşte funcţia inferenţială, să presupunem că pentru acceptarea
de către un beneficiar a unui lot de produse, acesta trebuie să
satisfacă anumite cerinţe de calitate. În unele cazuri, controlul
fiecăruia dintre aceste produse este posibil şi puţin costisitor. În astfel
de situaţii se poate opta pentru controlul întregului lot şi apoi se
poate accepta sau respinge acest lot. În cele mai multe cazuri însă,
acest procedeu este inaplicabil din diverse motive (timpul necesar,
costul controlului, control distructiv etc.). Se apelează atunci la
studiul unui eşantion şi, folosind rezultatele acestui studiu, se
trasează inferenţe în aşa fel încât rezultatele să se aplice tuturor
produselor. Studiind doar o mostră, există însă riscul ca rezultatele să
nu fie foarte precise şi inferenţa trasată să nu fie corectă. În acest
sens, statistica ajută în luarea de decizii în condiţii de incertitudine,
oferind metode pentru determinarea mărimii probabilităţii
concluziilor obţinute. Fiecare afirmaţie statistică făcută, trebuie
însoţită şi de indicarea probabilităţii ca rezultatele găsite să fie
consecinţa unor factori întâmplători.
Ne vom axa în prezenta lucrare în special pe funcţia
inferenţială a statisticii. Vom folosi totuşi şi câteva tehnici ale
statisticii descriptive, tehnici care vor fi prezentate pe scurt.
Cartea de faţă îşi propune să prezinte, într-o manieră
accesibilă, câteva elemente ale statisticii teoretice şi ale statisticii
aplicate, dorind să se constituie într-un ghid pentru cei ce vor să
4
utilizeze metodele statistice în domeniul ştiinţelor sociale.
După cum am mai spus, statistica este strâns legată de teoria
probabilităţilor. Am considerat necesar, ca, pentru o mai bună
înţelegere, în primul capitol, să prezentăm pe scurt câteva elemente
din această teorie.
În cel de-al doilea capitol sunt expuse şi explicate elemente
ale statisticii teoretice.
O problemă deosebit de importantă în statistica socială o
constituie analiza legăturilor dintre fenomene. De aceea am
considerat necesar sa alocăm un capitol destul de vast, capitolul al
treilea, acestei probleme.
Capitolul al patrulea abordează problema obţinerii datelor cu
ajutorul sondajelor. Sunt prezentate diferite tipuri de sondaje,
indicatorii rezultaţi pe baza lor, precum şi procedee de extindere a
rezultatelor la întreaga populaţie.
Ultimul capitol, al cincilea, tratează problema verificării
ipotezelor statistice şi este cel care vine să-i confere cercetătorului
gradul de siguranţă în susţinerea afirmaţiilor făcute.
Pentru a nu rămâne o lucrare pur teoretică, pentru o mai bună
înţelegere, noţiunile, metodele prezentate, sunt însoţite de exemple
de aplicare practică.
Sunt recunoscător celor care, prin aprecieri critice, sugestii
sau propuneri, vor contribui la îmbunătăţirea acestei lucrări.

5
1 Probabilităţi
Vom folosi destul de des, în cele ce urmează, conceptul de
probabilitate.
În teoria probabilităţilor, noţiunile de eveniment şi
probabilitate sunt concepte de bază. Noţiunea de eveniment se află la
frontiera dintre empiric şi teoretic.
Generarea sau producerea unui anumit fenomen, care poate fi
repetat ori de câte ori dorim, poartă numele de experienţă. Vom
înţelege prin probă orice reluare a unei experienţe. Rezultatele unei
experienţe poartă numele de evenimente, sau, mai exact, orice
rezultat posibil al unei experienţe se numeşte eveniment elementar.
Ca definiţie a probabilităţii producerii unui eveniment
reţinem formularea dată de Laplace: probabilitatea producerii unui
eveniment este egală cu raportul dintre numărul rezultatelor
favorabile producerii evenimentului şi numărul total al rezultatelor
egal posibile. Sau, cu alte cuvinte, probabilitatea producerii unui
eveniment reprezintă frecvenţa sa relativă din cadrul unei clase de
referinţă ce conţine evenimente similare.
Să apelăm în continuare la o experienţă foarte uzuală, aceea a
aruncării cu zarul. În urma acestei experienţe poate să apară una
dintre cele şase feţe. Să convenim să notăm cu Ai ( i  1,6 )
evenimentul constând în apariţia feţei cu i puncte.
Probabilitatea de a obţine „trei” (realizarea evenimentului A3)
la aruncarea cu zarul este de unu la şase (1/6), din moment ce toate
cele şase feţe (clasa de referinţă) au aceleaşi şanse şi doar una este
etichetată „trei”.
Deci:
1
P ( Ai )  , i  1,6 .
6

Acceptând definiţia conform căreia probabilitatea este


identificată cu frecvenţa relativă, probabilitatea va fi întotdeauna un
număr cuprins între 0 şi 1.
6
Evenimentul care se realizează totdeauna în urma unei
experienţe îl vom numi eveniment sigur (notat de obicei cu );
astfel, probabilitatea de a obţine o faţă cu cel puţin un punct la o
aruncare cu zarul este un eveniment sigur, din moment ce orice faţă
conţine cel puţin un punct. Deci P()  1 .
Evenimentul care nu se realizează în nici-o probă a
experienţei se numeşte eveniment imposibil (notat de obicei cu );
în contextul aruncării cu zarul ar corespunde situaţiei în care zarul s-
ar aşeza pe o muchie sau pe un colţ. Deci P ( )  0 .
Să mai remarcăm o proprietate. Să notăm cu A evenimentul
apariţiei feţei cu un punct şi cu B apariţia feţei cu unul sau două
puncte. În mod evident, realizarea evenimentului B implică realizarea
1 2 1
evenimentului A, adică A  B . Totodată, P ( A)  , P( B)   .
6 6 3
Rezultă deci: A  B  P ( A)  P ( B ) .
De cele mai multe ori însă, nu vom fi interesaţi în obţinerea
probabilităţii unui eveniment elementar şi, cu atât mai puţin, a
evenimentului sigur sau a celui imposibil. Vom fi nevoiţi atunci să
„combinăm” probabilităţile diferitelor evenimente.

Formula adunării probabilităţilor pentru evenimente


incompatibile
Două evenimente se numesc incompatibile, dacă producerea
unuia dintre ele într-o probă, atrage după sine imposibilitatea
producerii celuilalt eveniment în aceeaşi probă. În contextul
experienţei aruncării cu zarul, oricare dintre cele şase evenimente,
este incompatibil cu celelalte cinci (de exemplu, apariţia feţei cu 3
puncte atrage după sine imposibilitatea apariţiei feţelor cu 1, 2, 4, 5
sau 6 puncte).
Formula adunării probabilităţilor incompatibile afirmă că:
dacă A şi B sunt două evenimente incompatibile, probabilitatea ca
oricare dintre ele să apară este egală cu suma probabilităţilor de
apariţie a fiecăreia dintre ele. Vom scrie acest lucru astfel:

7
P( A  B)  P( A)  P( B) ,

dacă evenimentele A şi B sunt incompatibile ( A  B   ), sau, în


general:

P( A1  A2  ...  An )  P( A1 )  P( A2 )  ...  P( An ) ,

dacă evenimentele A1,A2,…,An sunt incompatibile Ai  A j  ,


i  j.
Astfel, probabilitatea obţinerii în urma unei aruncări cu zarul
a unei feţe pare (realizarea evenimentului A2 sau A4 sau A6) va fi:

P( A2  A4  A6 )  P( A2 )  P( A4 )  P( A6 ) 
1 1 1 3 1
     .
6 6 6 6 2

Formula adunării probabilităţilor pentru evenimente


compatibile
Două evenimente se numesc compatibile dacă în cel puţin o
probă a experienţei se realizează amândouă. În contextul experienţei
aruncării cu zarul, dacă evenimentul A constă în „apariţia feţei cu 1
sau 2 puncte”, evenimentul B în „apariţia feţei cu 1 sau 3 puncte”, iar
evenimentul C în „apariţia feţei cu 2 sau trei 3 puncte”, atunci
acestea sunt incompatibile în totalitatea lor, dar compatibile două
câte două.
Formula simplă de adunare a probabilităţilor nu mai este
valabilă atunci când fenomenele sunt compatibile. În acest caz, ea
devine:

P( A  B)  P( A)  P( B)  P( A  B) ,

dacă evenimentele A şi B sunt compatibile ( A  B   ).


Să exemplificăm. Presupunem că dorim să aflăm, în urma
8
unei aruncări cu zarul, probabilitatea apariţiei unui număr divizibil cu
2 sau cu 3. Aceasta ar însemna apariţia feţelor 2, 4 sau 6 –
evenimente incompatibile –, pentru divizibilitatea cu 2 (să notăm
acest eveniment cu A) şi 3 sau 6 – evenimente incompatibile –,
pentru divizibilitatea cu 3 (să notăm acest eveniment cu B). În mod
evident, avem:

P( A)  P( A2  A4  A6 ) 
1 1 1 3 1
 P ( A2 )  P ( A4 )  P ( A6 )     
6 6 6 6 2

P( B)  P( A3  A6 ) 
1 1 2 1
 P ( A3 )  P ( A6 )    
6 6 6 3

Aplicând formula adunării probabilităţilor incompatibile, am


obţine

1 1 5
P( A  B)  P( A)  P( B )    ,
2 3 6

rezultat greşit, deoarece apariţia feţei 6 înseamnă atât realizarea


evenimentului A (adică divizibil cu 2), cât şi a evenimentului B
(adică divizibil cu 3). În mod evident, aceasta nu trebuia luată în
calcul decât o singură dată. Aplicând formula adecvată în acest caz,
obţinem:

P( A  B)  P( A)  P( B)  P( A  B) 
1 1 1 2
 P( A2  A4  A6 )  P ( A3  A6 )  P( A6 )     .
2 3 6 3

Formula înmulţirii probabilităţilor evenimentelor


independente
Vom spune că două evenimente sunt independente dacă
9
producerea unuia nu afectează în nici un fel producerea celuilalt. Să
presupunem că vrem să aflăm care sunt şansele să obţinem, prin
aruncarea simultană a două zaruri diferite, „trei” pe fiecare dintre ele.
Rezultatele posibile, în urma aruncării simultane a două
zaruri, sunt următoarele:

Zarul 1 Zarul 2 Zarul 1 Zarul 2 Zarul 1 Zarul 2


1 1 3 1 5 1
1 2 3 2 5 2
1 3 3 3 5 3
1 4 3 4 5 4
1 5 3 5 5 5
1 6 3 6 5 6
2 1 4 1 6 1
2 2 4 2 6 2
2 3 4 3 6 3
2 4 4 4 6 4
2 5 4 5 6 5
2 6 4 6 6 6

După cum se observă, probabilitatea de a obţine „trei”


simultan pe fiecare zar este de 1/36.
Formula înmulţirii ne oferă o modalitate mai simplă de a
ajunge la acelaşi rezultat: dacă două fenomene sunt independente
atunci probabilitatea ca ambele să se petreacă în acelaşi timp este
produsul probabilităţii fiecăruia, adică:

P( A  B)  P( A)  P ( B ) .

În exemplul nostru, aruncarea unui zar nu afectează în nici un


fel aruncarea celuilalt, aşa că vom folosi formula înmulţirii şi vom
avea:

1 1 1
P( A3(1)  A3( 2) )  P( A3(1) )  P( A3( 2) )   
6 6 36

unde am notat cu A3(1) , A3( 2) realizarea evenimentului A3 pe primul,


10
respectiv al doilea zar.
Dar dacă prin aruncarea simultană am dori să obţinem 1 pe un
zar şi 5 pe celălalt?
Acest lucru ar fi posibil în două moduri: apariţia feţei 1 pe
primul zar şi a feţei 5 pe al doilea zar (evenimente independente) sau
invers. Totodată, evenimentele constând din apariţiile (1; 5) sau (5;
1) sunt incompatibile. Ţinând cont de toate acestea, deducem că
această probabilitate va fi:


P ( A1(1)  A5( 2) )  ( A5(1)  A1( 2) )  
  
 P ( A1(1)  A5( 2) )  P ( A5(1)  A1( 2) )  
1 1 1 1 2 1
 P ( A1(1) )  P( A5( 2) )  P ( A5(1) )  P( A5( 2) )      
6 6 6 6 36 18

Formula probabilităţii condiţionate


În anumite situaţii suntem conduşi la calculul probabilităţii
unui eveniment B, în ipoteza că un alt eveniment A de probabilitate
nenulă s-a produs. O astfel de probabilitate va fi denumită
probabilitatea evenimentului B condiţionată de evenimentul A va fi
notată cu PA (B) , sau cu P( B | A) şi va fi egală cu:

P( A  B)
PA ( B )  .
P ( A)

Din formula de mai sus rezultă imediat:

P( A  B)  P( A)  PA ( B) .

Să considerăm următorul exemplu. Presupunem că avem o


urnă care conţine 4 bile albe şi 5 bile roşii. Se extrag două bile, pe
rând, prima bilă extrasă nefiind reintrodusă în urnă. Să calculăm
probabilitatea ca ambele bile extrase să fie roşii. Să notăm cu A
evenimentul care constă în apariţia unei bile roşii la prima extragere
şi cu B evenimentul care constă în apariţia unei bile roşii la a doua
11
extragere. Evenimentul care ne interesează este, evident, A  B .
5 4 1
Avem mai întâi P ( A)  , iar apoi PA ( B)   , deoarece dacă
9 8 2
prima bilă extrasă a fost roşie, numărul bilelor roşii rămase în urnă
este 5  1  4 , iar numărul total al bilelor rămase în urnă devine
9  1  8 . În aceste condiţii obţinem

5 1 5
P( A  B)  P( A)  PA ( B)    .
9 2 18

12
2 Clasificarea şi ordonarea datelor

Odată ales un set de date „primare” pentru un studiu, în ideea


obţinerii unor rezultate corecte, acestea trebuie selectate, ierarhizate
şi prelucrate în cadrul unui sistem informaţional adecvat scopurilor
propuse de respectivul studiu. Metodele utilizate pentru prelucrarea
sau reprezentarea datelor cu care lucrăm, depinde de tipul acestora.
Deşi există mai multe criterii de clasificare în tipuri de date [7], ne
vom opri doar asupra aceluia care le deosebeşte după forma de
exprimare. Conform acestui criteriu, deosebim:
 date cantitative – cu variantele exprimate numai prin numere;
 date calitative – cu variantele exprimate numai prin cuvinte.
Acestea din urmă pot fi transpuse în limbaj cifric prin codificare.
La rândul lor, datele cantitative se împart în:
 continue – pot lua orice valoare dintr-un anumit interval. O
proprietate importantă a acestui tip de date este aceea că nu este
posibil să obţinem două valori identice. Dacă acest lucru s-ar obţine,
de exemplu, prin măsurarea cu un anumit instrument, aceasta ar
însemna că respectivul instrument nu este destul de performant şi,
sigur, cu unul mai bun, am fi putut distinge între cele două valori.
Ceea ce defineşte însă datele continue nu este numărul înregistrat, ci
dimensiunea teoretică fundamentală;
 discrete – pot lua numai anumite valori, de obicei, dar nu
obligatoriu, întregi. Numărul zilelor însorite dintr-un an calendaristic
este un exemplu de dată discretă. Nu are nici un sens să vorbim de
„536 zile însorite”. Indiferent de cât de precis ar fi „instrumentul” cu
care am măsura, nu am fi putut obţine decât o valoare cuprinsă între
0 şi 365. La fel, nu putem spune că 15,3 studenţi au obţinut nota 8 la
un examen, oricât de „precis” i-am număra. Să remarcăm faptul că,
pentru datele discrete, putem avea valori egale, fără ca aceasta să fie
rezultatul unei măsurări incorecte, ci să exprime egalitatea pentru o
anume caracteristică.

13
2.1 Serii de distribuţie

Una dintre noţiunile fundamentale ale statisticii este


frecvenţa.
Considerând, de exemplu, rezultatele unei grupe de studenţi
la un examen, putem aprecia o entitate izolată – un student – prin
răspunsul la întrebarea „Ce notă a luat studentul X la examen?”. Dar
atunci când ne referim la întreaga grupă, ne aşteptăm la întrebări de
genul „Câţi studenţi au promovat examenul şi câţi nu?”, „Câţi
studenţi au luat nota 7?” etc. Întrebările lansate ascund deja în ele
împărţirea studenţilor în grupe, după caracteristica de grupare „nota
la examen” („promovaţi – nepromovaţi”, „nota 7 – alte note”).
Răspunsul la întrebările respective nu înseamnă altceva decât
căutarea frecvenţelor caracteristicii respective sau, cu alte cuvinte, a
numărului de indivizi care populează fiecare clasă a caracteristicii.
Putem deci defini acum seria de distribuţie simplă ca fiind o
paralelă între şirul variantelor sau intervalelor de variaţie ale
caracteristicii atributive1 şi şirul frecvenţelor corespunzătoare fiecărei
variante sau interval. Este cunoscută şi sub numele de distribuţie
unidimensională.
Ca serie complexă, seria de distribuţie este o paralelă între
trei sau mai multe şiruri de date, în cadrul cărora se regăsesc două
sau mai multe variabile atributive şi şirul frecvenţelor
corespunzătoare. Prin urmare, putem avea distribuţii bidimensionale,
tridimensionale etc.
Frecvenţele specifice seriilor de distribuţie pot fi:
 frecvenţe absolute – reprezintă numărul de unităţi statistice
corespunzătoare fiecărei grupe sau variante; sunt numere naturale,
convenim să le notăm cu fi şi, dacă N este volumul colectivităţii
supuse studiului, avem
k
f1  f 2  ...  f k   f i  N ;
i 1
 frecvenţe relative – se determină ca raport între frecvenţele

O caracteristică atributivă reprezintă un atribut, o proprietate a unităţilor statistice


dintr-o colectivitate statistică, după care se face gruparea acestora.
14
absolute şi numărul total de unităţi; sunt numere subunitare, mai mari
sau egale cu zero, convenim să le notăm cu pi şi satisfac

k
p1  p 2  ...  p k   pi  1 ,
i 1
deoarece
f1 f f
p1  , p2  2 ,..., pk  k .
 fi  fi  fi
În mod obişnuit, atunci când se utilizează expresia „frecvenţe
relative” se presupune că este vorba despre frecvenţe relative la
unitate (  pi  1).
Frecvenţele relative la 100 (  pi  100 ) se numesc
„procente” (se notează cu semnul %), iar cele relative la 1000
(  pi  1000 ) se numesc „promile” (se notează cu semnul ‰).
Facem aceste precizări pentru a sublinia că semnele % şi ‰
înlocuiesc cuvintele „procente”, respectiv „promile” şi pentru a evita
pleonasme de genul „procentul promovaţilor în grupă este de 87%”
sau inadvertenţe terminologice de genul „procentul naşterilor în
România a fost de 15‰”.
Să remarcăm faptul că frecvenţele relative la unitate pot fi
interpretate ca ponderi ale claselor în totalul populaţiei. Totodată, ele
pot fi interpretate şi ca probabilităţi empirice, în sensul că pi
reprezintă probabilitatea ca, alegând la întâmplare un individ din cei
N, el să aparţină clasei i.
Un alt tip de frecvenţe care pot fi calculate sunt frecvenţele
cumulate. Ele au menirea de a arăta câţi indivizi (sau ce proporţie
sau ce procent din aceştia) fie se găsesc sub ori până la o anumită
valoare a caracteristicii de grupare, fie au atins ori au depăşit acea
valoare. În primul caz avem de-a face cu frecvenţe cumulate
crescătoare (ascendente), în cel de-al doilea caz, cu frecvenţe
cumulate descrescătoare (descendente).
Din definiţia seriei de distribuţie, rezultă faptul că unităţile
statistice sunt distribuite în clase omogene fie după variante, fie după
15
intervale de variaţie ale caracteristicii de grupare.
Repartizarea unităţilor după variante este specifică
variabilelor calitative, dar şi variabilelor cantitative discrete, cu un
domeniu îngust de variaţie. Construirea distribuţiilor după variante
nu ridică probleme deosebite. Un exemplu de distribuţie
unidimensională după variante este dat în tabelul 2.1 (s-au calculat şi
frecvenţele cumulate crescător).
Tabelul 2.1 Exemplu de repartiţie după variante –
repartiţia studenţilor după nota la un examen
Nota la Frecvenţe Frecvenţe Frecvenţe Frecvenţe
examen absolute absolute relative relative
(xi) (fi) cumulate (pi) cumulate
crescător crescător
3 2 2 0,025 0,025
4 4 6 0,050 0,075
5 10 16 0,125 0,200
6 16 32 0,200 0,400
7 8 40 0,100 0,500
8 20 60 0,250 0,750
9 16 76 0,200 0,950
10 4 80 0,050 1,000
 80 - 1,000 -

Repartizarea unităţilor după intervale de variaţie este


specifică variabilelor cantitative continue, dar şi celor discrete cu un
domeniu larg de variaţie. Construirea acestor distribuţii este mai
dificilă. Numărul de intervale şi, implicit, mărimea intervalelor de
variaţie, este unul dintre elementele esenţiale căruia trebuie să i se
acorde o atenţie deosebită.
Pentru determinarea numărului de intervale J există mai
multe propuneri:
 Brooks şi Carruthess2 propun: J  5 lg N , unde N = numărul
total de observaţii;

2
C.E.P.Brooks şi N.Carruthess, Handbook of Statistical Methods in Meteorology.

16
 Croxton şi Cowden3 propun ca numărul de intervale să fie
cuprins între 6 şi 16;
 H.A.Sturges propune J  1  3,322 lg N (formula cel mai des
utilizată).

Făcând presupunerea că gruparea se face pe intervale de


mărimi egale, din formula lui Sturges obţinem că mărimea fiecărui
x  xmin
interval va fi: K  max unde xmax şi xmin reprezintă valoarea
J
maximă, respectiv minimă din totalul observaţiilor.

Totuşi, stabilirea numărului de grupe depinzând numai de N,


ignoră complet amplitudinea distribuţiei şi, mai ales, modul în care
unităţile statistice sunt distribuite pe intervale (lucru esenţial în
metodologia de aplicare, de exemplu, a unor teste statistice, cum ar fi
testul Χ 2 („hi - pătrat”), care impune condiţii asupra numărului total
de indivizi, dar şi asupra numărului de indivizi dintr-o grupă).
Trebuie subliniat, deci, faptul că, în aceste situaţii, intuiţia
statisticianului, bazată pe practica sa, are un rol determinant în
alcătuirea seriei de distribuţie. O serie de distribuţie greşit alcătuită,
nu poate conduce decât la rezultate eronate.
Mai trebuie menţionat faptul că, la alcătuirea seriilor de
distribuţie după intervale de variaţie, pentru a nu apărea înregistrări
duble, trebuie specificat obligatoriu care capăt al intervalului de
variaţie se include în interval. De asemenea, trebuie menţionat că, în
cadrul prelucrărilor ulterioare, drept reprezentant al intervalului de
variaţie se va considera centrul acestuia.
Un exemplu de distribuţie unidimensională după intervale de
variaţie este dat în tabelul 2.2 (s-au calculat şi frecvenţele cumulate
crescător).

3
F.E.Croxton şi D.J.Cowden, Applied General Statistics.

17
Tabelul 2.2 Exemplu de repartiţie după intervale de variaţie –
repartiţia unui grup de persoane după înălţime
Intervalul Reprezentantul Frecvenţe Frecvenţe Frecvenţe Frecvenţe
de grupei absolute absolute relative relative
înălţime (xi) (fi) cumulate (pi) cumulate
- cm - crescător crescător
[145;155) 150 6 12 0,05 0,05
[155;165) 160 12 18 0,10 0,15
[165;175) 170 36 54 0,30 0,45
[175;185) 180 30 84 0,25 0,70
[185;195) 190 24 108 0,20 0,90
[195;205) 200 12 120 0,10 1,00
∑ - 120 - 1,00 -

2.2 Reprezentarea grafică a seriilor de distribuţie

Pentru seriile de distribuţie, reprezentările grafice specifice


sunt: histograma, poligonul frecvenţelor şi curba frecvenţelor
cumulate.

Histograma
Se deosebesc două tipuri de histogramă:
 Histograma prin batoane. Este specifică seriilor de distribuţie
după variante ale caracteristicii atributive; poate fi folosită şi pentru
reprezentarea distribuţiilor după intervale de variaţie, caz în care
centrele acestor intervale sunt luate ca elemente de referinţă.
Histograma corespunzătoare datelor din tabelul 2.1 este prezentată în
figura 2.1.
 Histograma prin dreptunghiuri (prin coloane sau bare
dreptunghiulare). Este specifică distribuţiilor după intervale de
variaţie; pentru distribuţiile cu variabile continue, nu se lasă spaţii
libere între coloanele histogramei; pentru distribuţiile cu variabile
discrete, pot fi lăsate spaţii libere între coloane dar de aceeaşi
mărime. Acest tip de histogramă este folosit şi pentru calculul grafic
al dominantei.
În principiu, metodologia de construcţie a acestor histograme
18
este aceeaşi. Pe abscisă se trec valorile scării de reprezentare aferente
caracteristicii de grupare; pe ordonată se trec valorile scării aferente
frecvenţelor. Pentru histograma prin batoane, se ridică de pe abscisă,
din dreptul diviziunilor scării, perpendiculare a căror înălţime este
proporţională cu frecvenţele corespunzătoare fiecărei variante. Pentru
histograma prin coloane, din dreptul intervalelor de pe abscisă, se
ridică dreptunghiuri (coloane) a căror înălţime este proporţională cu
frecvenţele corespunzătoare fiecărui interval.

Poligonul frecvenţelor
Se obţine prin unirea vârfurilor batoanelor sau prin unirea
mijlocului bazelor superioare ale dreptunghiurilor din histogramele
corespunzătoare. Exemplul corespunzător datelor din tabelul 2.1 este
prezentat în figura 2.2.

pi pi
0,50 0,50

0,40 0,40

0,30 0,30

0,20 0,20

0,10 0,10

3 4 5 6 7 8 9 10 Nota 3 4 5 6 7 8 9 10 Nota
Figura 2.1. Frecvenţa notelor Figura 2.2. Poligonul
obţinute la un examen frecvenţelor notelor

Curba frecvenţelor cumulate


Este cunoscută şi sub numele de Ogivă sau Curba lui Galton.
În principiu, modul de construcţie nu diferă de cel prezentat
la histogramă; deosebirea constă în aceea că, pe ordonată este trecută
scara de reprezentare a frecvenţelor cumulate.
Cumularea frecvenţelor se poate face în două sensuri: de la
19
începutul seriei spre sfârşitul acesteia (caz în care se obţine curba
ascendentă), sau de la sfârşitul seriei spre începutul său (caz în care
se obţine curba descendentă). Este folosită mai frecvent pentru
distribuţiile după intervale de variaţie.
De pe abscisă, din dreptul intervalelor, se ridică dreptunghiuri
a căror înălţime este proporţională cu frecvenţele cumulate
corespunzătoare fiecărui interval. Prin unirea extremităţilor din
dreapta ale bazelor superioare ale acestor dreptunghiuri, se obţine
ogiva. Exemplul corespunzător datelor din tabelul 2.2 este prezentat
în figura 2.3.
∑p
1,00 i

0,90

0,80

0,70

0,60

0,50

0,40

0,30

0,20

0,10

[145;155) [155;165) [165;175) [175;185) [185;195) [195;205) h


Figura 2.3 Curba frecvenţelor cumulate
Din combinarea modurilor de dispunere a frecvenţelor în
interiorul câmpului de variaţie, delimitat de variantele minimă şi
maximă ale caracteristicii de grupare, rezultă următoarele tipuri de
distribuţie:
 distribuţii simetrice – au frecvenţa maximă plasată în centrul
seriei, iar celelalte frecvenţe, descrescătoare şi egale două câte două,
se situează simetric de o parte şi de alta a frecvenţei maxime; aceste
distribuţii se întâlnesc în practică extrem de rar;
20
 distribuţii moderat asimetrice – prezintă o uşoară abatere de la
simetrie, cu o extindere fie spre stânga, fie spre dreapta a frecvenţelor
faţă de frecvenţa maximă; distribuţiile de acest gen sunt foarte des
întâlnite în practică;
 distribuţii extrem asimetrice – au frecvenţa maximă plasată în
una din cele două extremităţi; sunt destul de frecvent întâlnite în
practică, având însă o serie mai restrânsă decât distribuţiile moderat
asimetrice;
 distribuţii multimodale sau multiforme – frecvenţa maximă nu
este unică; sunt combinaţii ale celor trei forme anterioare şi se
întâlnesc mai rar în practică.
Forma distribuţiilor este dată de gradul de concentrare sau de
destindere a unităţilor dintr-o colectivitate dată, în interiorul
câmpului de variaţie a caracteristicii de grupare. Astfel, pot fi
distribuţii cu o boltă îngustă (ascuţită) determinată de faptul că
majoritatea unităţilor sunt concentrate în zona centrală a seriei; ele
sunt cunoscute sub numele de distribuţii leptocurtice. Se întâlnesc
distribuţii cu o boltă larg deschisă, determinată de o destindere a
frecvenţelor, aproximativ uniformă, pe o zonă mai mare a
domeniului de variaţie; acestea sunt cunoscute sub numele de
distribuţii platicurtice.
În cazul în care se doreşte evidenţierea părţilor unui întreg, a
elementelor structurale ale unui indicator, se utilizează diagramele
de structură. Pentru construirea lor, figura geometrică cel mai
frecvent utilizată este cercul. După trasarea sa, acesta se sectorizează
în funcţie de nivelurile indicatorilor structurali. În mod obligatoriu,
diagramele de structură sunt însoţite de legendă.
Să presupunem că datele din tabelul 2.1 le grupăm în patru
categorii: picaţi la examen (notele 3 şi 4), note slabe (5 şi 6), note
bune (7 şi 8) şi note foarte bune (9 şi 10), obţinând:

Tabelul 23 Notele studenţilor grupate în patru categorii


Note 3-4 5-6 7-8 9-10
fi 6 26 28 20
% 8 25 34 33

21
Pentru sectorizarea cercului, procedăm astfel: aria cercului
este echivalenta numărului total de studenţi (80); aceasta înseamnă
că, dacă celor 80 de studenţi le corespund 360○, atunci celor 6
studenţi le corespund 27○, celor 26 le corespund 117○, celor 28 le
corespund 126○ şi, în fine, celor 20 le corespund 90○. Se reprezintă
unghiurile la centru corespunzătoare acestor valori, iar sectoarele se
haşurează sau se colorează diferenţiat, conform figurii 2.4.
Structura notelor

8%
25%
Note 3-4
33% Note 5-6
Note 7-8
Note 9-10

34%

Figura 2.4 Exemplu de diagramă de structură

2.3 Indicatorii seriilor de distribuţie

2.3.1Indicatorii tendinţei centrale

Să presupunem că două grupuri de câte 10 studenţi, obţin la


un examen următoarele rezultate:

Grupul 1: 5, 7, 6, 8, 8, 7, 6, 7, 7, 6
Grupul 2: 9, 8, 9, 9, 10, 8, 8, 9, 7, 10

Distribuţiile notelor obţinute de cele două grupuri sunt


prezentate în figurile 2.5 şi 2.6.
22
fi

4
3
2
1

1 2 3 4 5 6 7 8 9 10 Note
Figura 2.5. Distribuţia notelor pentru primul grup

fi

4
3
2

1 2 3 4 5 6 7 8 9 10 Note
Figura 2.6. Distribuţia notelor pentru al doilea grup

Se poate uşor observa că forma distribuţiilor este identică,


numai că poziţia distribuţiei celui de-al doilea grup este deplasată pe
axă, datorită notelor mai mari obţinute. Spunem, de obicei, că
localizarea celor două distribuţii diferă. În multe cazuri se poate
dovedi utilă o modalitate de a caracteriza numeric localizarea unei
distribuţii, în scopul identificării diferenţelor între diverse distribuţii,
mai complicate decât cele din exemplul de mai sus. În acest sens,
avem la dispoziţie indicatorii tendinţei centrale (sau ai centrului de
grupare): media, mediana şi modul (dominanta).
Media este expresia sintetică a nivelurilor individuale ale
unei variabile oarecare, concretizată într-un singur nivel
reprezentativ, care evidenţiază ceea ce este esenţial, firesc, tipic şi
obiectiv în dezvoltarea unui fenomen [7].

23
Prin definiţie, media anihilează toate abaterile variantelor
caracteristicii de la nivelul său.
Deşi se deosebesc mai multe tipuri de medii, pentru scopul
lucrării noastre ne vom opri doar asupra a două dintre ele: media
aritmetică şi media pătratică.
Pentru fiecare dintre ele deosebim două forme:
 forma simplă, se foloseşte atunci când numărul variantelor
caracteristicii este egal cu numărul unităţilor statistice supuse
studiului, adică atunci când nu se repetă nici-o variantă;
 forma ponderată se foloseşte atunci când cel puţin o variantă se
repetă, fiind specifică seriilor de distribuţie.

Media aritmetică simplă


Funcţia determinantă este de tip adiţional, adică nivelul
general (total) al caracteristicii X se obţine prin însumarea variantelor
xi. Calculul mediei are la bază următoarea proprietate: substituind, în
cadrul funcţiei determinante, variantele xi cu media lor, nivelul
general al caracteristicii X nu trebuie să se schimbe. Deci:

x1  x2  ...  xn   xi
x  x  ...  x  nx
nx   xi  x 
 xi
n

Media aritmetică ponderată


Pentru media aritmetică ponderată, se foloseşte – în principiu
– aceeaşi metodologie, cu deosebirea că fiecare variantă este
ponderată (înmulţită) cu frecvenţa corespunzătoare. Deci:

x1 f1  x2 f 2  ...  xn f n   xi f i
xf1  xf 2  ...  xf n  x  f i

x  f i   xi f i  x 
 xi f i
 fi

24
Comparând relaţia mediei aritmetice ponderate cu cea a
mediei aritmetice simple, se observă că nivelul mediei aritmetice
ponderate este dependent de frecvenţele corespunzătoare fiecărei
variante.
Pentru exemplul nostru cu notele grupului de 80 de studenţi
(tabelul 2.1), media este:

x
 xi f i 
 fi
3  2  4  4  5  10  6  16  7  8  8  20  9  16  10  4
 
2  4  10  16  8  20  16  4
568
  7,10
80

Media pătratică
Este utilizată ca model matematic în calculul unuia dintre
indicatorii sintetici ai variaţiei şi anume abaterea standard sau
abaterea medie pătratică.
Metodologia de calcul este similară cu cea de la media
aritmetică, funcţia determinantă fiind tot de tip adiţional; deosebirea
constă în aceea că, în cazul mediei pătratice, se foloseşte pătratul
variantelor caracteristicii.
Astfel:

Media pătratică simplă

x12  x22  ...  xn2   xi2


x p2  x p2  ...  x p2  nx p2

nx p2   xi2  x p 
 xi2
n

25
Media pătratică ponderată

x12 f1  x22 f 2  ...  xn2 f n   xi2 f i


x p2 f1  x p2 f 2  ...  x p2 f n  x p2  f i

x p2  f i   xi2 f i  x p 
 xi2 f i
 fi
Pentru exemplul nostru cu notele grupului de 80 de studenţi
(tabelul 2.1), media pătratică este:

xp 
 xi2 f i 
 fi
3 2 2  4 2 4  5 210  6 216  7 2 8  8 2 20  9 216  10 2 4
 
2  4  10  16  8  20  16  4
4276
  53,45  7,31
80

Dacă pentru aceeaşi serie se calculează media aritmetică şi


media pătratică, întotdeauna x  x p .
Facem precizarea că în cazul seriilor alcătuite după intervale
de variaţie, indiferent de tipul de medie, se va lucra cu centrele
intervalelor. Aceasta, datorită faptului că, în interiorul intervalelor,
unităţile statistice se consideră uniform repartizate.

Mediana este acea valoare a caracteristicii care împarte


seria ordonată (crescător sau descrescător) în două părţi egale.
Pentru seriile alcătuite după variante ale caracteristicii de
grupare se deosebesc două cazuri:

a) Când seria are un număr impar de termeni – mediana este

26
varianta caracteristicii care ocupă locul central ( x n 1 ) în cadrul seriei
2
ordonate crescător sau descrescător.
De exemplu, fie seria: 15, 27, 10, 38, 23, 31, 18.
Ordonăm seria: 10, 15, 18, 23, 27, 31, 38.
Mediana este 23, ocupând locul (7  1) / 2  4 .

b) Când seria are un număr par de termeni – mediana este


dată de media aritmetică a celor doi termeni centrali din seria
xn  xn
1
ordonată crescător sau descrescător ( 2 2
).
2
De exemplu, fie seria: 15, 27, 10, 38, 23, 31, 18, 40.
Ordonăm seria: 10, 15, 18, 23, 27, 31, 38, 40.
Mediana este (23  27) / 2  25 (media aritmetică a locurilor
4 şi 5).

Pentru seriile de distribuţie alcătuite după intervale, se


foloseşte relaţia:

  fi  k
Me  Li    Sn  ,
 2  f Me
unde:
Li = limita inferioară a intervalului în care se plasează
mediana;
 fi
2 = jumătate din numărul de unităţi statistice, conform
definiţiei medianei;
Sn = suma frecvenţelor intervalelor care preced
intervalul în care se plasează mediana;
k = mărimea intervalului de variaţie;
fMe = frecvenţa intervalului în care se plasează mediana.

Această relaţie are la bază ipoteza că, în interiorul intervalului


de variaţie, unităţile statistice sunt uniform distribuite.
27
Astfel, pentru exemplul nostru cu repartiţia grupului de
persoane după înălţime (tabelul 2.2), vom avea:
Li = 175 Privind frecvenţele absolute cumulate, observăm că
termenul de rang 60 – cel care împarte seria în două
părţi egale –, deci şi mediana, se vor afla în intervalul
[175;185);
 f i  60 ;
2
Sn = 6+12+36 = 54;
k = 10;
fMe = 30.
Aplicând formula, obţinem:

Me  175  60  54 
10
 177 .
30

Dominanta (modul) este acea valoare a caracteristicii care


are frecvenţa cea mai mare.
Din definiţie, rezultă că dominanta este un indicator specific
seriilor de distribuţie.
Pentru seriile de distribuţie realizate după variante ale
caracteristicii de grupare nu se ridică nici-o problemă în determinarea
dominantei.
Pentru seriile de distribuţie realizate după intervale de variaţie
se foloseşte relaţia:

1
Do  Li  k
1   2
în care:
Li = limita inferioară a intervalului în care se plasează
dominanta;
k = mărimea intervalului de variaţie;
1 = frecvenţa maximă minus frecvenţa precedentă;
2 = frecvenţa maximă minus frecvenţa următoare.

28
Se observă că şi în cazul dominantei, relaţia este aplicabilă
seriilor de distribuţie unidimensionale alcătuite după intervale egale.
Pentru exemplul nostru cu repartiţia grupului de persoane
după înălţime (tabelul 2.2), vom avea:

Li = 165 Privind frecvenţele absolute, observăm că cea mai mare


frecvenţă (65) este în intervalul [165;175);
k = 10;
1 = 36 – 12 = 24;
2 = 36 – 30 = 6.
Aplicând formula, obţinem:

24
Do  165   10  173 .
24  6

Spre deosebire de mediană, care este influenţată doar de


numărul de cazuri observate, media este foarte sensibilă la valori
extreme, ea fiind influenţată atât de numărul de cazuri, cât şi de
valoarea lor. Spre exemplu, presupunând că măsurăm timpul de
reacţie al unei persoane, se poate întâmpla ca un factor care provoacă
o reacţie rapidă de obicei, să determine, în câteva cazuri, reacţii mai
lente, datorate neatenţiei persoanei respective în acele situaţii. Dacă
aceste „valori extreme” sunt consecinţa unui proces diferit de cel
urmărit în studiu, calcularea mediei poate duce la un rezultat
înşelător, iar calcularea medianei va fi preferată. (După cum vom
vedea, există „criterii” – teste statistice –, pentru eliminarea valorilor
care se abat în mod frapant de la majoritatea celorlalte date).
Având în vedere acest lucru, conchidem că media va fi
folosită dacă acordăm atenţie proprietăţilor numerice ale datelor (şi
suntem convinşi că au fost eliminate valorile aberante), în timp ce
mediana va fi folosită dacă aceste proprietăţi numerice nu sunt
importante sau dacă pot induce în eroare.
Modul este preferat atunci când avem nevoie de o măsurare
rapidă, sau suntem interesaţi de un caz anume.
Media, mediana şi dominanta constituie sistemul
indicatorilor tendinţei centrale. Ei se plasează, de regulă, în zona
29
centrală a distribuţiilor unidimensionale moderat asimetrice, fapt ce
la conferă un grad ridicat de semnificaţie, de reprezentativitate,
având o importanţă deosebită în practica de analiză statistică.
Mediana şi dominanta sunt cunoscute ca făcând parte din grupa
indicatorilor de poziţie.

2.3.2 Indicatorii variaţiei

Gradul de semnificaţie a indicatorilor prezentaţi anterior este


strâns legat de câmpul de variaţie a valorilor unui fenomen, de modul
de dispersare a acestor valori în interiorul câmpului de variaţie, de
gradul de aglomerare a cazurilor în jurul unor valori etc. Mărimile de
localizare discutate mai sus au în vedere doar unele aspecte ale
distribuţiei frecvenţelor şi nu prezintă toate informaţiile ce pot fi
aflate prin examinarea datelor. Aceste informaţii sunt cuantificate cu
ajutorul unor indicatori specifici dintre care ne vom opri asupra
amplitudinii, dispersiei, abaterii medie pătratică (abaterea standard),
coeficientului de variaţie.

Amplitudinea variaţiei oferă posibilitatea delimitării


câmpului de variaţie a unui fenomen. Se deosebesc două variante:
a) Amplitudinea absolută – calculată ca diferenţă între
varianta maximă şi varianta minimă ale caracteristicii:

Aa  xmax  xmin

b) Amplitudinea relativă – se calculează ca raport între


amplitudinea absolută şi media caracteristicii respective,
exprimându-se în procente:

Aa
Ar   100 .
x

Pentru exemplul nostru cu notele obţinute de cei 80 de

30
studenţi (tabelul 2.1), avem xmax  10 (nota maximă), xmin  3 (nota
minimă) şi x  7,10 (media). Aplicând formulele, obţinem:

Aa  10  3  7 puncte;
7
Ar   100  98,59 % .
7,10

Dispersia (sau, varianţa) se calculează ca o medie aritmetică


simplă sau ponderată a pătratului abaterilor variantelor caracteristicii
de la media lor (fiind de fapt, momentul centrat de ordinul doi),
folosind una dintre relaţiile:

 2 ( xi  x ) 2
simplă;
n

2 
 ( xi  x ) 2 f i ponderată.
 fi
Dezvoltând pătratele de la numărător şi distribuind numitorul,
vom obţine o formulă de calcul mai simplă pentru dispersie. Astfel:

  xi2  2 xi x  x  

2

 xi2  xi
2
  2   2x  
nx

n n n n


 xi2  2 x  x  x 2   xi2  x 2 ,
n n

şi, analog pentru forma ponderată.


Vom avea în final:

 2 xi2
 x  simplă;
2

31
 
2  xi2 f i
 x  ponderată.
2

 fi
Un mod simplu de a reţine acest lucru este: „Dispersia este
egală cu media pătratelor minus pătratul mediei”.

Utilizarea acestei formule pentru exemplul nostru cu notele


obţinute de cei 80 de studenţi (tabelul 2.1), este prezentată în tabelul
3.3.

Tabelul 3.3 Exemplu de determinare a dispersiei


xi fi xi f i x i2 xi2 f i
3 2 6 9 18
4 4 16 16 64
5 10 50 25 250
6 16 96 36 576
7 8 56 49 392
8 20 160 64 1280
9 16 144 81 1296
10 4 40 100 400
 80 568 - 4276

4276
Obţinem:  2   7,10 2  3,04 .
80

Pentru calcularea varianţei la nivel de eşantion – deci nu la


întreaga populaţie –, în cazul în care volumul acestuia n este mic (se
consideră eşantioane mici acelea pentru care n  30 ), pentru a
atenua erorile de reprezentativitate şi, deci, a diminua diferenţele
dintre indicatorii sintetici ai sondajului şi parametrii echivalenţi ai
bazei de selecţie se foloseşte formula:

2 
 ( xi  x ) 2 simplă;
n 1

32
 2 ( xi  x ) 2 f i
ponderată.
 fi  1
Dispersia nu poate fi folosită la caracterizarea variaţiei
distribuţiei (unităţile sale de măsură fiind „unităţi pătrate”), fiind
utilizată doar ca bază de calcul pentru abaterea medie pătratică. În
literatura de specialitate mai este cunoscută şi sub numele de
varianţă.
Abaterea standard sau abaterea medie pătratică se
calculează ca radical din dispersie, deci ca o medie pătratică – simplă
sau ponderată – a abaterilor absolute ale variantelor caracteristicii de
la media lor, folosind una dintre relaţiile:

  
 ( xi  x ) 2
2
simplă;
n

    ( xi  x ) 2 f i
2
ponderată.
 fi
Fiind un indicator de gradul I, ca şi media, poate fi folosită în
caracterizarea variaţiei, determinându-se cu ajutorul său intervalul
mediu de variaţie, astfel:

x    x   ; x   .

Pentru exemplul nostru avem:

  3,04  1,74 ,

deci intervalul mediu de variaţie va fi:

7,10  1,74; 7,10  1,74  5,36; 8,88 .


33
Coeficientul de variaţie se determină ca raport între abaterea
standard şi nivelul mediu al unei variabile oarecare, exprimându-se,
de obicei, în procente. El este de fapt, expresia relativă a abaterii
standard, adică ponderea acesteia în valoarea mediei. Deci, se
calculează după următoarea relaţie:


Cv   100 .
x

Cu cât nivelul său este mai apropiat de zero, cu atât variaţia


unui fenomen este mai redusă, mai slabă. În acest caz colectivitatea
studiată este mai omogenă; indicatorii sintetici folosiţi în analiza
diferitelor caracteristici ale acestei colectivităţi, au un grad din ce în
ce mai ridicat de semnificaţie. Cu cât nivelul coeficientului de
variaţie este mai îndepărtat de zero, cu atât variaţia fenomenului
studiat este mai pronunţată; eterogenitatea colectivităţii statistice este
din ce în ce mai accentuată; indicatorii sintetici au în acest caz un
grad de semnificaţie din ce în ce mai redus.
În practică se consideră semnificative valorile lui v de până la
30%. Nivelurile mai mari, presupun faptul că indicatorii sintetici,
folosiţi mai ales în calcule estimative, introduc erori din ce în ce mai
mari. Pentru evitarea acestor situaţii, atunci când v  30% , se
recomandă împărţirea colectivităţii în grupe omogene şi determinarea
indicatorilor sintetici pentru fiecare grupă.
Aplicând formula pentru exemplul nostru, obţinem:

1,74
Cv   100  24,51% ,
7,10

ceea ce reflectă o colectivitate destul de omogenă.


Coeficientul de variaţie este folosit pe scară largă în analiza
statistică, alături de abaterea standard, apreciindu-se cu ajutorul său
nu numai intensitatea variaţiei unui fenomen, ci şi gradul de
semnificaţie a unor valori tipice, cum este – spre exemplu – media.
Ca o concluzie a acestui paragraf, să reţinem faptul că
34
indicatorii determinaţi sunt în mod direct influenţaţi de valori
extreme, unele dintre aceste valori fiind chiar aberante, nefiind
caracteristice populaţiei studiate. Există metode de a depista şi a
elimina aceste valori, dar ne vom ocupa de ele în capitolul 5. Să mai
reţinem faptul că există modalităţi de a asocia valori numerice
conceptelor vagi de localizare şi dispersie. Datorită proprietăţilor lor,
unele dintre aceste modalităţi pot fi mai potrivite în anumite situaţii.
Odată ce se hotărăşte folosirea unei anumite modalităţi de măsurare a
localizării sau dispersiei unei distribuţii a datelor, nu trebuie uitat
faptul că există şi alte astfel de modalităţi, ce reflectă mai bine
anumite aspecte.

2.3.3 Indicatorii variabilei alternative a lui Bernoulli

În practică se întâlnesc deseori variabile ale căror variante se


exclud reciproc, adică una dintre variante este alternativa celeilalte,
atunci când sunt doar două posibilităţi de răspuns. De exemplu, un
produs care nu întruneşte condiţiile impuse de normele standardizate
de execuţie, este considerat rebut; posibilitatea de a fi în acelaşi timp
şi produs corespunzător este exclusă.
Denumirea de variabilă alternativă are la bază urna cu două
stări.
Să convenim deci că avem o variabilă aleatoare X care are
doar două stări posibile: x1, cu frecvenţa absolută f1 şi x2 , cu
frecvenţa absolută f2. Convenim să atribuim stării x1 (răspunsuri
afirmative „Da”, situaţie favorabilă etc.) cifra 1 şi stării x2
(răspunsuri negative „Nu”, situaţie nefavorabilă etc.) cifra 0. Fie
f1 f2
p ,q frecvenţele relative ale stărilor x1 şi x2;
f1  f 2 f1  f 2
evident, p  q  1 . Să determinăm pentru această variabilă indicatorii
media, dispersia şi abaterea medie pătratică.
Avem:

35
x
 xi f i  x1 f1  x2 f 2  1  f1  0  f 2  p
 fi f1  f 2 f1  f f1  f

2 
 ( xi  x ) f i  ( x1  x ) f1  ( x 2  x ) 2 f 2 
2 2

 fi f1  f 2
f1 f2
 (1  p) 2  (0  p ) 2 
f1  f 2 f1  f 2
 q 2 p  p 2 q  pq (q  p)  pq .

Am obţinut deci:
media: x  p;
dispersia:  2  pq ;
abaterea standard:   pq  p(1  p) .

36
3 Corelaţia în analiza legăturilor dintre
fenomene

3.1 Introducere

Corelaţia este o metodă statistică utilizată pentru a determina


relaţiile dintre două sau mai multe variabile. Există mai multe tipuri
de corelaţii, atât parametrice, cât si neparametrice. Metodele
parametrice sunt preferate, deoarece sunt mai solide, ceea ce
înseamnă creşterea şansei de a respinge o ipoteză falsă.
Coeficientul de corelaţie este o valoare cantitativă ce descrie
relaţia dintre două sau mai multe variabile. El variază între -1 şi +1,
unde valorile extreme presupun o relaţie perfectă între variabile, în
timp ce 0 înseamnă o lipsă totală de relaţie.
Etimologic „corelaţia” îşi are rădăcina în cuvântul latinesc
correlatio = relaţie cu…; cuvântul corelaţie are – în esenţă – şi în
limba română acelaşi înţeles, exprimând relaţia, legătura reciprocă
dintre fenomene.
Variabilitatea fenomenelor social-economice este
determinată, în majoritatea cazurilor, de acţiunea simultană a mai
multor factori; o parte dintre aceşti factori favorizează evoluţia unui
fenomen, alţii o frânează sau acţionează chiar în sens invers.
Sensurile şi intensităţile diferiţilor factori se schimbă în
condiţii de timp şi spaţiu, astfel că evoluţia fenomenelor dependente
înregistrează şi ea tendinţe diferite faţă de cele anterioare.
Raporturile de cauzalitate dintre fenomenele social-
economice pot fi cuantificate şi analizate cu ajutorul corelaţiei.
Informaţiile obţinute sunt deosebit de utile, mai ales pentru faptul că,
metodele specifice pe care statistica le pune la dispoziţia
cercetătorului, oferă posibilitatea cunoaşterii, în principal, a
următoarelor aspecte:
 existenţa raporturilor de cauzalitate dintre fenomene;
 contribuţia fiecărui factor la variabilitatea globală a
37
fenomenelor efect;
 intensitatea legăturilor cauzale dintre fenomenele şi procesele
social-economice;
 tendinţele evolutive ale corelaţiei dintre fenomene.
Analiza corelaţiei oferă o paletă largă de informaţii, fiind
preferată altor metode de studiere a legăturilor dintre fenomene, deşi
determinarea indicatorilor specifici corelaţiei este mult mai dificilă.

3.2 Corelaţia – noţiune, tipuri

Corelaţia este expresia sintetică a intensităţii legăturilor


cauzale dintre fenomene.
Cuplul corelativ poate cuprinde două sau mai multe variabile,
din care una este variabila efect, cunoscută sub numele de variabilă
rezultativă, simbolizată în general cu Y, iar celelalte sunt variabile
cauză, cunoscute sub numele de variabile factoriale – fiind
simbolizate cu X1, X2, X3,...
Se deosebesc mai multe tipuri de corelaţie.

a) După numărul de variabile din cuplul corelativ, se disting:


a1) Corelaţie simplă. În cadrul său cuplul corelativ
cuprinde două variabile, din care una este variabila rezultativă Y şi
cealaltă variabila factorială X.
a2) Corelaţie multiplă. Cuplul corelativ cuprinde trei sau
mai multe variabile, dintre care una este variabila rezultativă Y şi
celelalte sunt variabilele factoriale X1, X2, X3,...
Dat fiind faptul că, în general, variabilitatea unui fenomen
social-economic este determinată de acţiunea simultană a mai multor
factori, corelaţia simplă apare mai mult ca o corelaţie parţială,
determinată în condiţiile considerării celorlalte influenţe din afara
cuplului corelativ al acestui tip de corelaţie ca fiind constante.

b) După sensul legăturilor factoriale, se deosebesc:


b1) Corelaţie directă. În cadrul său variabilitatea
38
rezultativei Y se produce în acelaşi sens cu variabilitatea factorialei X
(sau factorialelor X1, X2, X3,...).
b2) Corelaţia inversă. În cadrul său variabilitatea
rezultativei Y se produce în sens invers cu variabilitatea factorilor
determinanţi.

c) După forma legăturilor cauzale, se disting:


c1) Corelaţie lineară. Constă în aceea că variabila
rezultativă Y înregistrează o tendinţă lineară ca urmare a factorilor
determinanţi.
c2) Corelaţia nelineară. În acest caz, variabilitatea
rezultativei Y se integrează într-o tendinţă de tip nelinear (parabolic,
exponenţial, logaritmic etc.).
Cunoaşterea formei corelaţiilor prezintă un interes deosebit în
estimarea tendinţelor evolutive ale fenomenelor efect în strânsă
legătură cu variabilitatea factorilor determinanţi. Evident, o tendinţă
lineară a rezultativei Y, sugerează faptul că nivelurile acestei
variabile cresc sau descresc aproximativ în progresie aritmetică;
tendinţa nelineară, evidenţiază modificarea acestor niveluri în
progresie geometrică, exponenţială etc. Aceste informaţii sunt
deosebit de utile în calculele de previziune precum şi în modelarea
tendinţelor evolutive.

3.3 Metode orientative în analiza corelaţiei

În analiza corelaţiei, pot fi folosite, în funcţie de rigurozitatea


rezultatelor cerute, metode puternice, care, cu o anumită
probabilitate, pot afirma / infirma existenţa şi intensitatea legăturii,
sau metode mai simple, dar nu atât de precise în afirmarea /
infirmarea acestei legături. Prezentăm în continuare două dintre
metodele expeditive, des utilizate în practică.

3.3.1 Metoda grafică


39
Această metodă elementară presupune construirea şi folosirea
corelogramei în analiza corelaţiei. Modul de construire al
corelogramei este următorul: pe abscisă se trec valorile scării de
reprezentare a variabilei factoriale X; pe ordonată se trec valorile
variabilei rezultative Y; prin unirea punctelor corespunzătoare
coordonatelor (x,y) se obţine corelograma.
Cu ajutorul acestei metode se pot evidenţia următoarele
aspecte:
a) Sensul corelaţiei – este dat de sensul corelogramei; dacă
punctele corespunzătoare coordonatelor (x,y) se dispun pe o
corelogramă a cărei tendinţă este ascendentă, atunci între cele două
variabile există o corelaţie directă; dacă punctele se dispun pe o
corelogramă descendentă, atunci între cele două variabile este o
corelaţie inversă.
b) Forma corelaţiei – este dată de forma corelogramei; dacă
oscilaţiile evidenţiate de corelogramă au aproximativ aceeaşi
amplitudine, atunci corelaţia este lineară; dacă amplitudinile acestor
oscilaţii sunt diferite, evidenţiind o schimbare de tendinţă, atunci
corelaţia este nelineară (de tip parabolic, exponenţial, logistic etc.).
Metoda grafică este frecvent folosită în analiza corelaţiei,
fiind utilizată în foarte multe cazuri ca element esenţial în alegerea
funcţiilor statistico-matematice pentru analiza regresiei şi intensităţii
corelaţiei.

3.3.2 Metoda tabelului de corelaţie

Metoda presupune gruparea ambelor caracteristici, x şi y într-


un tabel cu dublă intrare. Tabelul de corelaţie este un astfel de tabel
cu dublă intrare în care pe coloane se trec grupele formate după
variaţia caracteristicii factoriale x (sau variantele caracteristicii
factoriale), ordonate crescător, iar pe linii se înscriu grupele
referitoare la variaţia caracteristicii dependente y (sau variantele
acestei caracteristici), de preferinţă ordonate descrescător. Se
recomandă ca, atunci când seria este alcătuită după intervale de
40
variaţie, să se utilizeze intervale egale de grupare, un număr suficient
de grupe, iar numărul de grupe să fie acelaşi pentru cele două
caracteristici studiate (atunci când este posibil). Fiecare celulă a
tabelului se află la întretăierea unei anumite grupe (variante) după x,
cu o altă grupă (variantă) după y; în celula respectivă se trece
numărul unităţilor care se înscriu simultan în cele două grupe
considerate (după variaţia lui x şi după variaţia lui y). Atunci când
frecvenţele din tabel tind să se concentreze în jurul unei diagonale,
între cele două caracteristici reprezentate există legătură de corelaţie.
În caz contrar (frecvenţe distribuite neuniform în tot tabelul)
variabilele x şi y sunt independente. Tabelul de corelaţie arată atât
existenţa, cât şi sensul legăturii; dacă majoritatea frecvenţelor sunt
localizate pe diagonala principală (stânga-jos – dreapta-sus), legătura
este directă, iar când se situează pe diagonala secundară (stânga-sus –
dreapta-jos), legătura este inversă. Prin această interpretare a
concentrării frecvenţelor, valabilă în cazul ordonării descrescătoare a
grupelor referitoare la variaţia caracteristicii dependente y, tabelul de
corelaţie se apropie de metoda grafică. În situaţia ordonării
crescătoare a valorilor lui y (tabelul 6.2.3), interpretarea sensului
legăturii este opusă.

3.4 Corelaţia simplă

În cadrul analizei corelaţiei se au în vedere, în principal, două


aspecte esenţiale:
a) Regresia – cu ajutorul căreia, prin folosirea şi interpretarea
coeficienţilor de regresie ai diferitelor funcţii statistico matematice,
se determină contribuţiile factorilor determinanţi la variabilitatea
fenomenelor efect;
b) Intensitatea corelaţiei – sintetizată cu ajutorul
coeficienţilor de corelaţie.
Pentru corelaţia simplă, primul aspect poate fi evidenţiat cu
ajutorul funcţiilor: lineară – pentru legăturile cauzale de tip linear;
parabolică, hiperbolică, exponenţială, logaritmică, semilogaritmică,
logistică etc. – pentru legăturile cauzale de tip nelinear.
41
Problema care se pune constă în determinarea unei legături
funcţionale între variabila factorială X şi cea rezultativă Y:

Y  f (a1 , a2 ,..., ak , X )

care să satisfacă:
yi  f (a1 , a2 ,..., ak , xi ) , i  1, n

unde x1 , x 2 ,..., x n , y1 , y 2 ,..., y n sunt valorile cunoscute ale factorialei,


respectiv ale rezultativei (valori empirice), iar a1 , a 2 ,..., a k sunt
parametri care trebuie determinaţi.
Determinarea parametrilor se face cu ajutorul „metodei celor
mai mici pătrate”, al cărui principiu constă în minimizarea sumei
pătratelor diferenţelor dintre valorile empirice şi cele teoretice.
Deci:
n
S   ( yi  f (a1 , a 2 ,..., a k , xi )) 2  min .
i 1
Minimul acestei expresii se obţine pentru acele valori ale
parametrilor a1 , a2 ,..., ak , soluţii ale sistemului de ecuaţii normale
S
 0 , j  1, k , sistem care poate fi rezolvat printr-una dintre
a j
metodele de rezolvare ale sistemelor liniare.
Vom prezenta în continuare trei dintre cele mai utilizate
funcţii în studiul corelaţiilor: funcţia liniară, funcţia parabolică şi
funcţia hiperbolică. Vom face unele observaţii asupra comportării
acestor, vom prezenta sistemele de ecuaţii normale precum şi
graficele unor funcţii din aceste categorii. Pentru mai multe detalii,
precum şi pentru comportarea altor funcţii utilizate în studiul
corelaţiei vezi [6].
O observaţie general valabilă este aceea că, în cazurile în care
apar, termenii liberi sintetizează nivelul variabilei rezultative Y în
absenţa influenţei factorialei X.
Funcţia liniară y  a  bx este strict crescătoare pentru b  0
42
şi strict descrescătoare pentru b  0 . Sistemul de ecuaţii normale
pentru funcţia liniară este:

 na  b x  y

a  x  b x   xy
2

Un exemplu de funcţii liniare este prezentat în figura 3.1.

Figura 3.1 Exemplu de funcţii liniare

Funcţia parabolică, y  a  bx  cx 2 , are un punct de extrem


b 
de coordonate ( ; ) , acest punct fiind de minim dacă c  0 şi
2c 4c
respectiv de maxim dacă c  0 , iar graficul funcţiei este simetric în
b
raport cu dreapta x   . Sistemul de ecuaţii normale pentru
2c
funcţia parabolică este:
43
 na  b x  c x 2  y

 a x  b x 2  c x 3   xy
a x 2
   b x 3  c x 4   x2 y

Un exemplu de funcţii parabolice este prezentat în figura 3.2.

Figura 3.2 Exemplu de funcţii parabolice

b
Funcţia hiperbolică y  a  este strict crescătoare pentru
x
b  0 şi strict descrescătoare pentru b  0 . Sistemul de ecuaţii
normale pentru funcţia hiperbolică este:

44
 1
 na  b  y
x ,x0
 1 1 y
a   b  
 x x2 x

Un exemplu de funcţii hiperbolice este prezentat în figura 3.3.

Figura 3.3 Exemplu de funcţii hiperbolice

Alegerea legăturii funcţionale dintre cele două variabile


supuse studiului – şi nu numai dintre cele prezentate mai înainte –
depinde, într-o foarte mare măsură, de experienţa şi intuiţia
cercetătorului. Subliniem, totuşi, importanţa unui criteriu puternic,
cel al „abaterii reziduale minime” în alegerea celei mai potrivite
expresii a legăturii, în momentul în care există dubii asupra naturii
acesteia. În ce constă acest criteriu? Pentru fiecare dintre funcţiile
presupuse a descrie legătura dintre variabilele studiate, se calculează
abaterea reziduală,

45
  i i ,
( y  Y )2
n

unde yi reprezintă valorile empirice, iar Yi reprezintă valorile


teoretice, obţinute prin înlocuirea valorilor factorialei X în expresia
teoretică a funcţiei. În final, dintre funcţiile propuse, se va alege cea
pentru care această abatere reziduală este cea mai mică.

De exemplu, cunoscând următoarele date referitoare la două


serii de valori:

X 1,5 1,8 2,5 3,2 3,4 4,0 4,5 5,2 5,7 6,3
Y 13,0 11,3 9,0 7,7 7,4 6,7 6,3 5,9 5,6 5,4

se cere să se determine natura legăturii dintre cele două variabile,


utilizând funcţia lineară, funcţia parabolică şi funcţia hiperbolică,
iar apoi, pe baza principiului abaterii reziduale minime, să se
determine care din cele trei funcţii aproximează cel mai bine
legătura dintre variabile.
Pentru cazul unei legături liniare Y  a  bX , sistemul de
ecuaţii normale pentru estimarea parametrilor modelului este:

 10  a  38,1  b  78,3

38,1  a  169,01  b  263,91

obţinut prin înlocuirile:

n  10 ,  xi  38,1 ,  yi  78,3 ,  xi2  169,01 ,  xi yi  263,91 .

În urma calculelor, se obţin parametrii: a  13,33 , b  1,44 ,


iar ecuaţia de regresie are forma:

Y  13,33  1,44 X .
Valorile ajustate se obţin înlocuind valorile lui X cu fiecare
46
dintre valorile seriei iniţiale, astfel:

Y1  13,33  1,44  1,5  11,17


Y2  13,33  1,44  1,8  10,74
...
obţinându-se tabelul următor:
X 1,5 1,8 2,5 3,2 3,4 4,0 4,5 5,2 5,7 6,3
Y  13,33  1,44 X 11,17 10,74 9,73 8,72 8,43 7,57 6,85 5,84 5,12 4,26

Calculând abaterea reziduală pentru acest caz, se obţine:

10
 ( yi  Yi ) 2 8,89
i 1
1    0,94 .
10 10

Pentru cazul unei legături parabolice Y  a  bX  cX 2 ,


sistemul de ecuaţii normale pentru estimarea parametrilor modelului
este:

 10  a  38,1  b  169,01  c  78,3 38,1  a  169,01  b  827,88  c  263,91
169,01  a  827,88  b  4321,23  c  1077,09

obţinut prin înlocuirile:

n  10 ,  xi  38,1 ,  y i  78,3 ,  xi2  169,01 ,  xi y i  263,91


 x 3i  827,88 ,  xi4  4321,23 ,  x i2 yi  1077,09

În urma calculelor, se obţin parametrii: a  18,53 , b  4,66 ,


c  0,42 , iar ecuaţia de regresie are forma:
Y  18,53  4,66 X  0,42 X 2
47
Valorile teoretice obţinute sunt prezentate în tabelul următor:

X 1,5 1,8 2,5 3,2 3,4 4,0 4,5 5,2 5,7 6,3
Y 12,48 11,50 9,49 7,89 7,51 6,57 6,01 5,58 5,52 5,73

Calculând abaterea reziduală pentru acest caz, se obţine:

10
 ( yi  Yi ) 2 0,92
i 1
2    0,30 .
10 10

b
Pentru cazul unei legături hiperbolice Y  a  , sistemul
X
de ecuaţii normale pentru estimarea parametrilor modelului este:

 10  a  3,23  b  78,3

3,23  a  1,30  b  29,18

obţinut prin înlocuirile:

1 1 y
n  10 ,   3,23 ,  yi  78,3 ,  2
 1,30 ,  i  29,18
xi xi xi

În urma calculelor, se obţin parametrii: a  2,99 , b  15,00 ,


iar ecuaţia de regresie are forma:

15
Y  2,99 
X

Valorile teoretice obţinute sunt prezentate în tabelul următor:

X 1,5 1,8 2,5 3,2 3,4 4,0 4,5 5,2 5,7 6,3
Y 12,99 11,32 8,99 7,68 7,40 6,74 6,32 5,87 5,62 5,37
48
Calculând abaterea reziduală pentru acest caz, se obţine:

10
 ( yi  Yi ) 2 0,0052
i 1
3    0,022 .
10 10

Pe baza principiului abaterii reziduale minime, deducem că


dintre cele trei funcţii propuse, funcţia parabolică aproximează cel
mai bine legătura dintre cele două variabile.

Să mai facem o observaţie importantă. Unul din principalele


capitole ale statisticii are în vedere posibilitatea de a face predicţii.
Deşi nu se găsesc relaţii perfecte în lumea reală, prin intermediul
regresiei se pot face predicţii ale unei variabile (rezultativă), în
funcţie de valoarea alteia (factorială). Predicţia este procesul de
estimare a valorii unei variabile cunoscând valoarea unei alte
variabile. Ori, pentru creşterea gradului de încredere a estimărilor
făcute, se poate folosi orizontul previzional, determinat cu ajutorul
uneia dintre relaţiile:

 y  t , pentru cazul linear;


sau
Yi  v
 y   , pentru cazul nelinear,
100
unde:
t u2
1 
t  argumentul funcţiei (t )  e 2 du ;
2 0

  ( yi  Yi ) 2
;
n

v  100 (coeficientul de variaţie).
Y

49
Se obţin astfel intervalele de încredere (Yi  y ; Yi  y) , ale
căror limite se înscriu pe două drepte paralele cu dreapta de regresie
în cazul linear şi pe două curbe în cazul nelinear.

Pentru exemplul precedent, dacă, de exemplu, am fi vrut să


estimăm valoarea lui Y pentru X  6,5 am fi putut spune că ne
aşteptăm ca această valoare să fie în intervalul (Yi  y ; Yi  y) ,
obţinut astfel:

Y  9,18 ;
10
 ( yi  Yi ) 2 0,0052
i 1
3    0,022 ;
10 10
 0,022
v   100   100  0,23965 ;
Y 9,18
15 15
Yi  2,99   2,99   5,30 ;
X 6,5
Y v 5,30  0,23965
 y   i    0,01 ;
100 100
Yi  y  5,29 ;
Yi  y  5,31 ,

adică în intervalul 5,29 ; 5,31 .

3.4.1 Coeficientul de corelaţie Pearson (cazul


regresiei liniare)

Intensitatea corelaţiei simple lineare este dată de coeficientul


de corelaţie lineară al lui Pearson:

50
n xi yi   xi   yi 
rXY 
n x 2
i 
 xi 2  n yi2  yi 2 
În practică se consideră că dacă:
0  rXY  0,2 între cele două variabile nu există nici-o legătură;
0,2  rXY  0,5 există o legătură slabă;
0,5  rXY  0,75 există o legătură de intensitate medie;
0,75  rXY  0,95 există o legătură puternică;
0,95  rXY  1 există o legătură relativ deterministă.

De exemplu, considerând următoarele două serii de valori:

X 2,1 1,3 3,4 5,2 4,7 2,6 3,8 1,9


Y 1,8 3,7 2,6 4,5 5,3 2,2 2,8 3,4

să se determine coeficientul de corelaţie Pearson.


Avem:

 x  25;  y  26,3;  xy  88,56;  x 2  91,6;  y 2  96,27


şi, înlocuind în formulă, obţinem:

8  88,56  25  26,3
rXY  
(8  91,6  25 2 )  (8  96,27  26,3 2 )
708,48  657,5 50,98
   0,55
107,8  78,47 91,97

adică o legătură directă, de intensitate medie.

Odată calculat coeficientul de corelaţie, nu trebuie să ne


grăbim să-l interpretăm direct, trebuie mai întâi verificată
51
semnificaţia sa. Acest lucru presupune consultarea unei tabele special
construite (Tabelul anexă nr.1). Se poate respinge astfel ipoteza
conform căreia există o relaţie adevărată (semnificativă) între
variabile, iar eventualele asocieri se datorează întâmplării. Dacă o
relaţie este semnificativă din punct de vedere statistic, adică este de
încredere, înseamnă că vom obţine rezultate similare dacă s-ar reface
experimentul.
În utilizarea tabelului anexă nr.1 putem alege diferite praguri
de semnificaţie, însă, la nivelul comunităţii ştiinţifice internaţionale,
se consideră că pragul minim acceptat pentru a considera o relaţie
semnificativă statistic este 0,05, dar acesta poate fi şi mai mic
(implicit, gradul de încredere, mai mare).

Pentru testarea semnificaţiei unui coeficient de corelaţie este


necesară parcurgerea următorilor paşi:
1. Se alege nivelul de semnificaţie dorit, să zicem de 0,05.
2. Se stabileşte tipul de relaţie între variabile: bilaterală, respectiv
unilaterală. Cercetătorul este cel care decide ce valoare va
consulta. În cazul în care din punct de vedere teoretic, se
urmăreşte să se demonstreze că două variabile se corelează fie
direct, fie invers, va fi folosit testul unilateral. Dacă asemenea
informaţii lipsesc şi se doreşte relevarea doar a coeficientului de
corelaţie fără a se preciza direcţia legăturii, vorbim despre testul
bilateral.
3. Se citeşte din tabel valoarea lui r pentru coloana corespunzătoare
numărului de grade de libertate ( n  2 , n fiind numărul de
subiecţi).
4. Dacă valoarea lui r obţinută în urma calculării sale o depăşeşte
pe cea din tabel, atunci aceasta este semnificativă la pragul de
semnificaţie ales, în cazul nostru de 0,05 şi numărul de grade de
libertate specificat. Se poate observa că valoarea coeficientului
de corelaţie necesară pentru un r „semnificativ” scade pe măsură
ce creşte numărul de subiecţi, implicit gradele de libertate. Se
remarcă astfel că valorile foarte mici ale coeficienţilor de
corelaţie pot fi semnificative numai dacă se lucrează cu grupe
mari de subiecţi.
52
3.4.2 Cazul regresiei neliniare

În cazul regresiei nelineare (parabolică, hiperbolică,


exponenţială, logaritmică etc.) pentru determinarea intensităţii
corelaţiei se foloseşte raportul de corelaţie, care are la baza
metodologiei de calcul descompunerea dispersiei generale în
dispersii factoriale. Astfel:

 yi  y 2
 y2   (dispersia generală);
n

 y xi  y 
2
 2
yx  (dispersia valorilor teoretice faţă de
n
media lor sau dispersia variaţiei
explicate; am ţinut cont că y x  y );
 yi  y xi 
2
 2
yyx  (dispersia valorilor teoretice faţă de
n
cele empirice, sau dispersia variaţiei
neexplicate, sau dispersia reziduală).
Avem că:

 y2   y2x   yy
2
x
(regula de adunare a dispersiilor).

Împărţind prin  y2 , obţinem:

 y2x  yy
2
 y2x  yy
2
1  x
; R 
2
, sau R  1 
2 x

 y2  y2  y2  y2

unde: R2 = coeficientul de determinaţie.

53
Din coeficientul de determinaţie obţinem raportul de
corelaţie:

 yy
2
R  R  1
2 x
, care are proprietatea: 0  R  1 .
 y2

Pentru exemplul în care am determinat dintre cele trei funcţii


pe cea hiperbolică, intensitatea corelaţiei, dată de raportul de
corelaţie, ar fi fost:

  yi  Yi 
2
0,0052
R  1  1  0,99
  yi  y 
2
23,849

valoare care evidenţiază o legătură relativ deterministă între cele


două variabile.

3.4.3 Coeficientul de corelaţie eneahoric

În anumite situaţii, din diverse motive, se renunţă la


clasificarea în amănunt a datelor continue, acestea fiind grupate
pentru fiecare variabilă în câte trei clase (inferior-mediu-superior,
dezacord-indiferent-acord, sub medie-medie-peste medie etc.). În
acest caz, în care suntem interesaţi de clasele extreme, datele se
aranjează într-un table particular. Vom calcula în acest caz
coeficientul de corelaţie eneahoric pentru un număr de subiecţi.
Pentru a prezenta formula de calcul a acestui coeficient de
corelaţie, să acceptăm, pentru ambele variabile, clasificarea inferior-
mediu-superior.
Datele vor fi grupate într-un table, după cum urmează:

X
Superior Mediu Inferior
Y
54
Superior n1 a n2 A  n1  a  n2
Mediu b c d
Inferior n4 e n3 B  n4  e  n3
D  n1  b  n4 C  n2  d  n3

Formula după care se determină r în acest caz particular este:

n1  n3  n2  n4 
 A  B C  D 
r n ,
 A  B2  C  D 2 
 A  B    C  D   
 n   n 

unde n reprezintă numărul total de subiecţi (după cum se observă, în


calcule nu intră varianta mediu-mediu).
Valoarea r astfel obţinută este comparată cu valoarea din
Tabelul anexă nr.1 corespunzătoare la n  2 grade de libertate,
asemănător modului amintit la explicarea interpretării semnificaţiei
coeficientului de corelaţie r al lui Pearson.

De exemplu, presupunând că un număr de 82 de subiecţi, au


răspuns la două întrebări şi au fost clasificaţi după cum urmează:

X
Superior Mediu Inferior
Y
Acord 15 10 2 A  27
Indiferent 2 12 6
Dezacord 3 8 8 B  19
D  20 C  16

Înlocuind în formulă, obţinem:

55
15  8  2  3 
27  1916  20
r 82  0,45 .

   
27  192  16  20  16  202 
 27 19  
 82   82 

Pentru 80 grade de libertate şi un nivel de semnificaţie


  0,05 (test bilateral), din tabelul anexă nr.1 avem r  0,2172 ,
deci putem aprecia că r calculat este semnificativ.

3.4.4 Coeficienţii de corelaţie biserial şi triserial

În practică, există situaţii în care suntem nevoiţi să studiem


legătura dintre o variabilă continuă şi una discontinuă (dihotomică,
respectiv trihotomică). În aceste cazuri se utilizează un coeficient de
corelaţie biserial, respectiv triserial. Condiţia care se impune în
calcularea unor astfel de coeficienţi de corelaţie este ca numărul de
subiecţi n să fie mai mare sau egal cu 50.

Coeficientul de corelaţie biserial


Considerând că variabila dihotomică poate lua valorile A şi B,
formula de calcul al coeficientului de corelaţie biserial este:

x1  x 2 pq
r 
s y
unde:
x1 = media valorilor variabilei continue pentru subiecţii care au
caracteristica A a variabilei dihotomice;
x 2 = media valorilor variabilei continue pentru subiecţii care au
caracteristica B a variabilei dihotomice;
s = abaterea standard a variabilei continue pe întreg lotul de
subiecţi;

56
pq
= valoare care se ia dintr-un tabel special (tabelul anexă nr.2)
y
în funcţie de p, sau de q.

De exemplu, un eşantion de 200 de persoane este ales să


aprecieze printr-o notă de la 1 la 5 activitatea generală a
autorităţilor locale (variabila continuă), iar apoi să-şi exprime
acordul sau dezacordul cu privire la realizarea unui proiect de
interes local (variabila dihotomică). Rezultatele sondajului sunt
prezentate în tabelul următor:

Note
Total
1 2 3 4 5
Acord 7 12 15 26 52 112
Dezacord 22 24 18 12 12 88
Total 29 36 33 38 64 200

Calculând, obţinem:

x1 
 xi f i  1  7  2  12  3  15  4  26  5  52  3,93
 fi 112
(media celor care au fost de acord cu proiectul)

x2 
 xi f i  1  22  2  24  3  18  4  12  5  12  2,64
 fi 112
(media celor care şi-au manifestat dezacordul faţă de proiect)

x
 xi f i  3,36 (media generală)
 fi
s 
2  xi  x  f i
2

 2,10 (dispersia generală)


 fi
s  1,45

57
112 88
p  0,56 ; q   0,44
200 200

În tabelul anexă nr.2 , pentru p  0,56 sau q  0,44 , găsim


pq
 0,6247 .
y
Înlocuind, avem:
3,93  2,64
r  0,6247  0,56 .
1,45

Coeficientul de corelaţie triserial


Constituie, de fapt, o particularizare a coeficientului de
corelaţie biserial şi se aplică în cazul în care una din variabile este
continuă, iar cealaltă apare sub forma unei clasificări trihotomice (de
exemplu, bun-mediu-slab, acord-indiferent-dezacord etc.).
Formula de calcul, în acest caz, este:

x1  x3 1
r 
s y1 y 3

p1 p3
unde:
x1 = media valorilor variabilei continue pentru subiecţii care au
caracteristica extremă a variabilei trihotomice;
x 3 = media valorilor variabilei continue pentru subiecţii care au
cealaltă caracteristică extremă a variabilei trihotomice;
s = abaterea standard a variabilei continue pe întreg lotul de
subiecţi;
y
= valoare care se ia dintr-un tabel special (tabelul anexă nr.2)
p
în funcţie de p, sau de q.

Se observă că grupul celor incluşi în categoria medie nu intră


în calculele formulei.
58
Reluând exemplul precedent, să presupunem că o parte dintre
cei chestionaţi au fost indiferenţi faţă de proiectul propus, rezultatele
fiind prezentate după cum urmează:

Note
Total
1 2 3 4 5
Acord 5 7 15 28 35 90
Indiferent 3 2 4 8 9 26
Dezacord 25 23 21 7 8 84
Total 33 32 40 43 52 200

Calculând, obţinem:

x1 
 xi f i  1  5  2  7  3  15  4  28  5  35  3,90
 fi 90
(media celor care au fost de acord cu proiectul)

x3 
 xi f i  1  25  2  23  3  21  4  7  5  8  2,40
 fi 84
(media celor care şi-au manifestat dezacordul faţă de proiect)

x
 xi f i  3,25 (media generală)
 fi

 xi  x  f i  2,01 (dispersia generală)


2

s 
2

 fi
s  1,42

90 26 84
p1   0,45 ; p 2   0,13 ; p3   0,42 .
200 200 200

În tabelul anexă nr.2, pentru p1  0,45 sau q1  0,55 , găsim


59
y1
 0,8796 .
p1
Analog, pentru p3  0,42 sau q3  0,58 , găsim
y3
 0,9307 .
p3

Înlocuind, avem:

3,90  2,40 1
r   0,58 .
1,42 0,8796  0,9307

3.5 Metode neparametrice în studiul corelaţiei

3.5.1 Corelaţia rangurilor

Pentru corelaţia neparametrică se utilizează frecvent


următorii coeficienţi:
 coeficientul de corelaţie Spearmann:

6 d i2
  1 ,
n(n 2  1)

unde: d i  diferenţele dintre rangurile celor două variabile;

 coeficientul de corelaţie Kendall:

2S
 ,
n(n  1)
unde:

60
S  PQ
P   pi
Q   qi
pi = numărul de ranguri superioare lui i al variabilei
dependente (sub linia i);
qi = numărul de ranguri inferioare lui i al variabilei
dependente (sub linia i).
În cazul coeficienţilor de corelaţie Spearmann şi Kendall,
seria valorilor factorialei (şirul valorilor xi) se ordonează crescător.

De exemplu, cunoscând următoarele date referitoare la


ponderile deţinute de unele judeţe în exportul ramurii (Y) şi
ponderile deţinute în valoarea totală a producţiei industriale a
aceleiaşi ramuri (X), se cere să se stabilească dacă există legătură
între cele două variabile, calculând coeficientul Spearman şi
coeficientul Kendall.

Ponderea în Ponderea în valoarea


Judeţul exportul ramurii producţiei industriale
(Y) (X)
Alba 1,10 0,82
Bacău 2,30 0,97
Cluj 7,30 4,31
Dolj 3,60 2,26
Ialomiţa 2,00 1,15
Mureş 4,40 3,88
Vaslui 2,50 1,55
Vrancea 1,70 0,98

Pentru determinarea coeficientului Spearmann alcătuim


tabelul:

61
Rang după:
Judeţul
X Y
di d i2
Alba 1 1 0 0
Bacău 2 4 -2 4
Vrancea 3 2 1 1
Ialomiţa 4 3 1 1
Vaslui 5 5 0 0
Dolj 6 6 0 0
Mureş 7 7 0 0
Cluj 8 8 0 0
Total * * * 6

Am găsit că  d i2  6 şi-l înlocuim în formulă:

66 36
 1 1  0,928 .
8(64  1) 8  63

Putem aprecia că există o puternică legătură între cele două


caracteristici.

Pentru coeficientul Kendall alcătuim tabelul:

Rang după:
Judeţul pi qi
X Y
Alba 1 1 7 0
Bacău 2 4 4 2
Vrancea 3 2 5 0
Ialomiţa 4 3 4 0
Vaslui 5 5 3 0
Dolj 6 6 2 0
Mureş 7 7 1 0
Cluj 8 8 0 0
Total * * 26 2

62
Din tabelul de mai sus, avem:

P   pi  26
Q   qi  2

şi, înlocuind, obţinem:

2(26  2) 48
   0,857 .
87 56

Observaţie. Trebuie neapărat să atragem atenţia asupra unui


lucru esenţial în aplicarea coeficienţilor de corelaţie a rangurilor.
Dat fiind faptul că în cazul acestor coeficienţi nu se lucrează cu
valorile efective ale celor două serii a căror corelaţie se urmăreşte,
ci cu rangurile atribuite lor în cadrul seriilor, trebuie acordată o
atenţie sporită tocmai acestor valori efective. Să presupunem că în
exemplul precedent, ponderea maximă (jud. Cluj) ar fi fost nu de
4,31, ci de 57,3. În mod evident, noua valoare ar fi fost tot maximă,
rangul său ar fi fost tot 8, iar coeficienţii de corelaţie a rangurilor ar
fi fost neschimbaţi, cu toate că valoarea 57,3 este o valoare
aberantă, diferenţiindu-se mult faţă de restul valorilor supuse
studiului. Dar, vom vedea că există metode pentru determinarea şi
eliminarea unor astfel de valori. Totuşi, rămâne semnalul de alarmă:
atenţie în aplicarea coeficienţilor de corelaţie a rangurilor!

3.5.2 Coeficientul de asociere

Coeficientul de asociere este o metodă de măsurare a


intensităţii legăturii dintre două caracteristici alternative (care admit
numai două forme de manifestare sau valori). Practic, orice
caracteristică statistică poate fi transformată într-o caracteristică
alternativă. De exemplu, pentru caracteristicile numerice se
calculează media, după care se poate împărţi colectivitatea în două
grupe alternative, una cuprinzând unităţile statistice cu valori sub
63
medie, iar cealaltă valorile superioare mediei. Tabelul de asociere
este o formă particulară a tabelului cu dublă intrare. În tabel se
înscriu variaţia factorialei x (pe coloană) şi variaţia rezultativei y (pe
linie). Celulele tabelului vor conţine deci frecvenţele cu care unităţile
colectivităţii se înscriu în cele patru grupe formate prin intersecţia
caracteristicilor x şi y, după cum urmează:

y
y1 y2 Total
x
x1 a b a+b
x2 c d c+d
Total a+c b+d a+b+c+d

adică:
a = numărul de unităţi statistice care poartă caracteristica x1 a
lui X şi y1 a lui Y;
b = numărul de unităţi statistice care poartă caracteristica x1 a
lui X şi y2 a lui Y;
c = numărul de unităţi statistice care poartă caracteristica x2 a
lui X şi y1 a lui Y;
d = numărul de unităţi statistice care poartă caracteristica x2 a
lui X şi y2 a lui Y.

Produsul a∙d arată gradul de realizare a legăturii directe dintre


X şi Y, iar produsul b∙c gradul de legătură inversă între aceste două
caracteristici cercetate.
Pentru determinarea valorii numerice a coeficientului de
asociere, care să indice existenţa şi intensitatea unei legături, formula
cea mai utilizată este cea propusă de Yule:

ad  bc
Q .
ad  bc

Acest indicator poate să ia valori între -1 şi +1, arătând nu


numai gradul de intensitate al asocierii celor două caracteristici, dar
şi sensul ei. Semnul indicatorului arată sensul asocierii: directă,
64
atunci când Q > 0 şi inversă, atunci când Q < 0. Dacă indicatorul are
valoare nulă, nu există legătură de asociere între X şi Y. Dacă Q tinde
către ± 1, legătura este foarte puternică (apropiată de o legătură de tip
funcţional). Asocierea completă (Q = ± 1) se produce atunci când
una din frecvenţe (a, b, c sau d) este nulă.

De exemplu, să presupunem că o grupă de 40 de studenţi a


susţinut examene la două discipline înrudite. Din cei 40 de studenţi,
au promovat ambele examene 22 ( a  22 ), 5 au promovat primul
examen şi au picat la al doilea ( b  5 ), 3 au picat la primul examen
şi l-au promovat pe al doilea ( c  3 ), iar 10 au picat ambele
examene ( d  10 ). Să se decidă dacă există sau nu o legătură sau
nu între gradele de promovabilitate la cele două examene.
Avem tabelul:

y
y1(P) y2(N) Total
x
x1(P) 22 5 27
x2(N) 3 10 13
Total 25 15 40

Calculând, obţinem:

22 10  5  3 205
Q   0,87
22 10  5  3 235

ceea ce ne indică o legătură directă puternică între gradele de


promovabilitate la cele două examene.

3.6 Corelaţia multiplă

Regresia multiplă se exprimă în general prin:

65
Y  a 0  a1 f1 ( X 1 )  a 2 f 2 ( X 2 )  ...  a n f n ( X n ) 
 a n 1 f n1 ( X 1 , X 2 ,..., X n )

parametrii determinându-se prin metoda celor mai mici pătrate.


Pentru determinarea intensităţii corelaţiei multiple se
foloseşte raportul de corelaţie multiplă:

 yi  y x1i x2i ...xni 


2

R  1 .
  yi  y 
2

3.7 Corelaţia parţială

Corelaţia parţială presupune determinarea intensităţii legăturii


cauzale dintre variabila rezultativă Y şi o singură variabilă factorială
Xi, cu excluderea influenţei celor variabile independente. În acest
scop se folosesc coeficienţii de corelaţie parţială. Prezentăm aceşti
coeficienţi pentru cazurile particulare a două şi trei variabile
factoriale:

 pentru Y  f  X 1 , X 2  :
ryx1  ryx2 rx1x2
ryx1. x2 
1  ryx2 2 1  rx21x2

(corelaţia dintre Y şi X1, neglijând influenţa lui X2);

ryx2  ryx1 rx1x2


ryx2 . x1 
1  ryx2 1 1  rx21x2

(corelaţia dintre Y şi X2, neglijând influenţa lui X1);

66
 pentru Y  f  X 1 , X 2 , X 3  :

ryx1. x2  ryx3 . x2 rx1x3 . x2


ryx1. x2 x3 
1  ryx2 3 . x2 1  rx21x3 . x2

(corelaţia dintre Y şi X1, neglijând influenţa lui X2 şi X3);

ryx2 . x3  ryx1. x3 rx1x2 . x3


ryx2 . x1x3 
1  ryx2 1. x3 1  rx21x2 . x3

(corelaţia dintre Y şi X2, neglijând influenţa lui X1 şi X3);

ryx3 . x1  ryx2 . x1 rx3 x2 . x1


ryx3 . x1x2 
1  ryx2 2 . x1 1  rx23 x2 . x1

(corelaţia dintre Y şi X3, neglijând influenţa lui X1 şi X2).

De exemplu, considerând următoarele trei serii de valori:

Y 3,1 3,8 4,7 5,6 6,3 6,9 8,3 10,2


X1 1,2 1,5 2,3 2,6 2,8 3,2 3,6 4,1
X2 2,4 2,8 4,3 4,7 4,9 5,6 5,8 6,2

să se determine legătura dintre cele trei variabile, printr-o funcţie de


forma Y  a  b  X 1  c  X 2 , raportul de corelaţie multiplă, precum
şi coeficienţii de corelaţie parţială.
Sistemul de ecuaţii normale pentru determinarea
parametrilor funcţiei este:

67
 na  b x1  c x2  y

 a  x1  b x12  c  x1 x2   x1 y
a x
  2  b x1 x2  c  x22   x2 y
adică:
 8 a  21,3  b  36,7  c  48,9

 21,3  a  63,59  b  107,13  c  146,21
36,7  a  107,13  b  181,63  c  245,5

obţinut prin înlocuirile:

n  8 ,  x1  21,3 ,  x2  36,7 ,  x12  63,59 ,  x22  181,63


 x1 x2  107,13 ,  y  48,9 ,  x1 y  146,21 ,  x2 y  245,5
Rezolvând acest sistem, obţinem soluţiile:

a  1,78 ; b  5,037 ; c  1,979


şi, deci, funcţia:
y  1,78  5,037 x1  1,979x2 .

Valorile teoretice obţinute sunt prezentate în tabelul următor:

X1 1,2 1,5 2,3 2,6 2,8 3,2 3,6 4,1


X2 2,4 2,8 4,3 4,7 4,9 5,6 5,8 6,2
Y 3,07 3,79 4,86 5,57 6,19 6,82 8,44 10,16

Raportul de corelaţie multiplă este dat de:

 yy  y i  y x 
2 2
0,065062
R  1 x
 1 i
 1  0,999162
 y2   yi  y 
2
38,82875

Pentru determinarea coeficienţilor de corelaţie parţială avem


nevoie de coeficienţii de corelaţie simplă dintre Y şi X1, Y şi X2 şi
68
dintre X1 şi X2. Aplicând formula lui Pearson, obţinem:

rYX1  0,979 ; rYX 2  0,933 ; rX1 X 2  0,986 .

Putem determina acum coeficienţii de corelaţie parţială.


Astfel:
- corelaţia dintre Y şi X1, neglijând influenţa lui X2:

ryx1  ryx2 rx1x2 0,979  0,933  0,986


ryx1. x2   
1  ryx2 2 1  rx21x2 1  0,933 2 1  0,986 2
0,059062
  0,984243
0,359876  0,166745

- corelaţia dintre Y şi X2, neglijând influenţa lui X1

ryx2  ryx1 rx1x2 0,933  0,979  0,986


ryx2 . x1   
1  ryx2 1 1 rx21x2 1  0,979 2
1  0,986 2

 0,032294
  0,950029.
0,203860  0,166745

69
4 Populaţie şi eşantion

4.1 Introducere

Una dintre sursele de obţinere a informaţiilor statistice, care,


în prezent, se bucură de o atenţie deosebită, este sondajul statistic.
În debutul oricărei cercetări se ridică întrebarea dacă datele
necesare acesteia trebuie să fie culese de la întreaga populaţie (a nu
se înţelege neapărat „populaţie” în sensul de mulţime de oameni), sau
numai de la o parte a acesteia. Opţiunea între cele două răspunsuri
posibile depinde de o serie de aspecte practice.
Dacă în unele situaţii, timpul, resursele financiare sau umane
nu constituie o problemă, sau populaţia ţintă nu este prea numeroasă,
culegerea datelor de la toată populaţia este mai avantajoasă,
obţinându-se o imagine exactă a problematicii investigate.
În alte cazuri însă, cercetătorul, din diverse motive – timp,
resurse financiare şi umane, dispersare geografică – nu poate aborda
întreaga populaţie pentru a obţine datele necesare, este constrâns să
se limiteze doar la o parte, mai mică sau mai mare, a acesteia,
efectuând astfel o cercetare prin sondaj. Am putea spune astfel că
sondajul este un compromis datorat insuficienţei resurselor.
Dar, depăşind problema resurselor, o cercetare a unei întregi
populaţii este în unele cazuri imposibilă datorită lipsei de eficienţă.
Spre exemplu, dacă am vrea să stabilim durata maximă de
funcţionare a unui tip de aparate electrice, să zicem frigidere, ar
trebui să lăsăm toată „populaţia” de frigidere să funcţioneze până se
defectează.
Şi încă un motiv important, dar deseori pierdut din vedere,
pentru care cercetarea doar a unei părţi şi nu a întregului este de
preferat în unele cazuri. În dorinţa de a obţine date de la întreaga
populaţie – mai ales când volumul acesteia este mare –, se apelează
la un numeros personal auxiliar care, datorită lipsei de specializare,
poate genera erori mai grave decât în cazul în care s-ar analiza doar o
parte din acea populaţie, dar utilizând numai personal specializat.
70
Cele câteva motive expuse mai sus vor să se constituie într-o
pledoarie în favoarea cercetării statistice prin sondaj.
Sondajul statistic, cunoscut şi sub numele de anchetă
statistică prin sondaj, este o cercetare parţială ale cărei rezultate se
generalizează, se extind, prin procedee probabilistice, asupra bazelor
de selecţie din care au fost extrase unităţile studiate. [7]
Înainte de abordarea diferitelor metode de extragere a părţii
care urmează a fi supusă studiului, trebuie fixat conţinutul
principalelor concepte folosite.
Populaţia sau colectivitatea statistică este definită ca
totalitatea obiectelor de aceeaşi natură (indiferent care ar fi această
natură) luată în considerare de statistician în cadrul studiului
problemei sale. Un element al populaţiei îl vom desemna prin
termenul general de unitate statistică sau individ (chiar dacă este
vorba despre un frigider!).
Totalitatea operaţiilor cu ajutorul cărora, din ansamblul
populaţiei vizate, se extrage o parte ce va fi supusă studiului
constituie operaţia de eşantionare.
Eşantionul reprezintă mulţimea alcătuită din acele unităţi
statistice care au fost extrase din baza de selecţie şi vor fi supuse
studiului în cadrul sondajului.
Mărimea unui eşantion este numărul de indivizi extraşi din
populaţie pentru a constitui eşantionul. Mărimea populaţiei este
numărul total de indivizi care compun colectivitatea din care se
extrage eşantionul.
De obicei, se notează cu n mărimea eşantionului şi cu N
mărimea populaţiei. Raportul n/N este denumit proporţia sondajului
sau fracţia de sondaj.
Eroarea de reprezentativitate este diferenţa dintre nivelurile
indicatorilor sintetici folosiţi în cadrul sondajului pentru analiza
eşantionului şi nivelurile indicatorilor similari folosiţi pentru analiza
bazei de selecţie. [7]
Eroarea de reprezentativitate este determinată, în final, de:
 stabilirea incorectă a volumului şi structurii eşantionului;
 natura şi aria de întindere a erorilor de observare;
 folosirea incorectă a metodelor de extrapolare a rezultatelor
71
sondajului în estimarea parametrilor bazei de selecţie. [7]
Indicatorii sintetici ai sondajului, calculaţi pentru un eşantion
oarecare – media, dispersia, coeficientul de corelaţie etc. – poartă
numele de estimatori. Ei sunt folosiţi ca bază de calcul în estimarea
nivelurilor indicatorilor similari ai bazei de selecţie (în estimarea
parametrilor acesteia).
Parametrii bazei de selecţie sunt acei indicatori sintetici ai
bazei de selecţie: media, dispersia, abaterea standard etc. Valoarea
lor poate fi determinată direct, atunci când se fac cercetări totale,
dispunând de toate datele necesare calculului respectiv, sau poate fi
estimată, atunci când se fac cercetări prin sondaj, folosindu-se ca
estimatori indicatorii sondajului.
În ultima vreme, teoria sondajelor a cunoscut o dezvoltare
importantă, reuşind să fundamenteze teoretic procedeele des utilizate,
evitând astfel utilizarea metodelor empirice care prezintă numeroase
lacune. Teoria sondajelor stabileşte metode de construcţie a
eşantioanelor, astfel încât acestea să reproducă, într-o măsură cât mai
mare cu putinţă, caracteristicile populaţiei studiate. Aceste metode
sunt cunoscute sub numele de planuri de sondaj.

4.2 Metode de extragere a eşantionului

Problema de maximă importanţă în efectuarea unei cercetări


prin sondaj o constituie modul de formare a eşantionului.
Pentru a putea generaliza rezultatele sondajului la nivelul
întregii populaţii, în limitele unor toleranţe acceptate, eşantionul
trebuie să fie reprezentativ pentru populaţia din care a fost extras,
atât în ceea ce priveşte structura, cât şi comportamentul lotului de
bază.
Asigurarea reprezentativităţii unui eşantion impune, în
principal, respectarea a două condiţii:
a) omogenitatea populaţiei din care se extrage acest eşantion
să fie cât mai mare;
b) unităţile ce vor alcătui eşantionul să aibă şanse egale de a
fi extrase, deci extragerea lor să se facă întâmplător.
72
În practică, un eşantion este considerat reprezentativ dacă
indicatorii sondajului prezintă o marjă de eroare de 3% faţă de
indicatorii lotului de bază.
Pentru obţinerea eşantionului se pot folosi metode
probabilistice (aleatoare) sau metode dirijate (subiective).

4.2.1 Metode aleatoare

a) Procedeul folosirii tabelelor cu numere întâmplătoare


Procedeul constă în generarea de numere aleatoare şi
întocmirea unor tabele cu aceste numere; se asociază numărul de
unităţi statistice dintr-o populaţie dată cu o secvenţă oarecare din
tabelul cu numere aleatoare.
Exemplu: dacă N  2000 şi n  200 , unităţilor din baza de
selecţie li se asociază numerele de la 1 la 2000; cele 200 de unităţi
din eşantion vor fi desemnate prin urmărirea şi înregistrarea
numerelor aleatoare din tabel cuprinse între 1 şi 2000, până la
epuizarea întregului eşantion.
Din această prezentare rezultă faptul că tabelele cu numere
aleatoare, concepute într-o asemenea manieră, pot fi folosite în
cazurile în care se cunosc, în detaliu, componenţa şi structurile
bazelor de selecţie. Ele sunt folosite mai frecvent în sondajele
organizate în profil teritorial.
Există însă şi tabele cu numere aleatoare, care cuprind
combinaţii ale cifrelor de la 0 la 9. Un model este prezentat în tabelul
anexă nr.3.
Aceste tabele sunt folosite, îndeosebi, pentru studiul
caracteristicilor alternative, cu doua stări, ca: studiul calităţii
produselor, studiile de opinie etc. Cele două stări sunt asociate celor
două tipuri de cifre – pare şi impare – din tabel. De pildă răspunsurile
afirmative „Da” sunt asociate cifrelor „impare”. Dacă se alege o
secvenţă oarecare din tabel, care va cuprinde n cifre de la 0 la 9, se
vor număra cifrele impare şi numărul găsit ar echivala cu numărul de
răspunsuri afirmative „Da” din „n” posibile. Pentru stabilirea
intervalului de încredere, se apelează la datele din tabelele speciale
73
cu valorile teoretice ale distribuţiei binomiale. Aceste tabele sunt
prezentate în tabelele anexă nr.4 şi 5.
Considerăm următorul exemplu: dacă n  50 şi alegem din
tabelul anexă nr.3 secvenţa care începe cu linia 31 şi coloana 6, vom
găsi următoarele seturi de cifre: 8382, 1073, 3615, …până la
epuizarea celor 50 de cifre, ajungând în final la seturile: 8618, 67 din
linia 32 şi coloana 7 (de fapt, ultimul număr, cel din linia 32 şi
coloana 7 este 6772, dar după 67 am obţinut deja 50 de cifre).
Numărul cifrelor impare va fi egal cu 28, ceea ce reprezintă
56% din totalul de 50. Dacă ne-am opri la acest rezultat, am putea
spune că ne aşteptăm ca ponderea răspunsurilor afirmative din cele
50 de cazuri studiate să fie de 56%; precizia cu care garantăm
realizarea unui asemenea rezultat este însă mică. Pentru verificarea
ipotezei şi pentru creşterea preciziei estimaţiei se folosesc datele
unuia dintre tabelele prezentate în tabelele anexă nr.4 şi 5, referitoare
la intervalele de siguranţă de 95% şi respectiv de 99% ale distribuţiei
binomiale.
Pentru exemplul nostru, alegând intervalul de siguranţă de
95% (tabelul anexă nr.4), cunoscând că numărul cifrelor impare a
fost egal cu 28, pentru o probă cu n  50 se va găsi intervalul de
încredere cu limitele: 41 70% . Deci, ne aşteptăm ca ponderea
răspunsurilor afirmative să fie cuprinsă între 41% şi 70%, garantând
precizia acestui rezultat cu o probabilitate de 95%. Afirmaţia pare
corectă întrucât ştim că cifrele impare deţin în cadrul tabelei o
pondere de 56%, aceasta fiind cuprinsă în intervalul stabilit pentru
exemplul prezentat.

b) Procedeul tragerii la sorţi


Cunoscut şi sub numele de metoda urnei, are la bază
principiul urnei lui Bernoulli şi comportă următorii paşi:
 se introduc într-o urnă bile (cartonaşe, jetoane etc.) marcate,
pentru fiecare unitate statistică din lotul de bază;
 se extrag apoi aleator, din urna respectivă, bile care reprezintă de
fapt unităţile statistice din eşantion.
Eşantionul poate fi realizat în două variante:

74
 pe baza schemei bilei revenite;
 pe baza schemei bilei nerevenite.

Procedeul tragerii la sorţi pe baza schemei bilei revenite -


presupune formarea eşantionului prin extragerea unitate cu unitate
din lotul de bază astfel încât, după fiecare extragere, unitatea se
reintroduce în urnă. Astfel, volumul lotului de bază rămâne acelaşi
pe toată durata extragerii, iar probabilitatea de extragere a oricărei
unităţi rămâne constantă:

1
p
N

unde N = volumul lotului de bază;

Procedeul tragerii la sorţi pe baza schemei bilei nerevenite -


presupune formarea eşantionului la fel ca la procedeul anterior, cu
deosebirea că unitatea odată extrasă nu se mai reintroduce în urnă.
Datorită acestui fapt, pe măsură ce se efectuează extragerea unităţilor
în eşantion, volumul lotului de bază se micşorează, ceea ce conduce
la creşterea probabilităţii de a fi extrase pentru unităţile rămase în
urnă:

1 1 1 1
p1  ; p2  ; p3  ;...; pi  ;...
N N 1 N 2 N  i  1

Privind comparativ cele două procedee prezentate mai sus,


trebuie să remarcăm câteva aspecte. La extragerea cu revenire, există
posibilitatea apariţiei unui individ de mai multe ori în eşantion. Din
contră, la extragerea fără întoarcere, atunci când un individ a fost
extras, el nu poate să apară din nou în eşantion.
Trebuie remarcat că doar extragerea cu revenire corespunde
în mod real repetării aceleiaşi experienţe aleatoare, cea care constă în
extragerea unui individ dintre cei N ai populaţiei. În cazul extragerii
fără întoarcere, nu există repetiţia aceleiaşi experienţe aleatoare, căci
75
prima extragere este efectuată dintre N indivizi, a doua dintre
N  1 etc.
În cazul extragerii cu revenire, se pot obţine eşantioane de
mărime oricât de mare se doreşte, pentru că procedeul se poate
continua indefinit, în timp ce într-o extragere fără revenire nu se pot
obţine eşantioane de mărime superioară mărimii N a populaţiei. De
fapt, atunci când s-au extras N indivizi, populaţia a fost epuizată. Din
acest motiv, extragerea fără revenire este numită extragere
exhaustivă (din latinescul exhaudire – a epuiza), iar extragerea cu
revenire, non-exhaustivă. Trebuie spus că, în practică – deşi este
posibil în cazul extragerii cu revenire –, nu se extrag eşantioane de
mărime superioară celei a populaţiei.
Atunci când mărimea populaţiei este mult mai mare decât cea
a eşantionului, precizarea cu sau fără revenire devine superfluă. De
fapt, în acest caz, probabilităţile de extragere sunt aproape identice:
1 1 1 1
este aproape egal cu , cu ,…, cu . În
N N 1 N 2 N  n 1
practică se neglijează această mică diferenţă şi se tratează extragerea
fără întoarcere ca extragerea cu întoarcere.
Din contră, atunci când mărimea populaţiei nu este foarte
mare în raport cu cea a eşantionului, suntem obligaţi să ţinem cont de
această diferenţă, introducând factori de exhaustivitate.

c) Procedeul mecanic (sistematic)


Se utilizează în cazul în care populaţia statistică din care
urmează să extragem eşantionul este deja organizată după un anumit
criteriu (de exemplu, abonaţii organizaţi alfabetic într-o carte de
telefoane).
Pentru aplicarea acestui procedeu se calculează mai întâi un
pas de numărare:

N
k , n - volumul eşantionului
n

Se introduc apoi într-o urnă, bilete (sau jetoane, cartonaşe

76
etc.) numerotate de la 1 la k din care se extrage unul singur.
Numărul înscris pe biletul extras va indica numărul de ordine
al unităţii statistice din lotul de bază care este prima extrasă în
eşantion. Restul unităţilor care intră în eşantion se determină
adăugând pasul de numărare la numărul de ordine al unităţii extrase
anterior.

Să presupunem, de exemplu, că un anumit serviciu telefonic


de comunicaţie, doreşte să afle părerea abonaţilor în legătură cu
anumite facilităţi. Pentru aceasta, din cei 100000 de abonaţi ai săi
(număr „didactic”), hotărăşte („teoretic”) să apeleze la părerea a
250 de abonaţi (presupunem că aceştia sunt ordonaţi şi fiecare
dintre ei are asociat un număr, în ordinea ordonării). Obţinem
astfel:

100000
k  400 .
250

Se introduc într-o urnă bilete purtând numerele primilor


abonaţi, de la 1 la 400, din care se extrage la întâmplare unul
singur. Presupunând că a fost extras biletul cu numărul de ordine
43, eşantionul va fi alcătuit din abonaţii următori:
- abonatul cu nr. 43
- abonatul cu nr. 43  400  443
- abonatul cu nr. 443  400  843
.... ...
- ultimul abonat inclus în eşantion (n  1)k  43  99643 .

Datorită faptului că nu se realizează o extragere a


eşantionului complet întâmplătoare, rezultatele acestui tip de sondaj
sunt mai puţin exacte decât în cazul utilizării procedeului tragerii la
sorţi pe baza schemei bilei nerevenite.
Trebuie remarcat faptul că, iniţial, toate unităţile din
populaţia de bază au aceeaşi şansă de a fi incluse în eşantion. După
extragerea primei unităţi componente a eşantionului, cele desemnate

77
cu ajutorul pasului de numărare vor avea probabilitatea 1 de a fi
incluse în eşantion, în timp ce pentru restul, această probabilitate va
fi 0.
Procedeul mecanic mai este cunoscut şi sub denumirea de
eşantionare simplă sistematică sau cvasi-aleatoare.

d) Eşantionarea prin stratificare


Atunci când populaţia supusă studiului este eterogenă, se
apelează la sondajul stratificat (tipic). Această metodă este aplicată
în două etape: prima etapă, numită stratificare, constă în împărţirea
populaţiei în K submulţimi, numite straturi, de efective N1,…, NK, cu
N  N1  ...  N K .
Aceste straturi sunt alese în aşa fel încât populaţia lor să fie
mai omogenă decât populaţia în ansamblul său. În cea de-a doua
etapă, se efectuează o extragere aleatoare simplă a
ni , i  1,..., K indivizi din fiecare strat, astfel încât raportul dintre
numărul lor şi volumul grupei din care s-au extras să fie egal cu
raportul dintre volumul general al eşantionului şi volumul populaţiei
(fracţia de sondaj), adică:

nj n
 , j  1,..., K .
Nj N

Să remarcăm faptul că, deşi se înlocuieşte o singură extragere


dintr-o populaţie eterogenă, cu mai multe extrageri din sub-populaţii
omogene, eşantionul realizat prin stratificare reflectă fidel structura
populaţiei.

Să presupunem, de exemplu, că la nivelul unei comunităţi de


5000 de persoane (număr „didactic”) se doreşte stabilirea
priorităţilor într-un vast program de investiţii, apelându-se în acest
scop la un sondaj de volum stabilit 300. Se ştie că din cei 5000 de
membri ai comunităţii respective 1400 reprezintă tineri, 2100
persoane mature, 700 persoane de vârsta a treia, iar restul de 800,
copii (care nu vor fi interogaţi). Se doreşte ca eşantionul alcătuit să
78
fie reprezentativ pentru comunitatea respectivă. Avem, în cazul
n 300 1
nostru, N  5000  800  4200, n  300 şi   . Obţinem
N 4200 14
componenţa eşantionului astfel:
1
n1  1400   100 de persoane tinere;
14
1
n 2  2100   150 de persoane mature;
14
1
n3  700   50 de persoane de vârsta a treia.
14
Se observă că n1  n2  n3  n şi că structura populaţiei
(după criteriul „vârstă”) este fidel reprezentată în eşantion.

4.2.2 Metode subiective

Alături de metodele aleatoare de eşantionare, în practică mai


sunt utilizate şi o serie de tehnici mai puţin riguroase în ceea ce
priveşte selectarea unităţilor statistice care vor compune un eşantion.
Lipsa de rigurozitate se referă mai ales la neacordarea unei atenţii
speciale calculării sau egalizării şanselor fiecărui individ din
populaţia vizată de a face parte din eşantion. Eşantioanele obţinute în
acest fel sunt denumite eşantioane neprobabiliste, iar metodele
folosite pentru a obţine aceste eşantioane, metode subiective.
Câteva situaţii în care utilizarea acestor metode de
eşantionare îşi justifică aplicabilitatea ar fi următoarele:
 populaţia statistică asupra căreia se desfăşoară cercetarea are un
volum redus, iar extragerea unui eşantion folosind metodele
aleatoare ar conduce la rezultate mai slabe decât dacă eşantionul
ar fi alcătuit subiectiv de către un specialist;
 eşantionul este alcătuit din persoane care se oferă voluntar
pentru a fi investigate;
 eşantionarea se realizează într-o instituţie anume care prezintă
interes pentru cel care efectuează cercetarea;

79
 intervievarea persoanelor care vor alcătui eşantionul se
realizează pe stradă sau în anumite spaţii publice;
 eşantionul este alcătuit din persoane care răspund la chestionare
publicate în ziare sau care apelează telefonic un post de radio sau
de televiziune pentru a răspunde la întrebările formulate de
moderatorii unor emisiuni sau de alţi participanţi la emisiunile
respective.
Prezentăm în continuare câteva metode subiective de
eşantionare.

a) Procedeul „unităţilor-tip”
La fel ca în cazul metodei de eşantionare prin stratificare, şi
în cazul acestui procedeu se divizează populaţia totală în grupe
relativ omogene, de volume diferite, numai că, în continuare, nu se
efectuează o extragere aleatoare simplă din fiecare grupă, ci se
desemnează pentru fiecare grupă o unitate reprezentativă, denumită
„unitate-tip”. Drept unitate-tip a unei grupe, se va alege acea unitate
componentă a grupei care prezintă nivelul variabilei studiate egal sau
foarte apropiat de nivelul mediu al grupei din care face parte.
În cazul în care se studiază mai multe caracteristici, este
posibil ca unitatea-tip, aleasă după criteriul de mai sus, să fie
reprezentativă pentru una sau mai multe caracteristici, dar la alte
caracteristici cuprinse în programul studiului, să prezinte valori mult
mai mari sau mult mai mici decât valoarea medie şi alte unităţi ale
bazei de selecţie să se plaseze mult mai aproape de valoarea medie.
În consecinţă, în astfel de situaţii, gradul de reprezentativitate al
unităţii-tip este diminuat, iar alegerea unităţii-tip este dificilă, sau
poate chiar imposibilă; soluţionarea alegerii unităţii-tip rămâne, în
întregime, la latitudinea statisticianului.
Metoda este recomandată, fiind uşor de aplicat şi cu rezultate
bune, în cazul în care se studiază o singură caracteristică; dar,
evident, studiile în care se ia în considerare doar o caracteristică sunt
foarte rare. Folosirea sa pentru analize complexe, implică o doză
însemnată de „elemente arbitrare”, iar rezultatele sondajului vor fi
dominate, într-o măsură mai mare sau mai mică, de incertitudine.

80
b) Metoda itinerariilor
Folosită frecvent în sondajele organizate în profil teritorial
pentru studiul opiniei publice asupra unor probleme de interes
general sau pentru studiul pieţelor, dar şi în alte scopuri, această
metodă are ca principal avantaj faptul că limitează, într-o măsură
considerabilă, iniţiativa – deci subiectivismul – operatorului în
desemnarea unităţilor eşantionului.
Fiecărui operator i se impune un anumit traseu (itinerar),
definit până la cele mai mici detalii, indicându-i-se cu exactitate
punctele în care urmează să realizeze interviurile. În acest scop,
trebuie să se dispună obligatoriu de două planuri de sondaj: unul cel
referitor la imobilele individuale, iar altul referitor la imobilele
colective de pe traseu. De aceea, calitatea eşantionului astfel obţinut,
depinde într-o foarte mare măsură de cunoştinţele geografice pe care
le au cei care stabilesc itinerariile.
Condiţiile în care se desfăşoară sondajul prin metoda
itinerariilor se apropie foarte mult de cele impuse de sondajul aleator.
Metoda nu oferă posibilitatea ca toate unităţile înscrise în itinerar să
aibă şanse egale de cuprindere în eşantion, ele putând fi desemnate
întâmplător, dar nu după principii probabilistice.

c) Procedeul tip „bulgăre de zăpadă”


Există anumite situaţii în care alcătuirea eşantionului este
foarte dificilă datorită faptului că nu se cunoaşte o anumită populaţie,
în totalitatea ei, ci doar un număr restrâns de indivizi aparţinând
acestei populaţii. În acest caz, alcătuirea eşantionului începe cu aceşti
indivizi, care sunt investigaţi, după care sunt solicitaţi să indice, dacă
este posibil, alte persoane despre care se crede că întrunesc
caracteristicile urmărite. Se continuă în acest mod până la
constituirea eşantionului dorit.
Deşi destul de greoi, procedeul este utilizabil în cazul în care
populaţia vizată este formată, spre exemplu, din oameni care au
anumite hobby-uri sau pasiuni, preocupări şi despre care de obicei nu
se cunosc în faza iniţială multe informaţii şi nu se ştie nici câte astfel
de persoane compun populaţia vizată. [21]

81
4.3 Principalele tipuri de sondaje

Tipul sondajului este determinat de mai mulţi factori:


a) Modul de organizare a lotului de bază în momentul
extragerii:
- lotul de bază neorganizat;
- lotul de bază organizat în grupe tipice (straturi).
b) Procedeul de eşantionare folosit. Cel mai utilizat este
procedeul tip loterie (procedeul tragerii la sorţi) pe baza schemei
bilei:
- revenite (procedeul repetat);
- nerevenite (procedeul nerepetat).
c) Numărul de unităţi extrase deodată din lotul de bază:
- o unitate;
- un grup de unităţi (serie).
Combinând cei trei factori rezultă următoarele tipuri de
sondaje utilizate mai frecvent în practică:
a) sondajul întâmplător: - repetat
- nerepetat
b) sondajul tipic (stratificat): - repetat
- nerepetat
c) sondajul de serii, organizat numai în varianta nerepetat,
pentru că se operează cu un număr mic de serii.

4.4 Indicatorii sondajului statistic

În cazul utilizării sondajului statistic pot să apară erori care


privesc culegerea şi prelucrarea datelor precum şi erori specifice
fiecărui tip de eşantionare folosit.
Aceste erori se pot grupa în:
- erori sistematice - având la bază încălcarea regulilor
care trebuie respectate la organizarea sondajului;
- erori întâmplătoare - care apar oricât de riguros s-ar
organiza sondajul şi oricât de riguros am prelucra informaţiile
culese. Acestea au la bază faptul că niciodată nu vom putea extrage
82
din loturile de bază eşantioane perfect reprezentative.
Acest tip de erori, numite de reprezentativitate, pot fi estimate
cu ajutorul unor indicatori statistici.

Eroarea medie de reprezentativitate


Convenim ca în cele ce urmează să notăm cu X variabila
numerică studiată, cu N volumul populaţiei din care a fost extras
eşantionul, cu n volumul eşantionului şi, pentru a face distincţie între
indicatorii populaţiei şi cei obţinuţi din eşantion, să notăm cu:

m
 xi - media variabilei X, pentru populaţie;
N

 x  x0 
  i
2
2
- dispersia variabilei X, pentru populaţie;
N

x
 xi - media variabilei X, pentru eşantion;
n

  xi  x 
2
s2  - dispersia variabilei X, pentru eşantion.
n

Să încercăm în continuare să arătăm cum se deduce eroarea


medie de reprezentativitate în cazul unui sondaj simplu, pentru o
variabilă numerică.
De fapt, întrebarea la care vrem să răspundem s-ar putea
formula astfel: cât de mare este probabilitatea ca media calculată în
eşantionul extras de noi să nu aproximeze bine media din populaţie?
Pentru a răspunde la această întrebare, trebuie să facem mai
întâi o distincţie clară între trei tipuri de distribuţii: distribuţia unei
variabile într-un eşantion de mărime n, distribuţia aceleiaşi variabile
în întreaga populaţie şi distribuţia mediilor tuturor eşantioanelor
posibile de mărime n, numită şi distribuţia de eşantionare a mediei.

83
Să presupunem că unui grup de cinci elevi i-au fost propuse
spre rezolvare un număr de 20 de probleme de acelaşi grad de
dificultate. Rezultatele, exprimând numărul de probleme rezolvate,
sunt prezentate în tabelul următor:

Elevul Nr. probleme rezolvate (X)


A 13
B 17
C 16
D 11
E 18

Avem deci, în acest caz:

N 5 (volumul populaţiei)

m
 xi  15 (media populaţiei)
N

2 
 ( xi  m) 2  6,8 (dispersia populaţiei)
N

Folosind schema bilei revenite vom extrage un eşantion


format din doi elevi. Numărul maxim posibil de eşantioane ce s-ar
putea extrage este N n ( N 2  25) .

Eşantioanele posibile a fi obţinute sunt prezentate în tabelul


care urmează:

Eşantionul Media
Nr. Erori
eşantionului
crt. Elevul 1 Elevul 2 ( x  m)
(x )
1 A A 13 -2
2 A B 15 0
3 A C 14,5 -0,5
84
4 A D 12 -3
5 A E 15,5 0,5
6 B A 15 0
7 B B 17 2
8 B C 16,5 1,5
9 B D 14 -1
10 B E 17,5 2,5
11 C A 14,5 -0,5
12 C B 16,5 1,5
13 C C 16 1
14 C D 13,5 -1,5
15 C E 17 2
16 D A 12 -3
17 D B 14 -1
18 D C 13,5 -1,5
19 D D 11 -4
20 D E 14,5 -0,5
21 E A 15,5 0,5
22 E B 17,5 2,5
23 E C 17 2
24 E D 14,5 -0,5
25 E E 18 3

Să observăm că eroarea (diferenţa între media eşantionului şi


media întregii populaţii) este o variabilă aleatoare care, în acest caz,
ia valori în intervalul  4 ; 3 .
Să realizăm în continuare distribuţia erorilor (deci, implicit, a
eşantioanelor cu o anumită eroare) şi să calculăm probabilităţile
(frecvenţele relative) de apariţie a acestor erori. Aceste sunt
prezentate în tabelul următor:

Media Frecvenţe Frecvenţe


Erori
eşantionului absolute relative
( x  m) (fi) (pi)
(x )
11 -4 1 0,04
12 -3 2 0,08
85
13 -2 1 0,04
13,5 -1,5 2 0,08
14 -1 2 0,08
14,5 -0,5 4 0,16
15 0 2 0,08
15,5 0,5 2 0,08
16 1 1 0,04
16,5 1,5 2 0,08
17 2 3 0,12
17,5 2,5 2 0,08
18 3 1 0,04
Total - 25 1

Dispersia mediilor eşantioanelor de la media generală, pe care


convenim să o notăm cu  rep2
– indicele rep (repetat) specificând că
este vorba de schema bilei revenite –, va fi:

 x  m
2
fi 85
 rep
2
   3,4 ,
 fi 25

de unde obţinem abaterea standard corespunzătoare:

 rep   rep
2
 3,4  1,84 .

Între indicatorii: dispersia populaţiei, dispersia mediilor


eşantioanelor de la media generală şi volumul eşantionului există
următoarea relaţie:
 2  n   rep
2
,
relaţia care se verifică în cazul nostru: 6,8  2  3,4 .
Din această relaţie se poate determina cu anticipaţie dispersia
mediilor eşantioanelor de la media generală fără a fi nevoie de
extragerea tuturor eşantioanelor posibile:

86
2
 rep
2
 ,
n

relaţie din care obţinem eroarea medie de reprezentativitate în


varianta schemei bilei revenite:

2
 rep   rep
2
 .
n

Practica a demonstrat că, atunci când nu se cunoaşte dispersia


unui lot de bază (  2 ) şi n  100 , se poate folosi în locul ei, cu bune
rezultate, dispersia sondajului ( s 2 ), adică:

s2
 rep  .
n

Să facem câteva observaţii în ceea ce priveşte utilizarea


dispersiei de sondaj. În mod evident, înlocuirea lui  2 cu s 2 induce
diferenţe, deoarece  2 şi s 2 nu sunt egale. Utilizarea acestor
indicatori în sondajele în care se poate accepta o marjă mai mare a
intervalelor de încredere (de estimare sau de previziune), implică
faptul că influenţa diferenţei dintre ei este, practic, nesemnificativă.
Dar, în condiţiile în care precizia estimărilor sau previziunilor sunt
primordiale pentru anumite domenii, atunci se va încerca atenuarea
sau chiar eliminarea influenţei diferenţei dintre  2 şi s 2 . În acest
sens, sunt posibile două soluţii.
Prima soluţie constă în ajustarea dispersiei de sondaj ( s 2 )
prin folosirea „corecţiei lui Sheppard”, dar care impune unele
restricţii, şi anume:
- variabila de grupare din cadrul seriei de distribuţie să aibă o
variaţie continuă, adică nivelurile sale să fie numere reale;
- frecvenţele marginale să tindă către zero, în ambele direcţii;
- forma distribuţiei să fie – cel mult - moderat asimetrică; corecţia
87
lui Sheppard nu este aplicabilă distribuţiilor în formă de “J”, “U”
sau extrem asimetrice.
Este cunoscut faptul că, în prelucrarea statistico-matematică a
seriilor de distribuţie cu variaţie continuă, în determinarea
indicatorilor sintetici (medie, dispersie etc.) se folosesc ca variante de
calcul ale caracteristicii de grupare centrele intervalelor, în ipoteza că
valorile individuale ale acestei caracteristici, care aparţin fiecărui
interval, sunt egale cu valoarea centrală a intervalului în care se
integrează. Evident, într-o asemenea situaţie, între nivelul
indicatorilor sintetici determinat prin folosirea centrelor intervalelor
şi nivelul celor calculaţi pe baza valorilor individuale reale, există –
în majoritatea cazurilor, o oarecare diferenţă, care poate fi mai mică
sau mai mare în funcţie de mărimea intervalului de variaţie şi de
forma distribuţiei. S-a observat, că în cazul distribuţiilor simetrice şi
chiar al celor moderat asimetrice, cu un coeficient de asimetrie foarte
apropiat de zero, pentru un interval de grupare ce nu depăşeşte
aproximativ a douăzecea parte din amplitudinea absolută a variaţiei
(k 
1
x max  x min  ), erorile de aproximare a indicatorilor sintetici
20
sunt foarte mici.
Deci, revenind la dispersia de selecţie ( s 2 ), pentru a diminua
influenţa utilizării centrelor intervalelor distribuţiei în calculul său,
dacă sunt îndeplinite condiţiile expuse mai înainte, se poate folosi
corecţia Sheppard care constă în aceea că, din nivelul dispersiei de
sondaj ( s 2 ) aferentă distribuţiei se scade a douăsprezecea parte din
pătratul intervalului de grupare, simbolizat prin k 2 .

Relaţia de corectare este:


k2
2
s corectat  s2  .
12

A doua soluţie presupune folosirea unui eşantion de volum


mare (care poate fi format şi din câteva eşantioane comasate),
eşantion rezultat în urma utilizării procedeelor pur aleatoare, care
elimină eventualele deplasări (perturbaţii) generate de factori
88
subiectivi. Se apreciază că în acest caz, parametrii sondajului şi mai
ales dispersia de sondaj sunt foarte apropiate de parametrii bazei de
selecţie, motiv pentru care ei pot fi folosiţi ca estimatori.
Aşa cum am mai arătat, în situaţia în care volumul
eşantionului este mic ( n  30 ), diferenţele dintre indicatorii sintetici
ai sondajului şi parametrii similari ai bazei de selecţie sunt din ce în
ce mai mari. Pentru a atenua erorile de reprezentativitate, în calculul
dispersiei de sondaj se va folosi, în acest caz, următoarea relaţie:

  x i  x 2 1 n
s     xi  x  .
2 2
n 1 n  1 i 1

Să revenim la exemplul nostru.


Folosind procedeul schemei bilei nerevenite, rezultă 20
eşantioane deoarece nu mai pot fi extrase mostrele A+A, B+B, C+C,
D+D şi E+E:
În acest tip de sondaj rezultă:

Eşantionul Media
Nr. Erori
eşantionului
crt. Elevul 1 Elevul 2 ( x  m)
(x )
1 A B 15 0
2 A C 14,5 -0,5
3 A D 12 -3
4 A E 15,5 0,5
5 B A 15 0
6 B C 16,5 1,5
7 B D 14 -1
8 B E 17,5 2,5
9 C A 14,5 -0,5
10 C B 16,5 1,5
11 C D 13,5 -1,5
12 C E 17 2
13 D A 12 -3
14 D B 14 -1
15 D C 13,5 -1,5
89
16 D E 14,5 -0,5
17 E A 15,5 0,5
18 E B 17,5 2,5
19 E C 17 2
20 E D 14,5 -0,5

Distribuţia erorilor şi probabilităţile de apariţie a acestor


erori, în acest caz, sunt:

Media Frecvenţe Frecvenţe


Erori
eşantionului absolute relative
( x  m)
(x ) (fi) (pi)
12 -3 2 0,1
13,5 -1,5 2 0,1
14 -1 2 0,1
14,5 -0,5 4 0,2
15 0 2 0,1
15,5 0,5 2 0,1
16,5 1,5 2 0,1
17 2 2 0,1
17,5 2,5 2 0,1
Total - 20 1

De unde:

 x  m
2
fi 51
 nerep
2
   2,55
 fi 20
şi:
 nerep  1,60 .

Se observă o precizie mai bună faţă de sondajul având la bază


schema bilei revenite, eroarea fiind mai mică, (  1,60  1,84 ).
Între dispersia mediei eşantioanelor de la media lotului de
bază, în varianta schemei bilei revenite şi cea a bilei nerevenite există
relaţia:
90
 rep
2
N 1

 nerep
2
N n

de unde:
2  N n  2  N n
 nerep   rep    .
 N 1  n  N 1 

Dacă volumul lotului de bază este mare, se aproximează (N-


1) cu N şi în acest caz:

2  n
 nerep   1  
n  N

 n
unde factorul 1   reprezintă coeficientul de corecţie faţă de
 N
varianta bilei revenite.

Pentru a putea opera cu eroarea medie de reprezentativitate


este necesar să se formeze toate eşantioanele posibile şi să se
calculeze erorile.
În practică nu se pot extrage toate eşantioanele posibile, de
aceea se foloseşte un indicator de estimare, eroarea-limită admisă.

Eroarea-limită admisă
Pentru a calcula eroarea-limită admisă (x) trebuie
cunoscute eroarea medie de reprezentativitate () şi un coeficient (t)
care exprimă probabilitatea, cu care se garantează rezultatele
sondajului, aplicând relaţia:

 x  t

91
unde: t - argumentul funcţiei de repartiţie normală t  ;
t  - probabilitatea cu care se garantează rezultatele
sondajului (Tabelul anexă nr.6).
Astfel, pentru sondajul simplu întâmplător, avem:

2
 x rep  t rep  t - în varianta schemei bilei
n
revenite;

2  n
 x nerep  t nerep  t 1   - în varianta schemei bilei
n  N
nerevenite.

Indicatorul eroare-limită admisă este des utilizat în cadrul


sondajelor statistice, cu ajutorul său extinzându-se rezultatele
obţinute prin sondaj asupra colectivităţii statistice din care a fost
extras eşantionul.

Volumul eşantionului
Există cazuri în care se cunoaşte nivelul dispersiei lotului de
bază (  2 ) pe baza unui studiu anterior şi se pune problema
organizării unui sondaj ale cărui rezultate să fie garantate cu o
anumită probabilitate (t cunoscut).
În aceste condiţii se poate determina volumul eşantionului (n)
pornind de la relaţia de calcul a erorii-limită admisă în sondajul
întâmplător simplu repetat:

2
 x rep  t
n
2
 x rep
2
t 2
n

de unde
92
t 2 2
nrep  2 .
xrep

În mod analog, pentru sondajul simplu întâmplător nerepetat


se obţine:

t 2 2
nnerep  .
t 2 2
xnerep 
2
N

4.5 Estimarea parametrilor lotului de bază

Orice studiu prin sondaj are ca finalitate extinderea


rezultatelor obţinute în eşantion la nivelul întregului lot de bază.
Astfel, de exemplu, cunoscându-se valoarea mediei variabilei
studiate obţinută în eşantion ( x ) şi eroarea limită admisă ( x ) se
poate estima că valoarea mediei aceleiaşi variabile la nivelul lotului
de bază (m) se va încadra, cu o probabilitate cunoscută, într-un
interval determinat astfel:

x  x  m  x  x  m  x  x; x  x

care poartă numele de interval de încredere.


Un astfel de interval se poate determina şi pentru nivelul total
(Q) estimat al variabilei studiate, la nivelul lotului de bază:

Q  N x  x; N x  x

Să încercăm în continuare să prezentăm, prin exemple (o


parte dintre ele preluate din [6]), modul de determinare a
parametrilor pentru trei tipuri de sondaje frecvent utilizate în
practică: sondajul simplu întâmplător, sondajul stratificat şi sondajul
93
de serii.

Sondajul simplu întâmplător


Este utilizat la cercetarea populaţiilor statistice care prezintă
un grad de omogenitate ridicat. Pentru formarea eşantionului
foloseşte unul din procedeele pe baza schemei bilei revenite sau bilei
nerevenite.
Să presupunem că dintr-un lot de 5000 de baterii de 1,5 V,
produs în condiţii tehnologice noi, s-a extras un eşantion de 10% pe
baza căruia se doreşte estimarea duratei medii de funcţionare a
acestora cu probabilitatea de 99,73% (t=3,0).
După durata de funcţionare, eşantionul prezintă distribuţia:

Durata de funcţionare (ore) Nr. de baterii


< 200 20
200 - 400 60
400 - 600 280
600 - 800 120
800  20
Total 500

Reamintim că, în cazul repartiţiilor realizate după intervale de


variaţie, pornind de la presupunerea că în cadrul intervalelor unităţile
statistice sunt uniform repartizate, drept reprezentant al fiecărui
interval se consideră centrul acestuia.
Obţinem astfel:

x
 xi f i  100  20  300  60  ...  900  20  524 ore
 fi 20  60  ...  20

s2 
 ( xi  x ) 2 f i 
 fi
(100  524) 2  20  (300  524) 2  60  ...  (900  524) 2  20
 
20  60  ...  20
 26624 ore2
94
Pentru cele două procedee de eşantionare posibile avem:
♦ eroarea medie de reprezentativitate:
- sondajul repetat:

s2 26624
 rep    7,30 ore
n 500

Reamintim că, în practică, atunci când nu se cunoaşte


dispersia populaţiei statistice de bază,  2 şi n  100 , se poate folosi
în locul ei, cu bune rezultate, dispersia sondajului, s 2 .

- sondajul nerepetat:

s2  n 26624  500 
 nerep  1    1    6,92 ore
n  N 500  5000 

♦ eroarea-limită admisă:
- sondajul repetat:
 x rep   rep  t  7,30  3,0  21,90 ore

- sondajul nerepetat:
 x nerep   nerep  t  6,92  3,0  20,76 ore

♦ estimarea duratei medii de funcţionare pentru lotul de bază:


- sondajul repetat:

 
m  x  x rep ; x  x rep  m  502,10; 545,90 ore

- sondajul nerepetat:

 
m  x  x nerep ; x  x nerep  m  503,24; 544,76 ore

95
Deci, în cazul organizării unui sondaj simplu repetat pe baza
unui eşantion de 500 de baterii, durata medie de funcţionare a
lotului de bază se situează în intervalul 502,10; 545,90 ore,
rezultate garantate cu probabilitatea de 99,73%, faţă de
503,24; 544.76 ore, interval obţinut prin organizarea unui sondaj
simplu nerepetat în aceleaşi condiţii.

♦ estimarea duratei totale de funcţionare a lotului de bază:


- sondajul repetat:

Dt 2510500; 2729500 ore

- sondajul nerepetat:

Dt 2516200; 2723800 ore

Dacă ne interesează volumul eşantionului pe baza căruia să


estimăm durata medie de funcţionare la acelaşi lot de 5000 baterii,
astfel încât cu probabilitatea de 99,73% eroarea limită admisă să nu
fie mai mare de 10 ore:
- pentru sondajul repetat:

t 2 s 2 32  26624
nrep    2396 baterii
x 2 100
2396
k  47,9%
5000

- pentru sondajul nerepetat:

t 2s2 32  26624
nnerep    1620 baterii
t 2s2 32  26624
x 
2
100 
N 5000

96
1620
k  32,4%
5000

Pentru că precizia este foarte ridicată x = 10 ore faţă de


21,90 ore şi respectiv 20,76 ore, volumul eşantionului ce ar trebui
extras creşte considerabil de la 500 baterii (10%) la 1620 (32, 4%)
în cazul organizării unui sondaj simplu nerepetat (sau 2396 (47, 9%)
în cazul sondajului simplu repetat).

Aceeaşi metodologie de calcul pentru indicatorii sondajului


se poate utiliza şi pentru cazul în care variabila studiată prin sondaj
este de tip Bernoulli, ţinând cont de modul de determinare a
principalilor indicatori ai acestei variabile (media şi dispersia).

Pentru acest tip de variabilă vom folosi notaţiile:

- pentru lotul de bază:


m p - media generală;
  p (1  p ) - dispersia generală;
2

- pentru eşantion:
w - media;
s  w1  w - dispersia.
2

Să presupunem că dintr-un lot de 5000 acumulatori auto a


fost cercetat un eşantion de 500 buc., din care, în urma controlului
de calitate, au fost constatate 20 rebuturi. Se cere să se estimeze
procentul de rebuturi pentru întregul lot fabricat.

Deci, pentru acest exemplu, avem:

Calitatea Numărul Frecvenţele


bateriilor de baterii relative
- rebut 20 0,04
- bune 480 0,96
Total 500 1
97
Obţinem:
- media rebuturilor din eşantion:

20
w  0,04 (4%)
500

- dispersia eşantionului:

s 2  w1  w  0,04  0,96  0,0384

- eroarea medie de reprezentativitate


- sondajul repetat:

s2 0,0384
 rep    0,00876
n 500

- sondajul nerepetat

s2  n
 nerep  1    0,00831
n  N

- eroarea-limită admisă
- sondajul repetat:

 wrep  t   rep  3,0  0,00876  0,0262 (2,62%)

- sondajul nerepetat:

 wnerep  t   nerep  3,0  0,00831  0,0249 (2,49%)

- estimarea procentului de rebuturi pentru lotul de bază


- sondajul repetat:

98
p  1,38%; 6,62%

- sondajul nerepetat:

p 1,51%; 6,49%

Deci, în lotul de bază se estimează că procentul de rebuturi


se cuprinde în intervalul 1,38; 6,62 % conform rezultatelor
sondajului simplu repetat, sau 1,51; 6,49 % conform rezultatelor
sondajului simplu nerepetat, care este mai precis.

- estimarea numărului total de rebuturi în lotul de bază:


Qt  N w  w
- sondajul repetat:
Qt  69 buc.; 331 buc.
- sondajul nerepetat:
Qt  75 buc.; 324 buc. .

Sondajul tipic (stratificat)


Se utilizează în cazul populaţiilor statistice care prezintă un
grad de omogenitate scăzut. În astfel de situaţii, populaţia din lotul de
bază se organizează, în prealabil, în grupe omogene, straturi.
Pentru a respecta condiţia de reprezentativitate eşantionul
trebuie format extrăgând din fiecare grupă un număr de unităţi direct
proporţional cu volumul său.
Pentru calculul indicatorilor sondajului, se foloseşte media
dispersiilor de grupă:

2 
  i2 f i - media dispersiilor de grupă din lotul de bază,
 fi
unde:

99
  x k  xi 
2
fk
 i2  - dispersia grupei i din lotul de bază
 fk
şi:
xk - variabila urmărită în grupa i;
xi - media grupei i;
fi - volumul grupei i;
 f i  N - volumul lotului de bază.
Eroarea medie de reprezentativitate se calculează cu relaţiile:

2
 rep 
n

2 n
 nerep  1   .
n  N

Dacă volumul eşantionului este suficient de mare ( n  100 )


se poate folosi în locul mediei dispersiilor de grupă din lotul de bază
(  2 ), media dispersiilor de grupă din eşantion ( s 2 ), caz în care:

s2
 rep 
n

s2  n
 nerep  1  
n  N
Eroarea-limită admisă:
 s2
 x rep  t  t
n
 s2  n
 xnerep  t  t 1   .
n  N
100
Volumul eşantionului:

t2 s2
nrep 
x rep
2

t2 s2
nnerep  .
t2 s2
xnerep
2

N

De exemplu, să presupunem că la nivelul unei firme se


cunosc datele:

Categoria de Nr. de Salariul mediu Coeficientul de


calificare muncitori lunar xi (lei) variaţie Cvi (%)
I 22 580 16
II 38 510 21
III 65 480 19
IV 75 400 18
Total 200 * *

Se cere determinarea volumului eşantionului astfel încât pe


baza lui să se poată estima salariul mediu la nivelul firmei care să
nu se abată faţă de salariul mediu calculat la nivelul eşantionului cu
mai mult de 35 lei, rezultatele trebuind garantate cu o precizie de
99,73% (t  3,0) .
Valoarea dispersiei de grupă (  i2 ) s-a determinat pe baza
relaţiei de calcul al coeficientului de variaţie corespunzător grupei:
 Cv 2  x 2
Cvi  i  100   i2  i 2 i
xi 100

Obţinem astfel:

101
Cv12  x12 16 2  580 2
- pentru grupa I:  12    8611,84
100 2 10000

Cv22  x 22 212  510 2


- pentru grupa II:  22    11470,41
100 2 10000

Cv32  x32 19 2  480 2


- pentru grupa III:  32    8317,44
100 2 10000

Cv42  x42 18 2  400 2


- pentru grupa IV:  42    5184 .
100 2 10000

Rezultă astfel:

 2   i i  7773,848
2f
 fi
3 2  7773,848
nrep   57,11399  58 muncitori
35 2

58
k  29%
200

3 2  7773,848
nnerep   44,42  43 muncitori
3 2  7773,848
35 2
200

43
k  21,5% .
200

Prin urmare, pentru a obţine rezultatele dorite în condiţiile


respectării preciziei cerute trebuie extras un eşantion de 58

102
muncitori (29% din lotul de bază) în varianta sondajului tipic repetat
sau 43 (21,5%) în varianta nerepetată.
Dacă variabila urmărită este de tip alternativ (Bernoulli),
atunci indicatorii sondajului se vor determina ţinând cont de modul
de calcul al mediei şi dispersiei, şi anume:

m p,
 2  p(1  p) ,

(p fiind probabilitatea de apariţie a evenimentului urmărit în întreaga


populaţie), atunci, pentru acest tip de variabilă vom avea:
- eroarea medie de reprezentativitate:

p1  p  2
 rep   ;
n n

p1  p   n 2  n
 nerep  1    1   .
n  N n  N

Şi în acest caz, dacă nu se cunoaşte  2 , dar n  100 , se poate


folosi cu bune rezultate dispersia mediilor de grupă în eşantion
s 2  w(1  w) (w fiind probabilitatea de apariţie a evenimentului
urmărit în eşantion).

- eroarea-limită admisă:

 x rep  t rep ;
 x nerep  t nerep .

- volumul eşantionului:

103
t 2 2
nrep  ;
x rep
2

t 2 2
nnerep  .
t 2 2
xnerep 
2
N

Să presupunem că, pentru estimarea părerii populaţiei unei


localităţi cu 10000 de locuitori adulţi asupra unei probleme de larg
interes, se interoghează un eşantion de 10% din populaţia celor trei
cartiere ale localităţii, eşantion extras la întâmplare şi nerepetat. Se
obţin următoarele rezultate:

Număr Eşantion Persoane de


Cartierul
locuitori extras acord
A 2000 200 110
B 5000 500 350
C 3000 300 120
Total 10000 1000 580

Să se determine eroarea-limită admisă pentru probabilitatea


de 99,60% (t  2,88) , intervalul de încredere care include media
răspunsurilor afirmative în eşantion şi să se estimeze numărul total
al persoanelor de acord.

Avem:
110 350 120
wA   0,55 ; wB   0,7 ; wC   0,4
200 500 300
iar
580
w  0,58 .
1000

Deoarece n  100 , vom opera cu media dispersiilor de grupă


în eşantion:
104
s 
2  si2 f i
,
 fi
unde
si2  wi 1  wi  ;
vom avea:
s A2  0,551  0,55  0,2475
s B2  0,71  0,7   0,21
sC2  0,41  0,4  0,24
şi deci:
0,2475  200  0,21  500  0,24  300
s2   0,2265 .
1000

Obţinem astfel:

0,2265  1000 
 w  2,88 1    0,0411 .
1000  10000 

Intervalul de încredere care conţine media răspunsurilor


afirmative în eşantion:

w  w  p  w  w
p  53,89%; 62,11%.

Numărul de răspunsuri afirmative pentru întreaga populaţie


va fi:

N w  w  Qt  N w  w

Qt  5389 persoane; 6211 persoane  .

Cu o probabilitate de 99,6% se estimează că intervalul de


încredere are limitele 53,89% - 62,11%. Ne aşteptăm, în aceleaşi
105
condiţii de precizie, ca între 5389 şi 6211 persoane să dea un
răspuns afirmativ la problema supusă studiului.
Dacă pentru aceeaşi populaţie de 10000 de persoane ni se
cere să determinăm volumul eşantionului astfel ca eroarea să fie cu
20% mai mică decât în cazul precedent, dar în condiţiile unei
probabilităţi de 0,9986 (t  3,2) , vom avea:

20
w   w  w  w  0,03288
100
3,2 2  0,2265
n  1767 persoane,
3,2 2  0,2265
0,03288 
2
10000
care ar reprezenta:

1767
k  100  17,67%
10000

din populaţie, iar eşantioanele, pe cartiere ar fi:

2000  1767
nA   353 persoane
10000
5000  1767
nB   884 persoane
10000
3000  1767
nC   530 persoane.
10000

Sondajul de serii
Se utilizează atunci când populaţia statistică din lotul de bază
este alcătuită nu din unităţi simple, ci din unităţi complexe (de
exemplu, numărul de muncitori ai unei firme organizaţi în echipe de
aceeaşi mărime, produse finite de acelaşi fel ambalate în seturi). În
acest caz eşantionul se formează prin extragerea de unităţi complexe
(serii).
106
Convenim, pentru acest tip de sondaj, să adoptăm
următoarele notaţii:
r - numărul de serii ce formează eşantionul;
R - numărul total de serii din care este alcătuit lotul de bază;
x - media lotului de bază;
xi - media seriei i;
 2 - dispersia mediilor seriilor de la media generală a lotului de
bază, adică:
x  x 2
2   i .
R

Cu aceste notaţii, indicatorii sondajului de serii sunt:


- eroarea medie de reprezentativitate:

2 Rr
 nerep   .
r  R 1 

În loc de  2 care presupune cercetarea tuturor seriilor din


lotul de bază, ceea ce ar reprezenta o observare totală, la calculul
erorii mediei se poate folosi cu bune rezultate dispersia mediilor
seriilor de la media eşantionului (  s2 ), adică:

 s2  R  r 
 nerep   ,
r  R 1 
unde
x  x 2
 s2   i ,
r
iar media eşantionului:
xs 
 xi .
r

- eroarea-limită admisă:
107
 x nerep  t nerep ;

- volumul eşantionului:

R t 2 2
rnerep  .
R  1 xnerep
2
 t 2 2

De exemplu să considerăm că la o firmă de îmbuteliere a


apei minerale în sticle de doi litri, pentru reglarea corectă a
utilajelor în vederea dozării corecte a conţinutului, se organizează
un sondaj statistic. Cunoscând că produsul se livrează în baxuri de
câte 6 (12 l), dintr-un lot de 300 sticle îmbuteliate se testează 5
baxuri, extrase la întâmplare şi nerepetat.
Prin măsurători asupra eşantionului au rezultat:

Nr. crt. al pachetului Cantitatea medie de apă


extras (ml)
0 1
41 2050
48 2030
13 1990
24 1960
33 2010

Se cer:
a) eroarea-limită admisă pentru o probabilitate de 99,31%
( t  2,7 );
b) intervalul în care se va încadra cantitatea medie de apă
minerală dozată în cele 300 de sticle îmbuteliate;
c) ce eşantion va trebui extras dacă probabilitatea cu care
trebuie să garantăm rezultatele este 99,49% ( t  2,8 ), iar eroarea să
nu fie mai mare de  20 ml.
Se cunosc:
108
300
R  50 baxuri
6
r = 5 baxuri (10%)

xs 
 xi  2050  2030  ...  2010  2008 ml
r 5

  x i  x s 2
 s2   976
r

97  50  5 
 x  2.7    36,15 ml
5  50  1 

 x  36 ml

x s  x  x  x s  x

x 1972; 2044 ml.

Dacă dorim să inscripţionăm pe etichetă: conţinut


2 l  20 ml şi cunoscând abaterea reală de  36 ml, evident că
urmează reglajele de corecţie necesare.

50  2,82  976
r  14 baxuri.
50  1  20 2  2,82  976
Deci, în condiţiile unui sondaj de precizie mai mare
(probabilitate de 99,49% în loc de 99,31% şi o eroare în scădere de
la 36 ml la 20 ml) trebuie să studiem 14 pachete din cele 50 (48%) în
loc de 5 (10%).

În cazul în care variabila studiată prin sondaj este alternativă


(de tip Bernoulli), indicatorii sondajului se vor calcula cu relaţiile:
109
- eroarea medie de reprezentativitate:

 w2  R  r 
 wnerep   ;
r  R 1 
- eroarea-limită admisă:

 wnerep  t wnerep ;

- numărul de serii ce formează eşantionul:

R t 2 w2
rnerep  .
R  1wnerep
2
 t 2 w2

De exemplu să considerăm că pentru aprecierea calităţii unui


lot de 50000 de becuri de 60 W, ambalate în cutii de câte 100 becuri,
se controlează un eşantion de 10 cutii extrase la întâmplare şi
nerepetat. Rezultatele observării eşantionului sunt:

Nr. de ordine al Nr. de becuri Media rebuturilor


cutiei extrase defecte din cutie în eşantion (wi)
240 3 0,03 (3/100)
31 5 0,05 (5/100)
300 2 0,02 (2/100)
405 4 0,04 (4/100)
12 3 0,03 (3/100)
44 2 0,02 (2/100)
56 4 0,04 (4/100)
9 3 0,03 (3/100)
212 3 0,03 (3/100)
188 2 0,02 (2/100)
Total 31 *

Să se determine eroarea-limită admisă în condiţiile unei


probabilităţi 99,86% ( t  3,2 ), limitele intervalului de încredere şi
110
să se estimeze numărul becurilor defecte în lotul de bază.

Avem:

 0,031 3,1%  ; r  10 .
50000 31
R  500 ; w 
100 1000

Obţinem:

 wi  w
2
 w2  
r


0,03  0,0312  0,05  0,0312  ...  0,02  0,0312
 0,000077
10

de unde:

0,000077  500  10 
 w  3,2    0,0088 .
10  500  1 

- procentul de rebuturi din lotul de bază:

w  w  p  w  w

p  2,22%; 3,98% ;

- numărul de becuri defecte din lotul de bază:

N w  w  Qdef  N w  w

Qdef  1110 becuri; 1990 becuri  .

Procentul de rebuturi estimat la nivelul lotului de bază cu o


precizie de 99,86% este cuprins în intervalul 2,22; 3,98 .
111
Ne aşteptăm ca lotul de bază să conţină cel puţin 1110 şi cel
mult 1990 becuri defecte.

112
5 Verificarea ipotezelor statistice

5.1 Testele statistice

Testul statistic constă în elaborarea unui criteriu (de aceea


testul statistic mai este întâlnit şi sub numele de criteriu de
semnificaţie), cu ajutorul căruia se verifică o anumită ipoteză
statistică, şi a unei reguli fixate în prealabil, cu ajutorul căreia să se
poată accepta sau respinge respectiva ipoteză statistică cu o anumită
probabilitate. În acest sens, se determină o statistică – o funcţie
calculată pe baza valorilor dintr-un eşantion.
Ipoteza statistică nu este altceva decât o presupunere făcută
cu privire la distribuţia şi comportarea unor variabile aleatoare în
procesul experimental. În mod evident, asupra acestor variabile
acţionează o multitudine de factori, unii dintre ei cu acţiune
întâmplătoare, alţii sistematici.
În ce priveşte ipotezele statistice, vom întâlni două noţiuni, şi
anume:
- ipoteza nulă (ipoteza de nul, ipoteza diferenţei nule) – notată
cu H0 şi care, cu o anumită probabilitate, afirmă că nu există o
diferenţă semnificativă între repartiţia datelor empirice
obţinute din eşantion şi cea a populaţiei din care provine
eşantionul respectiv, sau între diferiţi indicatori obţinuţi din
eşantion şi cei ai populaţiei de bază, sau între diferite
eşantioane;
- ipoteza alternativă – notată cu H1, afirmă, cu aceeaşi
probabilitate, că aceste diferenţe există, ele sunt semnificative.
Principiul construirii unui test pe baza căruia se poate accepta
sau respinge ipoteza H0 presupune împărţirea spaţiului de selecţie X
în două submulţimi: regiunea critică (RC) şi complementara acesteia,
domeniu de încredere, (CRC). Dacă punctul definit de vectorul de
sondaj x1 , x 2 ,..., x n cade în regiunea critică RC ipoteza se respinge, iar
dacă punctul cade în afara regiunii critice, respectiv în CRC, ipoteza
se acceptă.
Testele statistice pot fi împărţite în două categorii:
113
- Teste de concordanţă. Cu ajutorul lor este verificată analogia
dintre repartiţia obţinută pe baza datelor dintr-un anumit
eşantion şi un anumit model teoretic. Aceste teste nu se referă
la parametrii repartiţiilor, ele sunt deci teste neparametrice.
- Teste de semnificaţie. Cu ajutorul lor este verificată egalitatea
unui anumit parametru estimat pe baza datelor empirice dintr-
un eşantion cu o anumită valoare teoretică. În utilizarea lor se
consideră confirmată ipoteza conform căreia datele urmează o
anumită repartiţie, de obicei fiind vorba despre repartiţia
normală Urmărind precizarea parametrilor unei repartiţii date,
sunt, deci, teste parametrice.
În procesul verificării ipotezelor statistice pot fi comise două
tipuri de erori şi anume: să se respingă o ipoteză justă considerând că
aceasta nu este adevărată, sau, dimpotrivă, să acceptăm o ipoteză
falsă considerând că ea este adevărată. Erorile comise în primul caz
se numesc erori de genul I, probabilitatea comiterii unor astfel de
erori fiind denumită risc de genul I (prag de semnificaţie sau nivel
de încredere, notat cu ), iar erorile comise prin acceptarea ca
adevărată a unei ipoteze false se numeşte risc de genul II (notat cu
); în mod evident, cele două riscuri sunt într-o relaţie inversă (dacă
unul creşte, celălalt scade), deci singura modalitate de a micşora
concomitent cele două riscuri constă în mărirea volumului
eşantionului. Mărimea acestor riscuri se stabileşte în funcţie de
considerente economice şi de natura subiectului analizat prin sondaj.
Probabilitatea  de a respinge ipoteza H0 pe baza unui test de
verificare se numeşte puterea testului şi este dată de relaţia
  1   . Dacă ipoteza H0 este adevărată, atunci puterea testului
trebuie să fie foarte mică, iar dacă ipoteza H0 este falsă, atunci
puterea testului trebuie să fie cât mai mare.
O altă clasificare, în funcţie de ipotezele pe care le verifică,
împarte testele statistice în şase categorii, după cum urmează:
1. Teste pentru verificarea calităţii datelor de sondaj. Este
cunoscut faptul că asupra datelor de sondaj pot acţiona două tipuri de
erori: erori sistematice, cu acţiune unilaterală şi erori aleatoare, cu
acţiune în ambele sensuri, datorate unei multitudini de factori a căror
influenţă individuală este neglijabilă. Atât erorile sistematice, cât şi
114
valorile afectate de erori grosolane trebuie depistate şi eliminate ele
influenţând nefavorabil rezultatele sondajului.
2. Teste pentru compararea a doi indicatori. Sunt utilizate, aşa
după cum arată şi denumirea domeniului, pentru compararea a doi
indicatori proveniţi din datele a două eşantioane diferite sau din
datele unui eşantion şi cei ai populaţiei de bază.
Înainte abordarea acestor teste, sunt necesare câteva precizări
în ceea ce priveşte modul de obţinere a acestor eşantioane şi mărimea
lor.
În cazul în care alegerea unui element care va face parte din
primul eşantion nu are nicio influenţă asupra alegerii elementelor din
cel de-al doilea eşantion, deci alegerea elementelor componente ale
celor două eşantioane nu se face pe baza unei condiţii prealabile,
vom spune că cele două eşantioane sunt independente. În cazul în
care fiecare element din primul eşantion corespunde unui element din
cel de-al doilea eşantion (de exemplu, domeniul de reşedinţă, sexul,
vârsta, nivelul de cunoştinţe etc.), sau în cazul în care observaţiile
privesc acelaşi eşantion, sau acelaşi eşantion este supus la probe
diferite, este vorba de eşantioane perechi (sau corelate).
În ceea ce priveşte mărimea eşantioanelor, acestea se împart
în eşantioane mari şi eşantioane mici. În practică se consideră
eşantioane mici cele ale căror volum n nu depăşeşte 30 de subiecţi.
Spre deosebire de eşantioanele mari, în cadrul cărora se utilizează
statistica z, în cazul eşantioanelor mici se utilizează statistica t.
Specific eşantioanelor mici este faptul că numitorul dispersiei şi
volumul eşantionului, în calcule, va fi n  1 , în loc de n. Tot n  1 va
fi şi numărul gradelor de libertate. În cazul acestor eşantioane,
valoarea tabelară t nu va mai fi fixă ca în cazul lui z, ci va depinde de
volumul eşantionului n.
3. Teste pentru compararea a două distribuţii empirice. Aceste
teste sunt utilizate pentru verificarea omogenităţii a două serii de
date, sau, cu alte cuvinte, în verificarea ipotezei că seriile au aceeaşi
distribuţie. Pentru aceasta, ele utilizează fie rangurile acordate
valorilor din eşantioane, fie distanţele maxime între cele două
structuri etc. Ca urmare a faptului că ele nu utilizează valorile
efective, ci doar ranguri sau semne acordate acestor valori, ele
115
prezintă dezavantajul de a fi mai puţin precise. Totuşi, ca un avantaj,
utilizarea acestor teste nu presupune normalitatea distribuţiilor.
4. Teste de concordanţă. Cu ajutorul lor se compară distribuţia
obţinută pe baza datelor empirice ale eşantionului, fie cu distribuţia
populaţiei de bază din care provine acest eşantion, fie cu o distribuţie
teoretică, de obicei cea normală.
5. Teste pentru compararea mai multor indicatori. Compară
indicatorii statistici proveniţi din mai multe eşantioane, punând în
evidenţă semnificaţia diferenţelor dintre aceşti indicatori.
6. Teste pentru compararea mai multor eşantioane. Cu
ajutorul acestor teste se compară mai multe distribuţii, omogenitatea
acestora reliefând faptul că eşantioanele sunt extrase din aceeaşi
populaţie şi, drept urmare, distribuţiile respective coincid în ceea ce
priveşte valorile parametrilor lor.
Vom încerca, în continuare, să prezentăm câteva teste
statistice mai cunoscute, respectând această ultimă clasificare.
Cititorul va deduce singur care din testele prezentate sunt
parametrice şi care nu. Acolo unde este cazul, vom specifica dacă
eşantioanele sunt independente sau perechi. De asemenea, la fiecare
test prezentat, va fi ataşat şi un exemplu. Totuşi, în cazul unei
înlănţuiri logice a două sau mai multe teste, exemplul prezentat le va
aborda unitar.

5.2 Teste pentru verificarea calităţii datelor de


sondaj

Depistarea şi eliminarea erorilor sistematice se dovedeşte


practic dificilă datorită multitudinii de factori care se
intercondiţionează şi de aceea metodica eliminării acestor erori are
un caracter foarte complex şi variat. Ţinând cont de acest lucru, ne
vom mărgini la expunerea a două teste, testul iteraţiilor şi testul lui
Young, care nu oferă posibilitatea eliminării erorilor sistematice, ci
doar pe aceea a aprecierii influenţei cauzelor sistematice asupra
datelor de sondaj.
În cazul depistării valorilor afectate de erori grosolane, deci al
116
omogenizării datelor, posibilităţile „standard” de eliminare a acestor
valori sunt mai numeroase. Vom prezenta testele lui Grubbs-
Smirnov, Irwin, Grubbs şi Chauvenet.

5.2.1 Testul iteraţiilor pentru determinarea acţiunii


cauzelor sistematice

Acest test are la bază ipoteza că, dacă variaţia variabilei de


sondaj are loc numai sub acţiunea cauzelor întâmplătoare, valorile
observate vor oscila întâmplător în jurul centrului de grupare.
Se testează ipoteza:
H 0 : asupra datelor de sondaj au acţionat numai factori aleatori;
cu alternativa
H 1 : asupra datelor de sondaj au acţionat erori sistematice.
Valorile succesive ale variabilei de sondaj care au aceeaşi
proprietate (adică sunt fie mai mari, fie mai mici decât centrul de
grupare - caracterizat de exemplu prin mediană), formează o iteraţie.
Numărul total al valorilor dintr-o iteraţie poartă numele de lungimea
iteraţiei.
Testul iteraţiilor poate fi aplicat atât variabilelor alternative,
cât şi variabilelor măsurabile. Acestea se grupează în valori mai mari
decât mediana (notate cu a), mai mici decât mediana (notate cu b),
sau egale cu mediana (notate cu m).
Numărul total al iteraţiilor I dintr-un şir de n valori (format
din na elemente a şi nb elemente b, cu na  nb  n ) este o variabilă
aleatoare care are o anumită repartiţie. Dacă n este suficient de mare,
această variabilă se repartizează aproximativ normal cu:

2na nb
M (I )   1 (media);
n
2 n a nb ( 2 n a nb  n )
D 2 (I )  (dispersia).
(na  nb ) 2 (na  nb  1)

117
n
Când n a  nb  (teoretic, numerele valorilor a şi b sunt
2
egale), obţinem:
n
M (I )  1;
2

n ( n  2)
D 2 (I )  .
4( n  1)

Dacă în timpul efectuării sondajului asupra variabilei


cercetate au acţionat numai cauze întâmplătoare, atunci va rezulta un
număr mare de iteraţii care va depăşi un număr dat I, deci:

P( I  I  )  1    P( I  I  )   ,

unde  este nivelul de semnificaţie ales.

Utilizând variabila normală normată, putem scrie:

1 1  2n a nb   1
I  M (I ) I   1 n I    2na nb
2 2  n   2
z  
D 2 (I ) 2n a nb ( 2n a nb  n) 2n a nb ( 2n a nb  n)
(na  nb ) 2 (na  nb  1) n 1

n
Pentru n a  nb  , obţinem:
2
n
2I  1  n 2I  1  n
z 2  .
n n 2  2n n 2  2n
2 n 1 n 1
Considerând n este suficient de mare, aproximăm:
118
n 2  2n  ( n  1) 2 ,

de unde rezultă:

2I  1  n
z ,
n 1
deci:

z n  1  2I  1  n ,

din care rezultă:

z n  1  n  1  2I ,

de unde obţinem:

1
I ( n  1  z n  1) .
2

Corespunzător unui nivel de semnificaţie  ales:

1
I  ( n  1  z  n  1)
2

(z se determină din tabelele funcţiei Laplace conform relaţiei:

1
   ( z ) ).
2

Ipoteza H0 (deci ordinea este întâmplătoare) se acceptă dacă:

H 0 : I  I
119
şi se respinge, acceptând ipoteza alternativă, dacă:

H1 : I  I

(deci ordinea nu este întâmplătoare, există erori sistematice).

Aceeaşi problemă se poate rezolva şi cu ajutorul criteriului


lungimii iteraţiilor. Ca şi numărul lor, lungimea iteraţiilor este o
variabilă aleatoare care, pentru un volum suficient de mare al
eşantionului, se repartizează după legea Poisson, iar legea Poisson,
pentru n foarte mare, tinde către repartiţia normală.
Dacă datele de sondaj sunt independente, atunci lungimea
unei iteraţii, K, nu poate depăşi o valoare K aşa încât:

P( K  K  )    P( K  K  )  1   .

Numărul mediu al iteraţiilor formate din k sau mai multe


elemente a şi al celor formate din k sau mai multe elemente b, în
cazul na  nb , este:

n
M ( I ak )  M ( I bk )  k 1
.
2

În cazul repartiţiei Poisson aveam:

x ak
F ( x)  e a 
k  0 k!

(parametrul a reprezentând media repartiţiei Poisson, deci în cazul


n
nostru a  k 1 ).
2
Considerând x  0 , obţinem:

120
P( K  K )  F (0)  e a .

Dar:
P( K  K  )  1  P( K  K  )  1  

şi deci, în cazul nostru:


n

1  e 2 K 1 ,

de unde, după calcule elementare, obţinem:

 n 
lg  
ln(1   ) 
K    1.
lg 2

Dacă K max  K  , unde Kmax reprezintă lungimea maximă a


iteraţiilor, atunci se poate accepta cu probabilitatea P  1   că
variaţia variabilei de sondaj a fost determinată numai de cauze
întâmplătoare, în caz contrar apreciindu-se că asupra variabilei au
acţionat şi cauze sistematice.

Observaţii. Nu se consideră iteraţii variaţiile de forma „ama”


sau „bmb”. Ipoteza fiind elaborată în condiţia na  nb , va trebui ca
dintre valorile egale cu mediana o parte să le repartizăm lui a, iar
cealaltă parte lui b, cu condiţia ca numărul total al iteraţiilor să nu se
schimbe. În acest scop vor fi satisfăcute mai întâi iteraţiile care
înglobează valori egale cu mediana (de exemplu „ama” va deveni
„aaa”), ulterior fiind repartizate valorile medianei plasate între două
iteraţii distincte, valori ce pot fi atribuite oricăreia dintre iteraţiile
care o încadrează.

De exemplu, aplicând testul iteraţiilor, să se verifice


caracterul aleator al variaţiei următorului şir de date, cunoscând că
pentru o probabilitate de 95% avem z 0,95  1,645 :
121
5,27; 5,08; 5,21; 5,09; 5,16; 5,24; 5,21; 5,26; 5,06; 5,25; 5,08; 5,21; 5,16;
5,25; 5,06; 5,21; 5,26.

Având în vedere faptul că seria de distribuţie alcătuită din


şirul valorilor date este o serie după variante ale caracteristicii de
grupare, mediana va fi dată de termenul central al seriei, ordonată
crescător sau descrescător, adică de termenul de rang 9.
Seria, ordonată crescător, este:

5,06; 5,06; 5,08; 5,08; 5,09; 5,16; 5,16; 5,21; 5,21; 5,21; 5,21; 5,24; 5,25;
5,25; 5,26; 5,26; 5,27.

Termenul de rang 9 în această serie este 5,21, deci Me  5,21 .


Vom nota cu a = valori mai mici decât mediana, cu m = valori egale
cu mediana, cu b = valori mai mari decât mediana.

Şirul simbolurilor, obţinut din seria dată, este :

b a m a a b m b a b a m a b a m b.

După cum se observă, numărul de iteraţii obţinut este I  9 .


Numărul teoretic minim de iteraţii este dat de formula:

1
I  ( n  1  z  n  1) .
2
În cazul nostru:

1 1
I 0,05  (17  1  1,645  17  1)  (18  6,58)  5,71  6 .
2 2

Deoarece I  9  6  I 0,05 , acceptăm cu o probabilitate de


95% că datele nu au fost afectate de erori sistematice.
Aplicând varianta care ia în considerare lungimea iteraţiilor,
obţinem:
122
 n   n 
lg   lg 
 ln( 1   )   ln( 1  0,05) 
K 0,05  1   1  8,37  1  7,37 .
lg 2 lg 2

După cum se observă, în cazul nostru K max  4 şi, deoarece


K max  4  7,37  K 0,05 , acceptăm şi în baza acestui criteriu, cu o
probabilitate de 95%, că datele nu au fost afectate de erori
sistematice.

5.2.2 Testul Young pentru determinarea acţiunii


cauzelor sistematice

Ca şi în cazul testului iteraţiilor, se testează ipoteza:


H 0 : asupra datelor de sondaj au acţionat numai factori aleatori;
cu alternativa
H 1 : asupra datelor de sondaj au acţionat erori sistematice.
Dat fiind dat un şirul de valori experimentale x1 , x2 ,..., xn , se
calculează mărimea

1 n 1
2   xi 1  xi 
2
n  1 i 1
şi mărimea
2
M  .
2

Mărimea M astfel determinată cu valorile VCI (valoare critică


inferioară) şi VCS (valoare critică superioară), alese din tabelul 5.1,
şi se consideră că şirul de valori experimentale are un caracter
aleator, cu probabilitatea α, dacă este îndeplinită condiţia:

VCI  M  VCS

123
Tabelul 5.1 Valorile VCI şi VCS pentru testul Young
VCI VCS
n
  0,95   0,99   0,95   0,99
4 0,78 0,53 3,22 3,47
5 0,82 0,54 3,18 3,46
6 0,89 0,56 3,11 3,44
7 0,94 0,61 3,06 3,39
8 0,98 0,66 3,02 3,34
9 1,02 0,71 2,98 3,29
10 1,06 0,75 2,94 3,25
11 1,10 0,79 2,90 3,21
12 1,13 0,83 2,87 3,17
15 1,21 0,92 2,79 3,08
20 1,30 1,04 2,70 2,96
25 1,37 1,13 2,63 2,87

Se poate observa că testul nu poate fi aplicat decât pentru


eşantioane conţinând cel mult 25 de valori experimentale. Parametrul
α din tabelul 5.1 are semnificaţia unui coeficient de încredere şi
poate fi ales orientativ, în funcţie de volumul eşantionului, din
tabelul 5.2.
Observaţie: dacă volumul eşantionului se află între două
valori din tabelul 5.2, este indicat să se aleagă valoarea α
corespunzătoare unui volum mai mic al eşantionului.

Tabelul 5.2
n 5 6 7 8 9 10 12 14
α 0,960 0,970 0,976 0,980 0,983 0,985 0,988 0,990
n 16 18 20 25 30 50 100 150
α 0,991 0,992 0,993 0,994 0,995 0,996 0,997 0,9973

De exemplu, considerând acelaşi şir de date prezentat la


testului iteraţiilor şi anume:
5,27; 5,08; 5,21; 5,09; 5,16; 5,24; 5,21; 5,26; 5,06; 5,25; 5,08; 5,21;
5,16; 5,25; 5,06; 5,21; 5,26

124
să se decidă utilizând testul Young dacă şirul de date are un caracter
aleator.
Determinăm:

1 17
- media: x    xi  5,18 ;
17 i 1

1 17
- dispersia:  2    ( xi  x) 2  0,005975 .
n  1 i 1
1 16
- 2   xi 1  xi   0,0172313 .
2
16 i 1

Avem acum:
 2 0,0172313
M    2,88 .
2 0,005975

După cum se observă din tabelul 5.2, VCS pentru n  15


(3,08) şi pentru n  20 (2,96) sunt superioare celei obţinute de noi
pentru n  17 (2,88), rezultă, cu o probabilitate de 99% că nu există
erori sistematice.

5.2.3 Testul Grubbs – Smirnov pentru eliminarea


valorilor aberante

În cazul când anumite valori de sondaj diferă mult de


celelalte - fie sunt mult mai mari, fie mult mai mici - se consideră că
s-a produs o eroare grosolană. În mod evident, aceste erori vor afecta
rezultatele sondajului, nefiind caracteristice populaţiei de bază din
care provine masa celorlalte valori. De aceea, ele trebuie depistate şi
eliminate.
Testul Grubbs – Smirnov se aplică în cazul în care parametrii
teoretici ai populaţiei de bază, m şi 2, sunt cunoscuţi.
Se testează ipoteza:
125
H 0 : în cadrul eşantionului există valori aberante;
cu alternativa
H 1 : valorile din eşantion nu constituie erori grosolane.

Şirul de observaţii x1 , x2 ,..., xn fiind considerat ordonat


crescător, deci x1 este valoarea minimă din şir, iar xn cea maximă,
funcţia de repartiţie a valorii maxime xn este dată de relaţia:

P( xn  x)  [ P( x)]n  P ,

unde: P( x)  P( X  x) reprezintă funcţia de repartiţie a variabilei X.


Fixând o probabilitate P, există o valoare maximă xnP care nu
poate fi depăşită decât cu o probabilitate mică.
Dacă variabila X este repartizată normal N ( m,  2 ) , putem
x m
defini o variabilă z nP  nP cu ajutorul căreia se determină

valoarea teoretică maximă a unui şir de date:

xnP  m  z nP   .

În cazul în care valoarea maximă din şirul de valori este mai


mică decât valoarea teoretică xnP, considerăm că valoarea sa mare
este datorată întâmplării, iar dacă valoarea maximă este mai mare
decât valoarea teoretică xnP, ea este considerată ca fiind o eroare
grosolană. Cu alte cuvinte:

H0: xn  xnP valoarea nu se exclude din şir;


H1: xn  xnP valoarea se exclude din şir.

În mod analog putem determina un criteriu pentru eliminarea


valorilor minime dintr-un şir. Repartiţia normală fiind simetrică, în
acest caz limita minimă teoretică va fi dată de:
126
x1P  m  z nP   ,

deci:
H0: x1  x1P valoarea nu se exclude din şir;
H1: x1  x1P valoarea se exclude din şir.

Valorile znP, funcţie de n şi P  0,95 sunt prezentate în


tabelul 5.3.

Tabelul 5.3 Valorile znP ( P  0,95 )


n znP n znP n znP n znP n znP n znP n znP
2 1,95 12 2,63 22 2,83 40 3,03 90 3,25 150 3,39 250 3,53
3 2,12 13 2,66 23 2,84 45 3,06 95 3,27 160 3,41 260 3,54
4 2,23 14 2,68 24 2,85 50 3,09 100 3,29 170 3,43 270 3,55
5 2,32 15 2,70 25 2,87 55 3,11 105 3,30 180 3,45 280 3,56
6 2,39 16 2,73 26 2,88 60 3,13 110 3,31 190 3,46 290 3,57
7 2,44 17 2,75 27 2,90 65 3,16 115 3,32 200 3,47 300 3,58
8 2,49 18 2,76 28 2,91 70 3,18 120 3,34 210 3,49
9 2,53 19 2,78 29 2,92 75 3,20 125 3,35 220 3,50
10 2,56 20 2,80 30 2,93 80 3,22 130 3,36 230 3,52
11 2,60 21 2,81 35 2,98 85 3,23 140 3,38 240 3,53

De exemplu, în urma efectuării unui sondaj de volum n  20 ,


dintr-o populaţie statistică despre care se ştie că are media m  7,98
şi abaterea medie pătratică   0,042 , s-au obţinut următoarele
rezultate:

7,93; 7,99 8,05 7,93 7,95 7,94 7,96 7,93 8,03 8,01
7,92 7,94 8,06 7,95 8,02 7,97 8,05 7,99 7,95 8,03

Ştiind că pentru o probabilitate p  95% avem


z 20;0,95  2,80 , se cere să se specifice dacă valorile extreme
constituie valori aberante.
Întrucât media şi dispersia colectivităţii generale sunt
127
cunoscute, se aplică testul Grubbs-Smirnov şi avem:
xnP  m  z nP   ,
respectiv
x1P  m  z nP   .
Înlocuind, obţinem valorile teoretice:
- maximă: x 20;0,95  7,98  2,80  0,042  8,0976
- minimă: x1;0,95  7,98  2,80  0,042  7,8624

Deoarece valoarea maximă din seria de date (8,06) este sub


limita maximă admisă, rezultă că ea nu constituie o valoare aberantă
şi nu va fi eliminată din şirul observaţiilor. De asemenea, valoarea
minimă din şir (7,92) este peste limita minimă admisă, adică nici ea
nu constituie o valoare aberantă.

5.2.4 Testul Irwin pentru eliminarea valorilor


aberante

Se aplică pentru eliminarea datelor afectate de erori grosolane


în cazul în care se cunoaşte numai 2.
Se testează ipoteza:

H 0 : în cadrul eşantionului există valori aberante;


cu alternativa
H 1 : valorile din eşantion nu constituie erori grosolane.

Pentru aplicarea acestui test, considerând şirul de valori de


sondaj ordonat crescător, se calculează rapoartele:

xn  xn1
 , pentru valoarea maximă,

respectiv:

128
x2  x1
 , pentru valoarea minimă.

Fie în cazul testării valorii maxime, fie în cazul testării


valorii minime din şir, diferenţa dintre cei doi termeni situaţi la una
dintre extremităţile şirului raportaţi la abaterea medie pătratică nu
poate depăşi o anumită valoare dată în funcţie de nivelul de
semnificaţie ales.
Valorile funcţie de n şi de  sunt prezentate în tabelul 5.4.

Tabelul 5.4 Valorile  ,n


 
n n
0,10 0,05 0,01 0,10 0,05 0,01
2 2,33 2,77 3,64 12 1,11 1,41 1,97
3 1,79 2,17 2,90 13 1,09 1,39 1,94
4 1,64 2,05 2,75 14 1,07 1,37 1,91
5 1,51 1,93 2,60 15 1,06 1,35 1,88
6 1,39 1,81 2,45 16 1,05 1,33 1,86
7 1,31 1,69 2,30 17 1,04 1,31 1,84
8 1,24 1,57 2,16 18 1,03 1,29 1,82
9 1,20 1,51 2,09 19 1,03 1,28 1,81
10 1,18 1,46 2,03 20 1,03 1,27 1,80
11 1,14 1,43 2,00

Deci dacă:

H 0 :    ;n valoarea extremă rămâne în şir;


H 1 :    ;n valoarea extremă se elimină fiind considerată o
abatere grosolană.

De exemplu, în urma efectuării unui sondaj s-au obţinut


următoarele 12 rezultate:
13,4; 13,8; 13,4; 13,1; 13,3; 13,5; 13,5; 13,6; 13,6; 13,8; 13,1; 13,2.
Ştiind că  0,05;12  1,41 şi   0,09 să se decidă dacă valorile
extreme constituie valori aberante, pentru o probabilitate de 95%.
Deoarece se cunoaşte doar abaterea medie pătratică a
129
populaţiei din care a fost extras eşantionul, se aplică testul Irwin.

Considerăm şirul de valori ordonat crescător, astfel:

13,1; 13,1; 13,2; 13,3; 13,4; 13,4; 13,5; 13,5; 13,6; 13,6; 13,8; 13,8
şi calculăm rapoartele:
x n  x n1
 pentru valoarea maximă,

respectiv:
x2  x1
 pentru valoarea minimă.

13,8  13,6
În cazul nostru ,    2,22  1,41 , deci valoarea
0,09
13,2  13,1
maximă se elimină şi, respectiv,    1,11  1,41 , deci
0,09
valoarea minimă nu se elimină.

5.2.5 Testul Grubbs pentru eliminarea valorilor


aberante

Se aplică în cazul în care parametrii m şi 2 ai populaţiei


generale nu se cunosc şi constituie o extindere a testului Grubbs -
Smirnov la această situaţie.
Se testează ipoteza:

H 0 : în cadrul eşantionului există valori aberante;


cu alternativa
H 1 : valorile din eşantion nu constituie erori grosolane.

Cei doi parametri necunoscuţi se estimează pe baza tuturor


datelor de selecţie prin media de sondaj x şi abaterea medie
pătratică de sondaj s. Facem sublinierea că s se determină pe baza
tuturor datelor din eşantionul considerat, deoarece, aşa cum ne
130
amintim, în cazul eşantioanelor de volum redus ( n  30 ), la
numitorul dispersiei, se considera n  1 , în loc de n. Dacă toate
observaţiile x1 , x2 ,..., xn sunt extrase din aceeaşi populaţie normal
repartizată, atunci repartiţia variabilei:

xnP  x
vP 
s

nu depinde de parametrii m şi 2 ai populaţiei, ci de mărimea n a


eşantionului.
Valorile teoretice xnP şi x1P se vor determina în acest caz din
relaţiile:

x nP  x  s  v P ;
x1P  x  s  v P .

Valorile vp funcţie de n şi P  0,90 ; P  0,95 ; P  0,99 sunt


prezentate în tabelul 5.5.

Dacă:

H0: x n  x nP valoarea nu se exclude din şir;


H1: x n  x nP valoarea se exclude din şir.

iar pentru valoarea minimă, dacă:

H0: x1  x1P valoarea minimă rămâne în şir;


H1: x1  x1P valoarea minimă se consideră o eroare
grosolană şi se elimină din şir.

131
xnP  x
Tabelul 5.5 Valorile v P 
s
n/P 0,90 0,95 0,99 n/P 0,90 0,95 0,99
3 0,1406 0,1412 0,1414 15 2,326 2,493 2,800
4 1,645 1,698 1,723 16 2,354 2,523 2,837
5 1,791 1,869 1,955 17 2,380 2,551 2,871
6 1,894 1,996 2,130 18 2,404 2,577 2,903
7 1,974 2,093 2,265 19 2,426 2,600 2,932
8 2,041 2,172 2,374 20 2,447 2,623 2,959
9 2,097 2,237 2,464 21 2,467 2,644 2,984
10 2,164 2,294 2,540 22 2,486 2,664 3,008
11 2,190 2,343 2,606 23 2,504 2,683 3,030
12 2,229 2,387 2,663 24 2,520 2,701 3,051
13 2,264 2,426 2,714 25 2,537 2,717 3,071
14 2,297 2,461 2,759

De exemplu, efectuând un sondaj de volum n  25 dintr-o


populaţie statistică oarecare, s-au obţinut valorile:
7,92; 7,94; 7,95; 7,98; 7,99; 8,07; 8,01; 7,98; 7,95; 7,95; 8,00; 7,91;
7,99; 7,98; 8,00; 7,90; 7,92; 7,95; 7,87; 8,19; 7,96; 7,97; 8,01; 7,99; 8,00
Se cere să se specifice dacă valorile extreme constituie valori
aberante, ştiind că pentru p  95% avem v 0,95; 25  2,717 .
În primul rând, deoarece media şi dispersia colectivităţii nu
se cunosc, le determinăm pe baza tuturor valorilor din eşantion.
Astfel, obţinem:
1 25
x  xi  7,98 ;
25 i 1

s2 
1 25
25 i 1
 2

 xi  x  0,003649 ;
s  s 2  0,06 .
Aplicând testul Grubbs obţinem:
x 25;0,95  7,98  2,717  0,06  8,14302  8,19  x 25 ;

rezultă că x25 se elimină;

132
x1;0,95  7,98  2,717  0,06  7,81  7,87  x1 ;

rezultă că x1 nu se elimină.
În mod evident, după eliminarea valorii maxime, testul se
reia pentru eşantionul rămas.

5.2.6 Testul Chauvenet pentru eliminarea valorilor


aberante

Se aplică, la fel ca şi testul Grubbs, în cazul în care parametrii


m şi 2 ai populaţiei generale nu sunt cunoscuţi.
Se testează ipoteza:

H 0 : în cadrul eşantionului există valori aberante;


cu alternativa
H 1 : valorile din eşantion nu constituie erori grosolane.

Fiind dat un şir de valori experimentale x1 , x2 ,..., xn , se


consideră că valoarea xi este afectată de erori aberante dacă este
verificată condiţia (criteriul Chauvenet):

xi  x  z  s

unde x şi s reprezintă media aritmetică, respectiv abaterea standard a


şirului de valori experimentale, iar mărimea z se alege din tabelul 5.6
în funcţie de numărul n de valori din şir.
Din motive evidente, este suficient ca verificarea relaţiei de
mai sus să fie efectuată doar pentru valorile extreme (minimă şi
maximă) din cadrul eşantionului.
Valoarea abaterii standard a şirului de valori experimentale
este determinată în acest caz cu expresia:

133
s
1 n

 xi  x
n  1 i 1

2
.

Valoarea z din tabelul 5.6 poate fi determinată şi cu ajutorul


relaţiei:

0,435  0,862  a
z
1  3,604  a  3,213  a 2
unde:
2  n 1
a .
4n

Tabelul 5.6 Valorile z pentru testul Chauvenet


n z n z n z
5 1,64 14 2,10 27 – 29 2,37
6 1,73 15 2,12 30 – 33 2,41
7 1,80 16 2,14 34 – 38 2,46
8 1,87 17 2,17 39 – 45 2,51
9 1,91 18 2,20 46 – 55 2,58
10 1,96 19 2,23 56 – 71 2,65
11 2,00 20 – 21 2,26 72 – 100 2,75
12 2,04 22 – 23 2,29 101 – 166 2,88
13 2,07 24 – 26 2,33 167 – 500 3,09

Dacă, în urma aplicării testului, rezultă că una dintre valorile


testate este afectată de erori aberante, valoarea respectivă este
eliminată din cadrul eşantionului, se recalculează valorile mediei şi
abaterii standard pentru valorile rămase şi se reia verificarea condiţiei
iniţiale, algoritmul aplicându-se până când condiţia respectivă nu mai
este verificată pentru nici una dintre cele două valori extreme ale
eşantionului.

De exemplu, considerând următorul şir de date:

134
20 25 17 24 29 32 33 25 28 26
23 22 19 34 35 18 20 24 22 24

se cere, utilizând testul Chauvenet, să se specifice dacă există valori


aberante, ştiind că pentru   0,99 , avem z  2,26 .

Determinăm:

1 20
- media: x    xi  25 ;
20 i 1
1 20
- abaterea medie pătratică: s    ( xi  x) 2  5,35 .
n  1 i 1

Avem:
xmin  17 şi xmax  35 .
Deoarece:

xmin  x   8  8  12,091  2,26  5,35  z  s ,

rezultă că valoarea minimă nu constituie o valoare aberantă, deci


rămâne în şir;

xmax  x  10  10  12,091  2,26  5,35  z  s ,

rezultă că valoarea maximă nu constituie o valoare aberantă, deci


rămâne în şir.

135
5.3 Teste pentru compararea a doi indicatori

5.3.1 Verificarea ipotezelor privind media

Considerând un sondaj de volum n, x1 , x2 ,..., xn , efectuat


asupra unei variabile aleatoare X, repartizată normal de parametri m
şi 2, cu m necunoscut, problema determinării necunoscutei m poate
fi privită ca un proces de verificare a ipotezei nule H 0 : m  m0 , cu
una dintre alternativele: H1 : m  m0 ; H 1 : m  m0 ; H1 : m  m0 ,
unde m0 este o valoare bine determinată. Pentru verificarea acestei
ipoteze se utilizează testul z sau testul t, după cum se cunoaşte sau
nu, din studii efectuate anterior, abaterea medie pătratică .

5.3.1.1 Testul z

Este folosit pentru verificarea ipotezelor referitoare la media


populaţiei statistice normal repartizată N(m,) cu parametrul 
cunoscut.

 Se verifică ipoteza:

H 0 : m  m0 ;
cu alternativa
H 1 : m  m0 .

Pe baza datelor de sondaj, se determină media aritmetică de


sondaj x .
Dacă sondajul este extras dintr-o populaţie repartizată
N (m,  ) , atunci variabila aleatoare x urmează o repartiţie normală

N (m, ).
n

136
xm
Rezultă că variabila aleatoare z  urmează o lege de
/ n
repartiţie N (0;1) , iar această variabilă, în cazul în care ipoteza H0 este
x  m0
adevărată, se poate scrie: z  . Valoarea z astfel calculată se
/ n
compară cu valoarea teoretică z, corespunzătoare nivelului de
semnificaţie  ales (tabelul 5.7).

Tabelul 5.7 Valorile zα (testul z)


z z
 
unilateral bilateral unilateral bilateral
0,0001 3,719 3,891 0,04 1,751 2,054
0,001 3,090 3,291 0,05 1,645 1,960
0,002 2,880 3,090 0,06 1,555 1,881
0,005 2,576 2,807 0,07 1,476 1,812
0,01 2,326 2,576 0,08 1,405 1,751
0,02 2,054 2,326 0,09 1,341 1,695
0,025 1,960 2,241 0,10 1,282 1,645
0,03 1,881 2,170

În cazul în care z calculat nu depăşeşte valoarea teoretică z,


se poate accepta ipoteza nulă sau, cu alte cuvinte, între media de
sondaj x şi media teoretică m nu există deosebiri.
Nivelul de semnificaţie  fiind ales, putem determina un
interval de încredere ale cărui limite să fie z1 şi z2. Astfel, se poate
scrie:

x  m0
P( z1   z2 )  1  

n

Ţinând cont de simetria curbei normale şi de faptul că aria


totală de sub curbă , în regiunea critică este α, rezultă că aria fiecărei

137

cozi este . Considerând pentru testul bilateral (figura 5.1)
2
z1  z 2  z  , obţinem:
1
2

x  m0
P( z   z  )  1 ,
1  1
2 2
n

relaţie echivalentă cu:

f(z)

-/2 /2

z
-z1-/2 0 z1-/2
Fig.5.1. Testul z bilateral

 
P ( m0  z    x  m0  z   )  1 ,
1 n 1 n
2 2

138
din care obţinem intervalul de încredere:

 
m0  z    x  m0  z  
1 n 1 n
2 2

şi regiunea critică:

 
x  m0  z   şi x  m0  z
.  
1 n 1 n
2 2
Dacă media de sondaj x cade în regiunea critică, atunci
ipoteza H 0 : m  m0 se respinge, iar dacă x este cuprins în
intervalul de încredere, ipoteza se acceptă.

 Se verifică ipoteza:

H 0 : m  m0 ;
cu alternativa
H1 : m  m0
sau cu alternativa
H1 : m  m0 .

În aceste situaţii se utilizează testul z unilateral.


În primul caz, când avem de testat ipoteza H 0 : m  m0 cu
alternativa H1 : m  m0 , pentru un nivel de semnificaţie  dat, putem
determina o valoare z1- (figura 5.2 a) astfel ca:

x  m0
P( z1  )  1 ,

n
relaţie echivalentă cu:

139

P(m0  z1   x)  1   ,
n

din care obţinem intervalul de încredere:


m0  z1  x
n
şi regiunea critică:

x  m0  z1  .
n

În cazul când se testează ipoteza H 0 : m  m0 cu alternativa


H1 : m  m0 , corespunzător nivelului de semnificaţie  ales, se poate
determina z1- (figura 5.2 b) astfel încât:

x  m0
P(  z1 )  1   ,

n

f(z) f(z)

 

-z1- 0 z 0 z1- z
a) b)
Fig.5.2. Testul z unilateral

140
relaţie echivalentă cu:


P( x  m0  z1  )  1 ,
n

din care obţinem intervalul de încredere:


x  m0  z1 
n

şi regiunea critică:

x  m0  z1  .
n

 Ca o extindere, aplicată atunci când în practică intervine


situaţia comparării a două medii când nu se cunoaşte nici una dintre
ele, se verifică ipoteza

H 0 : m1  m2 ;
cu alternativa
H 0 : m1  m2 .

În această situaţie se folosesc estimaţiile valorilor medii


(adică x1 şi x 2 ), iar testul z are expresia:

x1  x 2
z dacă  12   22 ,
 12  22

n1 n2

sau:

141
x1  x 2
z dacă  12   22 ,
1 1
 
n1 n2

n1 şi n2 reprezentând volumele celor două sondaje.


Nivelul de semnificaţie  fiind ales, dacă:

P( z  z  )  1
1
2

ipoteza H0 se acceptă, fiind respinsă în caz contrar.


Relaţia probabilistică precedentă este echivalentă cu:

 12  22  12  22
P(  z     x1  x2  z    )  1 ,
1 n1 n2 1 n1 n2
2 2

de unde obţinem intervalul de încredere:

 12  22  12  22
z     x1  x2  z   
1 n1 n2 1 n1 n2
2 2

şi regiunea critică:

 12  22  12  22
x1  x2   z    şi z     x1  x 2 .
1 n1 n2 1 n1 n2
2 2

Deci dacă x1  x2 cade în intervalul de încredere, ipoteza


H 0 : m1  m2 se acceptă, adică între cele două medii comparate nu
există diferenţe semnificative, această ipoteză respingându-se în
cazul în care x1  x2 cade în regiunea critică.

142
Prezentăm două exemple de aplicare a testului z.
1. Să presupunem că media de vârstă a unui eşantion
reprezentativ de 500 de subiecţi dintr-o localitate afectată de
probleme de ordin ecologic, este de 44 de ani. Ştiind că abaterea
medie pătratică este de 6,3 ani, să se verifice dacă media populaţiei
este de 43 de ani, sau mai mare, utilizând   0,01 .
Avem de testat ipoteza nulă H 0 : m  43 , cu alternativa
H1 : m  43 .
Cunoaştem m0  43 , x  44 ,   6,3 . Aplicăm testul z
unilateral dreapta:
 
 
 x  m0
P  z1   1   .
  
 
 n 


Regiunea critică este dată de: x  m0  z1  . Pentru
n
  0,01 avem z1α  z10 ,01  z 0 ,99  2,326 şi, prin înlocuire,
obţinem:

 6,3
m0  z1   43  2,326   43  0,655  43,655 .
n 500

Cum x  44  43,655 respingem ipoteza H0 şi acceptăm


alternativa H1, conform căreia media de vârstă a populaţiei din
localitatea respectivă, cu o probabilitate de 99%, este mai mare de
43 de ani.

2. Să presupunem că venitul brut mediu lunar al unui cadru


didactic este de 2500 lei, în timp ce venitul mediu brut lunar al unui
medic este de 2800 lei. Mediile au fost calculate pe baza unor
eşantioane aleatoare de 200 de cadre didactice, respectiv 250 de

143
medici. Abaterile standard în întreaga populaţie statistică sunt de
300 lei pentru cadre didactice şi de 400 lei pentru medici. Se poate
afirma că între cele două venituri lunare există diferenţe
semnificative?
Ne situăm în ultimul caz teoretic prezentat la testul z, în care
se verifică ipoteza H 0 : m1  m2 , cu alternativa H 0 : m1  m2 .
Pentru un nivel de semnificaţie   0,05 , avem z   1,96 .
1
2
Avem:
z  x1  x2  300
 12  22 400 2 300 2
z     1,96    64,71 .
1 n1 n2 250 200
2

După cum se observă, avem:

 12  22
64,71  z     300  x1  x2 ,
1 n1 n2
2

relaţie care defineşte regiunea critică. Respingem deci ipoteza H0 şi


acceptăm cu o probabilitate de 95% alternativa H1, adică cele două
venituri medii diferă semnificativ în ansamblul populaţiei statistice.

5.3.1.2 Testul t

Se foloseşte pentru verificarea ipotezelor statistice


referitoare la media populaţiei statistice normal repartizate, în cazul
când dispersia teoretică este necunoscută sau când volumul
eşantionului este mic. Se bazează pe statistica „t” care are o repartiţie
Student cu n  1 grade de libertate.
Folosind datele de sondaj se calculează media aritmetică şi
dispersia de sondaj:

144
1 n 1 n
x  i x şi s 2
  ( xi  x ) 2 .
n i 1 n  1 i 1

 Se verifică ipoteza

H 0 : m  m0 ;
cu alternativa
H 1 : m  m0 .

Ne aflăm în cazul testului t bilateral.


Cu ajutorul datelor de sondaj calculăm variabila aleatoare:

x  m0
t .
s/ n

Pentru un nivel de semnificaţie  ales, se poate scrie:

P( t  t ;n1 )  1   ,
de unde obţinem:

x  m0
P(  t ;n1 )  1   ,
s/ n
adică:

s s
P(m0  t ;n1   x  m0  t ;n1  )  1 ,
n n

relaţie care ne dă intervalul de încredere:

s s
m0  t ;n1   x  m0  t ;n1  ,
n n

145
caz în care ipoteza H 0 : m  m0 se acceptă şi regiunea critică:

s s
x  m0  t ;n1  şi x  m0  t ;n1  ,
n n

caz în care ipoteza se respinge.

Valorile critice se regăsesc în tabelul cu valorile repartiţiei


Student (Tabelul anexă nr.7), pentru un nivel de semnificaţie  dat şi
n  1 grade de libertate.

 Se verifică ipoteza

H 0 : m  m0 ;
cu alternativa
H1 : m  m0 ;
sau cu alternativa
H1 : m  m0 .

În aceste situaţii se aplică testul t unilateral.


În primul caz, se verifică ipoteza H 0 : m  m0 cu alternativa
H 1 : m  m0 . Presupunând ipoteza H0 adevărată, se poate scrie:

 
 
x  m0
P  t1 ;n 1    1 ,
 s 
 
 n 
adică:

 s 
P m0  t1 ;n1   x   1   ,
 n 

146
relaţie din care obţinem intervalul de încredere:

s
m0  t1 ;n 1   x,
n

caz în care H0 se acceptă şi regiunea critică:

s
x  m0  t1 ;n 1  ,
n

caz în care H0 se respinge.

În mod analog, când se verifică ipoteza H 0 : m  m0 cu


alternativa H1 : m  m0 , se obţine intervalul de încredere:

s
x  m0  t1 ;n1 
n

şi regiunea critică:
s
x  m0  t1 ;n 1  .
n

 Se verifică ipoteza

H 0 : m1  m2 ;
cu alternativa
H 0 : m1  m2 .

Aplicarea testului t în cazul verificării egalităţii a două medii


teoretice este posibilă numai după aplicarea testului F (5.3.2.2) care
decide dacă dispersiile celor două populaţii sunt egale (sau
aproximativ egale).
Variabila t are în acest caz expresia:
147
x1  x 2
t ,
1 1
s 
n1 n 2
unde:

(n1  1) s12  (n2  1) s 22


s ,
n1  n2  2

deci:
x1  x 2 n1n2 (n1  n2  2)
t  ,
(n1  1) s12  (n2  1) s 22 n1  n2

cu k  n1  n2  2 grade de libertate, n1, n2 fiind volumele celor două


sondaje.
Dacă ipoteza H 0 : m1  m2 este adevărată, atunci
corespunzător unui nivel de semnificaţie  şi numărului gradelor de
libertate k, avem:
P( t  t ;k )  1   ,

relaţie din care obţinem intervalul de încredere:

t  t ;k  t ;k  t  t ;k

şi regiunea critică:
t  t ;k şi t  t ;k .

Prezentăm în continuare două exemple de aplicare a acestui


test.
1. Conţinutul de grăsime al laptelui de vacă integral este
stabilit la 3,6%. Pentru a verifica dacă această condiţie este
satisfăcută, s-au luat 9 probe, obţinându-se următoarele procente de
148
grăsime:
3,7; 3,9; 3,8; 3,7; 3,5; 3,6; 3,5; 3,7; 3,9.

Să se verifice ipoteza că m  3,6% la un nivel de semnificaţie


  0,05 .
Calitatea laptelui presupune că procentul de grăsime să fie
egal sau să depăşească nivelul de 3,6%, deci putem aplica testul
statistic t. Avem de testat ipoteza H 0 : m  m0 , cu alternativa
H1 : m  m0 , unde m0  3,6 . Pentru n  1  8 grade de libertate şi o
probabilitate de 95%, în tabelele repartiţiei Student găsim
t 0,95;8  2,306 .
Pe baza datelor de sondaj, calculăm:
x  3,7% ; s 2  0,0225 ; s  0,15
apoi
s 0,15
m0  t1 ;n1   3,6  2,306   3,7153 .
n 9
Deoarece
s
x  3,7  3,7153  m0  t1 ;n1 
n
acceptăm cu o probabilitate de 95% ipoteza conform căreia
procentul de grăsime este de 3,6%.

2. Proprietarul unei patiserii vrea să ştie dacă, după o


campanie publicitară intensă, media încasărilor zilnice s-a mărit sau
nu semnificativ. Pentru aceasta, el înregistrează veniturile realizate
timp de 10 zile înainte şi 10 zile după campania publicitară,
obţinând următoarele informaţii:

înainte: x 1 1200 lei după: x 2  1350 lei


s1  220 lei s2  270 lei

Cu o probabilitate de 95%, se poate afirma că media


încasărilor a crescut după campanie?
149
Avem de verificat ipoteza H 0 : m1  m2 , cu alternativa
H 0 : m1  m2 (m2  m1 ) .

Testul t are în această situaţie expresia:

x1  x2 n1n2 (n1  n2  2)
t  
(n1  1) s12  (n2  1) s 22 n1  n2
1200  1350 10  10  (10  10  2)
   1,36
9  220 2  9  270 2 10  10

Corespunzător unei probabilităţi de 95% şi numărului


gradelor de libertate k  n1  n2  2  18 grade de libertate, avem
t 0,95;18  2,101 .
Deoarece t  1,36  2,101  t 0,95;18 se poate trage concluzia
că volumul încasărilor zilnice nu a crescut semnificativ în urma
campaniei publicitare.

5.3.2 Verificarea ipotezelor privind împrăştierea

5.3.2.1 Testul Χ2 (hi-pătrat)

Se verifică ipoteza:

H 0 :  2   02 ;
cu alternativa
H1 :  2   02 .

Pe baza datelor de sondaj se calculează media de sondaj x şi


dispersia de sondaj s2. Variabila aleatoare:

150
2
(n  1) s 2 n x x
  i 
2 i 1   

urmează o lege de repartiţie 2 cu n  1 grade de libertate.


Presupunând nivelul de semnificaţie  ales, se pot determina
două valori  2  şi  2 , astfel încât, dacă ipoteza H 0 :  2   02
1
2 2
este adevărată, să avem:

(n  1) s 2
P(  2     2 )  1   ,
1
2
 02 2

relaţie care conduce la intervalul de încredere:

 02  02
2   s2   2 ,
n 1 1
2
n 1 2

caz în care ipoteza H0 se acceptă şi la regiunea critică:

 02  02
s2   2  şi s 2   2
n 1 1
2
n 1 2

caz în care ipoteza H0 se respinge.


Valorile critice X2, în funcţie de probabilitatea  cu care se
lucrează şi numărul gradelor de libertate sunt prezentate în tabelul
anexă nr.8.

De exemplu, în urma efectuării unui sondaj de volum n  20 ,


s-au obţinut următoarele rezultate:

7,93; 7,99 8,05 7,93 7,95 7,94 7,96 7,93 8,03 8,01
7,92 7,94 8,06 7,95 8,02 7,97 8,05 7,99 7,95 8,03

151
Utilizând testul Χ2, să se verifice ipoteza H 0 :  2  0,0042
cu alternativa H 1 :  2  0,0042 . Se cunoaşte că pentru o
probabilitate P  95% , avem  02,975;19 8,91 şi  02,025;19 32,85 .

Pe baza datelor de sondaj, se determină media de sondaj


x  7,98 şi dispersia de sondaj s 2  0,002179 .
Intervalul de încredere este dat de:

 02  02
2   s2   2 .
n 1 1
2
n 1 2

Determinăm limitele intervalului de încredere:

 02 0,0042
2    8,91  0,001969
n 1 1
2
19

 02 0,0042
 2   32,85  0,007261 .
n 1 2
19

Deoarece s 2  0,0042  0,001969 ; 0,007261  , acceptăm cu o


probabilitate de 95% ipoteza H0 .

5.3.2.2 Testul F

Se verifică ipoteza:

H 0 :  12   22 ;
cu alternativa
H 1 :  12   22 .

152
Verificarea ipotezei egalităţii dispersiilor  12 şi  22 a două
populaţii repartizate după o lege normală prezintă o deosebită
importanţă, deoarece după cum am văzut, verificarea ipotezei
egalităţii a două sau mai multe medii se face numai după ce s-a
verificat în prealabil dacă dispersiile sunt egale sau nu.
Pentru verificarea ipotezei H 0 :  12   22 , pe baza datelor de
sondaj se calculează dispersiile de sondaj s12 , s 22 care reprezintă
estimaţii ale dispersiilor teoretice.
Cu ajutorul acestor dispersii se calculează variabila aleatoare
2
s
F  12 , variabilă care are o repartiţie Snedecor cu n1  1 şi n2  1
s2
grade de libertate. Tabelele pentru repartiţia Snedecor se construiesc
de obicei numai pentru valorile F  1 . De aceea, vom conveni să
luăm la numărător dispersia teoretică cea mai mare.
Considerând nivelul de semnificaţie  ales, putem scrie:

P( F  F ;n1 1;n2 1 )  1   .

Regiunea critică este dată de: F  F ;n1 1;n2 1 , caz în care


ipoteza H 0 :  12   22 se respinge, iar intervalul de încredere:
F  F ;n1 1;n2 1 , caz în care se admite ipoteza egalităţii celor două
dispersii.
Valorile F ;n1 1;n2 1 sunt tabelate funcţie de nivelul de
semnificaţie  şi numerele gradelor de libertate n1  1 , n2  1
(Tabelul anexă nr.9).

De exemplu, două grupe de copii au fost testate după ce au


aplicat după două metode diferite de învăţare, obţinând următoarele
rezultate:
Grupa I : 9 10 5 9 10 9 6 9 8 9
Grupa I1 : 7 9 6 5 10 8 8 7 10 9 7 8 7 9 7

153
La un nivel de semnificaţie   0,05 , să se verifice dacă cele
două metode de învăţare diferă semnificativ sau nu.
Avem de verificat ipoteza H 0 : m1  m2 cu alternativa
H1 : m1  m2 .
Ipoteza verificării mediilor teoretice se face numai după
verificarea egalităţii dispersiilor teoretice cu ajutorul testului F.
Pe baza datelor de sondaj, obţinem:

1 10
x1   xi1  8
10 i 1
1 15
x1   xi 2  7,5
15 i 1

s12 
1 10

10  1 i 1
2
 xi1  x1 2,6

s 22 
1 15

15  1 i 1
2
 xi 2  x 2  2,67

Obţinem:
s 22 2,67
F   1,03
s12 2,60
Deoarece:
F  1,03  2,5  F0,05;10;15

acceptăm cu o probabilitate de 95% ipoteza egalităţii dispersiilor.


Domeniul de încredere pentru testul t este dat de:

x1  x 2
 t ;h   t ;h
1 1
s 
n1 n2
unde:
154
h  n1  n2  2
(n1  1)s12  (n2  1) s22 10  2,6  15  2,67 66,05
s    1,63 .
n1  n2  2 11  16  2 25
Obţinem:

s  1,63 ;
8  7,5
t  0,783 .
1 1
1,63  
11 16

Din tabelele repartiţiei Student, avem t 0 ,05;25  2,060 .

Deoarece: t  0,783   2,060 ; 2,060 acceptăm cu o


probabilitate de 95% ipoteza egalităţii mediilor teoretice, deci cele
două metode nu diferă semnificativ.

5.3.3 Testul z pentru compararea a două proporţii

În cazul variabilelor alternative (admis/respins, DA/NU,


prezent/absent etc.) se utilizează testul z adaptat particularităţilor
acestei variabile şi anume:

x  p ; s 2  p  (1  p ) .

Presupunând deci că avem două proporţii p1 şi p2 obţinute pe


două eşantioane de volume n1 şi n2, se testează ipoteza:

H 0 : p1  p 2 ;
cu alternativa
H1 : p1  p2 .

155
În acest sens se calculează:

p1  p 2
z .
p1 (1  p1 ) p 2 (1  p 2 )

n1 n2

Valoarea z astfel calculată se compară cu valoarea tabelară


z corespunzătoare nivelului de semnificaţie α ales (Tabelul anexă
nr.10). În cazul în care valoarea calculată este mai mică decât cea
tabelară, se acceptă ipoteza că cele două proporţii nu diferă
semnificativ.

De exemplu, o firmă producătoare de automobile, testează


impresiile despre un anumit model. În acest scop, un eşantion de 500
de bărbaţi este chestionat, dintre aceştia 325 răspunzând favorabil.
Separat, un alt eşantion (spre a nu exista influenţe) de 600 de femei
este chestionat în aceeaşi problemă, dintre aceste 510 răspunzând
favorabil. Se pune întrebarea dacă între cele două proporţii există
sau nu diferenţe semnificative.
Avem:

325
p1   0,65 ;
500
510
p2   0,85 .
600
Calculăm:
0,65  0,85
z 
0,65  (1  0,65) 0,85  (1  0,85)

500 600
0,20 0,20
   7,75
0,0006675 0,0258

Deoarece valoarea astfel obţinută este mult mai mare decât


156
valoarea tabelară 2,29 corespunzătoare unui nivel de semnificaţie
  0,05 , putem afirma cu o probabilitate de 95% că cele două
proporţii diferă semnificativ. Cu alte cuvinte, femeile preferă acest
model de automobil mai mult decât bărbaţii.

5.3.4 Testul z pentru compararea a doi coeficienţi de


corelaţie

În practică, există situaţii în care se determină coeficienţi de


corelaţie pentru grupuri distincte. Se pune întrebarea dacă aceşti
coeficienţi de corelaţie, la un nivel de încredere acceptat, pot fi
consideraţi egali, sau nu. Deci, se verifică ipoteza:
H 0 : r1  r2 ;
cu alternativa
H1 : r1  r2 ,
r1 şi r2 fiind cei doi coeficienţi de corelaţie.
Se utilizează statistica:

z1  z 2
z ,
S
1 1  ri
unde z1 şi z2 sunt transformatele Fischer z i  ln , iar
2 1  ri
1 1
S  , n1 şi n2 reprezentând volumele celor două
n1  3 n2  3
eşantioane pe care au fost calculaţi coeficienţii de corelaţie. Valoarea
astfel determinată se compară cu valoarea teoretică z
corespunzătoare nivelului de semnificaţie α ales. Ipoteza H0 se
acceptă dacă z  z şi se respinge în caz contrar.

De exemplu, să presupunem că pentru un eşantion de 50 de


bărbaţi, coeficientul de corelaţie dintre numărul orelor petrecute în
faţa televizorului şi numărul orelor emisiunilor sportive vizionate
157
este de 0,80, în timp ce, pentru un eşantion de 80 de femei,
coeficientul de corelaţie dintre numărul orelor petrecute în faţa
televizorului şi numărul orelor emisiunilor de divertisment vizionate
este de 0,65. Se poate aprecia, la un nivel de semnificaţie   0,05 ,
pentru care z 0,05  1,96 că cei doi coeficienţi de corelaţie sunt egali?
Avem:
1 1  r1 1 1  0,80
z1  ln  ln  1,0986
2 1  r1 2 1  0,80

1 1  r2 1 1  0,65
z2  ln  ln  0,7753
2 1  r2 2 1  0,65

1 1
S   0,185
50  3 80  3

1,0986  0,7753
z  1,75
0,185

Ţinând cont de z  1,75  1,96  z 0,05 , putem considera, cu o


probabilitate de 95% că cei doi coeficienţi de corelaţie sunt egali.

5.4 Teste pentru compararea a două distribuţii


empirice

5.4.1 Testul medianei pentru compararea a două


distribuţii empirice

În cazul în care ipoteza normalităţii este evident infirmată


(lucru ce poate fi observat, de exemplu, prin asimetria accentuată a
histogramelor) se calculează în locul mediilor medianele care apoi se
compară.
158
Se testează deci ipoteza:

H 0 : între cele două distribuţii nu există diferenţe semnificative;


cu alternativa
H 1 : cele două distribuţii diferă semnificativ.

Testul se bazează pe o statistică X2, iar aplicarea sa presupune


parcurgerea următorilor paşi:
a) se determină mediana fiecăruia din cele două eşantioane;
b) se comasează cele două eşantioane în unul singur şi se
determină mediana acestuia;
c) cu ajutorul medianei generale, subiecţii din fiecare eşantion
sunt inseraţi într-un tabel cu două linii şi două coloane (sub şi
peste mediană);
Observaţie 1: în cazul în care în eşantioane există valori egale
cu mediana, acestea sunt repartizate fie celor de sub mediană
(varianta 1), fie celor de peste mediană (varianta 2);
d) se calculează statistica

(ad  bc) 2  T
2 
(a  b)(c  d )( a  c)(b  d )

unde:
- numitorul este format din produsul dintre totalurile
fiecărei linii şi fiecărei coloane;
- numărătorul este produsul dintre pătratul diferenţei
celor două diagonale şi volumul total al celor două
eşantioane (T).
Observaţie 2: în condiţiile observaţiei 1, se calculează două
valori X2, reţinându-se valoarea cea mai mică.
Observaţie 3: dacă în tabel sunt efective relativ mici,
numărătorul din expresia lui X2 se corectează prin utilizarea
formulei lui Yates, adică se înlocuieşte cu:

159
2
 T
T ad  bc   
 2
adică avem:
2
 T
T ad  bc   
2   2
.
(a  b)(c  d )( a  c)(b  d )

Valoarea X2 astfel calculată se compară cu cea tabelară (3,84


pentru   0,05 , sau 6,64 pentru   0,01 ). Ipoteza conform căreia
între distribuţii nu există diferenţe semnificative este acceptată în
cazul în care valoarea X2 calculată este mai mică decât cea tabelară şi
este respinsă în caz contrar.

De exemplu, două grupe de subiecţi au obţinut la o probă


următoarele rezultate:

Grupa A
x: 4 5 6 7 8 9 10
f: 6 9 5 6 14 10 5 f  55
Grupa B
x: 4 5 6 7 8 9 10
f: 5 7 7 9 10 11 6 f  55

Se cere să se compare cele două eşantioane.


a) determinăm medianele celor două eşantioane; avem:
b)
x Me A  x n1  x28  8 ;
2
x Me B  x n1  x28  7 ;
2
(după cum se observă, cele două serii de date au un număr
impar de termeni, deci mediana va fi dată de acea valoare care
ocupă locul central în seria ordonată crescător sau
descrescător, în cazul nostru de x28);
160
c) se realizează o nouă distribuţie prin comasarea celor două
eşantioane:

Grupa A + B
x: 4 5 6 7 8 9 10
f: 11 16 12 15 24 21 11 f  110

De această dată, seria având un număr par de termeni,


mediana va fi dată de media aritmetică a celor doi termeni
centrali din seria ordonată, adică:

x55  x56 8  8
x Me A B    8.
2 2

Se alcătuieşte tabelul:

Sub mediană Egale cu mediana Peste mediană


Grupa A a m b
Grupa B c m d

adică:

Sub mediană Egale cu mediana Peste mediană


Grupa A 26 14 15
Grupa B 28 10 17

După cum se observă suntem în cazul observaţiei 1, deci vom


repartiza valorile egale cu mediana fie conform variantei 1, fie
conform variantei 2; obţinem:

Varianta 1:
Sub sau egale
Peste mediană
cu mediana
Grupa A 40 15
Grupa B 38 17

161
Varianta 2:
Egale cu sau
Sub mediană
peste mediană
Grupa A 26 29
Grupa B 28 27

d) calculăm, conform observaţiei 2, cele două statistici X2:

(40  17  15  38) 2  110


 2varianta 1  
(40  15)(38  17)( 40  38)(15  17)
1331000
  0,176
7550400
(26  27  29  28) 2  110
 2varianta 2  
(26  29)( 28  27)( 26  28)( 29  27)
1331000
  0,145
9147600

În cazul aplicării corecţiei lui Yates, obţinem:


2
 110 
110  (40  17  15  38) 
 2 
 2varianta 1  
(40  15)(38  17)( 40  38)(15  17)
332750
  0,044
7550400
2
 110 
110  (26  27  28  29) 
 2 
 varianta 2 
2

(26  29)( 28  27)( 26  28)( 29  27)
2994750
  0,327
9147600

După cum se observă, toate valorile calculate pentru X2 (atât


în varianta directă, cât şi în cazul aplicării corecţiei) sunt cu mult
mai mici decât cea tabelară, 3,84 pentru o probabilitate de 95%, sau
162
6,64 pentru o probabilitate de 99%, deci nu există motiv pentru
acceptarea ipotezei că cele două eşantioane nu diferă.

5.4.2 Testul Kolmogorov-Smirnov

N.V. Smirnov a extins testul lui Kolmogorov la verificarea


concordanţei a două funcţii empirice de repartiţie Fn1 ( x) şi Fn 2 ( x) .
Se testează deci ipoteza:

H 0 : Fn1  Fn 2 ;
cu alternativa
H 1 : Fn1  Fn 2 .

Teorema lui Smirnov afirmă că:

 n1n2 
lim P Dn1n2     K ( )
n1  n2   n  n 
 1 2 

unde: Dn1n2  sup Fn1 ( x)  Fn 2 ( x)


x
 0 ;

K ( )    1k e  2 k 
2 2
(funcţia lui Kolmogorov).


În cazul în care suma n1  n2 este suficient de mare,


domeniul critic al testului Smirnov, în funcţie de nivelul de
semnificaţie  ales, este dat de:
n  n2
Dn1n2   1 ,
n1n2

caz în care ipoteza nulă H0 a concordanţei celor două repartiţii se


respinge, iar intervalul de încredere este definit de:
163
n1  n2
Dn1n2   ,
n1n2

caz în care ipoteza nulă H0 a concordanţei celor două repartiţii


empirice Fn1 ( x) şi Fn 2 ( x) se acceptă.
În practică,  poate fi aproximat cu valoarea
1
   ln  ,  = nivel de semnificaţie.
2

De exemplu, cunoscând structura pe vârste pentru două


eşantioane de volume 800 şi 1000 de subiecţi, să se verifice, utilizând
testul Kolmogorov-Smirnov, la un nivel de semnificaţie   0,05 ,
dacă există diferenţe semnificative între cele două distribuţii.

Eşantionul 1
Interv. 18-29 30-39 40-49 50-59 60- Σ
fi 120 160 180 200 140 800
pi 0,15 0,2 0,225 0,25 0,175 1

Eşantionul 2
Interv. 18-29 30-39 40-49 50-59 60- Σ
fi 140 180 220 310 150 1000
pi 0,14 0,18 0,22 0,31 0,15 1

Avem: n1  800 ; n2  1000 .


Alcătuim tabelul:

Intervalul Fn1 ( x ) Fn 2 ( x) Fn1 ( x)  Fn 2 ( x)


18-29 0,15 0,14 0,01
30-39 0,35 0,32 0,03
40-49 0,575 0,54 0,035
50-59 0,825 0,85 0,025
60- 1 1 0

164
Din tabel, obţinem:

Dn1n2  sup Fn1 ( x)  Fn 2 ( x)  0,035


x
Avem:

1 1
   ln    ln 0,05  1,497866  1,22387 .
2 2

Calculăm:

n1  n2 800  1000
D    1,22387   0,05805 .
n1n2 800  1000

Deoarece: Dn1n2  0,035  0,05805  D , acceptăm cu o


probabilitate de 95% ipoteza concordanţei celor două repartiţii.

5.4.3 Testul U (Mann-Witney) pentru compararea a


două repartiţii empirice

Acest test neparametric permite compararea a două repartiţii


empirice obţinute pe baza datelor din două eşantioane de volume n1
şi n2.
Se testează deci ipoteza:

H 0 : între cele două distribuţii nu există diferenţe semnificative;


cu alternativa
H 1 : cele două distribuţii diferă semnificativ.

Din cele două şiruri de date corespunzătoare celor două


eşantioane se formează un singur şir. Acest şir se ordonează crescător
sau descrescător. Se acordă ranguri elementelor acestui şir (în cazul
în care doi sau mai mulţi termeni au acelaşi rang, acestora li se
165
atribuie media rangurilor care le revin). Se calculează suma
rangurilor pentru fiecare serie R1, R2, iar apoi se calculează două
statistici:
n (n  1)
U1  n1  n2  1 1  R1
2
n (n  1)
U 2  n1  n2  2 2  R2 .
2

Reţinând cea mai mică valoare U dintre cele două calculate


anterior (dacă şirul a fost ordonat crescător) sau cea mai mare (dacă
şirul a fost ordonat descrescător), se calculează variabila:

n1  n2
U
z 2
n1  n 2 (n1  n 2  1)
12

care se compară cu valoarea zP corespunzătoare probabilităţii alese


( P  95%, z  1,96; p  99%, z  2,58; P  99,9%, z  3,3) .
Domeniul critic este dat de z  z P , caz în care ipoteza
conform căreia între cele două repartiţii nu există deosebiri se
respinge, iar domeniul de încredere de z  z P , caz în care se acceptă
ipoteza că între cele două repartiţii nu există deosebiri.

De exemplu, rezultatele medii obţinute de două echipe la un


concurs constând din mai multe probe, sunt următoarele:
Echipa 1 Echipa 2
32,18 32,24
32,29 32,20
32,23 32,16
32,30 32,30
32,32 32,17
32,25 32,22
32,30 32,21
32,20 32,28
166
32,25 32,25
32,27
32,26
32,25
Folosind testul Mann-Witney, cu o probabilitate de 99%,
pentru care z  2,58 , să se verifice dacă rezultatele celor două
echipe diferă semnificativ.

Ordonăm crescător şirul format din cele două serii de date şi


acordăm ranguri elementelor acestui şir. Astfel:

xi 32,16 32,17 32,18 32,20 32,20 32,21 32,22 32,23 32,24 32,25 32,25
rang 1 2 3 4,5 4,5 6 7 8 9 11,5 11,5

xi 32,25 32,25 32,26 32,27 32,28 32,29 32,30 32,30 32,30 32,32
rang 11,5 11,5 14 15 16 17 19 19 19 21

După cum se observă, termenilor care se repetă li s-au


acordat drept ranguri media aritmetică a rangurilor ce le reveneau.

Considerând seriile iniţiale, calculăm suma rangurilor pentru


fiecare serie.
Seria 1 rang Seria 2 rang
32,18 3 32,24 9
32,29 17 32,20 4,5
32,23 8 32,16 1
32,30 19 32,30 19
32,32 21 32,17 2
32,25 11,5 32,22 7
32,30 19 32,21 6
32,20 4,5 32,28 16
32,25 11,5 32,25 11,5
32,27 15
32,26 14
32,25 11,5
R1 = 87 R2 = 89
Calculăm acum cele două statistici:
167
n1 (n1  1) 9  (9  1)
U1  n1  n2   R1  9  12   87  66
2 2
n (n  1) 12  (12  1)
U 2  n1  n2  2 2  R2  9  12   89  97
2 2

Datorită faptului că şirul a fost ordonat crescător, reţinem


cea mai mică valoare din cele două U  66 şi calculăm variabila:

n1  n2 9  12
U 66 
z 2  2 
n1  n2 (n1  n2  1) 9  12  (9  12  1)
12 12
12 12
   0,85
198 14,071

După cum se observă: z  0,85  2,58  z 0,99 , deci, cu o


probabilitate de 99% putem afirma că rezultatele celor două echipe
nu diferă semnificativ.

5.5 Teste de concordanţă

5.5.1 Testul X2 pentru concordanţa eşantionului cu


cea a populaţiei

Un caz particular de aplicare al testului X2 îl constituie acele


în care se verifică concordanţa distribuţiei empirice a eşantionului cu
distribuţia întregii populaţii. Cu ajutorul acestui test se verifică dacă
există diferenţe semnificative între distribuţia frecvenţelor
eşantionului studiat şi distribuţia frecvenţelor populaţiei statistice din
care acest eşantion a fost extras, sau, cu alte cuvinte, dacă eşantionul
este reprezentativ pentru populaţia de bază.
Se testează deci ipoteza:
168
H 0 : distribuţia eşantionului concordă cu distribuţia populaţiei;
cu alternativa
H 1 : eşantionul nu este reprezentativ pentru populaţia de bază.

Particularitatea testului în acest caz constă în înlocuirea


valorilor teoretice n  pi cu valorile

Ni
qi  n,
N
unde
Ni = populaţia din grupa i (considerând că avem k grupe);
N = totalul populaţiei;
n = volumul eşantionului.
adică X2 va avea forma:
k (n  q ) 2
2   i i
.
i 1 qi

Valoarea X2 astfel calculată se compară cu valoarea teoretică


 2 ;k 1 corespunzătoare nivelului de semnificaţie α ales şi numărului
gradelor de libertate k  1 . În cazul în care  2   2 ;k 1 , se acceptă
ipoteza reprezentativităţii eşantionului.

De exemplu, să presupunem că se efectuează un studiu,


privind o problemă majoră pentru populaţia activă, la nivelul ţării.
În acest sens, se decide să fie chestionat un eşantion de1500 de
subiecţi, structurat pe grupe de vârstă. Cunoscând că structura
populaţiei ocupate, în 2005, era următoarea:

Total 15-24 ani 25-34 ani 35-44 ani 45-54 ani 55-64 ani Peste 65 ani
9870000 1016610 2882040 2615550 2447760 730380 177660
(Sursa: www.alba.insee.ro)
să se verifice utilizând testul X2, la un nivel de semnificaţie   0,05

169
dacă eşantionul ales este reprezentativ, sau nu.

Avem:
Grupa de ( xi  q i ) 2
ni Ni qi xi  qi
vârstă qi
15-24 ani 140 1016610 155 -15 1,452
25-34 ani 410 2882040 438 -28 1,790
35-44 ani 435 2615550 397 38 3,637
45-54 ani 365 2447760 372 -7 0,132
55-64 ani 120 730380 111 9 0,730
Peste 65 ani 30 177660 27 3 0,333
Total 1500 9870000 1500 0 8,074

Deoarece  2  8,04  11,07   0,05; 5 acceptăm ipoteza


conform căreia, cu o probabilitate de 95%, eşantionul ales este
reprezentativ pentru întreaga populaţie.
Remarcă: valorile qi nu constituie altceva decât volumele
grupelor obţinute în cazul aplicării procedeului de eşantionare prin
stratificare.

5.5.2 Verificarea normalităţii

O etapă obligatorie, de mare răspundere în analiza calităţii


datelor de sondaj, o constituie verificarea normalităţii repartiţiilor
empirice, deoarece, dacă repartiţiile empirice calculate pe baza
datelor de sondaj se abat de la cele normale, parametrii acestor
repartiţii implică anumite modificări în metoda de prelucrare.
Normalitatea datelor de sondaj se verifică cu ajutorul unor
metode precise sau orientative în funcţie de scopul urmărit. Pentru
obţinerea unor rezultate orientative se folosesc metode de verificare
mai expeditive, care însă nu sunt atât de puternice în respingerea
ipotezei când aceasta este falsă.

5.5.2.1 Testul momentelor centrate şi metoda


170
grafică

O metodă orientativă o constituie testul momentelor centrate


de ordinul trei şi patru. Reamintim că momentul centrat de ordinul k
este definit de relaţia:

1 n
k (X )   ( xi  M ( X )) k ; M ( X )  media variabilei X.
n i 1

Verificarea ipotezei despre concordanţa repartiţiei empirice


cu cea normală presupune satisfacerea condiţiilor:

3  0;  4  3 22 (caracteristice repartiţiei normale).

De exemplu, considerând distribuţia dată mai jos să se


verifice,utilizând testul momentelor centrate, dacă repartiţia acestei
variabile este sau nu normală:

Interv. 0,15 [0,15;0,25) [0,25;0,35) [0,35;0,45) [0,45;0,55) [0,55;0,65) 0,65


xi 0,10 0,20 0,30 0,40 0,50 0,60 0,70
fi 5 10 20 30 15 15 5
pi 0,05 0,10 0,20 0,30 0,15 0,15 0,05

Avem:
 x f
 f i  100 ; x  i i  0,405 ;
 fi

2   2 
 ( xi  x) 2 f i  0,022475 ;
 fi

3 
 ( xi  x) 3 f i
 0,000013  0 ;
 fi

171
4 
 ( xi  x) 4 f i
 0,001241 ;
 fi

3   22  0,001515 .

Observăm că 3   22   4 .

Putem trage concluzia că variabila aleatoare X urmează o


lege de repartiţie N (0,405; 0,022 ).

O altă metodă expeditivă o constituie metoda diagramelor.


Reprezentarea grafică prin intermediul histogramei oferă o imagine
orientativă asupra normalităţii repartiţiei empirice.

Considerând exemplul precedent şi reprezentând grafic,


obţinem:
fi

0,15 0,15 - 0,25 - 0,35 - 0,45 - 0,55 - 0,65 Interv.


0,25 0,35 0,45 0,55 0,65

172
Se observă că histograma poate fi încadrată, aproximativ,
într-un clopot al lui Gauss, sugerând o repartiţie normală.

5.5.2.2 Testul Kolmogorov pentru verificarea


normalităţii

Unul dintre cele mai răspândite teste pentru analiza


concordanţei dintre repartiţiile teoretice şi cele empirice este testul
lui Kolmogorov.
Se testează deci ipoteza:

H 0 : variabila studiată are repartiţia teoretică presupusă ;


cu alternativa
H 1 : repartiţia empirică diferă semnificativ de cea teoretică.

Se bazează pe teorema lui Kolmogorov prin care se evaluează


asimptotic diferenţa dintre funcţia empirică de repartiţie Fn (x) şi cea
teoretică F (x ) a unei variabile aleatoare X.
Kolmogorov a demonstrat că pentru o funcţie de repartiţie
continuă F(x) există relaţia:


lim P(sup Fn ( x)  F ( x)  )  K ( )
n  x n

i
unde: Fn ( xi )   f k (frecvenţe relative cumulate);
k 1
 0 ;

K ( )    1k e  2 k 
2 2
(funcţia lui Kolmogorov).


Se observă că statistica testului este distanţa maximă între


funcţia empirică şi cea teoretică:

173

max Fn ( x)  F ( x)  D  ,
n
de unde:
D n.
Valorile funcţiei lui Kolmogorov sunt tabelate (Tabelul anexă
nr.11).
Deci, pentru un anumit prag de semnificaţie  ales, domeniul
critic este definit de:    (caz în care ipoteza concordanţei între
ipoteze se respinge); în cazul    ipoteza concordanţei între
repartiţii se acceptă.
Intervalul de încredere este dat de:

Fn ( x)  D  F ( x)  Fn ( x)  D ,

iar regiunea critică de:


F ( x)  Fn ( x)  D şi F ( x)  Fn ( x)  D .

De exemplu, considerând repartiţia unui grup de persoane


după înălţime dată în tabelul 2.2, să se verifice, utilizând testul lui
Kolmogorov, dacă repartiţia acestei variabile este sau nu normală:

Interv.
[145;155) [155;165) [165;175) [175;185) [185;195) [195;205)
(cm)
xi 150 160 170 180 190 200
fi 6 12 36 30 24 12
pi 0,05 0,10 0,30 0,25 0,20 0,10

Alcătuim tabelul:
Intervalul pi Fn(x) F(x) | Fn(x) - F(x |
[145;155) 0,05 0,05 0,167 0,117
[155;165) 0,10 0,15 0,334 0,184
[165;175) 0,30 0,45 0,501 0,051
[175;185) 0,25 0,70 0,668 0,032
[185;195) 0,20 0,90 0,835 0,065
[195;205) 0,10 1,00 1,002 0,002
174
Avem:
D  max Fn ( x)  F ( x)  0,184 ;
rezultă:
  D n  0,184  10,95  2,01 .

Din tabelul funcţiei lui Kolmogorov, pentru K ( )  0,95


obţinem   1,365 .
Întrucât:
calculat  2,01  1,365  0,95 ,
respingem cu o probabilitate de 95% ipoteza de normalitate a
repartiţiei.

5.5.2.3 Testul X2 pentru verificarea normalităţii

Testul cel mai răspândit pentru verificarea normalităţii


sondajelor de volum mare este Testul lui Pearson (X2).
Se testează deci ipoteza:

H 0 : variabila studiată are o repartiţie normală;


cu alternativa
H 1 : repartiţia variabilei studiate diferă semnificativ de cea
normală.

Se presupune că valorile de sondaj se împart în k intervale de


clasă ( xi , xi 1 )   i , astfel ca numărul valorilor dintr-un astfel de
interval să nu fie mai mic decât 5, iar numărul intervalelor să fie mai
mare sau egal cu 5. Dacă ipoteza normalităţii este adevărată, atunci
probabilitatea ca variabila aleatoare X să aparţină intervalului de
grupare i este:

pi  P( x   i )  F ( xi 1 )  F ( xi ) ;

175
(t  m ) 2
1 x 
F ( x)  P( X  x)  2 2
e dt ;
 2 
k
 pi 1.
i 1

Dacă variabila aleatoare presupusă a fi normală este şi


normată, atunci pentru calculul probabilităţii pi avem:

pi  ( z i 1 )  ( z i ) ;
xi  x
zi  ;
s
(z )  funcţia lui Laplace.

Ipoteza normalităţii este acceptată dacă:

k (ni  npi ) 2
2     2 ;h .
i 1 npi

De exemplu, să considerăm că în urma unui sondaj de volum


n  124 efectuat asupra unei anumite caracteristici, s-au obţinut
următoarele rezultate:

Interv. 1,2 (1,2;1,3] (1,3;1,4] (1,4;1,5] (1,5;1,6] (1,6;1,7] (1,7;1,8] (1,8;1,9] 1,9<
xi 1,15 1,25 1,35 1,45 1,55 1,65 1,75 1,85 1,95
ni 11 14 17 17 18 16 13 10 8

Să se verifice folosind testul  2 , la un prag de semnificaţie


  0,05 , ipoteza conform căreia respectiva caracteristică este o
variabilă aleatoare X repartizată normal.
Deoarece nu cunoaştem nici media şi nici dispersia variabilei
aleatoare X, le vom estima cu ajutorul datelor de sondaj.

Avem:
176
x
 xi ni  188,9  1,52 ;
 ni 124

s 2 ( x i  x ) 2 ni
 0,05  s  0,23 .
 ni

Pentru aplicarea testului  2 , alcătuim următorul tabel:

xi  x  xi  x  (ni  npi ) 2


Interv. ni xi  s  pi np i (ni  np i ) 2
s   npi

 1,2 11 1,15 -1,61 -0,4463 0,0537 6,6588 18,84602 2,830242


(1,2;1,3] 14 1,25 -1,18 -0,1190 0,0653 8,0972 34,84305 4,303098
(1,3;1,4] 17 1,35 -0,75 -0,2266 0,1076 13,3424 13,37804 1,002671
(1,4;1,5] 17 1,45 -0,32 -0,3745 0,1479 18,3396 1,794528 0,097850
(1,5;1,6] 18 1,55 0,11 0,5438 0,1693 20,9932 8,959246 0,426769
(1,6;1,7] 16 1,65 0,54 0,7054 0,1616 20,0384 16,30867 0,813871
(1,7;1,8] 13 1,75 0,96 0,8315 0,1261 15,6364 6,950605 0,444514
(1,8;1,9] 10 1,85 1,41 0,9207 0,0892 11,0608 1,125297 0,101737
1,9 < 8 1,95 1,84 0,9671 0,0329 4,0796 15,36954 3,767413
124 13,78817

Elementele pi, ţinând cont şi de ( z i )  ( z i ) , s-au


obţinut cu ajutorul relaţiilor:

1 1
p1  P(  X  x1 )  F ( z1 )   ( z1 )   (1,61) 
2 2
1
  (1,61)  0,5  0,4463  0,0537
2
p k  P( xk 1  X  xk )  F ( z k )  F ( z k 1 ) 
1 1
   ( z k )    ( z k 1 )   ( z k )   ( z k 1 ) , k  2,8
2 2
p9  P( x9  X  )  F ( z 9 )  1  ( z 9 )  0,0329 .

177
Din ultima coloană a tabelului, găsim:

9 ( ni  n  p i ) 2
 calculat
2
  13,78817 .
i 1 n  pi

Valoarea astfel determinată trebuie comparată cu valoarea


teoretică  2nk 1; unde n reprezintă numărul de clase (intervale),
iar k numărul parametrilor estimaţi. Deoarece am estimat doi
parametri (m şi 2), iar numărul intervalelor este 9, obţinem din
tabelele repartiţiei  2 valoarea teoretică  62;0,05  12,59 .

Întrucât  calculat
2
 13,78817  12,59   62;0,05 , respingem
ipoteza normalităţii repartiţiei.

5.5.2.4 Testul lui Massey pentru verificarea


normalităţii

Pentru verificarea normalităţii sondajelor de volum mic se


utilizează testul Massey care presupune introducerea variabilei
X x
aleatoare normate Z  , urmând în continuare metodologia
s
indicată la testul lui Kolmogorov; se calculează diferenţele:

1
Di  F ( z i )   ( zi ) ,
2

iar domeniul critic este dat de: Dmax  Dn; , caz în care ipoteza
normalităţii se respinge, acceptându-se în caz contrar (valorile
Dn; sunt prezentate în tabelul 5.8).

178
Tabelul 5.8 Valorile critice Dn; pentru testul Massey
   
n n n n
0,05 0,10 0,05 0,10 0,05 0,10 0,05 0,10
8 0,140 0,163 14 0,128 0,151 20 0,117 0,133 26 0,108 0,121
9 0,134 0,158 15 0,127 0,148 21 0,115 0,131 27 0,107 0,120
10 0,130 0,156 16 0,126 0,144 22 0,113 0,129 28 0,105 0,118
11 0,129 0,155 17 0,124 0,142 23 0,112 0,128 29 0,104 0,116
12 0,128 0,154 18 0,122 0,138 24 0,110 0,126 30 0,102 0,114
13 0,127 0,153 19 0,120 0,136 25 0,109 0,124 32 0,090 0,111

De exemplu, ştiind că notele obţinute de o grupă de studenţi


la o anumită disciplină de examen sunt:

8, 9, 6, 4, 7, 6, 10, 9, 7, 8, 4, 10, 7, 6, 8, 5, 4, 7, 9, 6, 8, 6, 7, 4, 8, 6, 10, 7,

să se verifice normalitatea repartiţiei obţinute.

După cum am văzut, testul Massey presupune introducerea


X x
variabilei aleatoare normate Z  . Pentru aceasta,
s
determinăm mai întâi media şi abaterea medie pătratică de sondaj.
Avem:

 x f 196
 f i  28 ; x  i i   7;
 fi 28

s 
2  ( xi  x) 2 f i 90
  3,33  s  1,83 .
 fi 1 27

Teoretic, în fiecare din cele 7 grupe ar trebui să se afle câte


28
 4 unităţi, deci frecvenţele relative teoretice ale fiecărei grupe
7
4
ar trebui să fie  0,1429 .
28
Ţinem cont, de asemenea, că ( z i )  ( z i ) . De exemplu:

179
1 1
F (1,64)    (1,64)  F (1,64)    (1,64) 
2 2
 0,1429  0,5  0,44955  0,0924 ;
1
F (0,55)    (0,55)  0,7145  0,5  0,2088  0,0057
2
.
Alcătuim tabelul:

xi zi F(zi) (zi) |F(zi ) -1/2 - (zi)|


4 -1,64 0,1429 -0,4495 0,0924
5 -1,10 0,2858 -0,3643 0,1501
6 -0,55 0,4287 -0,2088 0,1375
7 0,00 0,5716 0 0,0716
8 0,55 0,7145 0,2088 0,0057
9 1,10 0,8574 0,3643 0,0069
10 1,64 1,0003 0,4495 0,0508

Obţinem din tabel că Dmax = 0,1501.


Din tabelul valorilor critice pentru testul Massey avem că
D28;0,05 = 0,105.
Deoarece Dmax = 0,1501 > 0,105 = D28;0,05 , respingem
ipoteza normalităţii repartiţiei.

5.6 Teste pentru compararea mai multor indicatori

5.6.1 Testul t pentru verificarea egalităţii mai multor


medii

Constituie o extindere a verificării ipotezei privind egalitatea


a două medii prezentat în paragraful 5.2.1.2. În acest caz, se verifică
ipoteza:

180
H 0 : m1  m2  ...  mk ;
cu alternativa
H1 : cel puţin două medii diferite,

caz întâlnit în practică atunci când pentru a obţine informaţii asupra


populaţiei statistice se utilizează mai multe sondaje de volum mic n.
Şi în acest caz testul t poate fi folosit numai după verificarea
egalităţii dispersiilor.
Presupunând că avem k sondaje de volum n asupra
variabilelor Xi care urmează o repartiţie N (m,  ) , verificarea ipotezei
H 0 : m1  m2  ...  mk este echivalentă cu verificarea tuturor
ipotezelor H ij0 : mi  m j , i  j , 1  i, j  k , ipoteze ce se verifică
folosind o statistică repartizată după legea Student cu h  ni  n j  2
grade de libertate.

Considerând ni  n j  n , ipoteza H ij0 : mi  m j se acceptă


dacă:
s i2  s 2j
xi  x j  t  ,
1 ;h n
2

iar dacă s este o estimaţie nedeplasată pentru , obţinem:

2
xi  x j  t  s .
1 ;h n
2

Deoarece ipoteza H0 este echivalentă cu mulţimea tuturor


ipotezelor H ij0 , intervalul de încredere pentru H0 va fi dat de
intersecţia celor C k2 intervale de încredere pentru ipotezele H ij0 . Cu
alte cuvinte, acceptăm ipoteza H0 dacă:

181
 
 xi  x j 
 
sup  t  ,
1i , j  k 
s
2  1 2 ;h
 n 

relaţie echivalentă cu:

xmax  xmin
q t  .
2 1 ;h
s 2
n
Această ultimă formă a testului t este cunoscută sub numele
de testul q al lui Tukey.

5.6.2 Testul Link-Wallace pentru compararea a k


medii

Acest test este utilizat pentru verificare ipotezei egalităţii mai


multor medii obţinute din k eşantioane de volume egale n.
Se testează deci ipoteza:

H 0 : m1  m2  ...  mk
cu alternativa
H 1 : cel puţin două medii diferite.

Aplicarea testului presupune parcurgere următorilor paşi:


a) se determină amplitudinea absolută a fiecărui eşantion în parte:

Ai  xmax
i
 xmin
i
;

b) se calculează suma celor k amplitudini:

182
k
A   Ai ;
i 1

c) se determină media fiecărui eşantion:


n
xj
j 1
x ;
n
d) se determină amplitudinea mediilor:

Amed  x max  x min ;

e) se calculează statistica:

n  Am ed
L .
A

Se compară valoarea L astfel calculată cu valoarea tabelară


Ln;k corespunzătoare volumului eşantioanelor n şi numărului k al
gradelor de libertate (tabelul nr.5.9). În cazul în care valoarea L
obţinută este mai mică decât cea tabelară, se acceptă ipoteza egalităţii
celor k medii, respingându-se această ipoteză în caz contrar.

Tabelul 5.9 Valorile critice pentru testul Link-Wallace (   0,05 )


n/k 2 3 4 5 6 7 8
5-9 1,50 1,18 0,96 0,81 0,70 0,61 0,55
10 1,52 1,20 0,98 0,83 0,72 0,63 0,57
15 1,62 1,28 1,05 0,89 0,77 0,68 0,61
20 1,72 1,36 1,12 0,95 0,82 0,73 0,65
30 1,92 1,52 1,24 1,05 0,91 0,81 0,73
40 2,08 1,66 1,35 1,14 0,99 0,88 0,79
50 2,23 1,77 1,45 1,22 1,06 0,94 0,85
100 2,81 2,23 1,83 1,55 1,34 1,19 1,07
200 3,61 2,88 2,35 1,99 1,73 1,53 1,38
500 5,15 4,10 3,35 2,84 2,47 2,19 1,97

183
De exemplu, să presupunem că rezultatele obţinute de 5
grupe de câte 10 elevi din clase diferite la un concurs sunt
următoarele:

I: 7,00 6,00 7,00 8,00 5,50 7,50 9,00 9,50 6,00 8,00
II: 8,00 6,50 5,00 9,00 8,00 7,00 8,00 6,50 9,50 9,00
III: 6,00 7,00 7,50 9,50 8,50 6,50 7,00 9,00 8,00 8,00
IV: 9,0010,00 6,50 8,00 7,00 8,00 9,00 8,00 9,50 7,00
V: 8,00 9,50 8,50 8,00 7,00 8,00 9,00 7,00 9,50 7,00

Să se verifice cu ajutorul testului Link-Wallace ipoteza


omogenităţii mediilor.
Obţinem:

a) A1  4 ; A2  4,5 ; A3  3,5 ; A4  3,5 ; A5  2,5 ;

5
b) A   Ai  18
i 1

c) x1  7,35 ; x 2  7,65 ; x 3  7,70 ; x 4  8,20 ; x 5  8,15 ;

d) Amed  x max  x min  8,20  7,35  0,85 ;

n  Amed 10  0,85 8,5


e) L     0,47 .
A 18 18

Comparând:
L  0,47  0,83  L10;5

admitem, cu o probabilitate de 95% ipoteza egalităţii celor 5 medii.

184
5.6.3 Testul X2 pentru compararea a k proporţii

În anumite situaţii intervine necesitatea comparării mai


multor proporţii obţinute din mai multe eşantioane, adică testarea
ipotezei:

H 0 : p1  p 2  ...  p k  p ;
cu alternativa
H 1 : cel puţin două proporţii diferă.

Pentru rezolvarea acestei probleme se utilizează testul Χ2. Se


parcurg următorii paşi:
a) se determină pentru fiecare eşantion în parte proporţiile

xi favorabil nr. cazuri favorabile


pi   ;
ni nr. total cazuri

b) se calculează
k
 xi favorabil
i 1
p k
;
 ni
i 1

c) se determină
1 k
2   ni ( p i  p ) 2 .
p  (1  p) i 1

În cazul în care valoarea Χ2 calculată este mai mică decât


valoarea  2k 1; tabelară (Tabelul anexă nr.8) corespunzătoare
numărului k  1 al gradelor de libertate şi nivelului de semnificaţie 
ales, se acceptă ipoteza egalităţii proporţiilor, respingându-se această
ipoteză în caz contrar.

185
De exemplu, să presupunem că, în cinci zone diferite ale ţării,
se organizează un sondaj privind politica guvernului într-o anumită
problemă, întrebarea fiind una singură şi anume: „Sunteţi de acord
cu această politică? (DA/NU)”. Rezultatele sunt prezentate în tabelul
de mai jos:

Regiunea
1 2 3 4 5
xi (DA) 142 120 156 94 78
ni 200 150 170 125 100

Să se aprecieze la un nivel de semnificaţie   0,05


(  24;0,05  9,49 ) dacă proporţiile diferă semnificativ sau nu.

Obţinem:
142 120 156
a) p1   0,71; p 2   0,80 ; p3   0,92 ;
200 150 170
94 78
p4   0,75 ; p5   0,78 ;
125 100

5
 xi favorabil 142  120  156  94  78 590
i 1
b) p     0,79 ;
5
200  150  170  125  100 745
 ni
i 1

1 5
c)  2   ni ( pi  p) 2  25,80984 .
p  (1  p) i 1

Deoarece  2  25,80984  9,49   24;0,05 , respingem ipoteza


egalităţii celor 5 proporţii.
După cum se observă, proporţia corespunzătoare regiunii 3
este cea mai depărtată de proporţia medie. Să vedem, dacă
renunţând la ea, celelalte 4 proporţii sunt sau nu omogene
186
(  32;0 ,05  7,82 ).
4
 xi favorabil 142  120  94  78 434
i 1
b) p     0,75 ;
4
200  150  125  100 575
 ni
i 1
1 4
c)  2   ni ( pi  p) 2  4,1729173 .
p  (1  p) i 1

Deoarece  2  4,1729173  7,82   32;0,05 , acceptăm de


această dată ipoteza egalităţii celor 4 proporţii rămase.

5.6.4 Testul Bartlett pentru compararea a k dispersii

În practică apar deseori situaţii în care nu se pot efectua decât


sondaje de volum mic, lucru care implică estimarea dispersiei
populaţiei statistice pe baza mai multor dispersii de sondaj. În cazul
în care s-au efectuat k sondaje şi dispersiile s1 , s 2 ,..., s k sunt
omogene, putem trage concluzia că acestea constituie estimaţii ale
uneia şi aceleiaşi dispersii teoretice. În acest caz dispersia 2
necunoscută a populaţiei statistice se poate estima cu ajutorul funcţiei
de sondaj:

1 k
s2  k  (ni  1)si2 ,
 (ni  1) i 1
i 1
sau:
1 k 2
s2   si
k i 1

în cazul în care sondajele sunt de volume egale.

187
Pentru verificarea omogenităţii dispersiilor de sondaj se
utilizează testul lui Bartlett. Acesta a demonstrat că variabila
aleatoare:
1 k s2
 2   (ni  1) ln 2
C i 1 si
unde:
 
k 
1  1 1 
C  1  
3(k  1)  i 1 ni  1 k 
  (ni  1) 
 i 1 

urmează aproximativ o lege de repartiţie Χ2 cu k  1 grade de


libertate.
Transformând logaritmii naturali în logaritmi zecimali,
variabila se mai poate scrie:

2,30259  k k 
2    (ni  1) lg s 2   (ni  1) lg si2  .
C  i 1 i 1 

Nivelul de semnificaţie  fiind ales, corespunzător numărului


gradelor de libertate k  1 , putem scrie:

P(  2  2 ;k 1 )  1   .

Dacă  2   2 ;k 1 , ipoteza H0 a omogenităţii celor k dispersii


se acceptă, deci dispersia 2 se poate estima prin s2, iar
dacă  2   2 ;k 1 ipoteza omogenităţii dispersiilor se respinge.

(Exemplul de aplicare a acestui test va fi prezentat după


expunerea testelor lui Cochran şi al lui Hartley, întrucât ele se
succed logic)

188
5.6.5 Testul Cochran pentru eliminarea dispersiilor
aberante

Este o urmare logică a testului lui Bartlett în cazul în care s-a


verificat ipoteza omogenităţii celor k dispersii şi s-a ajuns la
concluzia că acestea nu sunt omogene. Aceasta înseamnă că nu se
poate estima dispersia generală pe baza celor k dispersii de sondaj,
unele dintre acestea diferind de celelalte. Testul lui Cochran permite
depistarea şi eliminarea dispersiilor care diferă semnificativ de
celelalte. Acest test se bazează pe repartiţia variabilei aleatoare:

max si2 max si2


g  ,1 i  k ,
s12  s 22  ...  s k2 k
 s 2j
j 1

pentru care s-au alcătuit tabele cu valorile critice g, funcţie de


nivelul de semnificaţie  ales, numărul k al sondajelor şi numărul
gradelor de libertate n  1 , unde sondajele se consideră de volume
egale n (Tabelul anexă nr.12 ).
Dacă g  g , se consideră că dispersia maximă are o valoare
mare datorită întâmplării, ea reprezentând o estimaţie a dispersiei 2
şi se poate utiliza în calculul lui s2.
Dacă g  g , valoarea mare a dispersiei maxime nu poate fi
pusă pe seama întâmplării, ea diferă semnificativ de celelalte k  1
dispersii şi nu va fi utilizată în calculul lui s2.

5.6.6 Testul Hartley pentru eliminarea dispersiilor


aberante

Şi acest test urmează logic logică testului lui Bartlett, fiind o


alternativă pentru testul lui Cochran. Testul se bazează pe repartiţia
variabilei aleatoare:

189
max si2
h ,1 i  k
min si2

pentru care s-au alcătuit tabele cu valorile critice h, funcţie de


nivelul de semnificaţie  ales, numărul k al sondajelor şi numărul
gradelor de libertate n  1 , unde sondajele se consideră de volume
egale n (Tabelul anexă nr.13 ).
De exemplu, pentru încadrarea unui nou produs lansat pe
piaţă într-un clasament al produselor similare, 10 persoane,
cunoscătoare ale produsului, sunt rugate să completeze un formular
în care să aprecieze, prin note de la 1 la 5, cele 8 caracteristici
supuse studiului, ale produsului. Aprecierile sunt prezentate mai jos.

Caracteristici
I II III IV V VI VII VIII
Persoana 1 1 2 4 5 4 3 1 2
Persoana 2 2 4 3 4 3 4 2 1
Persoana 3 1 3 3 4 4 5 3 2
Persoana 4 5 2 2 2 4 4 4 3
Persoana 5 2 4 1 3 5 3 3 2
Persoana 6 3 1 2 4 2 3 5 2
Persoana 7 1 3 2 2 5 3 4 2
Persoana 8 2 3 2 5 3 5 2 4
Persoana 9 2 2 1 4 4 3 5 2
Persoana 10 4 3 5 2 1 4 2 2

Se cere, la un nivel de semnificaţie   0,05 , să se estimeze


aprecierea medie asupra produsului, precum şi dispersia
corespunzătoare.
Pe baza notelor acordate, determinăm pentru fiecare
persoană media şi dispersia de sondaj:

xi 
1
n
 xi ; si2 
1
n 1
 2
 xi  x . 

190
Obţinem:

media dispersia
Persoana 1 2,75 0,4028
Persoana 2 2,875 0,4757
Persoana 3 3,125 0,6424
Persoana 4 3,25 0,3472
Persoana 5 2,875 0,1701
Persoana 6 2,75 0,0694
Persoana 7 2,75 0,4028
Persoana 8 3,25 0,2361
Persoana 9 2,875 0,1701
Persoana 10 2,875 0,2257

Pentru a vedea dacă cele 10 dispersii sunt omogene, utilizăm


testul lui Bartlett. Obţinem:

1
s2   si2  0,3142
10
 
 10 
1  1 1   1  1  10  1   1,0407
C  1   10
3(10  1)  i 1 10  1  27  9 90 
  (10  1) 
 i 1 

1  10 0,3142  7 10 0,3142
2   ( 8  1 ) ln   ln 2  10,9473
1,0407  i 1 si2  1,0407 i 1 si

Deoarece Χ 2  10,9473  16,92  Χ 02,05;9 , acceptăm cu o


probabilitate de 95% ipoteza omogenităţii celor 10 dispersii.
Pentru a vedea dacă eliminăm dispersii, utilizăm testul lui
Cochran; avem:
max si2 0,6424
g 2   0,2044 .
s1  s 2  ...  s k 3,1424
2 2

191
Deoarece:

g  0,2044  0,2666  g10;7;0 ,95 ,

rezultă că dispersia maximă (a treia) nu se elimină din şirul


dispersiilor.
În acelaşi scop (pentru a vedea dacă eliminăm dispersii),
puteam utiliza testul lui Hartley; avem:

max si2 0,6424


h   9,25 .
min si2 0,0694

Deoarece:

h  9,25  14,3  h10;7;0 ,95 ,

rezultă şi prin acest test că dispersia maximă nu se elimină.

În aceste condiţii, dispersia populaţiei se estimează prin


media aritmetică a celor patru dispersii, adică:

1
s2   si2  0,3142 .
10

Pentru a verifica egalitatea mediilor folosim testul t.


Intervalul de încredere este dat de:

xi  x j
sup t  ,
2 1 ;h
s 2
n
unde:
h  ni  n j  2 .
Obţinem:
192
xi  x j 0,50
sup   1,784 .
2 2
s 0,3142 
n 8

Deoarece t  1,784  2,262  t 0 ,05 acceptăm cu o


1 ;14
2
probabilitate de 95% ipoteza conform căreia mediile sunt egale.
În aceste condiţii, estimaţia pentru media populaţiei generale
se obţine ca o medie aritmetică a mediilor de sondaj, adică:

1
x  x i  2,9375 .
10

Cu alte cuvinte, punctajul mediu obţinut de produsul nou


lansat va fi, cu o probabilitate de 95%, de 2,9375 puncte, din maxim
5 posibile.

5.7 Teste pentru compararea mai multor eşantioane

5.7.1 Testul U (Mann-Whitney) pentru compararea


mai multor eşantioane

Acest test este utilizat pentru verificarea ipotezei conform


căreia mai multe eşantioane provin din aceeaşi populaţie, deci
distribuţiile lor sunt omogene, iar valorile parametrilor acestor
distribuţii coincid, indiferent care sunt acestea.
Unica restricţie care se impune în acest test, bazându-se pe o
statistică X2, este aceea ca fiecare dintre cele k eşantioane să aibă cel
puţin cinci subiecţi.
Se testează deci ipoteza:

H 0 : cele k eşantioane sunt omogene;

193
cu alternativa
H 1 : cel puţin două eşantioane diferă semnificativ.

În aplicarea testului se parcurg următorii paşi:


a) se reunesc toate valorile într-o singură mulţime şi se atribuie
ranguri corespunzătoare fiecărei valori (reamintim că dacă o
valoare se repetă o dată sau de mai multe ori, acesteia i se
atribuie drept rang media rangurilor corespunzătoare);
b) se calculează suma rangurilor corespunzătoare fiecărui
eşantion;
c) se calculează suma totală a rangurilor şi se compară cu
n(n  1)
pentru verificarea corectitudinii calculelor;
2
d) se determină statistica:

12 R2
2   i  3( N  1)
N ( N  1) ni

unde:
N = numărul total de valori;
ni = numărul elementelor din grupa i;
Ri = totalul rangurilor din grupa i.

Valoarea X2 astfel calculată se compară cu valoarea  2k 1;


tabelară (Tabelul anexă nr.8) corespunzătoare numărului k  1 al
gradelor de libertate (k fiind numărul eşantioanelor) şi nivelului de
semnificaţie  ales. În cazul în care această valoare calculată este
mai mică decât cea tabelară se acceptă ipoteza conform căreia
distribuţiile nu diferă semnificativ, respingându-se această ipoteză în
cazul în care valoarea calculată o depăşeşte pe cea tabelară.

De exemplu, să presupunem că patru grupe de subiecţi au


obţinut următoarele rezultate la o anumită probă:

194
Grupa 1 Grupa 2 Grupa 3 Grupa 4
6 10 8 7
7 9 9 9
4 9 6 6
8 4 10 9
9 5 5 10
6 8 7
6

Avem:
a) reunim toate valorile într-o singură mulţime şi le acordăm
ranguri după cum urmează:

Valori 4 4 5 5 6 6 6 6 6 7 7 7
Poziţie în şir 1 2 3 4 5 6 7 8 9 10 11 12
Ranguri 1,5 1,5 3,5 3,5 7 7 7 7 7 11 11 11

Valori 8 8 8 9 9 9 9 9 9 10 10 10
Poziţie în şir 13 14 15 16 17 18 19 20 21 22 23 24
Ranguri 14 14 14 18,5 18,5 18,5 18,5 18,5 18,5 23 23 23

b)
Grupa 1 Grupa 2 Grupa 3 Grupa 4
(Ranguri) (Ranguri) (Ranguri) (Ranguri)
7 23 14 11
11 18,5 18,5 18,5
1,5 18,5 7 7
14 1,5 23 18,5
18,5 3,5 3,5 23
7 14 11
7
Ri 52 72 87 89
Ri2 2704 5184 7569 7921

c) avem:

195
24  25 n(n  1)
 Ri  52  72  87  89  300   ,
2 2

deci calculele sunt corecte;


d) calculăm:

12 Ri2
2    3( N  1) 
N ( N  1) ni
12  2704 5184 7569 7921 
       3(24  1) 
24  25  5 6 7 6 
 0,02  3806,2524  3  25  1,125

Din tabelul anexă nr.8, pentru un nivel de semnificaţie


  0,05 şi k  4  1  3 grade de libertate, avem  32;0,05  7,82 .
Deoarece 1,125   2   32;0,05  7,82 , acceptăm cu o probabilitate
de 95% ipoteza că cele patru distribuţii nu diferă semnificativ.

5.7.2 Testul Friedman pentru compararea


rezultatelor aceluiaşi grup

Este o particularizare a testului Mann-Whitney, în sensul că


este utilizat atunci când se compară rezultatele obţinute de acelaşi
grup. Se bazează tot pe o statistică X2, ca şi testul Mann-Whitney,
care, de această dată, ţinând cont de faptul că este vorba de unul şi
acelaşi eşantion, are forma:

12
2   Ri2  3  n  (k  1)
n  k  (k  1)
unde:
n = numărul subiecţilor;
k = numărul eşantioanelor;
Ri2 = pătratul sumei rangurilor din eşantionul i.
196
Aplicarea testului presupune acelaşi algoritm ca şi în cazul
testului Mann-Whitney, cu deosebirea că în acest caz se acordă
ranguri în cadrul fiecărei linii.

De exemplu, să presupunem că o grupă de 10 subiecţi a


obţinut la cinci probe următoarele rezultate la o anumită probă:

Proba 1 Proba 2 Proba 3 Proba 4 Proba 5


6 10 8 7 7
7 9 9 9 9
4 9 6 6 4
8 4 10 4 10
9 5 5 10 7
7 6 8 7 9
10 5 6 6 6
8 7 4 9 8
6 8 9 10 10
10 4 6 9 5

Avem:
a) acordăm ranguri fiecărui subiect, pe linie, după cum
urmează:
b)
Proba 1 Proba 2 Proba 3 Proba 4 Proba 5
(Ranguri) (Ranguri) (Ranguri) (Ranguri) (Ranguri)
1 5 4 2,5 2,5
1 3,5 3,5 3,5 3,5
1,5 5 3,5 3,5 1,5
3 1,5 4,5 1,5 4,5
4 1,5 1,5 5 3
2,5 1 4 2,5 5
5 1 3 3 3
3,5 2 1 5 3,5
1 2 3 4,5 4,5
5 1 3 4 2
Ri 27,5 23,5 31 35 33
Ri2 756,25 552,25 961 1225 1089

197
b) de această dată, suma rangurilor pe fiecare linie trebuie să
fie:

k (k  1)
 Ri   15
2

lucru care se verifică uşor, deci calculele sunt corecte;

c) calculăm:

12
2   Ri2  3  n  (k  1)
n  k  (k  1)
12
  (756,25  552,25  961  1225  1089)  3  10  6 
10  5  6
 3,34

Din tabelul anexă nr.8, pentru un nivel de semnificaţie


  0,05 şi k  5  1  4 grade de libertate, avem  24;0,05  9,49 .

Deoarece 3,34   2   24;0,05  9,49 , acceptăm cu o


probabilitate de 95% ipoteza că cele cinci distribuţii nu diferă
semnificativ.

5.7.3 Testul Cochran pentru compararea mai multor


eşantioane

Se bazează tot pe o statistică X2 şi este utilizat în cazul în care


variabila luată în considerare este dihotomică sau poate fi
dihotomizată. Dihotomizarea unei variabile se poate face prin
alocarea semnului „+” acelei valori a variabilei care depăşeşte un
anumit nivel de referinţă ales (de obicei, mediana) sau a semnului „ –
” în cazul în care acea valoare este mai mică decât nivelul de
referinţă ales. În cazul variabilei dihotomice, semnul „+” va semnala
198
prezenţa fenomenului (admis, promovat, prezent, răspuns afirmativ
etc.), iar semnul „–” va semnala absenţa fenomenului (respins,
nepromovat, absent, răspuns negativ etc.).
Se testează deci ipoteza:

H 0 : cele k eşantioane sunt omogene;


cu alternativa
H 1 : cel puţin două eşantioane diferă semnificativ.

Pentru aplicarea testului se calculează statistica:

k   C 2j  T 2
  (k  1)
2
k  T   L2i
unde:
C j = totalul semnelor „+” pentru coloana j;
Li = totalul semnelor „+” pentru linia i;
T = totalul general al semnelor „+”;
k = numărul probelor (coloanelor).

Valoarea X2 astfel calculată se compară cu valoarea  2k 1;


tabelară (Tabelul anexă nr.8) corespunzătoare numărului k  1 al
gradelor de libertate (k fiind numărul probelor) şi nivelului de
semnificaţie  ales.
În cazul în care această valoare calculată este mai mică decât
cea tabelară se acceptă ipoteza conform căreia distribuţiile nu diferă,
respingându-se în caz contrar.

De exemplu, să presupunem că un grup de 15 candidaţi a


răspuns la 7 teste. Se cere verificarea ipotezei potrivit căreia
răspunsurile nu diferă semnificativ între testele analizate, rezultatele
fiind apreciate prin admis/respins.

199
Cand. Test1 Test2 Test3 Test4 Test5 Test6 Test7 Li L2i
1 + + – + – – + 4 16
2 – + + – – + + 4 16
3 + – + + + + – 5 25
4 – + + + – + + 5 25
5 + + + – + + + 6 36
6 + – + + + + – 5 25
7 – – – + – – – 1 1
8 + + + + + – + 6 36
9 – + – + – + – 3 9
10 + + – – – + + 4 16
11 + + + + + + – 6 36
12 + – – – – – + 2 4
13 – + – – + – + 3 9
14 + + + + – + + 6 36
15 – + + – – + – 3 9
Cj 9 11 9 9 6 10 9 63 299
C 2j 81 121 81 81 36 100 81 581

Avem:

 C 2j  581 ;  L2i  299 ; T 2  632  3969 .


Înlocuind, obţinem:

k   C 2j  T 2 7  581  3969 98
  (k  1)
2
 (7  1)  5  3,45
k T   L2i 7  63  299 142

Din tabelul anexă nr.8, pentru un nivel de semnificaţie


  0,05 şi k  7  1  6 grade de libertate, avem  62;0,05  12,59 .
Deoarece 3,45   2   62;0,05  12,59 , acceptăm cu o
probabilitate de 95% ipoteza conform căreia răspunsurile nu diferă
semnificativ între testele analizate.

200
Tabelul anexă nr.1
Valorile critice ale coeficientului de corelaţie r

Pragul de semnificaţie pentru testul unilateral


0,05 0,025 0,01 0,005 0,0005
n2 Pragul de semnificaţie pentru testul bilateral
0,10 0,05 0,02 0,01 0,001
1 0,9877 0,9969 0,9995 0,9999 1,0000
2 0,9000 0,9500 0,9800 0,9900 0,9990
3 0,8054 0,8783 0,9343 0,9587 0,9912
4 0,7293 0,8114 0,8822 0,9172 0,9741
5 0,6694 0,7545 0,8329 0,8745 0,9507
6 0,6215 0,7067 0,7887 0,8343 0,9249
7 0,5822 0,6664 0,7498 0,7977 0,8982
8 0,5494 0,6319 0,7155 0,7646 0,8721
9 0,5214 0,6021 0,6851 0,7348 0,8471
10 0,4973 0,5760 0,6581 0,7079 0,8233
11 0,4762 0,5529 0,6339 0,6835 0,8010
12 0,4575 0,5324 0,6120 0,6614 0,7800
13 0,4409 0,5139 0,5923 0,6411 0,7603
14 0,4259 0,4973 0,5742 0,6226 0,7420
15 0,4124 0,4821 0,5577 0,6055 0,7246
16 0,4000 0,4683 0,5425 0,5897 0,7084
17 0,3887 0,4555 0,5285 0,5751 0,6932
18 0,3783 0,4438 0,5155 0,5614 0,6787
19 0,3687 0,4329 0,5034 0,5487 0,6652
20 0,3598 0,4227 0,4921 0,5368 0,6524
21 0,3520 0,4130 0,4820 0,5260 0,6414
22 0,3440 0,4040 0,4720 0,5150 0,6304
23 0,3370 0,3960 0,4620 0,5050 0,6194
24 0,3330 0,3880 0,4530 0,4960 0,6084
25 0,3233 0,3809 0,4451 0,4869 0,5974
26 0,3170 0,3740 0,4370 0,4790 0,5887
27 0,3110 0,3670 0,4300 0,4710 0,5801
28 0,3060 0,3610 0,4230 0,4630 0,5714
29 0,3010 0,3550 0,4160 0,4560 0,5628
30 0,2960 0,3494 0,4093 0,4487 0,5541
35 0,2746 0,3246 0,3810 0,4182 0,5189

201
Tabelul anexă nr.1 (continuare)
Valorile critice ale coeficientului de corelaţie r

Pragul de semnificaţie pentru testul unilateral


0,05 0,025 0,01 0,005 0,0005
n2 Pragul de semnificaţie pentru testul bilateral
0,10 0,05 0,02 0,01 0,001
40 0,2573 0,3044 0,3578 0,3932 0,4896
45 0,2428 0,2875 0,3384 0,3721 0,4648
50 0,2306 0,2732 0,3218 0,3541 0,4433
60 0,2108 0,2500 0,2948 0,3248 0,4078
70 0,1954 0,2319 0,2737 0,3017 0,3799
80 0,1829 0,2172 0,2565 0,2830 0,3568
90 0,1726 0,2050 0,2422 0,2673 0,3375
100 0,1638 0,1946 0,2301 0,2540 0,3211

Observaţie: pentru a fi semnificativă valoarea obţinută


trebuie să fie mai mare sau egală cu valoarea corespondentă din
tabel.

202
Tabelul anexă nr.2
Valori pentru calculul coeficienţilor de corelaţie biserial şi triserial

pq y pq y
p sau q p sau q
y p y p
0,350 0,6142 1,0583 0,426 0,6237 0,9203
0,351 0,6144 1,0564 0,427 0,6238 0,9186
0,352 0,6145 1,0544 0,428 0,6239 0,9169
0,353 0,6147 1,0525 0,429 0,6239 0,9152
0,354 0,6149 1,0506 0,430 0,6240 0,9134
0,355 0,6151 1,0487 0,431 0,6241 0,9117
0,356 0,6152 1,0468 0,432 0,6242 0,9100
0,357 0,6154 1,0449 0,433 0,6242 0,9083
0,358 0,6155 1,0430 0,434 0,6243 0,9066
0,359 0,6157 1,0411 0,435 0,6244 0,9049
0,360 0,6158 1,0392 0,436 0,6244 0,9032
0,361 0,6160 1,0373 0,437 0,6245 0,9015
0,362 0,6162 1,0354 0,438 0,6246 0,8998
0,363 0,6163 1,0336 0,439 0,6246 0,8981
0,364 0,6165 1,0317 0,440 0,6247 0,8964
0,365 0,6166 1,0298 0,441 0,6248 0,8947
0,366 0,6168 1,0279 0,442 0,6248 0,8930
0,367 0,6169 1,0261 0,443 0,6249 0,8913
0,368 0,6171 1,0242 0,444 0,6250 0,8896
0,369 0,6172 1,0223 0,445 0,6250 0,8880
0,370 0,6174 1,0205 0,446 0,6251 0,8863
0,371 0,6175 1,0186 0,447 0,6251 0,8846
0,372 0,6177 1,0167 0,448 0,6252 0,8829
0,373 0,6178 1,0149 0,449 0,6253 0,8813
0,374 0,6179 1,0130 0,450 0,6253 0,8796
0,375 0,6181 1,0112 0,451 0,6254 0,8779
0,376 0,6182 1,0093 0,452 0,6254 0,8762
0,377 0,6184 1,0075 0,453 0,6255 0,8746
0,378 0,6185 1,0057 0,454 0,6255 0,8729
0,379 0,6186 1,0038 0,455 0,6256 0,8712
0,380 0,6188 1,0020 0,456 0,6256 0,8695
0,381 0,6189 1,0002 0,457 0,6257 0,8679
203
Tabelul anexă nr.2 (continuare)
Valori pentru calculul coeficienţilor de corelaţie biserial şi triserial

pq y pq y
p sau q p sau q
y p y p
0,382 0,6190 0,9983 0,458 0,6257 0,8662
0,383 0,6192 0,9965 0,459 0,6258 0,8646
0,384 0,6193 0,9947 0,460 0,6258 0,8629
0,385 0,6194 0,9929 0,461 0,6258 0,8612
0,386 0,6196 0,9910 0,462 0,6259 0,8596
0,387 0,6197 0,9892 0,463 0,6259 0,8579
0,388 0,6198 0,9874 0,464 0,6260 0,8563
0,389 0,6199 0,9856 0,465 0,6260 0,8546
0,390 0,6200 0,9838 0,466 0,6260 0,8530
0,391 0,6202 0,9820 0,467 0,6261 0,8513
0,392 0,6203 0,9802 0,468 0,6261 0,8497
0,393 0,6204 0,9784 0,469 0,6261 0,8480
0,394 0,6205 0,9766 0,470 0,6262 0,8464
0,395 0,6206 0,9748 0,471 0,6262 0,8448
0,396 0,6208 0,9730 0,472 0,6262 0,8431
0,397 0,6209 0,9712 0,473 0,6263 0,8415
0,398 0,6210 0,9694 0,474 0,6263 0,8399
0,399 0,6211 0,9676 0,475 0,6263 0,8382
0,400 0,6212 0,9659 0,476 0,6263 0,8366
0,401 0,6213 0,9644 0,477 0,6264 0,8350
0,402 0,6214 0,9623 0,478 0,6264 0,8333
0,403 0,6215 0,9605 0,479 0,6264 0,8317
0,404 0,6216 0,9587 0,480 0,6264 0,8301
0,405 0,6218 0,9570 0,481 0,6265 0,8285
0,406 0,6219 0,9552 0,482 0,6265 0,8268
0,407 0,6220 0,9534 0,483 0,6265 0,8252
0,408 0,6221 0,9517 0,484 0,6265 0,8236
0,409 0,6222 0,9499 0,485 0,6265 0,8220
0,410 0,6223 0,9482 0,486 0,6266 0,8204
0,411 0,6224 0,9464 0,487 0,6266 0,8188
0,412 0,6225 0,9446 0,488 0,6266 0,8171
0,413 0,6225 0,9429 0,489 0,6266 0,8155

204
Tabelul anexă nr.2 (continuare)
Valori pentru calculul coeficienţilor de corelaţie biserial şi triserial

pq y pq y
p sau q p sau q
y p y p
0,414 0,6226 0,9411 0,490 0,6266 0,8139
0,415 0,6227 0,9394 0,491 0,6266 0,8123
0,416 0,6228 0,9376 0,492 0,6266 0,8107
0,417 0,6229 0,9359 0,493 0,6266 0,8091
0,418 0,6230 0,9342 0,494 0,6266 0,8075
0,419 0,6231 0,9324 0,495 0,6266 0,8059
0,420 0,6233 0,9307 0,496 0,6266 0,8043
0,421 0,6233 0,9290 0,497 0,6266 0,8027
0,422 0,6234 0,9272 0,498 0,6267 0,8011
0,423 0,6234 0,9255 0,499 0,6267 0,7995
0,424 0,6235 0,9238 0,500 0,6267 0,7979
0,425 0,6236 0,9221

205
Tabelul anexă nr.3
Secvenţă de 500 de numere aleatoare din intervalul 0 - 10000
8240 8496 2732 2774 9093 7677 6908 4432 4040 2542
5329 6794 7892 4481 5632 8004 218 7234 4724 3450
168 8834 6859 7127 8586 8124 2443 9934 2553 7696
9280 1465 8914 4016 9479 7712 193 6849 5429 879
1624 7561 4668 4726 1128 5753 5841 869 9426 6085
805 9277 328 2083 725 4870 9937 2529 4805 8858
4274 9108 2990 2644 5077 9454 8975 2745 7656 256
3104 2423 254 686 9225 2166 5972 6647 9109 6568
5609 1804 9429 1274 7207 1055 7472 8818 2034 5514
7014 5328 7638 9612 2317 6598 7448 8387 5832 3481
6451 1383 3037 8345 1241 4535 1790 9196 7443 3599
8232 3108 7800 9936 2151 1468 8667 7664 4886 8641
5386 7846 2907 3546 7792 5592 5698 2532 3066 3696
1164 8836 9604 2574 2099 2149 690 4055 1323 8691
6528 6553 5007 8521 9947 233 298 2905 4540 7282
242 2715 4592 4497 2160 7786 1439 2406 8581 5835
6637 9795 9126 2259 4215 4284 2895 8499 4437 5818
3633 9335 2831 8981 9612 7885 2676 2949 2129 2482
74 3584 3191 6799 7125 3576 4124 7181 3470 7909
4717 4410 2744 7206 9353 4189 9541 5434 3465 6176
8283 3191 4593 9758 6319 9141 7205 474 6776 8672
1083 6561 3426 7248 5398 1435 9469 8545 7013 6907
8625 4254 3916 1541 95 3449 8260 5841 4039 9110
9902 7027 2277 5776 2814 3223 751 2435 7980 9132
5984 5375 7696 5914 8824 7926 4302 5487 2348 5954
6677 6792 5596 9637 4611 9740 2147 1230 3037 4643
2986 1051 5241 6885 3059 8470 7323 5203 946 8514
8501 4671 7364 6181 9481 3757 3014 8140 6283 226
7116 9194 5848 9919 8047 7546 3277 4527 1882 4100
3850 362 2030 7279 3527 1561 9913 9233 6665 223
684 3642 6274 1792 8382 1073 3615 355 8109 8040
7394 3210 9341 7321 3541 8618 6772 5203 3465 2838
1935 6976 9747 2074 4428 2798 5563 372 1016 4303
7240 2631 6405 4420 5746 7044 6934 376 3042 5693
6912 5207 6611 4008 6346 513 3210 2830 1328 6101
8938 9267 3611 4357 4215 5592 9968 7268 5243 8837
9601 6261 7841 6121 4496 4843 4404 2655 8184 5566
9128 1213 4627 7495 6001 8758 1189 9894 7034 4700
8074 974 6673 1893 3642 1086 7423 1760 987 1653
3040 2691 9604 7868 2989 1262 9151 2657 6701 4493
9977 7833 868 1873 716 1224 8052 3558 4684 9824
2295 8909 8270 6044 3301 883 3783 5522 2519 8468
41 6476 3384 7696 3346 3145 654 2063 8064 5724
2119 4514 5476 2631 8616 452 8921 7938 3928 5204
4505 4563 972 6709 9802 200 6654 3585 7967 6194
5200 860 8366 6824 587 3626 3905 7759 4265 9621
8893 8859 1004 1959 4577 9804 8561 3609 1435 4119
3000 5181 5515 2627 6246 6580 3690 6864 3996 957
6933 2376 7743 661 6152 3506 3153 3542 8015 1681
8552 5680 9351 4428 2734 7433 7400 1598 3455 5233
Tabelul anexă nr.4
206
Intervalul de siguranţă de 95 % al distribuţiei binomiale
-%-
Fracţi-
Numă- Mărimea
rul ob- Mărimea probei n unea
ob- probei
servat
servată
f 10 15 20 30 50 100 250 1000
f/n
0 0 31 0 22 0 17 0 12 0 7 0 4 0,00 0 1 0 0
1 0 45 0 32 0 25 0 17 0 11 0 5 0,01 0 4 2
2 3 56 2 40 1 31 1 22 0 14 0 7 0,02 1 5 1 3
3 7 65 4 48 3 38 2 27 1 17 1 8 0,03 1 6 2 4
4 12 74 8 55 6 44 4 31 2 19 1 10 0,04 2 7 3 5
5 19 81 12 62 9 49 6 35 3 22 2 11 0,05 3 9 4 7
6 26 88 16 68 12 54 8 39 5 24 2 12 0,06 3 10 5 8
7 35 93 21 73 15 59 10 43 6 27 3 14 0,07 4 11 6 9
8 44 97 27 79 19 64 12 46 7 29 4 15 0,08 5 12 6 10
9 55 100 32 84 23 68 15 50 9 31 4 16 0,09 6 13 7 11
10 69 100 38 88 27 73 17 53 10 34 5 18 0,10 7 14 8 12
11 45 92 32 77 20 56 12 36 5 19 0,11 7 16 9 13
12 52 96 36 81 23 60 13 38 6 20 0,12 8 17 10 14
13 60 98 41 85 25 63 15 41 7 21 0,13 9 18 11 15
14 68 100 46 88 28 66 16 43 8 22 0,14 10 19 12 16
15 78 100 51 91 31 69 18 44 9 24 0,15 10 20 13 17
16 56 94 34 72 20 46 9 25 0,16 11 21 14 18
17 62 97 37 75 21 48 10 26 0,17 12 22 15 19
18 69 99 40 77 23 50 11 27 0,18 13 23 16 21
19 75 100 44 80 25 53 12 28 0,19 14 24 17 22
20 83 100 47 83 27 55 13 29 0,20 15 26 18 23
21 50 85 28 57 14 30 0,21 16 27 19 24
22 54 88 30 59 14 31 0,22 17 28 19 25
23 57 90 32 61 15 32 0,23 18 29 20 26
24 61 92 34 63 16 33 0,24 19 30 21 27
25 65 94 36 64 17 35 0,25 20 31 22 28
26 69 96 37 66 18 36 0,26 20 32 23 29
27 73 98 39 68 19 37 0,27 21 33 24 30
28 78 99 41 70 19 38 0,28 22 34 25 31
29 83 100 43 72 20 39 0,29 23 35 26 32
30 88 100 45 73 21 40 0,30 24 36 27 33
31 47 75 22 41 0,31 25 37 28 34
32 50 77 23 42 0,32 26 38 29 35
33 52 79 24 43 0,33 27 39 30 36

207
34 54 80 25 44 0,34 28 40 31 37
35 56 82 26 45 0,35 29 41 32 38
36 57 84 27 46 0,36 30 42 33 39
37 59 85 28 47 0,37 31 43 34 40
38 62 87 28 48 0,38 32 44 35 41
39 64 88 29 49 0,39 33 45 36 42
40 66 90 30 50 0,40 34 46 37 43
41 69 91 31 51 0,41 35 47 38 44
42 71 93 32 52 0,42 36 48 39 45
43 73 94 33 53 0,43 37 49 40 46
44 76 95 34 54 0,44 38 50 41 47
45 78 97 35 55 0,45 39 51 42 48
46 81 98 36 56 0,46 40 52 43 49
47 83 99 37 57 0,47 41 53 44 50
48 86 100 38 58 0,48 42 54 45 51
49 89 100 39 59 0,49 43 55 46 52
40 60 0,50 44 56 47 53
50 93 100
1) 2) 2)

1) Dacă f depăşeşte 50, citiţi 100 – f = numărul observat şi scădeţi


fiecare limită de siguranţă din 100.
2) Dacă f/n depăşeşte 0,50, citiţi 1,00 – f/n = fracţiunea observată şi
scădeţi fiecare limită de siguranţă din 100.

208
Tabelul anexă nr.5
Intervalul de siguranţă de 99 % al distribuţiei binomiale
-%-
Fracţi-
Numă- Mărimea
Mărimea probei n unea
rul ob- probei
ob-
servat
servată
f 10 15 20 30 50 100 250 1000
f/n
0 0 41 0 30 0 23 0 16 0 10 0 5 0,00 0 2 0 1
1 0 54 0 40 0 32 0 22 0 14 0 7 0,01 0 5 0 2
2 1 65 1 49 1 39 0 28 0 17 0 9 0,02 1 6 1 3
3 4 74 2 56 2 45 1 32 1 20 0 10 0,03 1 7 2 4
4 8 81 5 63 4 51 3 36 1 23 1 12 0,04 2 9 3 6
5 13 87 8 69 6 56 4 40 2 26 1 13 0,05 2 10 3 7
6 19 92 12 74 8 61 6 44 3 29 2 14 0,06 3 11 4 8
7 26 96 16 79 11 66 8 48 4 31 2 16 0,07 3 13 5 9
8 35 99 21 84 15 70 10 52 6 33 3 17 0,08 4 14 6 10
9 46 100 32 88 18 74 12 55 7 36 3 18 0,09 5 15 7 12
10 59 100 31 92 22 78 14 58 8 38 4 19 0,10 6 16 8 13
11 37 95 26 82 16 62 10 40 4 20 0,11 7 18 9 15
12 44 98 30 85 18 65 11 43 5 21 0,12 7 18 9 15
13 51 99 34 89 21 68 12 45 6 23 0,13 8 19 10 16
14 60 100 39 92 24 71 14 47 6 24 0,14 9 20 11 17
15 70 100 44 94 26 74 15 44 7 26 0,15 9 22 12 18
16 49 96 29 76 17 51 8 27 0,16 10 23 13 19
17 55 98 32 79 18 53 9 29 0,17 11 24 14 20
18 61 99 35 82 20 55 9 30 0,18 12 25 15 21
19 68 100 38 84 21 57 10 31 0,19 13 26 16 22
20 77 100 42 86 23 59 11 32 0,20 14 27 17 23
21 45 88 24 61 12 33 0,21 15 28 18 24
22 48 90 26 63 12 34 0,22 16 30 19 26
23 52 92 28 65 13 35 0,23 17 31 20 27
24 56 94 29 67 14 36 0,24 18 32 21 28
25 60 96 31 69 15 38 0,25 18 33 22 29
26 64 97 33 71 16 39 0,26 19 34 22 30
27 68 99 35 72 16 40 0,27 20 35 23 31
28 72 100 37 74 17 41 0,28 21 36 24 32
29 78 100 39 76 18 42 0,29 22 37 25 33
30 84 100 41 77 19 43 0,30 23 38 26 34
31 43 79 20 44 0,31 24 39 27 35
32 45 80 21 45 0,32 25 40 28 36

209
33 47 82 21 46 0,33 26 41 29 37
34 49 83 22 47 0,34 26 42 30 38
35 51 85 23 48 0,35 27 43 31 39
36 53 86 24 49 0,36 28 44 32 40
37 55 88 25 50 0,37 29 45 33 41
38 57 89 26 51 0,38 30 46 34 42
39 60 90 27 52 0,39 31 47 35 43
40 62 92 28 53 0,40 32 48 36 44
41 64 93 29 54 0,41 33 50 37 45
42 67 94 29 55 0,42 34 51 38 46
43 69 96 30 56 0,43 35 52 39 47
44 71 97 31 57 0,44 36 53 40 48
45 74 98 32 58 0,45 37 54 41 49
46 77 99 33 59 0,46 38 55 42 50
47 80 99 34 60 0,47 39 55 43 51
48 83 100 35 61 0,48 40 56 44 52
49 86 100 36 62 0,49 41 57 45 53
37 63 0,50 42 58 46 54
50 90 100
1) 2) 2)

1) Dacă f depăşeşte 50, citiţi 100 – f = numărul observat şi scădeţi


fiecare limită de siguranţă
din 100.
2) Dacă f/n depăşeşte 0,50, citiţi 1,00 – f/n = fracţiunea observată şi
scădeţi fiecare limită de siguranţă din 100.

210
Tabelul anexă nr.6

z2 z t2
1  1 
Valorile funcţiilor  ( z ) 
2
e 2 ; ( z ) 
2
e 2 dt
0

z (z) (z) z (z) (z) z (z) (z)


0,00 0,3989 0,0000 0,31 0,3802 0,1217 0,62 0,3292 0,2324
0,01 0,3989 0,0040 0,32 0,3790 0,1255 0,63 0,3271 0,2357
0,02 0,3989 0,0080 0,33 0,3778 0,1293 0,64 0,3251 0,2389
0,03 0,3988 0,0120 0,34 0,3765 0,1331 0,65 0,3230 0,2422
0,04 0,3986 0,0160 0,35 0,3752 0,1368 0,66 0,3209 0,2454
0,05 0,3984 0,0199 0,36 0,3739 0,1406 0,67 0,3187 0,2486
0,06 0,3982 0,0239 0,37 0,3725 0,1443 0,68 0,3166 0,2517
0,07 0,3980 0,0279 0,38 0,3712 0,1480 0,69 0,3144 0,2549
0,08 0,3977 0,0319 0,39 0,3697 0,1517 0,70 0,3123 0,2580
0,09 0,3973 0,0359 0,40 0,3683 0,1554 0,71 0,3101 0,2611
0,10 0,3970 0,0398 0,41 0,3668 0,1591 0,72 0,3079 0,2642
0,11 0,3965 0,0438 0,42 0,3653 0,1628 0,73 0,3056 0,2673
0,12 0,3961 0,0478 0,43 0,3637 0,1664 0,74 0,3034 0,2703
0,13 0,3956 0,0517 0,44 0,3621 0,1700 0,75 0,3011 0,2734
0,14 0,3951 0,0557 0,45 0,3605 0,1736 0,76 0,2989 0,2764
0,15 0,3945 0,0596 0,46 0,3589 0,1772 0,77 0,2966 0,2794
0,16 0,3939 0,0636 0,47 0,3572 0,1808 0,78 0,2943 0,2823
0,17 0,3932 0,0675 0,48 0,3555 0,1844 0,79 0,2920 0,2852
0,18 0,3925 0,0714 0,49 0,3538 0,1879 0,80 0,2897 0,2881
0,19 0,3918 0,0753 0,50 0,3521 0,1915 0,81 0,2874 0,2910
0,20 0,3910 0,0793 0,51 0,3503 0,1950 0,82 0,2850 0,2939
0,21 0,3902 0,0832 0,52 0,3485 0,1985 0,83 0,2827 0,2967
0,22 0,3894 0,0871 0,53 0,3467 0,2019 0,84 0,2803 0,2995
0,23 0,3885 0,0910 0,54 0,3448 0,2054 0,85 0,2780 0,3023
0,24 0,3876 0,0948 0,55 0,3429 0,2088 0,86 0,2856 0,3051
0,25 0,3867 0,0987 0,56 0,3410 0,2123 0,87 0,2732 0,3078
0,26 0,3857 0,1026 0,57 0,3391 0,2157 0,88 0,2709 0,3106
0,27 0,3847 0,1064 0,58 0,3372 0,2190 0,89 0,2685 0,3133
0,28 0,3836 0,1103 0,59 0,3352 0,2224 0,90 0,2661 0,3159
0,29 0,3825 0,1141 0,60 0,3332 0,2257 0,91 0,2637 0,3186
0,30 0,3814 0,1179 0,61 0,3312 0,2291 0,92 0,2613 0,3212

211
Tabelul anexă nr.6 (continuare)

z (z) (z) z (z) (z) z (z) (z)


0,93 0,2589 0,3238 1,28 0,1758 0,3997 1,63 0,1057 0,4484
0,94 0,2565 0,3264 1,29 0,1736 0,4015 1,64 0,1040 0,4495
0,95 0,2541 0,3289 1,30 0,1714 0,4032 1,65 0,1023 0,4505
0,96 0,2516 0,3315 1,31 0,1691 0,4049 1,66 0,1006 0,4515
0,97 0,2492 0,3340 1,32 0,1669 0,4066 1,67 0,0989 0,4525
0,98 0,2468 0,3365 1,33 0,1647 0,4082 1,68 0,0973 0,4535
0,99 0,2444 0,3389 1,34 0,1626 0,4099 1,69 0,0957 0,4545
1,00 0,2420 0,3413 1,35 0,1604 0,4115 1,70 0,0940 0,4554
1,01 0,2396 0,3438 1,36 0,1582 0,4131 1,71 0,0925 0,4564
1,02 0,2371 0,3461 1,37 0,1561 0,4147 1,72 0,0909 0,4573
1,03 0,2347 0,3485 1,38 0,1539 0,4162 1,73 0,0898 0,4582
1,04 0,2323 0,3508 1,39 0,1518 0,4177 1,74 0,0878 0,4591
1,05 0,2299 0,3531 1,40 0,1497 0,4192 1,75 0,0863 0,4599
1,06 0,2275 0,3554 1,41 0,1476 0,4207 1,76 0,0848 0,4608
1,07 0,2251 0,3577 1,42 0,1456 0,4222 1,77 0,0833 0,4616
1,08 0,2227 0,3599 1,43 0,1435 0,4236 1,78 0,0818 0,4625
1,09 0,2203 0,3621 1,44 0,1415 0,4251 1,79 0,0804 0,4633
1,10 0,2179 0,3643 1,45 0,1394 0,4265 1,80 0,0790 0,4641
1,11 0,2155 0,3665 1,46 0,1374 0,4279 1,81 0,0775 0,4649
1,12 0,2131 0,3686 1,47 0,1354 0,4292 1,82 0,0761 0,4656
1,13 0,2107 0,3708 1,48 0,1334 0,4306 1,83 0,0748 0,4664
1,14 0,2083 0,3729 1,49 0,1315 0,4391 1,84 0,0734 0,4671
1,15 0,2059 0,3749 1,50 0,1295 0,4332 1,85 0,0721 0,4678
1,16 0,2036 0,3770 1,51 0,1276 0,4245 1,86 0,0707 0,4686
1,17 0,2012 0,3790 1,52 0,1257 0,4357 1,87 0,0694 0,4693
1,18 0,1989 0,3810 1,53 0,1238 0,4370 1,88 0,0681 0,4699
1,19 0,1965 0,3830 1,54 0,1219 0,4382 1,89 0,0669 0,4706
1,20 0,1942 0,3849 1,55 0,1200 0,4394 1,90 0,0656 0,4713
1,21 0,1919 0,3869 1,56 0,1182 0,4406 1,91 0,0644 0,4719
1,22 0,1895 0,3888 1,57 0,1163 0,4418 1,92 0,0632 0,4726
1,23 0,1872 0,3907 1,58 0,1145 0,4429 1,93 0,0620 0,4732
1,24 0,1849 0,3925 1,59 0,1127 0,4441 1,94 0,0608 0,4738
1,25 0,1826 0,3944 1,60 0,1109 0,4452 1,95 0,0596 0,4744
1,26 0,1804 0,3962 1,61 0,1092 0,4463 1,96 0,0584 0,4750
1,27 0,1781 0,3980 1,62 0,1074 0,4474 1,97 0,0573 0,4756

212
Tabelul anexă nr.6 (continuare)

z (z) (z) z (z) (z) z (z) (z)


1,98 0,0562 0,4761 2,40 0,0224 0,4918 2,84 0,0071 0,4977
1,99 0,0551 0,4767 2,42 0,0213 0,4922 2,86 0,0067 0,4979
2,00 0,0540 0,4772 2,44 0,0203 0,4927 2,88 0,0063 0,4980
2,02 0,0519 0,4783 2,46 0,0194 0,4931 2,90 0,0060 0,4981
2,04 0,0498 0,4793 2,48 0,0184 0,4934 2,92 0,0056 0,4982
2,06 0,0478 0,4803 2,50 0,0175 0,4938 2,94 0,0053 0,4984
2,08 0,0459 0,4812 2,52 0,0167 0,4941 2,96 0,0050 0,4985
2,10 0,0440 0,4821 2,54 0,0158 0,4945 2,98 0,0047 0,4986
2,12 0,0422 0,4830 2,56 0,0151 0,4948 3,00 0,00443 0,49865
2,14 0,0404 0,4838 2,58 0,0143 0,4951 3,10 0,00327 0,49903
2,16 0,0387 0,4846 2,60 0,0136 0,4953 3,20 0,00238 0,49931
2,18 0,0371 0,4854 2,62 0,0129 0,4956 3,30 0,00172 0,49952
2,20 0,0355 0,4861 2,64 0,0122 0,4959 3,40 0,00123 0,49965
2,22 0,0339 0,4868 2,66 0,0116 0,4961 3,50 0,00087 0,49977
2,24 0,0325 0,4875 2,68 0,0110 0,4965 3,60 0,00061 0,49984
2,26 0,0310 0,4881 2,70 0,0140 0,4965 3,70 0,00042 0,49989
2,28 0,0297 0,4887 2,72 0,0990 0,4967 3,80 0,00029 0,49993
2,30 0,0283 0,4893 2,74 0,0093 0,4969 3,90 0,00020 0,49995
2,32 0,0270 0,4898 2,76 0,0088 0,4971 4,00 0,0001338 0,499968
2,34 0,0258 0,4904 2,78 0,0084 0,4973 4,50 0,0000160 0,499997
2,36 0,0246 0,4909 2,80 0,0079 0,4976 5,00 0,0000015 0,499999
2,38 0,0235 0,4913 2,82 0,0075 0,4976

213
Tabelul anexă nr.7
Valorile repartiţiei t (repartiţia Student)

1- 
0,99 0,98 0,95 0,90 0,80 0,70 0,60

1 63,657 31,821 12,706 6,314 3,078 1,963 1,376
2 9,925 6,965 4,303 2,920 1,886 1,386 1,061
3 5,841 4,541 3,182 2,353 1,638 1,250 0,978
4 4,604 3,747 2,776 2,132 1,533 1,190 0,941
5 4,032 3,365 2,571 2,015 1,476 1,156 0,620
6 3,707 3,143 2,447 1,943 1,440 1,134 0,906
7 3,499 2,998 2,365 1,895 1,415 1,119 0,896
8 3,355 2,896 2,306 1,860 1,397 1,108 0,889
9 3,250 2,821 2,262 1,833 1,383 1,100 0,883
10 3,169 2,764 2,228 1,812 1,372 1,093 0,879
11 3,106 2,718 2,201 1,796 1,363 1,088 0,876
12 3,055 2,681 2,179 1,782 1,356 1,083 0,873
13 3,012 2,650 2,160 1,771 1,350 1,079 0,870
14 2,977 2,624 2,145 1,761 1,345 1,076 0,868
15 2,947 2,602 2,131 1,753 1,341 1,074 0,866
16 2,921 2,583 2,120 1,746 1,337 1,071 0,865
17 2,898 2,567 2,110 1,740 1,333 1,069 0,863
18 2,861 2,552 2,101 1,734 1,330 1,067 0,862
19 2,851 2,539 2,093 1,729 1,328 1,066 0,861
20 2,845 2,528 2,086 1,725 1,325 1,064 0,860
21 2,831 2,518 2,080 1,721 1,323 1,063 0,859
22 2,819 2,508 2,074 1,717 1,321 1,061 0,858
23 2,807 2,500 2,069 1,714 1,319 1,060 0,858
24 2,797 2,492 2,064 1,711 1,318 1,059 0,857
25 2,787 2,485 2,060 1,708 1,316 1,058 0,856
26 2,779 2,479 2,056 1,706 1,315 1,058 0,856
27 2,771 2,473 2,052 1,703 1,314 1,057 0,855
28 2,763 2,467 2,048 1,701 1,313 1,056 0,855
29 2,756 2,462 2,045 1,699 1,311 1,055 0,854
30 2,750 2,457 2,042 1,697 1,310 1,055 0,854
40 2,704 2,423 2,021 1,684 1,303 1,050 0,851
60 2,660 2,390 2,000 1,671 1,296 1,046 0,848
120 2,617 2,358 1,980 1,658 1,289 1,041 0,845
 2,576 2,326 1,960 1,645 1,282 1,036 0,842

214
În tabelul anexă nr.7 sunt date valorile  ale mărimilor t, care au o
repartiţie Student cu  grade de libertate şi se determină din condiţia:

P( t   )  1   .

Cu alte cuvinte, probabilitatea P ca mărimea măsurată t să nu


întreacă în valoare absolută pe  este 1- ( fiind nivel de semnificaţie).

215
Tabelul anexă nr.8

Valorile funcţiei de repartiţie 2 în funcţie de probabilitatea


  P(  2   2 ) şi numărul gradelor de libertate 0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,001
1 0,0002 0,0010 0,0039 0,0158 2,71 3,84 5,02 6,63 10,83
2 0,02 0,05 0,10 0,21 4,60 5,99 7,38 9,21 13,82
3 0,12 0,22 0,35 0,58 6,25 7,82 9,35 11,34 16,27
4 0,30 0,48 0,71 1,06 7,78 9,49 11,14 13,28 18,47
5 0,55 0,83 1,15 1,61 9,24 11,07 12,83 15,09 20,52
6 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 22,46
7 1,24 1,69 2,17 2,83 12,02 14,07 16,01 18,48 24,32
8 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 26,13
9 2,09 2,70 3,32 4,17 14,68 16,92 19,02 21,67 27,88
10 2,56 3,25 3,94 4,86 15,99 18,31 20,48 23,21 29,59
11 3,05 3,82 4,58 5,58 17,28 19,67 21,92 24,72 31,26
12 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 32,91
13 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69 34,53
14 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14 36,12
15 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58 37,70
16 5,81 6,91 7,96 9,31 23,54 26,30 28,84 32,00 39,25
17 6,41 7,56 8,67 10,08 24,77 27,59 30,19 33,41 40,79
18 7,02 8,23 9,39 10,86 25,99 28,87 31,53 34,80 42,31
19 7,63 8,91 10,11 11,65 27,20 30,14 32,85 36,19 43,82
20 8,26 9,59 10,85 12,44 28,41 31,41 34,17 37,57 45,32
21 8,90 10,28 11,59 13,24 29,61 32,67 35,48 38,93 46,80
22 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29 48,27
23 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 49,73
24 10,86 12,40 13,85 15,66 33,20 36,41 39,37 42,98 51,18
25 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 52,62
26 12,20 13,84 15,38 17,29 35,56 38,88 41,92 45,64 54,05
27 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96 55,48
28 13,57 15,31 16,93 18,94 37,92 41,34 44,46 48,288 56,89
29 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59 58,30
30 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89 59,70

216
Tabelul anexă nr.9
Valorile lui F (testul F)

n1
 1 2 3 5 7 10 15 20 30 
n2
2 8,5 9,0 9,2 9,3 9,3 9,4 9,4 9,4 9,5 9,5
3 5,5 5,5 5,4 5,3 5,3 5,2 5,2 5,2 5,2 5,1
5 4,1 3,8 3,6 3,5 3,4 3,3 3,2 3,2 3,2 3,1
7 3,6 3,3 3,1 2,9 2,8 2,7 2,6 2,6 2,6 2,5
10% 10 3,3 2,9 2,7 2,5 2,4 2,3 2,2 2,2 2,2 2,1
15 3,1 2,7 2,5 2,3 2,2 2,1 2,0 1,9 1,9 1,8
20 3,0 2,6 2,4 2,2 2,0 1,9 1,8 1,8 1,7 1,6
30 2,9 2,5 2,3 2,0 1,9 1,8 1,7 1,7 1,6 1,5
 2,7 2,3 2,1 1,8 1,7 1,6 1,5 1,4 1,3 1,0
3 10,1 9,6 9,3 9,0 8,9 8,8 8,7 8,7 8,6 8,5
5 6,6 5,8 5,4 5,1 4,9 4,7 4,6 4,6 4,5 4,4
7 5,6 4,7 4,3 4,0 3,8 3,6 3,5 3,4 3,4 3,2
10 5,0 4,1 3,7 3,3 3,1 3,0 2,8 2,8 2,7 2,5
5%
15 4,5 3,7 3,3 2,9 2,7 2,5 2,4 2,3 2,2 2,1
20 4,4 3,5 3,1 2,7 2,5 2,3 2,2 2,1 2,0 1,8
30 4,2 3,3 2,9 2,5 2,3 2,2 2,0 1,9 1,8 1,6
 3,8 3,0 2,6 2,2 2,0 1,8 1,7 1,5 1,5 1,0
5 16,3 13,3 12,1 11,0 10,5 10,1 9,7 9,6 9,4 9,0
7 12,2 9,5 8,5 7,5 7,0 6,6 6,3 6,2 6,0 5,6
10 10,0 7,6 6,6 5,6 5,2 4,8 4,6 4,4 4,2 3,9
1% 15 8,7 6,4 5,4 4,6 4,1 3,8 3,5 3,4 3,2 2,9
20 8,1 5,8 4,9 4,1 3,7 3,4 3,1 2,9 2,8 2,4
30 7,6 5,4 4,5 3,7 3,3 3,0 2,7 2,5 2,4 2,0
 6,6 4,6 3,8 3,0 2,6 2,3 2,0 1,9 1,7 1,0

217
Tabelul anexă nr.10
Valorile critice ale variabilei Z în funcţie de probabilitate

Prob. Prob.
Z Z
(%) (%)
0,0 0 2,1 96,4
0,2 16 2,2 97,2
0,4 31 2,3 97,9
0,6 45 2,4 98,4
0,8 58 2,5 98,8
1,0 68 2,58 99,0
1,2 77 2,6 99,1
1,4 84 2,7 99,3
1,6 89 2,8 99,5
1,8 93 2,9 99,6
1,96 95 3,0 99,73
2,0 95,5 3,3 99,9
4,0 99,994

218
Tabelul anexă nr.11


Valorile funcţiei K ( )   ( 1) k e  2 k
2 2
(Funcţia lui Kolmogorov)

 K(  K(  K(  K(
0,34 0,0001 0,71 0,3054 1,08 0,8061 1,45 0,9701
0,35 0,0003 0,72 0,3222 1,09 0,8143 1,46 0,9718
0,36 0,0005 0,73 0,3391 1,10 0,8222 1,47 0,9734
0,37 0,0008 0,74 0,3559 1,11 0,8299 1,48 0,9749
0,38 0,0012 0,75 0,3728 1,12 0,8373 1,49 0,9764
0,39 0,0019 0,76 0,3896 1,13 0,8445 1,50 0,9777
0,40 0,0028 0,77 0,4063 1,14 0,8513 1,51 0,9790
0,41 0,0039 0,78 0,4230 1,15 0,8580 1,52 0,9803
0,42 0,0054 0,79 0,4395 1,16 0,8644 1,53 0,9814
0,43 0,0073 0,80 0,4558 1,17 0,8706 1,54 0,9825
0,44 0,0097 0,81 0,4720 1,18 0,8765 1,55 0,9836
0,45 0,0125 0,82 0,4880 1,19 0,8822 1,56 0,9846
0,46 0,0169 0,83 0,5038 1,20 0,8877 1,57 0,9855
0,47 0,0200 0,84 0,5193 1,21 0,8930 1,58 0,9864
0,48 0,0246 0,85 0,5346 1,22 0,8981 1,59 0,9872
0,49 0,0300 0,86 0,5497 1,23 0,9029 1,60 0,9880
0,50 0,0360 0,87 0,5645 1,24 0,9076 1,61 0,9887
0,51 0,0428 0,88 0,5790 1,25 0,9121 1,62 0,9894
0,52 0,0503 0,89 0,5933 1,26 0,9164 1,63 0,9901
0,53 0,0585 0,90 0,6072 1,27 0,9205 1,64 0,9907
0,54 0,0674 0,91 0,6209 1,28 0,9245 1,65 0,9913
0,55 0,0771 0,92 0,6342 1,29 0,9282 1,66 0,9919
0,56 0,0875 0,93 0,6473 1,30 0,9319 1,67 0,9924
0,57 0,0986 0,94 0,6600 1,31 0,9353 1,68 0,9929
0,58 0,1103 0,95 0,6725 1,32 0,9386 1,69 0,9933
0,59 0,1227 0,96 0,6846 1,33 0,9418 1,70 0,9938
0,60 0,1357 0,97 0,6964 1,34 0,9448 1,71 0,9942
0,61 0,1492 0,98 0,7079 1,35 0,9447 1,72 0,9946
0,62 0,1632 0,99 0,7191 1,36 0,9505 1,73 0,9949
0,63 0,1777 1,00 0,7300 1,37 0,9531 1,74 0,9953
0,64 0,1926 1,01 0,7405 1,38 0,9556 1,75 0,9956
0,65 0,2079 1,02 0,7508 1,39 0,9580 1,76 0,9959
0,66 0,2236 1,03 0,7607 1,40 0,9603 1,77 0,9962
0,67 0,2395 1,04 0,7704 1,41 0,9624 1,78 0,9964
0,68 0,2557 1,05 0,7797 1,42 0,9645 1,79 0,9967
0,69 0,2721 1,06 0,7888 1,43 0,9665 1,80 0,9969
0,70 0,2887 1,07 0,7976 1,44 0,9683 1,81 0,9971

219
Tabelul anexă nr.12
Valorile critice pentru testul Cochran (   0,05 )
max s i2 max s i2
g  ,1 i  k
s12  s 22  ...  s k2 k
 s 2j
j 1

k
4 5 6 7 8 9 10 16 36 144
n-1
2 0,9057 0,8772 0,8534 0,8332 0,8159 0,8010 0,7880 0,7341 0,6600 0,5813
3 0,7457 0,7074 0,6771 0,6530 0,6333 0,6167 0,6025 0,5466 0,4748 0,4031
4 0,6287 0,5895 0,5598 0,5365 0,5175 0,5017 0,4884 0,4366 0,3720 0,3093
5 0,5440 0,5063 0,4783 0,4564 0,4387 0,4241 0,4118 0,3645 0,3066 0,2513
6 0,4803 0,4447 0,4184 0,3980 0,3817 0,3682 0,3568 0,3135 0,2612 0,2119
7 0,4307 0,3974 0,3726 0,3535 0,3384 0,3259 0,3154 0,2756 0,2278 0,1833
8 0,3910 0,3595 0,3362 0,3185 0,3043 0,2926 0,2829 0,2462 0,2022 0,1616
9 0,3584 0,3286 0,3067 0,2901 0,2768 0,2659 0,2568 0,2226 0,1820 0,1446
10 0,3311 0,3029 0,2823 0,2666 0,2541 0,2439 0,2353 0,2032 0,1655 0,1308
15 0,2419 0,2195 0,2034 0,1911 0,1815 0,1736 0,1671 0,1429 0,1144 0,0889
20 0,1921 0,1735 0,1602 0,1501 0,1422 0,1357 0,1303 0,1108 0,0879 0,0675
30 0,1377 0,1237 0,1137 0,1061 0,1002 0,0958 0,0921 0,0771 0,0604 0,0457
40 0,1082 0,0968 0,0887 0,0827 0,0780 0,0745 0,0713 0,0595 0,0462 0,0347
60 0,0765 0,0682 0,0623 0,0583 0,0552 0,0520 0,0497 0,0411 0,0316 0,0234
120 0,0419 0,0371 0,0337 0,0312 0,0292 0,0279 0,0266 0,0218 0,0165 0,0120
 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

220
Tabelul anexă nr.12 (continuare)
Valorile critice pentru testul Cochran (   0,01 )
max s i2 max s i2
g  ,1 i  k
s12  s 22  ...  s k2 k
 s 2j
j 1

k
4 5 6 7 8 9 10 16 36 144
n-1
2 0,9586 0,9373 0,9172 0,8988 0,8823 0,8674 0,8539 0,7949 0,7067 0,6062
3 0,8335 0,7933 0,7606 0,7335 0,7107 0,6912 0,6743 0,6059 0,5153 0,4230
4 0,7212 0,6761 0,6410 0,6129 0,5897 0,5702 0,5536 0,4884 0,4057 0,3251
5 0,6329 0,5875 0,5531 0,5259 0,5037 0,4854 0,4697 0,4094 0,3351 0,2644
6 0,5635 0,5195 0,4866 0,4608 0,4401 0,4229 0,4084 0,3529 0,2858 0,2229
7 0,5080 0,4659 0,4347 0,4105 0,3911 0,3751 0,3616 0,3105 0,2494 0,1929
8 0,4627 0,4226 0,3932 0,3704 0,3522 0,3373 0,3248 0,2779 0,2214 0,1700
9 0,4251 0,3870 0,3592 0,3378 0,3207 0,3067 0,2950 0,2514 0,1992 0,1521
10 0,3934 0,3572 0,3308 0,3106 0,2945 0,2813 0,2704 0,2297 0,1811 0,1376
15 0,2882 0,2593 0,2386 0,2228 0,2104 0,2002 0,1918 0,1612 0,1251 0,0934
20 0,2288 0,2048 0,1877 0,1748 0,1646 0,1567 0,1501 0,1248 0,0960 0,0709
30 0,1635 0,1454 0,1327 0,1232 0,1157 0,1100 0,1054 0,0867 0,0658 0,0480
40 0,1281 0,1135 0,1033 0,0957 0,0898 0,0853 0,0816 0,0668 0,0503 0,0363
60 0,0902 0,0796 0,0722 0,0668 0,0625 0,0594 0,0567 0,0461 0,0344 0,0245
120 0,0489 0,0429 0,0387 0,0357 0,0334 0,0316 0,0302 0,0242 0,0178 0,0125
 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

221
Tabelul anexă nr.13
Valorile critice pentru testul Hartley (   0,05 )
max si2
g , 1 i  k
max si2

k
2 3 4 5 6 8 10
n-1
4 9,60 15,5 20,6 25,2 29,5 37,5 44,6
5 7,15 10,8 13,7 16,3 18,7 22,9 26,5
6 5,82 8,38 10,4 12,1 13,7 16,3 18,6
7 4,99 6,94 8,44 9,70 10,8 12,7 14,3
8 4,43 6,00 7,18 8,12 9,03 10,5 11,7
9 4,03 5,34 6,31 7,11 7,80 8,95 9,91
10 3,72 4,85 5,67 6,34 6,92 7,87 8,66
12 3,28 4,16 4,79 5,30 5,72 6,42 7,00
15 2,85 3,54 4,01 4,37 4,68 5,19 5,99
20 2,46 2,95 3,29 3,54 3,76 4,10 4,37
30 2,07 2,40 2,61 2,78 2,91 3,12 3,29
60 1,67 1,85 1,96 2,04 2,11 2,22 2,30
 1,00 1,00 1,00 1,00 1,00 1,00 1,00

222
Tabelul anexă nr.14
Logaritmii zecimali ai numerelor naturale de la 1 la 200

n lg n lg n lg n lg
1 0,00000 26 1,41497 51 1,70757 76 1,88081
2 0,30103 27 1,43136 52 1,71600 77 1,88649
3 0,47712 28 1,44716 53 1,72428 78 1,89209
4 0,60206 29 1,46240 54 1,73239 79 1,89763
5 0,69897 30 1,47712 55 1,74036 80 1,90309
6 0,77815 31 1,49136 56 1,74819 81 1,90849
7 0,84510 32 1,50515 57 1,75587 82 1,91381
8 0,90309 33 1,51851 58 1,76343 83 1,91908
9 0,95424 34 1,53148 59 1,77085 84 1,92428
10 1,00000 35 1,54407 60 1,77815 85 1,92942
11 1,04139 36 1,55630 61 1,78533 86 1,93450
12 1,07918 37 1,56820 62 1,79239 87 1,93952
13 1,11394 38 1,57978 63 1,79934 88 1,94448
14 1,14613 39 1,59106 64 1,80618 89 1,94939
15 1,17609 40 1,60206 65 1,81291 90 1,95424
16 1,20412 41 1,61278 66 1,81954 91 1,95904
17 1,23045 42 1,62325 67 1,82607 92 1,96379
18 1,25527 43 1,63347 68 1,83251 93 1,96848
19 1,27875 44 1,64345 69 1,83885 94 1,97313
20 1,30103 45 1,65321 70 1,84510 95 1,97772
21 1,32222 46 1,66276 71 1,85126 96 1,98227
22 1,34242 47 1,67210 72 1,85733 97 1,98677
23 1,36173 48 1,68124 73 1,86332 98 1,99123
24 1,38021 49 1,69020 74 1,86923 99 1,99564
25 1,39794 50 1,69897 75 1,87506 100 2,00000

223
Tabelul anexă nr.14 (continuare)
Logaritmii zecimali ai numerelor naturale de la 1 la 200

n lg n lg n lg n lg
101 2,00432 126 2,10037 151 2,17898 176 2,24551
102 2,00860 127 2,10380 152 2,18184 177 2,24797
103 2,01284 128 2,10721 153 2,18469 178 2,25042
104 2,01703 129 2,11059 154 2,18752 179 2,25285
105 2,02119 130 2,11394 155 2,19033 180 2,25527
106 2,02531 131 2,11727 156 2,19312 181 2,25768
107 2,02938 132 2,12057 157 2,19590 182 2,26007
108 2,03342 133 2,12385 158 2,19866 183 2,26245
109 2,03743 134 2,12710 159 2,20140 184 2,26482
110 2,04139 135 2,13033 160 2,20412 185 2,26717
111 2,04532 136 2,13354 161 2,20683 186 2,26951
112 2,04922 137 2,13672 162 2,20952 187 2,27184
113 2,05308 138 2,13988 163 2,21219 188 2,27416
114 2,05690 139 2,14301 164 2,21484 189 2,27646
115 2,06070 140 2,14613 165 2,21748 190 2,27875
116 2,06446 141 2,14922 166 2,22011 191 2,28103
117 2,06819 142 2,15229 167 2,22272 192 2,28330
118 2,07188 143 2,15534 168 2,22531 193 2,28556
119 2,07555 144 2,15836 169 2,22789 194 2,28780
120 2,07918 145 2,16137 170 2,23045 195 2,29003
121 2,08279 146 2,16435 171 2,23300 196 2,29226
122 2,08636 147 2,16732 172 2,23553 197 2,29447
123 2,08991 148 2,17026 173 2,23805 198 2,29667
124 2,09342 149 2,17319 174 2,24055 199 2,29885
125 2,09691 150 2,17609 175 2,24304 200 2,30103

224
Tabelul anexă nr.15
Logaritmii naturali ai numerelor naturale de la 1 la 200

n ln n ln n ln n ln
1 0,00000 26 3,25810 51 3,93183 76 4,33073
2 0,69315 27 3,29584 52 3,95124 77 4,34381
3 1,09861 28 3,33220 53 3,97029 78 4,35671
4 1,38629 29 3,36730 54 3,98898 79 4,36945
5 1,60944 30 3,40120 55 4,00733 80 4,38203
6 1,79176 31 3,43399 56 4,02535 81 4,39445
7 1,94591 32 3,46574 57 4,04305 82 4,40672
8 2,07944 33 3,49651 58 4,06044 83 4,41884
9 2,19722 34 3,52636 59 4,07754 84 4,43082
10 2,30259 35 3,55535 60 4,09434 85 4,44265
11 2,39790 36 3,58352 61 4,11087 86 4,45435
12 2,48491 37 3,61092 62 4,12713 87 4,46591
13 2,56495 38 3,63759 63 4,14313 88 4,47734
14 2,63906 39 3,66356 64 4,15888 89 4,48864
15 2,70805 40 3,68888 65 4,17439 90 4,49981
16 2,77259 41 3,71357 66 4,18965 91 4,51086
17 2,83321 42 3,73767 67 4,20469 92 4,52179
18 2,89037 43 3,76120 68 4,21951 93 4,53260
19 2,94444 44 3,78419 69 4,23411 94 4,54329
20 2,99573 45 3,80666 70 4,24850 95 4,55388
21 3,04452 46 3,82864 71 4,26268 96 4,56435
22 3,09104 47 3,85015 72 4,27667 97 4,57471
23 3,13549 48 3,87120 73 4,29046 98 4,58497
24 3,17805 49 3,89182 74 4,30407 99 4,59512
25 3,21888 50 3,91202 75 4,31749 100 4,60517

225
Tabelul anexă nr.15 (continuare)
Logaritmii naturali ai numerelor naturale de la 1 la 200

n ln n ln n ln n ln
101 4,61512 126 4,83628 151 5,01728 176 5,17048
102 4,62497 127 4,84419 152 5,02388 177 5,17615
103 4,63473 128 4,85203 153 5,03044 178 5,18178
104 4,64439 129 4,85981 154 5,03695 179 5,18739
105 4,65396 130 4,86753 155 5,04343 180 5,19296
106 4,66344 131 4,87520 156 5,04986 181 5,19850
107 4,67283 132 4,88280 157 5,05625 182 5,20401
108 4,68213 133 4,89035 158 5,06260 183 5,20949
109 4,69135 134 4,89784 159 5,06890 184 5,21494
110 4,70048 135 4,90527 160 5,07517 185 5,22036
111 4,70953 136 4,91265 161 5,08140 186 5,22575
112 4,71850 137 4,91998 162 5,08760 187 5,23111
113 4,72739 138 4,92725 163 5,09375 188 5,23644
114 4,73620 139 4,93447 164 5,09987 189 5,24175
115 4,74493 140 4,94164 165 5,10595 190 5,24702
116 4,75359 141 4,94876 166 5,11199 191 5,25227
117 4,76217 142 4,95583 167 5,11799 192 5,25750
118 4,77068 143 4,96284 168 5,12396 193 5,26269
119 4,77912 144 4,96981 169 5,12990 194 5,26786
120 4,78749 145 4,97673 170 5,13580 195 5,27300
121 4,79579 146 4,98361 171 5,14166 196 5,27811
122 4,80402 147 4,99043 172 5,14749 197 5,28320
123 4,81218 148 4,99721 173 5,15329 198 5,28827
124 4,82028 149 5,00395 174 5,15906 199 5,29330
125 4,82831 150 5,01064 175 5,16479 200 5,29832

226
Bibliografie
1 Allen, R.,G.,D., Analiză matematică pentru economişti, Editura
Ştiinţifică, Bucureşti, 1971

2 Andrei, T., Stancu, S., Statistica – teorie şi aplicaţii, Editura


ALL, Bucureşti, 1995

3 Baron, T., Calitatea şi fiabilitatea produselor, Editura


Didactică şi Pedagogică, Bucureşti, 1976

4 Baron, T., Ţiţan, E., Matache, S., Chiuchiţă, L., Manual


practic de Statistică, Editura Expert, Bucureşti, 1999

5 Brandt, S., Statistical and Computational Methods in Data


Analysis, Institute of High Energy Physics, Heidelberg
University, 1970

6 Costescu,M., Ionescu, A., Prelecrarea informaţională a datelor


de masurare, Editura Universitaria, Craiova, 2005

7 Costescu, M., Vasilescu, N., Ionaşcu, C., Statistică şi elemente


de teoria sondajului, Editura Universitaria, Craiova, 2001

8 Croxton, E., Cowden, J., Statistică teoretică, Revista


„Probleme de statistică social-economică”, Bucureşti, 1969

9 Desabie, J., Theorie et pratique des sondages, Editura Dunod,


Paris, 1966

10 Dumas, R., L’entreprise et la statistique – tome 1, Technique et


documentation statistiques, Editura Dunod, Paris, 1967

11 Dumas, R., L’entreprise et la statistique – tome 2, Statistique et


gestion de l’entreprise, Editura Dunod, Paris, 1963
227
12 Iosifescu, M. şi colectiv, Teoria probabilităţilor şi statistică
matematică, Editura Tehnică, Bucureşti, 1966

13 Ivănescu, I. şi colectiv, Statistică, Editura Didactică şi


Pedagogică, Bucureşti, 1980

14 Leach, C., Introduction to Statistics, A Nonparametric


Approach for the Social Sciences, JOHN WILEY & SONS
Chichester · New York · Brisbane · Toronto, 1978

15 Maliţa, M., Zidăroiu, C., Incertitudine şi decizie, Editura


Ştiinţifică şi Enciclopedică, Bucureşti, 1980

16 Mihoc, Gh., Urseanu, V., Matematici aplicate în statistică,


Editura Academiei Române, Bucureşti, 1964

17 Mihoc, Gh., Ciucu, G., Craiu, V., Teoria probabilităţilor şi


statistică matematică, Editura Didactică şi Pedagogică,
Bucureşti, 1970

18 Mills, F., C., Metode statistice, vol.1 şi vol.2 (traducere),


Direcţia Centrală de Statistică, Bucureşti, 1969

19 Moineagu, C., Negură, I., Urseanu, V., Statistică, Editura


Ştiinţifică şi Enciclopedică, Bucureşti, 1976

20 Novak, A., Metode cantitative în psihologie şi sociologie,


Editura Oscar Print, Bucureşti,1998

21 Pop, L. (coord.), STATISTICĂ 2001, Adresă Internet


Universitatea Bucuresti Facultatea de Filosofie STATISTICĂ
2001...

22 Porojan, D., Statistica şi teoria sondajului, Casa de editură şi


presă „ŞANSA” S.R.L., Bucureşti, 1993

228
23 Rancu, N., Tövissi, L., Statistică matematică cu aplicaţii în
producţie, Editura Academiei Române, Bucureşti, 1963

24 Searle, S., R., Linear Models, John Wiley Sons, New-York,


1971

25 Seeber, G., A., F., Linear Analysis, John Wiley Sons, New-
York, 1977

27 Tiron, M., Teoria erorilor de măsurare şi metoda celor mai


mici pătrate, Editura Tehnică, Bucureşti, 1972

28 Tiron, M., Prelucrarea statistică şi informaţională a datelor de


măsurare, Editura Tehnică, Bucureşti, 1976

29 Titner, G., Mathematiques et statistiques pour les économistes,


vol.1, Editura Dunod, Paris, 1965

30 Ţarcă, M., Tratat de statistică aplicată, Editura Didactică şi


Pedagogică, Bucureşti, 1998

31 Vasilescu, Gh., Niculescu, I., Wagner, Fl., Zaharia, O.,


Analiza statistico-economică în industrie, Editura Didactică şi
Pedagogică, Bucureşti, 1997

32 Vasilescu, N., Statistică – culegere de probleme, Litografia


Universităţii din Craiova, 1977

33 Vasilescu, N., Statistică – sinteze teoretice şi lucrări practice,


Litografia Universităţii din Craiova, 1987

34 Vasilescu, N., Statistică generală, (Ediţia a III-a – revizuită) –


Metodologie, Lucrări practice şi Programe aplicative, Editura
Reprograph, Craiova, 1998

229
35 Vasilescu, N. şi colectiv, Statistică, Editura Universitaria,
Craiova, 2003

36 Wald, A., Statistical Decision Functions, John Wiley Sons,


New-York, 1950

37 Wonnacott, T., H., Wonacott, R., J., Statistique, Editura


ECONOMICA, Paris,1991

38 Yule, G., U., Kendall, M., G., Introducere în teoria statisticii,


traducere din limba engleză, Editura Ştiinţifică, Bucureşti, 1969

230
Cuprins

Prefaţă ............................................................ 3

1 Probabilităţi .................................................... 6

2 Clasificarea şi ordonarea datelor ................ 13


2.1 Serii de distribuţie ........................................... 14
2.2 Reprezentarea grafică a seriilor de distribuţie 18
2.3 Indicatorii seriilor de distribuţie ....................... 22
2.3.1 Indicatorii tendinţei centrale ....................... 22
2.3.2 Indicatorii variaţiei ...................................... 30
2.3.3 Indicatorii variabilei alternative a lui
Bernoulli ..................................................... 35

3 Corelaţia în analiza legăturilor dintre


fenomene ........................................................ 37
3.1 Introducere ......................................................... 37
3.2 Corelaţia – noţiune, tipuri ................................. 38
3.3 Metode orientative în analiza corelaţiei ........... 39
3.3.1 Metoda grafică ........................................... 40
3.3.2 Metoda tabelului de corelaţie ..................... 40
3.4 Corelaţia simplă ................................................. 41
3.3.1 Coeficientul de corelaţie Pearson (cazul
regresiei liniare) ......................................... 50
3.3.2 Cazul regresiei neliniare ............................ 53
3.3.3 Coeficientul de corelaţie eneahoric ........... 54
3.3.4 Coeficienţii de corelaţie biserial şi triserial 56
3.5 Metode neparametrice în studiul corelaţiei ..... 60
3.5.1 Corelaţia rangurilor .................................... 60
3.5.2 Coeficientul de asociere ............................ 63
3.6 Corelaţia multiplă .............................................. 65
3.7 Corelaţia parţială ............................................... 66

231
4 Populaţie şi eşantion ..................................... 70
4.1 Introducere ......................................................... 70
4.2 Metode de extragere a eşantionului ................ 72
4.2.1 Metode aleatoare ....................................... 73
4.2.2 Metode subiective ...................................... 79
4.3 Principalele tipuri de sondaje ........................... 82
4.4 Indicatorii sondajului statistic .......................... 82
4.5 Estimarea parametrilor lotului de bază ........... 93

5 Verificarea ipotezelor statistice .................... 113


5.1 Testele statistice ................................................ 113
5.2 Teste pentru verificarea calităţii datelor de
sondaj ................................................................. 116
5.2.1 Testul iteraţiilor pentru determinarea
acţiunii cauzelor sistematice ...................... 117
5.2.2 Testul Young pentru determinarea acţiunii
cauzelor sistematice .................................. 123
5.2.3 Testul Grubbs – Smirnov pentru
eliminarea valorilor aberante ..................... 125
5.2.4 Testul Irwin pentru eliminarea valorilor
aberante .................................................... 128
5.2.5 Testul Grubbs pentru eliminarea valorilor
aberante .................................................... 130
5.2.6 Testul Chauvenet pentru eliminarea
valorilor aberante ....................................... 133
5.3 Teste pentru compararea a doi indicatori ....... 136
5.3.1 Verificarea ipotezelor privind media .......... 136
5.3.1.1 Testul z ................................................... 136
5.3.1.2 Testul t .................................................... 144
5.3.2 Verificarea ipotezelor privind împrăştierea 150
5.3.2.1 Testul Χ2 .................................................. 150
5.3.2.2 Testul F ................................................... 152
5.3.3 Testul z pentru compararea a două
proporţii ..................................................... 155

232
5.3.4 Testul z pentru compararea a doi
coeficienţi de corelaţie .............................. 157
5.4 Teste pentru compararea a două distribuţii
empirice .............................................................. 158
5.4.1 Testul medianei pentru compararea a
două distribuţii empirice ............................ 158
5.4.2 Testul Kolmogorov-Smirnov ...................... 163
5.4.3 Testul U (Mann-Witney) pentru compara-
rea a două repartiţii empirice .................... 165
5.5 Teste de concordanţă ........................................ 168
5.5.1 Testul X2 pentru concordanţa eşantionului
cu cea a populaţiei .................................... 168
5.5.2 Verificarea normalităţii .............................. 170
5.5.2.1 Testul momentelor centrate şi metoda
grafică ..................................................... 171
5.5.2.2 Testul Kolmogorov pentru verificarea
normalităţii ............................................... 173
5.5.2.3 Testul X2 pentru verificarea normalităţii .. 175
5.5.2.4 Testul lui Massey pentru verificarea
normalităţii ............................................... 178
5.6 Teste pentru compararea mai multor
indicatori ............................................................. 180
5.5.1 Testul t pentru verificarea egalităţii mai
multor medii ............................................... 180
5.5.2 Testul Link-Wallace pentru compararea a
k medii ....................................................... 182
5.5.3 Testul X2 pentru compararea a k proporţii 185
5.5.4 Testul Bartlett pentru compararea a k
dispersii ..................................................... 187
5.5.5 Testul Cochran pentru eliminarea disper-
siilor aberante ............................................ 189
5.5.6 Testul Hartley pentru eliminarea disper-
siilor aberante ............................................ 189
5.7 Teste pentru compararea mai multor
eşantioane .......................................................... 193
5.7.1 Testul U (Mann-Whitney) pentru compara-
233
rea mai multor eşantioane ......................... 193
5.7.2 Testul Friedman pentru compararea
rezultatelor aceluiaşi grup .......................... 196
5.7.3 Testul Cochran pentru compararea mai
multor eşantioane ...................................... 198

Tabele anexă .................................................. 201

Bibliografie ..................................................... 227

234